BigData 강의
BigData 에서 이야기 하는 VVV 란?
Volume : 데이터의 축적 기하급수적 폭등
Variety : 비정형의 데이터
Velocity : 빠른 응답을 요구
<빅데이터 활용>
이상현상 감지, 가까운 미래 예측, 상황 및 기회 창출 등
ex) 카드의 위치를 통한 이상 현상 감지 짦은 시간내에 여러 지역에서 사용되거나 하는 행위
마이너리그 리포트처럼 범죄가 일어나기 전에 찾아 냄
<빅데이터 라이프사이클>
1. 수집
2. 저장
3. 탐색/처리
4. 분석
5. 프레젠테이션
NoSQL(Hadoop) : 수집~분석
Analytics(R, mahout) : 분석~프레젠테이션
<하둡>
연혁 : 데스크탑분석 -> 웹,기술을 HTML 전목 -> GFS(Google distributed File Systems) 결합
분산컴퓨팅 : 마스터서버가 각각의 서버들에게 저장, 분석, 처리 등을 명령하는 구조
장점 : 접근성, 견고성, 확장가능성, 간단성
보통 분산/저장/처리/ 각각 다르게 관리
하둡은 연산코드가 각 서버에 전부 존재
구성 : HDFS 하둡 분산 파일 시스템, MapReduce 처리, YARN 미들웨어 분석
처리절차 : 수집 -> HDFS 마스터가 어디에 넣을지, 백업은 할지 어디서 읽을지 등을 명령 -> MapReduce (key, value) 를 가지고 데이터 정렬 또는 재정렬 시킴
- Mapping : 데이터를 알맞게 잘라서 각각의 서버에 저장
- Reducing : 잘린 데이터들을 분석하고 빈도수 등을 체크
- Shuffling : 다시 결합하여 결과 도출
YARN : 중간계층으로 다른 에코시트템과의 연결
<분석>
Text Mining : 사진,음성, 영상 등의 정보를 텍스트 정보로 저장하여 정형화 되지 않은 데이타 탐색방법
Opinion Mining : 사실과 의견의 구분, 긍정과 부정의 구분, 강도 가중치 부여, 문장단위로 분석결과 도출
Social Network Analystics : 관계의 중심에서 사람을 찾음 (ex: 친구가 가입한 클럽의 추천)
Density : 관계 밀도
Neighbor : 1:1 맞팔, 1:N
Centrality : 관계의 중심
Clique : 그룹핑 클러스터링과 유사
정의 : 데이타 분석툴로 SNS 분석 등을 할 수 있고 소스들이 많음
<보안점>
빅데이터의 보안 미읍 개인정보의 익명성 암호화
엔지니어링 + 분석의 융합이 힘듬
오픈소스 (하둡) 의 위험함
데이타의 공유부족
의미있는 데이터의 추출이 힘듬
데이터의 구조보다 내용만 봄
리더쉽과 시스템이 갖추어 져야 함
* 용어
- Scale up : 서버의 한장비에서 램, CPU 등을 업그레이드
- Scale out : 동일한 스팩의 서버를 추가 네트웍으로 연결하여 업그레이드
- DW : Data Warehouse
- BI : Business Intelligence
'Software Science' 카테고리의 다른 글
Enterprise Architecture EA (0) | 2023.06.04 |
---|---|
web browser의 가치관 (0) | 2023.03.19 |
100년된 IBM, 10년된 Agile (0) | 2023.03.08 |
UML Class Diagram 을 자바 소스로 구현 기준 (0) | 2023.03.08 |
실전파이썬프로그래밍 (0) | 2018.07.28 |