빅데이터를 지배하는 통계의 힘
빅데이터 시대에 통계의 중요성을 인식시키고
통계적 사고를 길러주는 미래 예측 전략서
빅데이터란 일차적으로 데이터의 양이 방대해 종래의 방법으로는 수집, 저장, 검색, 분석하기 어려운 것을 말한다. 이차적으로는 그런 큰 데이터를 여러 기법을 이용해 유의미한 정보로 만들어내는 과정까지를 포함한다. 2011년 하반기부터 우리나라에서도 무한경쟁의 세상을 헤쳐 나갈 새로운 블루오션으로 빅데이터란 말이 대유행하기 시작했다. 사실상 빅데이터는 오래전부터 우리 삶에 이미 들어와 있는 매우 실용적인 개념이며, 이제 이러한...
EBM Evidence-based Medicine '과학적 근거(증거)에 바탕을 둔 의료' 라는 뜻으로 여기서 말하는 과학적 근거란 타당한 방법에 의해 얻어진 통계 데이터와 그 분석 결과이다.
빅데이터 관련 전문용어
- 데이터마이닝 : 이미 축적된 대량의 데이터로부터 쓸만하고 가치있는 정보 혹은 가설을 추출해내는 것. 또는 추출해내기 위한 방법. '슈퍼마켓의 계산 데이터를 데이터마이닝한 결과 기저기와 맥주가 동시에 팔리는 비율이 의외로 옾았다' 같은 식으로 자주 쓰이는 용어이다.
- 텍스트마이닝 : 사람이 읽기 위해 쓴 비구조적 텍스트를 분석하는 방법론. 언어학 기법이 발전해 비즈니스에도 응용되고 있다. 형태소 분석이란 문장을 최소 의미 단위로 나누는 것을 말하는데 이런 과정을 통해 등장하는 형태소 간의 관계성을 분석한다.
- 그린플럼 : 엑사데이터의 경쟁상품. 오픈소스 기술을 적절하게 사용하기 떄문에 엑사데이터보다는 비용을 덜 들이고 규모는 업그레이드 시켜서 거대 데이터를 고속 처리 할 수 있따.
- 인메모리 데이터베이스 : 데이터를 읽거나 쓰는 속도를 고속화하기 위해 하드디스크나 ssd 가 아닌 메모리RAM에 데이터를 기록한다. 전원이 나가면 당연히 데이터가 소실되기 때문에 SSD 와 RAM 을 조합해 서로 약점을 보완하려는 연구가 진행되고 있다. 온메모리라고도 한다.
- 비구조화 데이터 : 오라클 사를 비롯한 기존의 일반적인 데이터베이스(RDB) '형태가 정해진 깨끗한 표'와 '표끼리의 연결'을 바탕으로 데이터를 보존하거나 검색하는데, 그런 형태로 정리하기 어려운 혹은 굳이 정리하지 않은 데이터
구체적인 행동을 끌어내는 세가지 질문
- 어떤 요인을 변화시켜야 이익이 향상될까?
- 그런 변화를 일으키는 행동이 실제로 가능한가?
- 그에 따르는 비용이 이익을 상회할까?
'적절히 비교할 것', '단순집계만 하지 말고 오차와 p- 값을 확인할 것' 이 두가지 통계학 법칙만 알아도 경험과 감을 뛰어 넘어 데이터를 바탕에 둔 실질적인 해결방법을 찾기가 쉬워진다.
'적절한 비교란 무엇인가' 즉 '무엇과 무엇을 비교해야 하는가'
그 많은 데이터 중 무엇이 어떤 관계성을 갖고 이익으로 이어지는가,
여러분이 지금부터 사내의 데이터를 분석해 경영에 활용하려든다면 우선 부서 간의 장벽을 허물고 '어떤 데이터'가 있는지부터 살피고 모든 정보를 공유했으면 한다. 다음으로 그 모두를 통합해 '어떻게 이익으로 연결시킬까', '무엇이 가장 큰 이익을 끌어낼까' 하는 관점에서 깊이 생각해야 한다. 그러면 무엇을 비교하고 어떤 차이를 구체적으로 규명해야 할지 말끔히 정리된다.
사내에 수없이 산적해 있는 문제에 대해, 정답이 없으면 우선 임으로 정해놓고 실험해보는 것의 가치는 생각 이상으로 크다.
회귀분석 기초 용어
- 회귀계수의 추정치 : 절편과 기울기(x)는 모두 데이터로부터 산출된 값이지만 어디까지나 데이터에 근거해 '참값'을 추정한 결과라는 점에 주의
- 표준오차 : 추정치의 오차 크기. 회귀계수의 추정치와 비교했을 때 크게 나타나면 그다지 신뢰할 수 없지만, 이 값 잧를 문제로 삼기보다는 신뢰구간에서 생각하는 편이 낫다.
- 95% 신뢰구간 : '회귀계수가 0'의 경우뿐만 아니라 다양한 회귀계수를 상정해 p-값이 5% 이하의 참값으로서 존재할 수 없는 값'이 되지 않는 범위. 거의 이 범위 안에 참값이 있다고 생각해도 무방하다. 가령 100번의 서로 다른 조사를 했을 때 지금 얻은 수치의 구간이 95번 정도는 포함된다.
- p-값 : 회귀계수가 0이었을 경우 단지 데이터의 불규칙성 때문에 이 정도의 회귀계수로 추정될 수 있는 확률. 일반적으로 5%를 웃돌면 '회귀계수 0으로 생각하기는 어렵다' 라고 판단하게 된다.
- 절편 : 좌표 평명상의 직선이 x축과 만나는 점의 x좌표 및 y축과 만나는 전의 y좌표를 통틀어 이르는 말.
- t검정 : t분포를 사용한 검정의 방식으로 2개의 정규분포에 따르는 모집단 N(u1, o21), N(u2, o22)에서 추출된 표본자료로부터, 모평균 u1, u2가 같은가 아닌가를 검정하거나, 하나의 정규모집단에서 추출된 표본 자료로부터 계산되는 표본평균이 모평균에 같은가 아닌가를 검정하는 등에 사용하는 일이 많다.
일반화 선형모델을 정리한 단 한장의 도표
|
분석축 (설명변수) |
||||
두 그룹 간의 비교 |
다그룹 간의 비교 |
연속값의 크기로 비교 |
복수의 요인으로 동시에 비교 |
||
비교하고 싶은 것 (반응변수) |
연속값 |
평균값의 차이를 t검정 |
평균값의 차이를 분산분석 |
회귀분석 |
다중회귀분석 |
있음/없음 등의 두값 |
분할표이 기술과 카이제곱검정 |
로지스틱회귀 |
예측 그 자체가 최종 목적이라면 데이터마이닝은 유효하다. 이러한 기법과 로지스틱 회귀의 예측 정확도를 비교했을 떄 단 몇 퍼센트의 차이밖에 없는 경우도 자주 있는데, 그 몇 퍼센트가 큰 이익으로 이어진다면 당연히 데이터마이닝을 선택해야 한다.
그러나 예측 자체가 아니라 예측모델을 통해 앞으로 문성르 해야 하는지 논의하고 싶다면, 회귀모델이 더 도움이 된다.
에비던스
코크란 공동계획 www.cochrane.org
캠벨 공동계획 www.campbellcollaboration.org
교육학 분야의 what works clearinghouse 프로젝트 ies.ed.gov/ncee/wwc/
meta-analysis 메타분석 혹은 systematic review
대표적인 논문 데이터베이스
ERIC : www.eric.ed.gov : 교육학
PsycINFO : www.apa.org/psycinfo : 심리학
Econlit : www.aeaweb.org/econlit : 경제학
pubmed : www.ncbi.nlm.nih.gov/pubmed : 의학
JSTOR : www.jstor.org : 종합
'데이터분석' 카테고리의 다른 글
[도서] CRM 과 데이터마이닝 (0) | 2024.01.14 |
---|---|
빅데이타 분석 맛보기 (0) | 2022.06.13 |
[수학] 선형대수 1장 벡터ㆍ행렬ㆍ행렬식 (0) | 2017.07.07 |
2017.05.01 Head First Data Analysis (0) | 2017.05.01 |
[수학] 통계학입문 (두번째) (0) | 2016.06.04 |