본문 바로가기
데이터분석

2017.05.01 Head First Data Analysis

by 101Architect 2017. 5. 1.


http://www.headfirstlabs.com/books/hfda/

http://www.hanb.co.kr/exam/2011


* 데이터 분석 절차 

정의 -> 분해 -> 평가 -> 결정 (반복)


* 산포도

탐색적 데이터 분석을 위한 도구

인과관계를 조사할 때 산포도 사용을 선호합니다. 

가로축은 독립변수 (영향을 미치는 변수, 원인이라고 생각하는 변수)

세로축은 종속변수 (결과라고 생각하는 변수)


데이터 시각화 참고 사이트

차트 디자인 -> 에드워드터프티 

https://www.edwardtufte.com/tufte/index



가설 검증의 반증

확인되지 않은 가설을 제거하기 위해 반증의 방법을 사용

만족화 : 다른 대안을 배제하지 않고 최고라고 생각하는 대안을 선택

반증 : 

예) 휴대폰 출시일 추측

각각의 가설들을 설정하고 (출시일이 내일, 다음달, 6개월후, 1년후 ...) 각 가설들을 반증해 옳은 가설을 추측해감 


조건부 확률 : 다른 어떤 사건이 발생했을 경우에 사건이 일어날 확률 

독감에 걸렸을 경우, 검사에서 양성판정이 나올 확률 표기

 : P(+|L) = 1-P(-|L) -> 진짜 검사 결과가 양성이 나올 확률 계산

P(+|-L) : 독감에 걸리지 않았는데 양성판정이 나올확률

p(-|~L) : 독감에 걸리지 않았고, 검사에서 음성 판정이 나올 확률


베이지안 도마뱀 독감 진단

- 도마뱀 독감에 걸렸을 경우 이 검사에서 양성 판정이 나올 확률 90%

- 도마뱀 독감에 걸리지 않았을 경우 이 검사에서 양성 판정이 나올 확률 9%

검사에서 양성판정을 받았을 경우 = 

독감에 걸렸고 검사 결과가 양성인 사람 수 / (독감에 걸렸고 검사결과가 양성인 사람 수 + 독감에 걸리지 않았지만 검사 결과가 양성인 사람 수) 


베이즈 정리는 기준 비율과 조건부 확률을 사용하여 새로운 조건부 확률을 예측할 수 있게 해주는 통계 공식

검사결과가 양성인 경우 독감에 걸려있을 확률

P(L|+) = (기준비률:병에걸린사람*진짜양성일 확률) / (기준비율:병에걸린사람*진짜양성일확률+기준비율:병에안걸린사람*거짓양성일확률)


휴리스틱 

직관 (한가지 선택지를 보고 선택) - 휴리스틱 (몇가지 선택지를 보고선택) - 최적화 (모든선택지)

Fast and Frugal Tree : 휴리스틱을 도식화 하여 표현


회귀

Y = 절편 + 기울기X

기울기 = (상관계수 * y 의 표준편차)/x의 표준편차


외삽 : 회귀식을 사용하여 데이터 범위 밖의 값을 예측하는 것


확률 오차 : 결과와 예측 사이에 편차 (=잔차)

잔차 분석 : 적절한 통계 모델링을 위한 핵심적인 부분 


RMS (제곱 평균 제곱근) : 예측과 결과가 얼마나 많이 차이 나는지 설명

Y의 표준편차 * 루트1-상관계수^2

반응형