http://www.headfirstlabs.com/books/hfda/
http://www.hanb.co.kr/exam/2011
* 데이터 분석 절차
정의 -> 분해 -> 평가 -> 결정 (반복)
* 산포도
탐색적 데이터 분석을 위한 도구
인과관계를 조사할 때 산포도 사용을 선호합니다.
가로축은 독립변수 (영향을 미치는 변수, 원인이라고 생각하는 변수)
세로축은 종속변수 (결과라고 생각하는 변수)
데이터 시각화 참고 사이트
차트 디자인 -> 에드워드터프티
https://www.edwardtufte.com/tufte/index
가설 검증의 반증
확인되지 않은 가설을 제거하기 위해 반증의 방법을 사용
만족화 : 다른 대안을 배제하지 않고 최고라고 생각하는 대안을 선택
반증 :
예) 휴대폰 출시일 추측
각각의 가설들을 설정하고 (출시일이 내일, 다음달, 6개월후, 1년후 ...) 각 가설들을 반증해 옳은 가설을 추측해감
조건부 확률 : 다른 어떤 사건이 발생했을 경우에 사건이 일어날 확률
독감에 걸렸을 경우, 검사에서 양성판정이 나올 확률 표기
: P(+|L) = 1-P(-|L) -> 진짜 검사 결과가 양성이 나올 확률 계산
P(+|-L) : 독감에 걸리지 않았는데 양성판정이 나올확률
p(-|~L) : 독감에 걸리지 않았고, 검사에서 음성 판정이 나올 확률
베이지안 도마뱀 독감 진단
- 도마뱀 독감에 걸렸을 경우 이 검사에서 양성 판정이 나올 확률 90%
- 도마뱀 독감에 걸리지 않았을 경우 이 검사에서 양성 판정이 나올 확률 9%
검사에서 양성판정을 받았을 경우 =
독감에 걸렸고 검사 결과가 양성인 사람 수 / (독감에 걸렸고 검사결과가 양성인 사람 수 + 독감에 걸리지 않았지만 검사 결과가 양성인 사람 수)
베이즈 정리는 기준 비율과 조건부 확률을 사용하여 새로운 조건부 확률을 예측할 수 있게 해주는 통계 공식
검사결과가 양성인 경우 독감에 걸려있을 확률
P(L|+) = (기준비률:병에걸린사람*진짜양성일 확률) / (기준비율:병에걸린사람*진짜양성일확률+기준비율:병에안걸린사람*거짓양성일확률)
휴리스틱
직관 (한가지 선택지를 보고 선택) - 휴리스틱 (몇가지 선택지를 보고선택) - 최적화 (모든선택지)
Fast and Frugal Tree : 휴리스틱을 도식화 하여 표현
회귀
Y = 절편 + 기울기X
기울기 = (상관계수 * y 의 표준편차)/x의 표준편차
외삽 : 회귀식을 사용하여 데이터 범위 밖의 값을 예측하는 것
확률 오차 : 결과와 예측 사이에 편차 (=잔차)
잔차 분석 : 적절한 통계 모델링을 위한 핵심적인 부분
RMS (제곱 평균 제곱근) : 예측과 결과가 얼마나 많이 차이 나는지 설명
Y의 표준편차 * 루트1-상관계수^2
'데이터분석' 카테고리의 다른 글
2018.02.27 통계의 힘 (0) | 2018.02.28 |
---|---|
[수학] 선형대수 1장 벡터ㆍ행렬ㆍ행렬식 (0) | 2017.07.07 |
[수학] 통계학입문 (두번째) (0) | 2016.06.04 |
[수학] 통계학입문 (첫번째) (0) | 2016.05.02 |
[수학] 통계 기초 이론 (0) | 2015.11.22 |