세상에서 가장 쉬운 통계학입문
10강~18강
구간추정
구간추정이라는 과정을 계속 실행하면, 관측값에 대응하는 여러 구간을 구할 수 있지만, 그 100번 중 95번은 n 이 구해지는 구간에 들어간다는 추정이다.
모평균(뮤)
통계적 추정의 목표는 부분으로 전체를 추론하는 것이다.
많이 관측되지 않은 데이터로부터 모푱균을 추측하는 방법
평균값=(계급값*상대도수)의 합계 = 예) (연못에 있는 모집단이 존재하는 수치)*(이것이 헤엄치는 연못의 넓이)의 합계
모표준편차(시그마)
언정도 제각각인가=분포한상태=데이터가 u(모평균) 주변에 어느정도의 넓이로 퍼져 있는가
모집단에 '어떤식으로 데이터가 채워있는지'를 더 자세히 알 수 있다.
구간추정 = 많이 관측되지 않는 데이터로부터 모평균을 추측하는 방법
체비세프(Chebyshev) 부등식
일반적으로는 평균에서 표준편차*k 이상 떨어진 데이터는 전체의 1/k^2 의 비율 이하밖에 없다
표본평균(엑스바)
관측된 데이터의 평균값
포본평균=(관츠고딘 데이터 합계)/(관측 데이터 총 개수)
여러데이터의 평균은 한 데이터의 평균 값보다 모평균에 가깝다.
통계를 사용 할 수 있다. = 정규모집단 = 정규분포를 띄는 모집단 이다.
표준편차 =
모집단에 비해 루트엔 분의 1로 표준편차는 줄어 든다.
95% 예언 적중구간
모평균-1.96* 이상 모평균+1.96* 이하
카이제곱분포
평균에서 데이터들이 흩어져 있는 정도
0의 근처 데이터가 상대도수가 크다
볼록한 부분이 분포가 많은 값이고 우측으로 갈 수록 분포가 감소 한다.
자유도 n(관측 데이터 수)이 커지면 볼록한 높이가 낮아지면서 점점 오른쪽으로 치우친다.
(+ 추가)
신뢰구간이랑 가설검정 시 사용
t분포
정규분포보다 볼록한 부분이 약간 낮고, 그만큼 완만한 곳은 높다.
T=(표준정규분포)*루트자유도/루트카이제곱분포
통계량 T 는 자유도 k 의 t분포를 한다.
정규모집단에서 n 개의 표본 관측
T=(포본평균-모평균)/(표본표준편차)*루트n-1
'데이터분석' 카테고리의 다른 글
[수학] 선형대수 1장 벡터ㆍ행렬ㆍ행렬식 (0) | 2017.07.07 |
---|---|
2017.05.01 Head First Data Analysis (0) | 2017.05.01 |
[수학] 통계학입문 (첫번째) (0) | 2016.05.02 |
[수학] 통계 기초 이론 (0) | 2015.11.22 |
[수학] 확률 기초 이론 (0) | 2015.11.22 |