카테고리 없음

파이썬 통계분석_Chpater 04. 추측 통계의 기본

joy_your 2024. 1. 11. 16:34

2,3장에선 우리 주변에서 쉽게 찾을 수 있는 데이터가 어떤 성질을 갖는지 설명하는 방법에 대해 알아보았다.

평균이나 분산 등의 지표에 따라 정리하거나 그래프를 이용해 시각화한 것은 데이터를 직관적으로 이해할 수 있는 강력한 도구임을 다시 실감할 수 있다.

가까운 곳에서 찾을 수 있는 데이터 뿐만 아니라 대규모 데이터가 어떤 통계적 성질을 띠고 있는 지 알고 싶은 경우엔 어떻게 해야할까?

 

[예시]

어느 고등학교에서 전교생 400명이 수학 시험을 동일하기 치렀습니다.

3학년인 A학생은 이 시험에서 80점을 받았지만, 학교에서 전교생의 평균 점수를 알려주지 않았기 때문에 A학생은 자신이 전교생 중 어느 정도의 수준인지 알 지 못합니다.

자신의 성적이 좋은지 나쁜지가 궁금한 A학생은 스스로 전교생의 평균 점수를 구해보려 했지만, 400명 전원의 시험 결과를 수소문하는 것은 무리입니다.

그래서 A학생은 학교 안에서 우연히 만난 20명에게 시험 점수를 물어보고, 그 결과로부터 전교생의 평균 점수를 추측하기로 했습니다.

20명의 시험 점수 평균은 70.4점이었습니다.

A학생은 전교생의 평균도 그 정도일 것으로 생각하고, 자신의 점수가 평균 위에 있다는 것에 만족했습니다.

 

이처럼 일부 데이터로부터 전체의 통계적 성질을 추측하는 방식이 추측 통계이다.

추측 통계와 비교하여 2,3장에서 다룬 통계를 기술 통계라고 한다.

 

-라이브러리와 데이터 준비

 

추측 통계에선 관측 대상의 전체의 통계적 성질을 그 관측 대상의 일부분만 사용하여 추측한다.

이때, 추측하고 싶은 관측 대상 전체를 모집단(population)이라 하고, 추측에 사용되는 관측 대상의 일부분을 표본(sample)이라 한다.

모집단에서 표본을 골라내는 일을 표본추출(sampling)이라 하고, 골라낸 표본의 수를 표본 크기 또는 샘플 사이즈라고 한다.

그리고 표본을 바탕으로 계산한 평균이나 분산, 상관계수 등을 표본 통계량이라 하고, 모집단의 평균, 분산, 상관계수등을 모수라고 한다.

표본의 평균을 표본 평균, 모집단의 평균은 모평균 등으로 부르는 경우도 있다.

표본 평균으로 모평균을 추측할 때, 표본 평균은 모평균의 추정량(estimator)이라고 한다.

실제로 표본의 데이터를 이용하여 계산한 결과를 측정값(estimate)이라고 한다.

 

임의로 표본을 추출하는 방법을 무작위추출(random sampling)이라고 한다.

무작위 추출이 표본을 추출할 때 편향을 없애는 방법이긴 하지만, 그 결과로 편향이 있는 데이터를 얻을 수도 있다는 점에 주의해야 한다.

다행히, 추측 통계에서는 무작위추출의 결과로 편향이 있는 표본이 얻어질 가능성도 포함해서 추측한다.

여러 차례 동일한 표본을 선책하는 추출 방법은 복원 추출(sampling with replacement)이라 하고, 동일한 표본은 한 번만 선택하는 방법을 비복원추출(sampling without replacement)이라 한다.

 

- np.random.choice 함수를 사용해 파이썬으로 무작위추출, 첫번째 인수가 추출 대상이 되는 리스트, 두 번째 인수가 표본 크기

 

무작위추출은 임의의 결과가 수반되는 계산이므로, 동일한 결과를 얻지 못할 수도 있다.

np.random.choice 함수는 기본 설정으로 복원추출을 수행하고 있다.

np.random.choice의 인수 replace를 False로 하여 비복원추출

 

- 난수 시드는 난수의 근원이 되는 숫자로, 설정해 놓으면 매번 동일한 난수를 얻을 수 있다.

- 무작위 추출을 실행하여 표본 평균 계산

- 전교생의 데이터가 있기에 A학생이 추측하고 싶었던 모평균도 계산 가능

 

이처럼 불확정성을 수반한 현상을 해석하기 위해 확률(probablity)을 사용한다.

확률을 사용한 무작위추출 혹은 주사위를 모델링한 것을 확률 모형(probablity model)이라고 한다.

 

결과를 알아맞힐 수는 없지만, 취하는 값과 그 값이 나올 확률이 결정되어 있는 것을 확률변수(random variable)라고 한다.

확률변수의 결과를 관측하는 것을 시행(trial)이라 하고, 시행에 의해 관측되는 값을 실현값(realization)이라고 한다.

또한 시형 결과로 나타날 수 있는 일을 사건(event)라고 한다.

세부적으로 분해할 수 없는 사건을 근원 사건(elementary event)이라고 한다.

사건이 상호배반(mutually exclusive)이라는 것은 각 사건이 동시에 일어날 수 없다는 말이다.

 

확률분포(probability distribution)란 확률 변수가 어떻게 움직이는지를 나타낸 것이다.

전체 확률이 1인 확률 변수가 취할 수 있는 값이 어떻게 분포하고 있는지 나타낸 것이다.

- 확률변수에 필요한 변수가 취할 수 있는 값과 그 값이 나오는 확률 설정 후 실행

- 100번 실행

 

- 도수 분포표 작성

- 실제의 확률 분포와 함께 히스토그램

100번 실행하고 얻은 눈의 상대도수로 부터 추측된 확률 분포와 실제의 확률 분포 사이에는 상당한 차이가 있다.

 

- 1000번 실행

상대도수(relative frequency)가 실제의 확률 분포에 가까워졌다.

이대로 시행 횟수를 점점 늘리면, 상대도수는 확률분포에 수렴되어 간다.

 

추측 통계에서도 마찬가지로 무작위추출을 확률 모형으로 기술할 수 있고, 무작위추출로 얻은 표본은 모집단의 확률분포를 따르는 확률변수로 간주할 수 있다.

따라서 추측 통계에서 다루는 데이터는 그와 같은 확률변수의 실현값이라고 생각할 수 있다.

- 전교생의 시험 점수(score)을 계급폭을 1점으로 하여 작성한 히스토그램

 

69점을 얻은 학생은 전교생의 0.04(4%)를 차지하고 있음을 알 수 있게 된다.

따라서 무작위추출을 수행하면 4%의 확률로 69점이라는 표본 데이터를 얻게 된다.

이런 결과는 다른 점수에 관해서도 마찬가지로, 상대도수(relative frequency)는 해당 점수를 얻는 확률에 해당한다.

결국 이 히스토그램을 모집단의 확률분포로 간주할 수 있다.

- 무작위 추출 히스토그램, 실제 점수 분포에 매우 가까운 형태

표본의 크기가 커지면, 실제의 분포에 수렴된다. 

 

- 무작위추출로 표본 크기가 20인 표본을 추출하여 표본 평균을 계산하는 작업을 10000번 수행

가운데 세로 선이 모평균.

표본 평균은 산포도 그 자체이므로, 모평균을 중심으로 분포하는 것을 알 수 있다.

이것이 무작위추출에 의한 표본 평균으로 모평균을 추측할 수 있는 근거이다.

 

추측 통계는 확률을 사용하여 모집단의 통계적 성질을 추측하는 기법임을 알게되었다.

추정(estimation)이란 모수를 추측하는 것이다.

하나의 값으로 추정하는 것을 점추정, 구간으로 추정하는 것을 구간 추정이라고 부른다.

검정(test)은 모집단의 통계적 성질에 대해 가설을 세우고, 그 가설이 옳은지 여부를 판단하는 기법이다.

 

 

누구나 파이썬 통계분석[타니아이 히로키] 참조