ABOUT ME

Today
Yesterday
Total
  • 파이썬 통계분석_Chapter09. 독립동일분포
    카테고리 없음 2024. 1. 11. 16:37

    5장과 7장에서는 2차원 확률변수에 대해 알아보았다.

    이제부터는 더욱 차원이 높은 확률 변수에 대해 살펴 볼 것이다.

    다만, 이 장에서 살펴보는 확률변수는 서로 독립인 다차원 확률변수이다.

    확률변수가 독립이라는 것은 확률변수가 다른 확률변수에 영향을 끼치지 않는다는 의미이다.

    독립이고 다차원인 확률변수를 다루는 이유는 통계분석에서 취급하는 데이터 중 상당수가 독립이면서 다차원인 확률변수의 실현값으로 간주될 수 있기 때문이다.

    4장에서 처음 살펴본 예를 다시 한 번 떠올려보자.

    A학생은 전교생 400명의 평균 점수를 알고 싶어서 우연히 만난 20명에게 시험 점수를 물어보고, 그 결과로부터 전교생의 평균 점수를 추측했다.

    4장에서 이미 살펴보았듯이, 우연히 만난 학생들의 점수 각각은 전교생의 점수 분포를 따르는 1차원 확률변수가 된다.

    그리고 우연히 만난 학생이란, 그 학생을 만나기 직전에 우연히 만났던 학생과 전혀 관계없이 만난 학생이다.

    이 때문에 우연히 만난 20명의 점수는 서로 독립인 20차원의 확률변수라고 생각할 수 있다.

    이 예시와 같이, 서로 독립이고 각각 동일한 확률분포를 따르는 다차원 확률변수를 독립동일분포(indenpendently and identically distribution, i.i.d)라 한다.

    독립동일분포는 동일한 조건 아래에서 수행되는 실험이나 관측을 여러 번 반복하여 데이터를 얻는 것을 수학 용어로 나타낸 것이다.

    이는 통계분석에서 가장 기본적이고 중요한 조건 설정이라 할 수 있다.

     

    - 라이브러리 임포트

    - 이산형 확률변수를 다룰 때 사용할 몇가지 함수

     

    01. 독립성

    확률변수의 독립성(independence)이란, 2개 이상의 확률 변수가 서로 영향을 끼치지 않으며 관계가 없음을 나타내는 개념이다.

    5장과 7장에서는 두 확률변수의 관계성을 나타내는 지표로서 공분산과 상관계수를 학습했다.

     

    ** 공분산(covariance)은 두 변수간의 관계를 나타내는 통계적인 측도이다.

    두 변수가 함께 어떻게 변하는지를 측정하며, 양수일때는 양의 상관관계를 음수일때는 음의 상관관계를 나타낸다.

    공분산의 크기는 두 변수 간의 상대적인 변화의 크기를 나타내며, 값이 0이면 두 변수간의 선형 관계가 없음을 나타낸다.

    공분산의 부호는 두 변수간의 방향성을 나타낸다.

    양수인 경우에는 양의 상관관계(두 변수가 함께 증가 또는 함께 감소), 음수인 경우에는 음의 상관관계(한 변수가 증가하면 다른 변수는 감소)를 나타낸다.

    하지만 공분산의 크기만으로는 상관관계의 강도를 정확하게 파악하기 어려우므로 표준화된 지수인 상관계수(correlation coefficient)를 더욱 자주 사용한다.

     

    ** 상관계수(correlation coefficient)는 두 변수간의 선형관계의 강도와 방향을 나타내는 통계적인 측도이다.

    상관계수는 일반적으로 -1에서 1 사이의 값을 가지며, 이 값에 따라 강도와 방향을 파악할 수 있다.

    > 1에 가까운 양수값 : 강한 양의 선형관계를 나타낸다, 한 변수가 증가하면 다른 변수도 증가한다.

    > 0에 가까운 값 : 선형 관계가 거의 없거나 매우 약한 관계를 나타낸다.

    > -1에 가까운 음수값 : 강한 음의 선형관계를 나타낸다, 한 변수가 증가하면 다른 변수는 감소한다.

    상관계수는 단순히 두 변수간의 선형 관계만을 측정하며, 다른 유형의 관계를 나타내는 데에는 적합하지 않을 수 있다.

    또한 상관관계는 인과관계를 나타내지 않는다.

    두 변수 간에 상관관계가 있더라도 어떤 변수가 다른 변수를 일으키는 원인이 되지 않을 수 있다.

     

    공분산이나 상관계수가 0일 때 무상관이라 하고 두 확률변수 사이에는 상관성, 즉 선형 관계가 없음을 나타낸다

    독립성과 무상관성도 두 확률변수가 서로 관계가 없다는 것을 나타내는 성질이다.

    그렇다면 두 개념의 차이는 무엇일까?

    결론부터 말하면, 무상관성보다 독립성이 더 강한 개념이다.

    즉 2개의 확률 변수 X와 Y가 독립일 때 X와 Y는 무상관이 되지만, X와 Y가 무상관일 때 X와 Y가 반드시 독립인 것은 아니다.

    두 확률변수 사이에 선형 관계가 없더라도 서로 영향을 끼치는 경우가 있다.

     

    - 독립인 확률변수의 예로서, 앞에서 언급한 불공정한 주사위의 예를 사용

    - 공분산으로 2차원 확률변수 X와 Y가 독립이므로 무상관이 되는 것을 확인

     

    공분산이 0이므로 무상관인 것을 알 수 있다.

    이 예시뿐만 아니라, 2개의 확률변수가 독립이면 반드시 무상관이 된다.

    다음으로 무상관인 2개의 확률변수를 생각해보자.

    앞에서 설명했듯이, 무상관이라도 반드시 독립이라고는 할 수 없다.

    무상관인데도 독립이 아닌 예로서, 취할 수 있는 값의 조합이 {(0,0), (1,1), (1,-1)}로 각각 확률이 동일한 2차원 확률 변수 (X,Y)를 사용한다.

     

    공분산이 0이므로 확률변수 X와 Y는 무상관임을 알 수 있다.

    그렇다면 확률변수 X와 Y는 독립일까?

    등식이 성립하지 않으므로 X와 Y는 독립이 아니다.

    이로써 무상관이어도 독립성이 성립하지 않는 경우가 있다는 것을 확인했다.

     

    02. 합의 분포

    앞에서 설명했듯이, 4장에서 A학생이 무작위추출로 얻은 표본은 서로 독립이고, 동일한 확률분포를 따르는 확률변수이다.

    이 때문에 A학생이 모평균을 추정하기 위해 이용하는 표본평균은 X이라는 확률변수가 된다.

    이 표본평균의 확률분포를 이해하는 것이 이 장의 목표이지만, 사전 준비를 하는 차원에서 표본평균의 분포보다는 단순한 합의 분포에 대해 생각해보자.

    합의 분포는 서로 독립이고 동일한 확률분포를 따르는 확률변수의 합이 따르는 확률분포를 의미한다.

    합의 분포를 이해하면 확률변수의 합을 n으로 나누누 표본평균의 분포도 쉽게 이해할 수 있다.

    합의 분포의 확률함수와 밀도함수를 직접 유도하기는 어렵기 때문에 우선 합의 분포의 기댓값과 분산에 관해 살펴보자.

    기댓값은 5장에서 설명한 것처럼 선형성이 성립한다.

    분산은 5장에서 설명한 분산과 공분산에서 본 것처럼, 대개 공분산이 얽혀 있기에 기댓값만큼 깔끔한 결과가 나오지는 않는다.

    그러나 확률변수가 서로 독립이라면, 확률변수들은 서로 무상관이 되고, 공분산 항은 모두 0이 된다.

    결국 합의 분포 분산도 각 확률변수에 대한 분산의 합으로 계산할 수 있다.

    기댓값과 분산만 알아도 충분한 경우가 있지만, 보다 세부적으로 합의 분포가 어떠한 형태의 확률분포가 되는지 알고 싶은 때는 어떻게 해야 할까?

    사실은 몇 가지 확률분포에서는 합의 분포도 대표적인 확률분포를 따르는 것으로 알려져 있다.

    이제부터 그와 같은 예시를 몇 개 살펴보자.

     

    서로 독립인 두 확률 변수  X~N(1,2)와 Y~N(2,3)이 있다.

    이 때 확률 변수 X+Y의 분포는 어떻게 될까?

    기댓값은 3, 분산은 5가 된다.

    여기서는 X와 Y로부터 무작위추출을 수행하여, 이들의 합을 취함으로써 X+Y의 표본 데이터를 구한다.

    표본 데이터의 평균과 분산은 표본 크기가 충분하다면 X+Y의 기댓값 및 분산과 일치할 것이다.

     

    공식으로 구한 이론값에 가까운 값이 나왔다.

    표본 크기를 키우면 이론값에 수렴할 것이다.

    X+Y의 기댓값과 분산은 알게 되었지만, 보다 상세한 분포의 형태를 알고 싶을 때는 어떻게 해야할까?

    사실, 정규분포의 경우 정규분포의 합도 정규분포가 되는 성질이 있다.

    이처럼 동일한 분포를 따르는 2개의 독립인 확률변수에 대해서, 그 합도 동일한 확률분포가 되는 성질을 재생성(reproductive property)이라고 한다.

    모든 확률분포가 재생성을 갖는 것은 아니니 유의해야한다.

    X+Y의 기댓값과 분산, 더 나아가 정규분포의 재생성에 의해 X+Y가 N(3,5)를 따르는 것을 알았다.

    - X+Y로부터 무작위추출한 표본 데이터의 히스토그램과 N(3,5)의 밀도함수

     

    히스토그램과 밀도함수가 깨끗하게 일치해야한다....

    여기서는 두 정규분포의 합을 다루었지만, n개의 정규분포의 합이 되더라도 재생성에 의해 정규분포가 된다.

     

    > 포아송 분포의 합의 분포

    서로 독립인 두 확률변수 X~Poi(3)과 Y~Poi(4)가 있다.

    이 때 확률변수 X+Y의 분포는 어떻게 될까?

    Poi(x)의 기댓값과 분산은 모두 x이므로, X+Y의 기댓값과 분산은 모두 7이 된다.

    이 값을 X+Y로부터 무작위추출한 표본 데이터의 평균과 분산으로 확인해보자.

     

    모두 이론에 가까운 값이 되었다.

    여기서 주의해야 할 것은 X+Y분포의 형태이지만, 포아송 분포도 재생성을 지닌 확률분포하는 사실이다.

    이 때문에 X+Y는 포아송 분포를 따르고, X+Y ~Poi(7)이 된다.

    X+Y로부터 무작위추출한 표본 데이터의 히스토그램과 함께 Poi(7)의 확률함수를 그려보자.

     히스토그램과 밀도함수가 깨끗하게 일치한다.

    여기서는 두 포아송 분포의 합을 다루었지만, n개의 포아송 분포의 합이 되더라도 재생성에 의해 포아송 분포의 형태를 유지한다.

     

    > 베르누이 분포의 합의 분포

    Bern(p)의 기댓값은 p, 분산은 p(1-p)이다.

    이 값을 베르누이 분포의 합의 분포로부터 무작위추출한 표본 데이터의 평균과 분산으로 확인해보자.

     

    모두 이론값에 가까운 값이 되었다.

    주의해야 할 것은 합의 분포의 형태이지만, 유감스럽게도 베르누이 분포에는 재생성이 없다는 사실이다.

    베르누이 분포의 경우, 베르누이 분포의 합은 이항분포가 되는 성질이 있다.

    - 합의 분포로부터 무작위추출한 표본 데이터의 히스토그램과 함께 Bin(10,0.3)확률 함수

     

    03. 표본평균의 분포

    표본평균의 분포란 서로 독립이고 동일한 확률분포를 따르는 확률변수의 표본평균이 따르는 분포이다.

    10장에서 다루는 모평균의 구간추정이나 11장에서 다루는 모평균의 검정에서 사용하는 분포이다.

    이 분포는 중심극한정리나 대수의 법칙 등 추측통계에서 중요하고 흥미로운 성질을 많이 담고 있기 때문에 잘 알아두어야 한다.

     

    정규분포의 표본평균에 관해 생각해보자.

    - 무작위추출한 표본 데이터의 평균은 1, 분산은 2/10이 된다

     

    정규분포의 경우, 표본 평균도 정규분포가 된다.

    - 무작위추출한 표본 데이터의 히스토그램과 함께 N(1, 2/10)의 밀도함수

     

    > 포아송 분포의 표본평균 분포

    포아송 분포의 표본 평균에 관해 생각해보자.

    - 기댓값은 3, 분산은 3/10

    기댓값과 분산이 다르다는 사실에서 알 수 있듯이, 포아송분포의 표본평균은 이제 포아송 분포를 따르지 않는다.

    재생성이 있는 포아송 분포에서도 표본평균에 대해서는 포아송 분포를 유지할 수 없다.

    그렇다면 포아송분포의 표본평균은 어떤 분포가 되어 있을까?

     

     좌우대칭인 산 모양의 분포로 정규분포에 가까운 형태가 되었다.

    실제로 포아송 분포의 표본 분포는 근사적으로 정규분포를 따르고, 다음에 나오는 중심 극한 정리에 의해 설명할 수 있다.

     

    > 중심극한정리

    지금까지 합과 표본평균의 분포를 살펴보았다.

    합의 분포나 표본평균의 분포에서 기댓값과 분산은 쉽게 계산하여 구할 수 있기 때문에, 분포 형태만 알면 확률분포를 결정할 수 있었다.

    그러나 포아송 분포나 정규분포 같은 재생성이 있는 일부 확률분포를 제외하면, 합의 분포가 어떤 형태를 보이는지 일반적으로 알 수 없다.

    더 나아가 표본 평균의 분포가 되면 재생성을 지닌 포아송 분포조차도 그 형태를 유지할 수 없다.

    표본평균의 분포를 구하려면 꼭 번거로운 계산을 해야할까?

    아니면 컴퓨터를 이용하여 무작위추출을 할 수밖에 없을까?

    실은 표본 평균의 분포에 관한 매우 강력하고 아름다운 정리가 있다.

    바로 중심극한정리(central limit theorem)이다.

     

    중심극한정리

    확률 변수가 서로 독립적이고 확률분포는 표본이 커질수록 표본 평균의 분포는 정규분포에 가까워진다.

    원래 분포가 뭐였든 간에, 표본평균의 분포는 정규분포에 가까워진다는 것이다.

    이것을 포아송 분포의 표본평균으로 확인해보자.

    - 표본평균의 계싼을 10000번(즉, 포아송 분포로부터의 무작위추출은 10000*10000번) 수행

     

    - 표본 데이터의 히스토그램과 N(3,3/10000)의 밀도함수

     

    조금 울퉁불퉁하지만 정규분포 형태에 가까워지고 있음을 알 수 있다.

    여기서는 포아송 분포에서 중심극한 정리를 확인했지만, 반드시 다른 분포에서도 성립하고 있는지 확인해야 한다.

     

    > 대수의 법칙

    표본 평균에 관한 정리에서, 중심극한 정리만큼 중요한 것이 대수의 법칙(law of numbers)이다.

    대수의 법칙은 표본 크기를 키우면 표본평균은 모평균에 수렴한다고 주장하는 정리이다.

    예를 들어, 주사위를 몇 번이고 굴리면 6이 나오는 확률은 1/6에 가까워진다는 것을 직감적으로 이해할 수 있다.

    이것을 수학적으로 증명하는 것이 대수의 법칙이다.

    대수의 법칙을 주사위가 6이 나오는지 여부로 확인해보자

     

    - 표본 크기가 10만인 무작위추출을 네 번 시행

    - 네 번 시행한 무작위추출 각각에서 표본평균으로 사용하는 표본 크기를 서서히 키우면, 표본평균의 변화

    표본 크기가 작을 때는 변동이 있지만, 표본 크기가 커지면서 어떠한 무작위추출도 그 결과는 1/6에 가까워지고 있음을 알 수 있다.

     

     

    누구나 파이썬 통계분석[타니아이 히로키] 참조

Designed by Tistory.