-
파이썬 통계분석_Chapter 05. 이산형 확률 변수카테고리 없음 2024. 1. 11. 16:35
확률 변수는 취할 수 있는 값이 이산이냐 연속이냐에 따라 이산형 확률변수와 연속형 확률변수 두 가지로 나뉜다.
이산형 확률변수는 취할 수 있는 값이 이산적인 확률변수이다.
이산형 확률 변수 중에서도 1차원 이산형 확률 변수에 관해 설명한다.
확률 변수는 변수가 취할 수 있는 값과 그 값이 나오는 확률에 의해 정의된다.
확률 변수가 취할 수 있는 값과 그 확률의 구체적인 대응을 확률 분포(probability distribution)라고 한다.
따라서 확률 변수의 확률 분포가 결정되면 그 확률 변수의 움직임이 정해진다.
- 불공정한 주사위가 취할 수 있는 값을 입력했을 때, 그 확률을 반환하는 함수
- 확률 분포에 의해 확률 변수 X의 동작이 결정된다.
- 확률 변수가 취할 수 있는 값과 확률의 대응을 막대그래프로 표시
확률은 절대적으로 0이상으로, 모든 확률을 더하면 1이되어야 한다.
- np.all 함수를 사용해 모든 확률이 0이상인지 확인, np.all은 모든 요소가 참일 때만 참을 반환
- 확률의 총합이 1이 된다는 것을 확인
확률함수는 확률변수 X가 x가 될 때의 확률을 반환하는 함수이지만, 확률 변수 X가 x이하가 될 때의 확률을 반환하는 함수로도 자주 사용된다.
이와 같은 함수를 누적분포함수(cumulative distribution function, CDF) 또는 간단히 분포함수라고 한다.
- 분포 함수를 이용해 구한 눈이 3이하가 되는 확률
확률변수의 변환이란 확률 변수 X에 2를 곱하고 3을 더한 2X+3과 같은 것으로, 확률변수를 표준화(평균을 빼고, 표준 편차로 나눈 것)할 때 중요한 연산이다.
그렇다면, 변환을 수행한 2X+3은 확률변수인가? 만약 확률변수라면 그 확률분포는 어떻게 되는가?
-> 단순 계산이기에 확률 변수가 된다.
- 2X+3을 확률 변수 Y라 하면 Y의 확률 분포
2장에서 1차원 데이터에는 평균과 분산이라는 지표가 있다는 것을 알아보았다.
마찬가지로 1차원 확률변수에서도 평균과 분산이라는 지표를 정의할 수 있고, 확률 변수의 특징을 파악할 수 있다.
데이터의 평균과 마찬가지로, 확률 변수의 평균은 확률변수의 중심을 나타내는 지표가 된다.
데이터의 평균은 각 데이터를 모두 더한 다음 데이터의 수로 나는 것이다.
그렇다면 확률변수의 평균은 어떻게 구할까?
직관적으로 설명하자면, 확률변수의 평균이란 확률변수를 몇 번이나(무제한으로) 시행하여 얻어진 실현값의 평균을 가리킨다.
현실적으로 무제한으로 시행을 할 수 없기에 이산형 확률변수의 경우, 확률변수의 평균은 확률변수가 취할 수 있는 값과 그 확률의 곱의 총합으로 정의된다.
확률 변수의 평균은 기댓값(expected value)라고도 부른다.
- 불공정한 주사위의 기댓값을 정의대로 계산
- 무제한 시행하여 얻은 실현값의 평균
확률변수의 분산이나 공분산 등도 마찬가지이다.
그 값들도 모두 무제한 시행해서 얻은 실현값의 데이터에 관해 정의되는 분산이나 공분산이라 생각할 수 있다.
변환한 확률 변수도 확률변수이기에 변환한 확률변수의 기댓값도 생각해볼 수 있다.
-> 표준화한 확률분포의 기댓값에서 중요한 요소
- 인수 g가 확률변수에 대한 변환의 함수, g에 아무것도 지정하지 않으면 확률변수 X의 기댓값이 구해진다
- 확률 변수 Y = 2X+3의 기댓값 계산
기댓값에는 선형선이라는 성질이 있다.
이 성질을 사용하여 aX+b와 같이 변환한 확률 변수의 기댓값을 X의 기댓값으로 구현할 수 있다.
- E(2X+3)이 2E(X)+3과 같은 지 확인, 선형성이 성립한다
확률변수의 분산도 데이터의 분산과 마찬가지로 산포도를 나타내는 지표가 된다.