통계 이산확률분포란
오늘은 이산 확률분포에 대해서 설명하도록 하겠습니다!
이산확률분포란 확률변수가 이산(countable)적인 즉 셀 수 있는 값을 가지고 각 값이 발생하 셀 수 있는 확률을 나타내는 분포입니다. 여러 가지 이산확률분포가 존재하고 각 분포는 특정한 상황을 가정하여 그 상황에 맞게 사용할 수 있습니다.
오늘은 대표적인 이산확률분포에 대해 설명하도록 하겠습니다.
- 이항 분포(Binomial Distribution)
- 포아송 분포(Poisson Distribution)
- 기하 분포(Geometric Distribution)
- 다항 분포(Multinomial Distribution)
또한 이산확률분포는 확률 변수가 특정 값에서 발생할 확률을 확률질량함수(PMF: Probablility Mass Function)를 사용하여 나타냅니다. 각 분포를 설명하면서 PMF도 적어보도록 하겠습니다.
이항 분포
이항분포는 서로 다른 2개 변수로 이루어진 분포라고 생각하시면 이해하기 빠르실겁니다. 예를 들면 성공과 실패, 홀과 짝,등과 같은 변수가 2개인 분포입니다.
정의는 다음과 같습니다.
여기서 베르눌리 시행(Bernoulli trial)은 확률론에서 중요한 개념 중 하나로, 두 가지 결과만 가질 수 있는 이진실험 또는 시행을 말하는데 각 시행은 '성공', '실패' 두 가지 결과중 하나를 갖는거라고 합니다.
베르눌리 시행에 대한 개념은 아래와 같습니다.
- 이진 결과: 각 베르눌리 시행은 두 가지 이진 결과 중 하나를 가집니다. 이러한 결과는 '성공'과 '실패'로 표시되며 종종 1과 0으로 나타낼 수 있습니다.
- 독립성: 베르눌리 시행은 독립적으로 진행되는데, 이전 시행의 결과가 현재 시행의 결과에 영향을 주지 않습니다. (마치 빨간공 n개 파란공 m개가 한 주머니에 있을 떄 하나씩 꺼내고 꺼낸 다음 다시 주머니에 넣는다는 실험 과정과 같다고 볼 수 있습니다.)
- 확률: 각 시행은 성공 확률 p와 실패확률(1-p)를 가집니다. 이러한 확률은 각 시행에서 일정하게 유지됩니다.
- 확률분포: 베르눌리 시행은 베르눌리 분포를 따릅니다. 베르눌리 분포의 확률질량함수(PMF)는 P(X=k)=p^k*(1-p)^(1-k)로 주어집니다.
베르눌리 시행은 확률론 과 통계에서 중요한 개념 중 하나 입니다.이를 기반으로 확률분포 및 통계적 문제를 모델링 할 수 있습니다.
- 이항 분포 확률질량함수(PMF): P(X=k) = C(n,k)*p^k*(1-p)^(n-k)
- 이항 분포 누적분포함수(CDF): F(X=k) = ∑[0,k]P(X=i)
포아송 분포
포아송 분포는 단위 시간 또는 공간에서 발생하는 사건의 횟수를 나타내는 분포로, 사건이 독립적으로 발생하고 특정 평균 발생률(람다, λ )를 가집니다.
즉 포아송 분포는 주어진 시간 또는 공간에서 특정 사건이 발생하는 확률을 모델링합니다.
- 포아송 분포 확률질량함수(PMF): P(X=k) = (e^(- λ )* λ^k)/k!
- 포아송 분포 누적분포함수(CDF): F(X=k) = ∑[0,k]P(X=i)
기하 분포
기하 분포는 예를 들어 우리가 제품을 생산하는데 불량이 나올 때까지 기다리는 것을 생각하시면 편합니다.
기하 분포는 베르눌리 시행에서 처음으로 성공 할 때까지의 시행횟수를 나타내는 분포입니다.
- 기하 분포 확률질량함수(PMF): (P(X=k)= (1-p)^(k-1)*p
- 기하 분포 누적분포함수(CDF): F(X=k) = 1-(1-p)^k
다항 분포
다항분포는 이항분포를 n개를 동시해 시행했을 떄 확률이라고 생각하시면 편합니다.
다항 분포는 여러 개의 베르눌리 시행을 동시에 고려하고, 각 베르눌리 시행에서의 다중 클래스 확률을 나타냅니다.
- 다항 분포 확률질량함수(PMF): P(X1=k1, X2=k2, X3=k3....Xn=kn) = (n!/(k1!*k2!....*kn!)*(p1^k1*p2^k2....*pn^kn)
각 분포의 PMF는 해당 분포에서 특정 값 k에 대한 확률을 계산하는 데 사용되며, CDF는 특정 값 이하의 확률을 누적하여 계산합니다. 이러한 함수들을 사용하여 확률분포의 특성과 확률 계산을 진행할 수 있습니다.