7 분 소요

1. 확률론 기초

확률론에 대한 기초적인 개념들에 대해 설명해봅니다. 흔히 고등학교 교과과정에서 하는 식으로, 경우의 수와 이항정리에 대해 먼저 다룹니다. 그 다음으로는 확률에 대하여 직관적인 방식과 엄밀한 방식으로 각각 설명해봅니다. 이후에는 조건부확률과 독립사건의 개념을 배운 후 Sterling’s lemma에 대해 간략히 살펴봅니다.

1.2. 확률의 정의

우리는 흔히 여러 상황에서 확률이라는 개념을 쉽게 사용합니다. “내가 응원하는 축구팀이 이번 경기에서 승리할 확률이 60%이다” 라든지 “복권을 샀을 때 당첨될 확률이 굉장히 낮다”라든지 하는 표현을 씁니다. 이와 같은 개념들은 중고등학교 수학에서 다루어지는데 거기에서 배우는 확률의 개념은 꽤 직관적이고 기초적인 확률입니다. 이에 대한 복습을 (1), (2)에서 다뤄봅니다.

하지만 확률을 수학적으로 정확하게 정의하는 것은 생각보다 복잡합니다. 이와 관련한 개념을 현대적으로 정립한 사람은 1930년대의 러시아 수학자 Andrey Kolmogorov인데, 그는 확률을 확률측도로서 정의하고 확률공간이라는 개념을 만들었습니다. 이러한 방법을 공리적인 접근(axiomatic approach) 혹은 측도론적 접근(measure-theoretic approach)이라고 부르며 (3), (4)에서 다루어보았습니다. 실제 수학과에서는 학부 고학년이나 대학원에서 이와 같은 사항들을 공부하는 것 같습니다.

이와 같은 공리론적 접근을 소개하는 것은 논의를 완전하게 하고 싶어서이고 개인적으로 쓰고 싶어서입니다. 해당 내용을 모르더라도 뒤이어 나올 내용들을 이해하는 데 큰 문제는 없습니다.

(1) 직관적인 정의 (중학교)

주사위를 하나 던질 때 짝수가 나올 확률이 얼마일까요? 당연히 $\frac36=\frac12$입니다. 그러니까, 주사위를 던지면 짝수가 나오는 경우와 짝수가 나오지 않는 경우가 비슷하게 발생하리라고 기대할 수 있습니다. 그럼 어떻게 이 확률값을 계산했을까요? 경우의 수를 통해 구했습니다. 전체 경우의 수가 6개이고, 짝수가 나오는 경우의 수가 3개이니, 두 값을 나누어서 확률값을 계산했습니다.

이것이 중학교 교과과정에서 배우는 확률의 정의입니다.

(2) 직관적인 정의 (고등학교)

고등학교로 넘어오면, 확률을 정의하는 방식은 중학교때와 거의 비슷하지만, 집합의 개념을 동원해 확률을 설명한다는 점이 다릅니다. 시행, 표본공간, 사건과 같은 용어가 등장하는데, 위의 주사위 예시에서

  • 시행 : 주사위를 하나 던지는 것
  • 표본공간 : $S=\{1,2,3,4,5,6\}$
  • 사건 : $A=\{2,4,6\}$

입니다. 즉, 주사위를 하나 던지면 총 6개의 결과가 나올 수 있습니다. 이 결과들 각각은 근원사건이라고 부르는데, 모든 근원사건들의 집합을 표본공간(sample space)이라고 부릅니다. 또한, 표본공간의 부분집합을 사건(event)이라고 부릅니다. 우리는 모든 가능한 결과들의 집합을 ‘표본공간’이라는 말로 표현했고, ‘현재 관심있는 결과들의 집합’을 ‘사건’이라는 말로 표현한 것입니다.

몇 가지 기본적인 용어들을 더 소개하겠습니다. 공집합($\varnothing$)과 전체집합($S$)은 그 자체로 $S$의 부분집합이므로 각각 사건이라고 말할 수 있습니다. $\varnothing$은 공사건, $S$는 전사건이라고 불립니다. 또한, $A$의 여집합인 $A^c$도 $S$의 부분집합이므로 사건이라고 말할 수 있을텐데 이것은 $A$의 여사건이라고 불립니다.

한편, 두 사건 $A$, $B$가 서로 겹치지 않으면 ($A\cap B=\varnothing$)이면, 두 사건이 서로 배반사건(exclusive events)이라고 말합니다.

참고
세 개 이상의 사건에 대해서도 배반사건의 개념을 말할 수 있는데, 이때에는 서로 다른 두 개념을 구분해서 사용해야 합니다. 세 사건 $A$, $B$, $C$에 대하여 $$ \begin{align*} A\cap B&=\varnothing\\ B\cap C&=\varnothing\\ C\cap A&=\varnothing \end{align*} $$ 이면 세 사건이 pairwisely exclusive 혹은 mutually exclusive하다고 말합니다. 그러니까, $$ A\cap B\cap C=\varnothing $$ 인 상황과는 구분해서 사용해야 한다는 것입니다. 다만 이에 관한 개념에 대해서는 통용되는 용어가 있는 것 같지는 않습니다. 어떤 사람들은 이와 같은 상황을 jointly exclusive하다고 말합니다. (관련 글 1) (관련 글 2)

일반적으로 사건들의 집합(collection of events)인 $\mathcal A=\{A_i\}_{i=1}^n$가 $$ i\ne j\quad\Longrightarrow\quad A_i\cap A_j=\varnothing $$ 이면, $\mathcal A$가 pairwisely exclusive 혹은 mutually exclusive하다고 말합니다.

다시 확률을 어떻게 정의할까 하는 문제로 돌아오겠습니다. 사건 $A$가 발생할 확률은 $P(A)$라고 표현하고, 다음과 같이 정의합니다.

\[P(A)=\frac{n(A)}{n(S)}\]

즉, 사건 $A$의 경우의 수를 전체 경우의 수로 나눈 값으로, 중학교에서의 정의와 일치합니다. 다만, 이전에 비해 조금 더 수식처럼 적을 수 있다는 점이 바뀌었습니다. 이 정의에 따르면

\[P(A)=\frac{n\left(\{2,4,6\}\right)}{n\left(\{1,2,3,4,5,6\}\right)}=\frac36=\frac12\]

와 같이 계산됩니다.

(3) 공리적인 정의

여기까지가 고등학교에서 배우는 확률의 정의입니다. 어떤 학생들은 확률의 정의가 정확히 무엇인지도 모른 채로 넘어가곤 합니다. 그럴 정도로 자연스럽고 당연한, 그래서 좋은 정의라고 할 수 있을 것입니다. 그런데 이 정의에도 단점이 있습니다. 표본공간이 무한집합이면 확률을 정의할 수 없다는 것입니다. 무한집합의 원소의 개수는 생각할 수 없기 때문입니다. 예를 들어, 다음과 같은 문제는 원칙적으로 고등학교 과정에서 풀 수 없습니다.

  1. 자연수 중 임의로 하나를 뽑을 때, 그 값이 3의 배수일 확률은?
  2. 유리수 중 임의로 하나를 뽑을 때, 그 값이 1일 확률은?
  3. 0과 1 사이의 실수 중 하나를 임의로 뽑을 때, 그 값이 무리수일 확률은?
  4. 배차시간이 10분인 버스를 3분 안에 타게 될 확률은?
  5. 단위원 안에 점 $P$를 하나 찍을 때, 점 $P$에서 원의 중심까지의 거리가 0.5보다 작을 확률은?

모두 표본공간이 무한집합이기 때문에, 위처럼 경우의 수를 세어 확률을 계산한다는 것이 불가능합니다. 다만, 3, 4, 5는 “기하학적 확률”이라는 것을 도입하여 문제를 풀 수 있고, 이것이 정규교과과정에는 없더라도 고등학교 참고서에는 여러 문제가 수록되어 있기도 합니다. 이 방법은, 길이나 넓이, 혹은 부피를 사용하여 확률을 계산하는 것입니다. 고등학교 과정의 정의에서 ‘집합의 개수’를 사용했는데, 그 대신에 집합의 길이, 집합의 넓이, 집합의 부피로 바꾸어 확률의 개념을 정의하는 것입니다.

길이나 넓이, 부피를 일반화한 수학적 개념을 측도(measure)라고 합니다. 그리고 이러한 측도를 사용하여 확률을 정의하는 방법을 측도론적(measure-theoretic) 접근 혹은 공리론적(axiomatic) 접근이라고 부릅니다. 프랑스의 수학자 Henri Lebesgue이 측도와 적분에 관한 이론을 정립한(1902) 이후 Kolmogorov가 측도를 확률론에 적용한(1933) 것으로 보입니다. (관련 글) 이 방법을 적용하면 위의 다섯 문제를 (아마도) 모두 풀 수 있게 됩니다.

(4) 확률공간

Kolmogorov는 확률의 개념을 확률공간(probability space)을 통해 정의했습니다. 확률 공간이란, 세 개의 수학적 대상으로 구성된 ordered triple $(S, \Sigma, P)$을 말합니다. 이때, $S$는 공집합이 아닌 집합이고, $\Sigma$는 특정한 조건들을 만족시키는 집합이며, $P$도 특정한 조건들을 만족시키는 함수입니다. 즉, 두 개의 집합 $S$와 $\Sigma$, 하나의 함수 $P$가 정의되면 확률공간이 정의되었다고 생각하는 것입니다.

이때, $S$는 이전과 마찬가지로 표본공간을 의미합니다. $\Sigma$는 $S$의 부분집합들의 집합 (혹은, 같은 표현이지만, $S$의 멱집합의 부분집합) 으로서 다음의 세 조건을 만족시키는 집합입니다.

  1. $\Sigma$는 $S$를 원소로 갖습니다. 즉, $S\in\Sigma$ 입니다.
  2. $\Sigma$는 차집합에 대해 닫혀있습니다. 즉, $A,B\in\Sigma$ 이면, $A-B\in\Sigma$ 입니다.
  3. $\Sigma$는 countable union에 대하여 닫혀있습니다 : 즉, 모든 $i=1,2,\cdots$ 에 대하여 $A_i\in\Sigma$ 이면, $\bigcup_{i=1}^\infty A_i\in\Sigma$ 입니다.
참고
일반적으로, 위의 세 조건을 만족시키면 $\Sigma$를 $S$의 $\sigma$-algebra라고 부릅니다.

$\Sigma$의 원소를 사건(event)이라고 부릅니다. 다시 말해서, $\Sigma$를 만든 것은 모든 사건들의 집합을 만든 것과 같습니다.

한편, $P$는 정의역이 $\Sigma$이고 공역이 $[0,1]$인 함수($P:\Sigma\to[0,1]$)로서 다음 두 조건을 만족시키는 함수입니다.

  1. $P(S)=1$.
  2. $\mathcal A=\{A_i\}_{i=1}^\infty$가 pairwisely exclusive이고 모든 $i$에 대하여 $A_i\in\Sigma$이면,
\[P\left(\bigcup_{i=1}^\infty A_i\right)=\sum_{i=1}^\infty P(A_i)\]

입니다.

참고
일반적으로, 함수 $P:\Sigma\to\mathbb R$ 혹은 $P:\Sigma\to\mathbb C$가 위의 두번째 조건을 만족시키면, $P$를 측도(measure)라고 부릅니다. 다만, 측도를 표현할 때에는 통상적으로 $P$ 대신 $\mu$나 $\lambda$와 같은 notation을 쓰게 됩니다.

이와 같은 $P$는 확률측도(probability measure)라고도 불리며, 주어진 사건에 대한 확률을 계산하는 함수입니다.

(5) 확률공간의 해석

굉장히 어려운 용어들을 많이 쓰면서 적어보았습니다. 이번에는 아까의 쉬운 예제 (주사위를 하나 던졌을 때 짝수가 나올 확률 구하기)를 확률의 공리적인 정의에 적용시켜보겠습니다. 그러면, 이와 같은 확률공간의 구조가, 이전에 정의한 고등학교 과정의 확률의 정의를 포함하는 개념이라는 것을 확인할 수 있을 것입니다.

먼저, $S$는 이전과 같이 $S=\{1,2,3,4,5,6\}$ 입니다. 또한, $\Sigma$는 $S$의 모든 부분집합들의 집합 ($S$의 멱집합) 이라고 하겠습니다. 즉,

\[\Sigma=\{A\mid A\subset S\}\]

입니다. 조금 더 번잡스럽게 쓰면

\[\begin{align*} \Sigma=\{&\varnothing, \{1\}, \{2\}, \{3\}, \{4\}, \{5\}, \{6\},\\ &\{1,2\}, \{1,3\}, \{1,4\}, \{1,5\}, \{1,6\}, \{2,3\}, \{2,4\},\\ &\{2,5\}, \{2,6\}, \{3,4\}, \{3,5\}, \{3,6\}, \{4,5\}, \{4,6\}, \{5,6\},\\ &\{1,2,3\}, \{1,2,4\}, \{1,2,5\}, \{1,2,6\}, \{1,3,4\},\\ &\{1,3,5\}, \{1,3,6\}, \{1,4,5\}, \{1,4,6\}, \{1,5,6\},\\ &\{2,3,4\}, \{2,3,5\}, \{2,3,6\}, \{2,4,5\}, \{2,4,6\},\\ &\{2,5,6\}, \{3,4,5\}, \{3,4,6\}, \{3,5,6\}, \{4,5,6\},\\ &\{1,2,3,4\}, \{1,2,3,5\}, \{1,2,3,6\},\\ &\{1,2,4,5\}, \{1,2,4,6\}, \{1,2,5,6\},\\ &\{1,3,4,5\}, \{1,3,4,6\}, \{1,3,5,6\},\\ &\{1,4,5,6\}, \{2,3,4,5\}, \{2,3,4,6\},\\ &\{2,3,5,6\}, \{2,4,5,6\}, \{3,4,5,6\},\\ &\{1,2,3,4,5\}, \{1,2,3,4,6\}, \{1,2,3,5,6\},\\ &\{1,2,4,5,6\}, \{1,3,4,5,6\}, \{2,3,4,5,6\},\\ &\{1,2,3,4,5,6\}\} \end{align*}\]

으로 쓸 수 있을 것입니다. 그러니까, 고등학교 과정에서의 정의처럼 $S$의 모든 부분집합은 사건이 됩니다. 이렇게 정의한 $\Sigma$는 세 조건을 만족시킵니다.

  1. $S\in\Sigma$입니다.
  2. $A,B\in\Sigma$이면, 그러니까 $A$와 $B$가 $S$의 부분집합이면, $A-B$도 여전히 $S$의 부분집합입니다. 따라서, $A-B\in\Sigma$입니다.
  3. $\Sigma$가 유한집합이므로, $\Sigma$가 countable union에 대하여 닫혀있는지를 굳이 살피지 않아도, finite union에 대하여 닫혀있는지만 따져도 됩니다. $A_1$, $\cdots$, $A_n$이 모두 $\Sigma$의 원소이면 (즉, $S$의 부분집합이면), 그것들의 합집합인
\[A_1\cup A_2\cup\cdots\cup A_n\]

은 여전히 $S$의 부분집합이고, $\Sigma$의 원소입니다. 따라서, 3번 조건도 만족합니다. 그러므로, $\Sigma$는 $\sigma$-algebra의 세 조건을 만족시킵니다.

다음으로, $P$를, 이전에 정한 바와 같이

\[P(A)=\frac{n(A)}{n(S)}\]

로 정합니다. 그러면

  1. $0\le P(A)\le1$이고, $P(S)=1$입니다.
  2. 만약, $A$와 $B$가 배반사건이면, $P(A\cup B)=P(A)+P(B)$가 성립합니다. 왜냐하면
\[P(A\cup B)=\frac{n(A\cup B)}{n(S)}=\frac{n(A)+n(B)}{n(S)}=\frac{n(A)}{n(S)}+\frac{n(B)}{n(S)}=P(A)+P(B)\]

이기 때문입니다. 일반적으로도, $A_i$들이 pairwisely exclusive이면, $n(A_1\cup A_2\cup\cdots\cup A_n)=n(A_1)+n(A_2)+\cdots+n(A_n)$ 이므로

\[P\left(\bigcup_{i=1}^nA_i\right)=\frac{n\left(\bigcup_{i=1}^nA_i\right)}{n(S)}=\frac{\sum_{i=1}^nn(A_i)}{n(S)}=\sum_{i=1}^n\frac{n(A_i)}{n(S)}=\sum_{i=1}^nP(A_i)\]

입니다. 아까와 같은 이유로 무한합이 아닌 유한합에 대해서만 계산했습니다. 하지만, 일반적으로 무한합에 대해서도 위 식이 성립합니다. 이에 관한 증명은 생략합니다.

따라서 이렇게 정의한 $(S,\Sigma,P)$는 확률공간을 이룹니다. 그리고 이렇게 정의한 확률의 개념은 고등학교 과정의 확률의 개념을 아우르는 개념이라는 것을 알 수 있습니다.

또한, 측도에 대해서 더 깊게 쓰지 않겠지만, 길이나 넓이, 부피를 측정하는 표준적인 측도 (Euclidean measure)를 잘 적용하면, 위에서 언급한 기하학적 확률의 개념도 이와 같이 정의할 수 있음을 추측할 수 있습니다. 이와 같이, Kolmogorov가 고안한 일반적인 의미의 확률의 개념은, 확률적인 상황을 다룰 수 있는 수많은 경우에 폭넓게 적용할수 있기 때문에, 지금까지도 확률을 정의하는 표준적인 방법으로 쓰이는 것 같습니다.

(6) 확률의 성질

공리론적 정의에서 $P$가 만족시켜야 하는 두번째 성질인

\[P\left(\bigcup_{i=1}^\infty A_i\right)=\sum_{i=1}^\infty P(A_i)\]

은 countable additivity라고도 불립니다. 만약, $A_1=A$, $A_2=B$, $A_3=A_4=\cdots=\varnothing$이면 위의 식은

\[P(A\cup B)=P(A)+P(B)\]

이 됩니다. 그러니까, 서로 배반인 사건들의 합집합에 대한 확률은 각각의 사건들의 확률의 합과 같다는 뜻입니다. 이와 같은 확률의 성질을 합의 법칙 이라고 부릅니다.

합의 법칙(additive rule)
(1) $A$, $B$가 배반사건이면 $P(A\cup B)=P(A)+P(B)$ 입니다.
(2) $A_1$, $A_2$, $\cdots$, $A_n$이 pairwisely exclusive이면 다음 식이 성립합니다. $$P\left(\bigcup_{i=1}^nA_i\right)=\sum_{i=1}^nP(A_i)$$
(3) $A_1$, $A_2$, $A_3$, $\cdots$이 pairwisely exclusive이면 다음 식이 성립합니다. $$P\left(\bigcup_{i=1}^\infty A_i\right)=\sum_{i=1}^\infty P(A_i)$$

합의 법칙을 사용하면 여사건의 확률을 계산할 수 있습니다. $A$가 사건이면 $A$와 $A^c$는 서로 배반사건이므로 합의 법칙에 의해

\[P(A)+P(A^c)=P(A\cup A^c)=P(S)=1\]

입니다. 따라서 다음 식이 성립합니다.

여사건의 확률
$$P(A^c)=1-P(A)$$

(7) 마치며

지금까지 직관적인 확률의 정의와 더불어 공리적인(측도론적인) 정의도 살펴봤습니다. 굳이 이렇게까지 어렵게 확률을 정의할 필요가 있느냐? 라는 질문에는 이미 $S$가 무한집합인 경우에 확률의 정의가 애매해진다는 것을 언급한 바 있습니다. 또다른 이유는, 기존의 방법으로는 연속확률분포를 설명하기가 어렵다는 점입니다. 이 문제는 나중에 연속확률변수에 대해 이야기하면서 다시 다루게 될 것 같습니다.

확률의 직관적인 정의에서 암시적으로 하고 있는 가정은, 근원사건이 발생할 가능성이 일정하다고 가정한다는 것입니다. 다시 말해, 주사위를 던질 때 각각의 눈이 나올 가능성이 동등하다고 가정하고 있는 것입니다. 그러니까 직관적인 정의로는 근원사건이 발생할 가능성이 조금씩 다른 경우의 확률을 다루기가 애매합니다. 이러한 상황은 나중에 확률변수를 도입하면서 좀 더 유연하게 서술될 수 있습니다.

참고한 자료들

  • 김원경 외, 「수학 2」, 비상출판사 (중학교 수학교과서)
  • 김원경 외, 「확률과 통계」, 비상출판사 (고등학교 수학교과서)

댓글남기기