로또가 생각이 났다.

엔트로피는 다음과 같이 정의된다

-엔트로피 = $\sum$확률(x) log(확률(x))

-기호도 붙어있고 볼츠만 상수도 원래는 있지만 상수 정도는 대충 넘어가자.
여기서, 로그가 빠지면 그냥 확률의 덧셈이므로 1이 된다. 로그가 왜 붙어있는가는 좀 나중에 생각을 해 보고, 엔트로피가 위와 같이 정의된다 치고 로또 복권의 엔트로피를 생각해 보자.

...
근데, 어려우니까 로또 대신, 일단 동전 던지기의 엔트로피를 생각해 보자.
확률(앞) = 0.5
확률(뒤) = 0.5
-엔트로피 = 0.5(log(0.5))+0.5(log(0.5)) = log(0.5)
따라서 엔트로피 = log2

참 쉽죠?

만약 log의 밑이 2라면 엔트로피 = 1
(볼츠만 상수의 역할이 바로 이것이다. 통계적 현상과 실제 자연 현상 사이의 어떤 관계가 성립할 때, 그 관계를 수치적으로 잘 맞도록 해 주는 역할, 즉 로그의 밑 같은 것에 해당한다.)

이번엔 주사위 던지기의 엔트로피를 생각해 보자.
확률(n) = 1/6 for any integer n between 1 and 6.
-엔트로피 = 1/6(log(1/6)) + 1/6(log(1/6)) + 1/6(log(1/6)) + 1/6(log(1/6)) + 1/6(log(1/6)) + 1/6(log(1/6)) = log(1/6)
따라서 엔트로피 = log 6
이것도 만약 log의 밑이 6이라면 엔트로피 = 1

모두 다 같은 확률을 가지는 경우에는, 이처럼 엔트로피가 단순하게 계산된다.

이제, 실전에 들어가 보자. 로또 당첨의 각 등수별 확률은 다음과 같다.
확률(1등) = 1/8145060
확률(2등) = 1/1357510
확률(3등) = 1/35724
확률(4등) = 1/733
확률(5등) = 1/45
내가 직접 계산한 값은 아니라서 이게 진짜 그렇게 되는지는 모르겠지만, 검증하기는 귀찮으므로 일단 믿고 넘어가자. 일단 이 값을 다 더하면 0.0236153305 이다. 대략 2.4%만 당첨된다는 뜻이다. -_-; (5등조차도.)
물론, 당연히 다음과 같다.
확률(꽝) = 1 - 확률(당첨)

- 엔트로피 =  1/8145060 log(1/8145060) + 1/1357510 log(1/1357510) + 1/35724 log(1/35724) + 1/733 log(1/733) + 1/45 log(1/45) + (1-확률(당첨)) log(1-확률(당첨)) = -0.117232782169297292634886427813927570789488305228976152956
이 계산은 구글에서 검색할 수 없어서 정답 검색으로 유명한 울프램 알파를 써 봤다.

엔트로피 = 0.118

이게 무슨 의미인가...
위에서 동전 던지기의 엔트로피를 실제로 계산하면 log(2) = 0.69정도 되고,
주사위 던지기의 엔트로피를 계산하면 log(6) = 1.79정도 된다.
로또 복권의 엔트로피는 이런 것들보다 훨씬 낮은 편이다.

이제 이걸 실제 확률 과정에서 한번 살펴보자.
만약 동전을 1000번 던져서 300번이 앞, 700번이 뒤가 나왔다고 하자. 이 경우의 엔트로피는
- 엔트로피 = 0.3 log(0.3) + 0.7 log(0.7) = -0.610864
엔트로피 = 0.61이다. 즉, 동전던지기에서 각각 500번씩 나오는 경우보다 엔트로피가 작다.
실제 로또 복권의 당첨 확률을 이용하여 엔트로피를 계산하면,
아마 위에서 계산한 로또 복권의 이상적인 경우에 대한 엩ㄴ트로피보다 더 작게 나올 것이다.
실제로 계산해 보고 싶긴 한데 총 몇개가 팔렸는지에 대한 자료를 알기가 어렵다. 회차별 자료는 있는데,
이걸 다 더하려니 막막하다. -_-;


by snowall 2010. 9. 12. 03:19