사실은, 통계에 관하여 중요한 내용은 고등학교 수학에서 전부 배운다. 통계에서 가장 중요한 것은 평균과 표준편차를 이해하는 것인데, 워낙에 뒤에서 나오다 보니 거의 대부분의 사람들이 별로 의미있게 배우지 못하고 간다. 하지만, 고등학교에서 배운 수학 중에 실생활에 써먹을 수 있는 거의 유일한 내용이 통계이다. 행렬이나 이차방정식의 근의 공식이나 등식과 부등식 같은 내용은 수능에 많이 나오기 때문에 열심히 공부하지만, 정작 실제로 써먹을 수 있는 통계는 별로 공부하지 않는다는 사실이 슬프다.


고등학교 때 까지 배우는 통계에서 중요한 개념은 도수분포표, 히스토그램, 평균, 분산, 표준편차 등이 있다. 나중에 대학에 가서 통계학을 좀 더 배워보면 상관계수, 유의미성, 오차, 6시그마, 이런 개념들이 나타난다. (뭐 아는 사람은 눈치챘겠지만, 개념들 중 몇개는 겹친다.)


통계에 대하여 어려워 하는 사람들이 많은데, 통계를 고등학교에서 가르친다는 것은 어려운 내용이 아니라 누구나 알아야 하고 이해할 수 있는 과목이라는 뜻이다. 그러니, 이 글에서는 좀 더 쉽게 통계를 이해하는 방법을 생각해 보려고 한다.


통계는, 정말 대충 말한다면, 수가 많은 집단의 특징을 한두개의 대표값으로 정리하는 것이다. 예를 들어, 학생 100명의 성적 자료를 갖고 있다고 하자. 그럼 아마 숫자 100개가 일렬로 늘어서 있을 것이다. 여기서 어떤 사실들을 알 수 있을까? 물론 학생 개개인의 성적은 잘 알 수 있다. 하지만 그런 집단들을 비교해야 한다면? 학생 100명의 영어 성적과 수학 성적을 비교해서 학생들이 어떤 과목을 더 잘하는지 알아내려고 한다면? 우리 학교 학생 100명과 저 학교 학생 100명의 성적을 비교한다면? 올해 성적과 작년 성적을 비교한다면?


그때마다 100명의 성적을 일일히 다 대조하면서 비교할 것인가?


100명인 경우에는 어떻게든 할 수 있다고 치자. 그 규모가 국가 단위가 되면 아무리 적게 잡아도 몇십만명에서 많게는 1억명까지도 된다. 사람에 대한 내용이 아니라 상품이나 실험에 관한 수치가 되면 억 단위를 넘어서 수천억이나 조 단위까지 갈 수도 있다. 이것을 일일히 다 비교해서 원하는 결과를 알아낸다는 것은 불가능하다. 그러나 숫자 한두개로 정리하여 비교한다면 너무나 간단한 일이 된다.


어떤 집단의 대표값은 여러가지 개념이 있는데, 중앙값, 최빈값, 평균값이 있다.


중앙값(median)은 값들을 순서대로 정렬했을 때 가운데 있는 값이다. 즉, 100명의 학생이 있다면 그중 50등의 성적이 중앙값이 된다. 중앙값은 전체 집단의 절반은 더 큰 값을 갖고 있고 나머지 반은 더 작은 값을 갖고 있는 특징이 있다. 


최빈값은 가장 자주 나오는 값이다. 가령, {1,1,1,2,3,4,5}라는 집합이 있으면 여기서 최빈값은 1이다. 물론 중앙값은 2가 된다.


평균값은 다들 알다시피, 값을 다 더한 후 개수로 나누어 구한 값이다.


사실 중앙값, 최빈값, 평균값 중 무엇을 대표값으로 쓸 것이냐는 집단을 연구하는 사람이 아무렇게나 정할 수 있는 것이다. 그럼, 평균값만 알면 되지 중앙값이나 최빈값 같은 다른 개념을 왜 알아야 하는 것일까? 그건, 어느 하나가 모든 것을 대변하지 못하기 때문이다. 가령, 100명 중 1명만 100점이고 나머지 99명이 1점인 분포에서는 평균은 크게 의미가 없다. 최빈값이나 중앙값이 더 의미가 있다. 예를 들어, 100명중 49명이 1점이고, 1명이 25점이고, 나머지 50명이 100점인 분포가 있다고 하면, 이 경우에는 중앙값이 25점이 되므로, 중앙값은 거의 절반이 1점이고 거의 절반이 100점인 전체 집단의 특성에 아무런 정보를 주지 못한다. 이런 특수한 경우가 있기 때문에, 통계는 항상 그 결론을 의심하고 살펴봐야 한다. 그리고, 앞서 말했듯 아무거나 정해도 되기 때문에 통계를 잘 아는 사람들이 원하는 결론을 내기 위하여 엉뚱한 것을 대표값을 정하는 경우가 있다. 가령, 최빈값이 적절한 경우에 평균을 사용하여 다른 결론을 낼 수도 있다. 그러므로, 중앙값, 최빈값, 평균값이 있다는 사실을 알아두고, 누군가 통계적으로 의미가 있다는 주장을 할 때, 항상 그가 이야기하는 값이 정말로 현실을 반영하는지 알아봐야 한다.


평균값은 사실이지만, 그 수 하나만으로 나타낼 수 없는 많은 진실이 그 숫자 뒤에 숨어있기 때문이다.


평균은 전체적으로 어느 값을 중심으로 뭉쳐있는지를 나타낸다. 중앙값, 최빈값, 평균값, 어느 것이든 집단이 어느 수 근처에 모여있는지를 나타내는 값이다. 하지만 그 근처에서 얼마나 뭉쳐있는지는 알려주지 않는다. 그 값을 중심으로 멀리 퍼져있는지, 가깝게 오밀조밀 모여있는지는 수치가 하나 더 필요하다. 그래서 나온 것이 분산, 표준편차, 범위, 사분위범위 같은 산포도 개념들이다.


일단 가장 이해하기 쉬운 것은 범위(range)이다. 범위는, 말 그대로 가장 큰 값과 가장 작은 값의 차이이다. 그러나, 100명 중 99명의 1점과 1명의 100점이 있을 때, 범위가 99점으로 나오므로 이게 과연 이 집단을 잘 설명하는지는 의문이 된다. 물론 1점부터 100점까지 1명씩 다 있는 경우에는 범위가 매우 적절한 수치가 되겠지만.


그래서 나온게 4분위범위이다. 4분위범위는 크기 순서대로 줄을 세웠을 때, 상위 25%와 하위 25%에 해당하는 수치의 차이이다. 쉽게 말해서 100명이 있다면, 25등의 점수와 75등의 점수 차이가 4분위 범위가 된다.


범위와 4분위범위는 집단이 정규분포나 푸아송분포 같은 잘 알려진 분포와 다르게 이상할 때에도 적당히 사용 가능한 산포도이다. 이 범위들의 강력한 대항마로, 분산과 표준편차가 있다.


분산은 쉽게 말해서 "편차 제곱의 평균"이다. 편차는 평균과 값 사이의 차이이다. 평균을 얻었으면, 값에서 평균을 빼서 얻는 것이 편차이다. 당연히 편차의 평균은 0이다. 왜 그런지 궁금하면 직접 계산해 보는 것이 더 빠를 것이다. 편차는 음수도 있고 양수도 있기 때문에 평균을 내면 0이 된다. 그래서, 음수를 없애기 위해서 제곱하고, 그것을 평균을 내서 분산으로 삼았다..


분산은 제곱한 수들을 평균낸 것이기 때문에 단위가 평균과 다르다. 따라서, 단위를 맞춰주기 위해서 도입한 것이 표준편차이다. 표준편차는 분산의 제곱근이다. 다시 말해서, 표준편차를 제곱하면 분산이 나온다.


표준편차는 라는 기호로 쓴다. 이 기호는 "시그마"라는 그리스 문자이다. 맞다 그 6시그마의 그 시그마가 이 시그마이다. 표준편차의 6배까지 오차를 줄인다는 뜻이 6시그마 공정의 의미이다.


표준편차는 무슨 의미일까?


일단, 많은 과학자들이 인정하고 넘어가는 사실이 있는데, "웬만한 경우, 어떤 사건이 일어날 확률은 정규분포 곡선을 따른다"는 것이다. 정규분포 곡선은 함수로 치면

이렇게 생긴 함수이다. e위에 있는 지수의 분모를 보면 시그마가 들어가 있는 것을 볼 수 있다. 그래프 생긴건 다음과 같이 생겼다.


http://ko.wikipedia.org/wiki/%ED%8C%8C%EC%9D%BC:Normal_Distribution_PDF.svg


그럼 어쨌든 생긴건 종 모양으로 생겼고, 끝으로 갈 수록 0에 가까워지는 모양이다.


이게 왜 중요할까? 많은 일들이 이 그래프의 확률 분포를 따라 일어나기 때문이다. 저 그래프의 아래에 있는 영역의 넓이가 어떤 일들이 일어날 확률을 나타낸다. 그러니까, 평균을 중심으로 표준편차만큼 좌우로 퍼진 영역의 넓이는 전체의 68%이다. 이것은 어떤 실험을 하거나 어떤 현상을 관찰했을 때, 평균과 표준편차를 알고 있다면, 그 실험을 다시 했을 때 평균 근처의 값을 얻을 확률에 관한 이야기이다. 100번 실험했을 때, 그 중 68번 정도는 평균에서 1시그마 이상을 벗어나지 않는다는 뜻이다.


2시그마는 95.5%, 3시그마는 99.7%, 4시그마는 99.99%, 5시그마는 99.9999%, 6시그마는 99.9999998%에 해당한다. 가령, 6시그마는 실험을 100000000번 해서 한두번 정도가 그 바깥으로 벗어난다는 뜻이다.


하지만, 이것은 평균과 표준편차를 알고 있을 때의 이야기라고 했다. 사실 진짜 얘기는 지금부터인데, 많은 통계 결과가 표본에 대해서만 조사하지 전수조사는 하지 않는다. 여론조사에서 5000만명을 무슨 수로 다 조사하는가. 그 중 1000명 정도만 뽑아서 조사한다. 이 때 바로 "신뢰구간"이랑 "신뢰수준"라는 말이 나오는데, 이것이 바로 이 글에서 이해해야 하는 중요한 개념이다. 원래 이 얘기를 하려고 했는데 앞에서 뭔가 나도 잘 모르는 어려운 개념들을 설명할 수 밖에 없어서 힘들었다.


신뢰구간은 평균이 그 안에 들어가 있을 구간이다. 신뢰수준은 평균이 그 안에 들어가 있을 확률이다. 가령, 여론조사에 관한 언론 보도를 보면 "표본수 1000명에 대해 조사하여 신뢰수준 95%수준에서 A후보에 대한 지지율이 45%에서 플러스 마이너스 3%포인트이다" 처럼 생긴 문장이 흔하게 보인다. 저게 무슨 뜻이냐 하면, 똑같은 조사를 100번을 했을 때 그 중 95번 정도는 A후보에 대한 지지율이 42%에서 48% 사이에 있을 것이라는 뜻이다.


언론에서 여론조사나, 다른 통계 수치를 갖고서 이야기할 때 봐야 하는 말은 위의 예시 문장에 다 들어가 있다. 표본수, 평균값, 신뢰수준, 신뢰구간이 모두 나와 있어야 한다. 위의 문장의 경우 표본수는 1000명, 신뢰수준은 95%, 평균값은 45%, 신뢰구간은 위아래로 3%포인트가 된다. 만약 하나라도 빠져있다면 아무리 저명한 연구기관이나 조사기관에서 발표했어도 그 통계는 믿을 수 없으며, 갖다 버려도 된다.


신뢰수준을 높이면 신뢰구간은 넓어진다.


신뢰수준을 높이면, 그 신뢰수준에 해당하는 신뢰구간은 평균이 그 안에 확실하게 들어가야 하므로 더 넓어질 수밖에 없다. 결국 신뢰구간을 줄이려면 표본의 수를 더 크게 키우는 수밖에 없다. 조사를 많이 할 수록 더 정확한 통계가 나오게 된다는 뜻이다.


어떤 통계를 믿으려면, 표본이 충분히 커야 하고, 신뢰수준이 충분히 높아야 하며, 신뢰구간은 충분히 작아야 한다. 여기서, "충분히"라는 말이 과학적으로 들리지 않겠지만, 어쩔 수 없다. 이것은 각자의 소신과 경험에 맞춰서 믿을지 믿지 않을지를 정해야 한다.



통계에 대해 좀 더 쉽고 재미있게 공부하고 싶다면 다음의 책을 추천한다.

통계의 미학(http://www.kyobobook.co.kr/product/detailViewKor.laf?ejkGb=KOR&mallGb=KOR&barcode=9788988165911&orderClick=LAH)

이 책은 통계에 관심있는 일반인에게는 매우 추천할만한 책이다. 통계의 중요한 내용들을 쉽고 재미있는 사례를 통하여 소개하고 설명하고 있다. 

통계학 길잡이(http://books.google.co.kr/books?id=gUB2MwAACAAJ&hl=ko&source=gbs_similarbooks)

통계학을 만화로 배울 수 있는 좋은 책이다. 은근히 전문적이지만 쉽고 재미있게 설명하고 있다.


by snowall 2013. 3. 24. 13:59