글
아까 그 친구가 이번엔 다른 질문을 해왔다. 그래프를 그려봤더니 오차 범위가 너무 커서 줄이고 싶댄다. 이봐, 그러고 싶으면 실험을 다시 해야지...-_-;
실험을 다시 할 여유는 없고 뭔가 적당한 땜빵을 통해서 처리하고 싶다고 해서 통계과에 물어 봤더니 로그를 취해서 통계를 내 보라고 했댄다.
로그로 그래프를 그리는 것도 물론 의미가 있는 행위이기 때문에 그럴 수 있긴 한데, 문제는 로그를 취하는 시점이다.
1. 평균을 내고, 분산을 구한 후, 각각에 로그를 취한다.
2. 원래의 실험값에 로그를 취한 후, 각각에 평균을 내고 분산을 구한다.
이 두가지 방법은 비슷해 보이지만 다른 결과를 내놓는다. 그 친구의 질문 중에는 상용로그냐 자연로그냐 아니면 다른 밑을 선택해야 하느냐는 질문도 있었지만, 모든 로그는 고등학교때 배운 밑변환 공식을 통해서 서로 상수배의 차이밖에 없으므로 그건 중요하지 않은 질문이다. 바꾸고 싶으면 숫자 하나만 곱해주면 되기 때문이다.
값 2개만 생각해 보자. 10과 100이다. 알다시피 평균은 55이고 분산은 45이다. 여기에 상용로그를 취해주면 1.74와 1.65가 각각 평균의 로그값과 분산 로그값이다. (분산과 표준편차는 로그의 세상에서는 2배차이밖에 없으므로 아무거나 써도 된다.)
하지만 로그를 먼저 취하면 1과 2가 된다. 간단히 계산해 보면 평균은 1.5이고 분산은 0.25이다. 평균은 뭐 그럭저럭 비슷한데 분산은 완전히 달라진다. 이렇게 된 이유는 무엇일까?
사실 로그를 취한다고 해서 통계적인 값들이 달라지면 안된다. 의미가 달라져도 안된다. 그런데 위와 같은 과정에서는 값이 달라지고 의미도 달라졌다.
우선, 평균을 내고 분산을 구한 다음에 나중에 로그를 취하는 것은 원래의 값이 어땠는지 그대로 놔두고 그 값의 경향성을 로그로 분석한다는 의미가 된다. 하지만 로그를 먼저 취하고 그 값의 평균과 분산을 구하는 것은 원래의 값보다는 원래의 값에 붙어있는 지수에 대해 평균과 분산을 구하는 것이 된다. 물론, 지수함수와 로그함수는 원래의 수가 커지면 함수값도 커지는 Definitely increasing 함수들이기 때문에 이렇게 하는 것이 원래 값들의 경향성을 바꾸지는 않는다. 하지만 지수에 대해 분석하는 것과 원래의 값에 대해 분석하는 것은 그래프를 그려보면 원래의 그래프와 비교해서 왜곡이 생긴다는 것을 알 수 있다.
로그 그래프를 그려서 비교하는 이유는, 가령 어떤 현상이 지수함수적인 경향성을 갖고 있을 때에나 가능하다. 즉, 예를 들면 측정값이 1000이 나오는 경우가 10번에 1번, 100이 나오는 경우가 20번에 1번, 10이 나오는 경우가 30번에 1번 등으로, 그런 경향성이라면 측정값에 로그를 취해서 측정값의 지수와 출현 빈도를 비교하는 것이 좋다. 그런데 솔직히 말해서 친구가 물어본 위와 같은 경우에는 로그를 취하는 것이 통계적으로 큰 의미가 없다. 단지 그래프의 왜곡을 통해서 오차 범위가 작아 보이도록 하는 효과가 있을 뿐이다.
어쨌거나 이렇게 해도 오차가 그다지 줄어들지는 않기 때문에 그 친구는 그냥 원래 값 그대로 그래프를 그리고 실험 결과 분석에는 그냥 적당히 억지를 썼다는 허무한 결말로 이 글을 마친다.
실험을 다시 할 여유는 없고 뭔가 적당한 땜빵을 통해서 처리하고 싶다고 해서 통계과에 물어 봤더니 로그를 취해서 통계를 내 보라고 했댄다.
로그로 그래프를 그리는 것도 물론 의미가 있는 행위이기 때문에 그럴 수 있긴 한데, 문제는 로그를 취하는 시점이다.
1. 평균을 내고, 분산을 구한 후, 각각에 로그를 취한다.
2. 원래의 실험값에 로그를 취한 후, 각각에 평균을 내고 분산을 구한다.
이 두가지 방법은 비슷해 보이지만 다른 결과를 내놓는다. 그 친구의 질문 중에는 상용로그냐 자연로그냐 아니면 다른 밑을 선택해야 하느냐는 질문도 있었지만, 모든 로그는 고등학교때 배운 밑변환 공식을 통해서 서로 상수배의 차이밖에 없으므로 그건 중요하지 않은 질문이다. 바꾸고 싶으면 숫자 하나만 곱해주면 되기 때문이다.
값 2개만 생각해 보자. 10과 100이다. 알다시피 평균은 55이고 분산은 45이다. 여기에 상용로그를 취해주면 1.74와 1.65가 각각 평균의 로그값과 분산 로그값이다. (분산과 표준편차는 로그의 세상에서는 2배차이밖에 없으므로 아무거나 써도 된다.)
하지만 로그를 먼저 취하면 1과 2가 된다. 간단히 계산해 보면 평균은 1.5이고 분산은 0.25이다. 평균은 뭐 그럭저럭 비슷한데 분산은 완전히 달라진다. 이렇게 된 이유는 무엇일까?
사실 로그를 취한다고 해서 통계적인 값들이 달라지면 안된다. 의미가 달라져도 안된다. 그런데 위와 같은 과정에서는 값이 달라지고 의미도 달라졌다.
우선, 평균을 내고 분산을 구한 다음에 나중에 로그를 취하는 것은 원래의 값이 어땠는지 그대로 놔두고 그 값의 경향성을 로그로 분석한다는 의미가 된다. 하지만 로그를 먼저 취하고 그 값의 평균과 분산을 구하는 것은 원래의 값보다는 원래의 값에 붙어있는 지수에 대해 평균과 분산을 구하는 것이 된다. 물론, 지수함수와 로그함수는 원래의 수가 커지면 함수값도 커지는 Definitely increasing 함수들이기 때문에 이렇게 하는 것이 원래 값들의 경향성을 바꾸지는 않는다. 하지만 지수에 대해 분석하는 것과 원래의 값에 대해 분석하는 것은 그래프를 그려보면 원래의 그래프와 비교해서 왜곡이 생긴다는 것을 알 수 있다.
로그 그래프를 그려서 비교하는 이유는, 가령 어떤 현상이 지수함수적인 경향성을 갖고 있을 때에나 가능하다. 즉, 예를 들면 측정값이 1000이 나오는 경우가 10번에 1번, 100이 나오는 경우가 20번에 1번, 10이 나오는 경우가 30번에 1번 등으로, 그런 경향성이라면 측정값에 로그를 취해서 측정값의 지수와 출현 빈도를 비교하는 것이 좋다. 그런데 솔직히 말해서 친구가 물어본 위와 같은 경우에는 로그를 취하는 것이 통계적으로 큰 의미가 없다. 단지 그래프의 왜곡을 통해서 오차 범위가 작아 보이도록 하는 효과가 있을 뿐이다.
어쨌거나 이렇게 해도 오차가 그다지 줄어들지는 않기 때문에 그 친구는 그냥 원래 값 그대로 그래프를 그리고 실험 결과 분석에는 그냥 적당히 억지를 썼다는 허무한 결말로 이 글을 마친다.
RECENT COMMENT