이 글은 별 의미 없다. 기록해두려고 작성한다.

친구가 실험실에서 얻은 결과를 분석하는데 어떻게 해야 할지 모르겠다고 나에게 구원 요청을 해 왔다. 어떤 실험인가 하면, A라는 약품의 효과를 샘플에 주입해서 샘플에서 나오는 빛의 양을 측정하여 알아내는 실험이다. 즉, 가정은 A물질을 샘플에 투입한 양과 샘플에서 나오는 빛의 밝기 I사이에 상관관계가 있다고 주장하는 것이다. 그리고 이 실험을 진행하면, A물질을 샘플에 투입한 후 지난 시간에 따라서도 빛의 밝기가 변한다.

이걸 의미있게 분석하기 위해서 통계적으로 가설 검증을 한다. 실험 결과의 분석은 다음과 같다. A물질을 샘플에 투입하기 전의 빛의 밝기를 Baseline으로 잡는다. 즉, 그만큼은 원래 있었다는 뜻이다. 그리고 A물질을 샘플에 투입한 직후의 밝기를 Initial으로 잡는다. 시작할 때 값이라는 뜻이다. 이래 놓고서 시간에 따른 빛의 밝기를 측정한다. 시간에 따라 밝기는 대체로 어두워지는 편이다.

모든 과학적인 실험은 반복성, 재현성이 있어야 하기 때문에 동일한 샘플을 만들어서 동일한 양의 A물질을 투입하고 동일한 실험을 하였다. 하지만 샘플이 사실은 생물학적 샘플이다 보니 아무리 조건을 동일하게 하더라도 결과가 조금씩은 달라지고, 눈에 드러나는 반복성은 A물질이 많이 들어갈수록 Initial이 더 커진다는 것과 시간이 지날수록 밝기가 어두워진다는 것 정도이다. 이정도는 통계적 검증을 하지 않고 주관적으로 말할 수 있는 사실이긴 한데, 문제는 통계적 검증을 해야 논문을 쓸 수 있다는 것이다.

하지만 매번 같은 실험을 하더라도 Baseline도 바뀌고 Initial도 바뀌기 때문에 어떻게 할 수 없는, 그런 문제가 발생했다. 1번 실험과 2번 실험을 합쳐서 통계적 유의미함을 얻어낼 수가 없다. 생물학적으로 바뀌는 부분을 보정해 줘야 이 실험이 어떤 유의미함을 갖게 될 것이다. 그래서 내가 제안한 방법들은 다음과 같다.

1. Scaling은 어떨까?
실험이 어떻게 되는진 정확히 모르겠지만, 1번 실험과 2번 실험에서 얻은 각 측정값에 어떤 상수 a를 곱해주면 같은 경향이 되지 않을까? 하지만 Baseline의 비율이나 Initial의 비율 중에 하나를 기준으로 삼아야 하는데, 어떤걸 기준으로 삼아도 그 이후의 경향성을 제대로 분석할 수 없다는 결론을 얻었다.

2. 그냥 빼버리면?
비율은 상관 없이 각 실험의 측정값들이 어떤 상수 a만큼만 차이가 있다면? 이것도 바로 기각되었는데, 그래프 생긴게 "시간이 지날수록 어두워진다"는 경향성만 같을 뿐 수치상으로는 별 관련이 없었다.

3. 1번과 2번을 다 합쳐서 Y=aX+b의 관계가 있는건 아닐까?
역시 계산해봤는데 별 관련이 없었다.

4. 푸리에 변환을 해보면 주파수 영역에서 뭔가 관련성이 나오지 않을까?
푸리에 변환을 하고 싶었는데 점이 8개밖에 없어서 분석이고 자시고 할 게 없었다.

5. Y=f(X)의 관계가 있다 치고 그걸 찾아내는건 어떨까?
무슨수로...-_-;

6. Convolution을 공부해서 해보자.
그 친구에게 Convolution을 가르치는건 뭐 어떻게 한다 쳐도, 그 논문을 읽고 심사할 그 분야의 다른 연구자들까지도 Convolution을 잘 알거라고 크게 기대하기 힘들다. 그리고 어쨌든 Convolution은 그 분야에서는 잘 쓰는 방법은 아니라고 하더라.

그래서 그냥 그 친구는 아무런 보정도 하지 않고 그냥 평균을 냈다.

나만 허무했지 뭐.
by snowall 2010. 7. 24. 10:36
  • 탠저린양 2010.07.24 13:38 신고 ADDR EDIT/DEL REPLY

    '-'.. 별로 과학적인 방법은 아닌거같지만
    예전에 투과도 실험할 때 10번정도 기록을 해두고 가장 큰 값이랑 작은 값을 제외시킨후
    나머지 결과들에서 나중 투과도 - 처음 투과도 한 수치를 계산해 통계치 내니
    그럭저럭 괜찮은 결과인 것 같았다는용...깔낄깰

    • snowall 2010.07.24 16:40 신고 EDIT/DEL

      실험을 4번밖에 안해서 가장 큰 값과 가장 작은 값을 제외하면 샘플이 2개밖에 남지 않는 무시무시한 결과가 나오는 상황이었습니다. ㅡㅡ;

    • snowall 2010.07.24 16:44 신고 EDIT/DEL

      아, 그리고 최대값과 최소값을 빼고 통계를 내는 것은 실제로 과학자들도 자주 사용하는 과학적인 방법입니다. 실험을 하다 보면 원인을 알 수 없이 똑같은 조건에서 다른 결과가 나오는 경우가 있는데, 그런걸 방지할 수 있죠. 물론, 그 값들이 왜 의미가 없고 통계에서 왜 뺐는지는 따로 분석을 해 둬야 논문이 가치있는 논문이 됩니다.
      뭐 올림픽에서 체조 경기같은 거 채점할 때에도 그 방법 쓰잖아요?

  • starrynight 2010.07.24 15:40 신고 ADDR EDIT/DEL REPLY

    이 포스트도 왜 이렇게 제 사례랑 비슷한지 ㅋㅋ
    저도 baseline의 global한 변화가 찜찜했지만 데이터 훼손으로 태클당할까봐 그냥 냅뒀습니다;;

    • snowall 2010.07.24 16:41 신고 EDIT/DEL

      사실 자료를 어떻게 분석하든 분석가 마음이고, 거기에 딴지를 거는건 독자 마음이죠. ㅋㅋㅋ