이 글은 별 의미 없다. 기록해두려고 작성한다.

친구가 실험실에서 얻은 결과를 분석하는데 어떻게 해야 할지 모르겠다고 나에게 구원 요청을 해 왔다. 어떤 실험인가 하면, A라는 약품의 효과를 샘플에 주입해서 샘플에서 나오는 빛의 양을 측정하여 알아내는 실험이다. 즉, 가정은 A물질을 샘플에 투입한 양과 샘플에서 나오는 빛의 밝기 I사이에 상관관계가 있다고 주장하는 것이다. 그리고 이 실험을 진행하면, A물질을 샘플에 투입한 후 지난 시간에 따라서도 빛의 밝기가 변한다.

이걸 의미있게 분석하기 위해서 통계적으로 가설 검증을 한다. 실험 결과의 분석은 다음과 같다. A물질을 샘플에 투입하기 전의 빛의 밝기를 Baseline으로 잡는다. 즉, 그만큼은 원래 있었다는 뜻이다. 그리고 A물질을 샘플에 투입한 직후의 밝기를 Initial으로 잡는다. 시작할 때 값이라는 뜻이다. 이래 놓고서 시간에 따른 빛의 밝기를 측정한다. 시간에 따라 밝기는 대체로 어두워지는 편이다.

모든 과학적인 실험은 반복성, 재현성이 있어야 하기 때문에 동일한 샘플을 만들어서 동일한 양의 A물질을 투입하고 동일한 실험을 하였다. 하지만 샘플이 사실은 생물학적 샘플이다 보니 아무리 조건을 동일하게 하더라도 결과가 조금씩은 달라지고, 눈에 드러나는 반복성은 A물질이 많이 들어갈수록 Initial이 더 커진다는 것과 시간이 지날수록 밝기가 어두워진다는 것 정도이다. 이정도는 통계적 검증을 하지 않고 주관적으로 말할 수 있는 사실이긴 한데, 문제는 통계적 검증을 해야 논문을 쓸 수 있다는 것이다.

하지만 매번 같은 실험을 하더라도 Baseline도 바뀌고 Initial도 바뀌기 때문에 어떻게 할 수 없는, 그런 문제가 발생했다. 1번 실험과 2번 실험을 합쳐서 통계적 유의미함을 얻어낼 수가 없다. 생물학적으로 바뀌는 부분을 보정해 줘야 이 실험이 어떤 유의미함을 갖게 될 것이다. 그래서 내가 제안한 방법들은 다음과 같다.

1. Scaling은 어떨까?
실험이 어떻게 되는진 정확히 모르겠지만, 1번 실험과 2번 실험에서 얻은 각 측정값에 어떤 상수 a를 곱해주면 같은 경향이 되지 않을까? 하지만 Baseline의 비율이나 Initial의 비율 중에 하나를 기준으로 삼아야 하는데, 어떤걸 기준으로 삼아도 그 이후의 경향성을 제대로 분석할 수 없다는 결론을 얻었다.

2. 그냥 빼버리면?
비율은 상관 없이 각 실험의 측정값들이 어떤 상수 a만큼만 차이가 있다면? 이것도 바로 기각되었는데, 그래프 생긴게 "시간이 지날수록 어두워진다"는 경향성만 같을 뿐 수치상으로는 별 관련이 없었다.

3. 1번과 2번을 다 합쳐서 Y=aX+b의 관계가 있는건 아닐까?
역시 계산해봤는데 별 관련이 없었다.

4. 푸리에 변환을 해보면 주파수 영역에서 뭔가 관련성이 나오지 않을까?
푸리에 변환을 하고 싶었는데 점이 8개밖에 없어서 분석이고 자시고 할 게 없었다.

5. Y=f(X)의 관계가 있다 치고 그걸 찾아내는건 어떨까?
무슨수로...-_-;

6. Convolution을 공부해서 해보자.
그 친구에게 Convolution을 가르치는건 뭐 어떻게 한다 쳐도, 그 논문을 읽고 심사할 그 분야의 다른 연구자들까지도 Convolution을 잘 알거라고 크게 기대하기 힘들다. 그리고 어쨌든 Convolution은 그 분야에서는 잘 쓰는 방법은 아니라고 하더라.

그래서 그냥 그 친구는 아무런 보정도 하지 않고 그냥 평균을 냈다.

나만 허무했지 뭐.
by snowall 2010. 7. 24. 10:36