키보드를 누르면, 단어를 입력할 수 있다. 그렇다면 어느 언어가 가장 효율적으로 입력할 수 있을까? 이때 말하는 입력 효율성이란, 가장 적은 타수로 입력이 가능한 것을 말한다.
이것을 분석하는 데에는 정성적인 분석과 정량적인 분석 방법이 있을 수 있다. 정성적인 방법은 같은 개념을 입력하는데 필요한 타수를 봐야 할 것이다. 그러나 이 경우 한 단어에 연결된 다른 언어의 단어가 여러개가 있을 수 있고 그 각각이 타수가 다를 수 있으므로 이 경우에는 적절하지 못하다. 따라서 난 정량적인 분석 방법을 택하려고 한다.
정량적인 분석 방법이란 단어의 뜻과 상관 없이 사전에 있는 단어를 빈도수와 타수를 곱해서 평균을 내는 것이다. 많이 쓰는 단어가 짧을수록 입력 효율성이 향상된다는 가장 간단한 가설을 설정해 보았다. 예를 들어, apple이라는 단어가 100단어당 1회 빈도로 사용된다면 apple은 5타를 쳐야 하고 여기에 1/100을 곱해서 평균에 집어넣는 것이다. 한국어의 경우 "사과"라는 단어가 1000단어당 1회 빈도로 사용된다면, 역시 사과는 5타를 쳐야 하므로 5타에 1/1000을 곱해서 사용한다. 따라서 사전에 단어가 1개밖에 없다면 이 경우 영어의 입력 효율성이 더 좋다고 결론지을 수 있다. 입력 효율성에 관한 숫자는 작을수록 좋은 숫자이다.
실제적인 조사 방법론으로서 인터넷을 사용할 수 있을 것이다.
웹에서 제공하는 사전의 표제어 목록을 가져다 글자로부터 타수를 알아낸다. 영어와 일본어는 1타에 1개 글자가 대응되므로 대단히 쉬울 것이고 한글은 2부터 4까지 있으므로 적당한 프로그램이 필요할 것이라고 본다.
사용 빈도수는 검색엔진에서 나타나는 검색 결과 숫자로부터 유추할 수 있다. 단, 이 경우 언어의 사용 인구가 많기 때문에 나타나는 편중을 막기 위하여 검색 결과 숫자의 평균으로 규격화(normalize)한다.
$$효율성 = \frac{\sum \frac{타자수}{사용 빈도수}}{\sum \frac{1}{사용빈도수}}$$

일단 방법론은 이쯤에서 마치고, 이제 프로그램 개발에 들어갈 차례다. python을 이용해볼 생각이다.
필자의 개인 사정상 이 연구의 결론은 언제 작성할 수 있을지 기약이 없음을 시작부터 명확히 밝혀둔다.
by snowall 2007. 8. 19. 11:04