고율님의 "번역 함수"라는 글을 읽고 몇가지 생각을 해 보았다.

단순히 생각하면, 번역은 영어로 쓰인 글을 한국어로 바꾸는 것이다. 번역의 어려움은 다양하다. 난 번역의 전문가가 아니므로 문득 떠오르는 몇가지만 고려해 보도록 하겠다.

우선, 각각의 언어에 있는 단어가 다른쪽에는 없는 개념인 경우이다. 예를들어, nothing은 영어에는 있지만 한국어에는 없는 개념이다. 또는, 우리말의 색채를 표현하는 용어 중에 대표적인 것으로 노란색, 누런색, 노르스름한 색, 노리끼리한 색, 등등은 영어에서는 yellow에 다른 적당한 수식어를 붙여서 표현해야 한다. 둘째로, 하나의 단어가 다른 쪽에서는 여러가지 의미를 가지는 경우이다. 영어의 take라는 동사는 한국어로 번역할 때, 문맥에 따라서 입다, 타다, 가지다, 먹다, 얻다, 들다, 등등의 의미로 사용된다. 사실, 입다, 타다, 가지다, 먹다, 얻다, 들다라는 한국어의 동사들이 모두 take로 번역되면 문제가 없겠지만, 한국어의 그러한 단어들은 또한 wear, ride, get, eat obtain, lift라는 영어로 된 개념이 존재한다.

이러한 문제를 해결하기 위해서는 어떤 방법들이 있을까? 이미 개발된 번역 알고리즘은 잘 모르겠지만, 몇가지 그냥 생각해 볼 수 있다.

먼저, 사전식으로 단어를 치환하는 것이다. 그리고 각 단어들을 해당 언어의 문법에 맞도록 재배치 해야 한다. 그리고 문법 구조에 맞도록 추가적인 구문이 필요하다. 가령, 한국어를 영어로 바꿀 때는, 한국어의 어조사가 담당하는 기능을 영어에서는 단어의 위치와 전치사가 담당하게 된다. 반대로, 영어에서는 단어의 위치와 전치사가 담당하는 기능을 한국어에서는 어조사로 바꿔줘야 한다. 그렇게 된 다음에, 번역을 다듬는 과정이 필요하다.

번역을 다듬는 과정은 다음과 같이 할 수 있다.
예제를 들어서 생각해 보도록 하겠다.
(영어)I take a drug
(한국어) 나는 약을 먹었다.

우선 I, take, a, drug을 각각의 가능한 한국어 단어 집합으로 변환한다

I =
1. 아이 《영어 알파벳의 제9자》
2. 문자 I로 나타내는 소리
3. (로마 숫자의)1:ii,II=2/ix,IX=9
4. I자형(의 것)
5. (연속된 것의)아홉 번째(의 것)
1. (소설 등에서)I(나)라는 말
2. [the ~]【철학】 자아,나(ego)
(다음 영어 사전 발췌)
take =
1
(손 등으로)잡다(seize),움켜잡다(grasp);쥐다,껴안다(embrace)
2 (덫·미끼 등으로)잡다;포획하다;체포하다;포로로 잡다;<게임에서 상대편의 패나 말을>따다
3 점령하다,탈취하다,빼앗다;<상선을>나포하다
4 <상 등을>획득하다,얻다,벌다,손에 넣다,취득하다;받아들이다,승낙하다
5 사다;<좌석 등을>예약하다;<신문 등을>구독하다;<집 등을>(계약하여)빌리다
6 <주는 것을>받다,수납하다(accept);<대가·보수 등을>얻다;<시합 등에>이기다
7a <사람을>채용하다
b <제자를>받다,<하숙인을>두다;입회시키다 《to,into
c <아내를>얻다,맞아들이다
8a 취하다,선택하다(select),골라서 사다
b <길을>잡다,가다
9a 제거하다,없애다 《away;from
b 빼다,감하다 《away;from
c [주로 수동형으로] 생명을 빼앗다
10a 가지고가다,운반하다,휴대하다(⇒bring)
b 데리고가다,태우고 가다
11 <차를>타다,타고 가다;<탈것이>사람을 나르다
12a 가다,이르다;올라가다
b 넘다,뛰어넘다,건너다
c 도망쳐 들어가다,숨다
13 (도중에)들르다,방문하다
14 [보통 it를 주어로 하여]<시간·노력 등을>요하다,걸리다,들다;필요로하다
15a <언어·행동을>해석하다,이해하다,받아들이다
b …이라고 생각하다,여기다,간주하다,믿다
c …한 마음[태도]을 가지다
16a <모양·성질 등을>가지다
b 칭하다,일컫다,이름을 이어받다
17a <책임 등을>지다,떠맡다,맡다
b <소임·직무 등을>맡다,행하다,역할을 하다
c <관직·지위 등에>앉다,취임하다
d <맹세를>하다
18a <어떤 장소·위치에>몸을 두다,자리잡다
b <선두에>서다,<지휘권 등을>장악하다
19a <충고 등을>받아들이다,…에 따르다
b <비난 등을>감수하다,참고 견디다
c <신청·내기 등에>응하다
20 <감정·생각 등을>일으키다,느끼다,경험하다in》;<어떤 입장을>취하다,…측에 서다;…을 논거로 삼다
21 <행동 등을>취하다;<주의력을>발휘하다
22a <음식을>먹다;마시다;복용하다
b 빨아들이다,들이마시다;냄새맡다
c <설탕·우유 등을>넣다
23a <기원·명칭·성질 등을>얻다,따오다 《from
b …에서 생기다[일어나다],유래하다
c 인용하다 《from
24 <휴가·오락 등을>갖다,즐기다
25 <복제 등을>만들다,<기록 등을>적다,<사진을>찍다,<초상화를>그리다
26 <체온을>재다,확인하다;<조사·측정·관찰 등을>하다
27a <병이>침범하다,<병에>걸리다,감염하다
b <발작 등을>일으키다,…으로 되다
c <불이>붙다,옮다
28a 영향[작용]을 받다,효력이 있다;<물감 등을>흡수하다,물들다
b <윤기를>내다
29 <타격이>가해지다 《over》;(정신적으로)엄습하다,덮치다
30 <이목·마음을>끌다;황홀하게 하다,어리둥절하게 하다
31 사용하다(use),이용하다;<기회를>포착하다,틈타다
32 【문법】<어미·목적어·악센트 등을>가지다,취하다
33 【음악】 연주하다,타다,켜다,노래하다
34 <물고기가>입질하다
35 <남자가 여자와>성교하다
36 《속어》 사람을 속이다
37 배우다;<과목·수업 등을>듣다;<시험 등을>치다vi.
1 <고리 등이>걸리다,<자물쇠가>채워지다,<톱니가>서로 맞물리다
2 뿌 리박다(=~ root),<접목(接木)이>붙다;<씨가>싹트다;<약 등이>듣다,<종두(種痘)등이>잘 되다;불이 붙다;<잉크 등이>(종이에>묻다;<물감 등이>스며들다,염색되다
3a 인기를 끌다,환영받다,평판이 좋다 《with
b <계획 등이>성공하다
4 걸려들다;<물고기·새가>(미끼·낚시·올가미 등에)걸리다,잡히다
5a 취하다,얻다;획득하다
b 받다;【법】 재산·소유권을 취득[상속]하다
6 <효과·가치 등이>감소되다,<명성 등이>손상받다 《from
7 (연구 등에)몰두하다,전념하다 《to
8 가다,나아가다 《across,to
9 《미·방언》<병이>들다
10 [양태 부사와 함께 쓰여] 《속어》 사진에 찍히다
11 분리할 수 있다;휴대할 수 있다 《apart
12 《미》<얼음이>얼다
13 《미·방언》 [~ and ...로](자진하여)…하다 ★ 강의어로 또는 용어적(冗語的)으로 씀
14a 좋아하다,정들다 《to
b …하게 되다,시작하다,습관이 붙다,습관에 젖다 《to
c 종사하다 《ton.
1 잡음
2 《주로 영》(임대차 계약에 의한)토지 대차
3 포획량《짐승·물고기 등》;잡힌 것,포획,수확;《구어》 매출액,(입장료의)판매액
4 《속어》 몫,수익률;개인 소득
5a 【인쇄】<식자공이>1회에 짜는 원고
b (신문 기자의)취재
6 【영화】 1회분의 촬영,한 장면;(1회분의)녹음
7 《구어》(시각적·심적)반응,호응
8 《구어》 견해;해석
9 종두가 접종됨
a=
1.
에이 《영어 자모의 첫 자》
2. A자형(의 것)
3. (가정의)제1,갑(甲);【음악】 가 음,가 조(調);【수학】 제1기지수;《미》 수(秀)《학업 성적에서》
4. (연속된 것의)첫번째의 것
drug=
1 , 약제, 약품(⇒ medicine );[pl.] 《》 (치약 ) 위생 약품
2 마약, 마취제(narcotic);흥분제
a drug on[in] the market [be, become 에서] 체화(滯貨), 흔해서 상품
be on drugs 마약 중독이다
do drugs=do the drug thing 속어마약 복용하다
v. (~ged;ging) vt.
1 타다;<음식물> 독약[마취제] 넣다
2 [특히 마취제] 먹이다
3 싫증 하다(cloy)
vi. 마약 상용하다
drug out ·속어녹초 되다, 뻗어 버리다


대충, 각각 4~30가지의 단어를 가진다.
이제, 가능한 문장을 모두 생각해 보자. 예를들어 각 단어가 각각 4가지의 뜻을 갖고 있다면, 4*4*4*4 가지의 문장이 가능하다. 대략 256가지. 물론 대충 추산한 것이므로 가능한 문장은 수천개에 이를 수 있다.
그런 다음, 그 문장들 중에서 실제로 우리가 사용하는 것들을 알아내야 한다. 이것은 "문장 예문 사전"을 갖고 있어야 한다. 가장 이상적인 예문 사전은 한국어에서 말이 되는 것이 가능한 모든 문장을 갖고 있는 것이다. 없으면 비슷한 거라도 갖고 있어야 한다. (구글 검색이 좋을 수도 있다.) 아무튼, 그 예문 사전 속에서 각각의 관계를 찾아내야 한다. 우선, 수천개의 문장 중에서 예문사전에 실제로 들어있는 것들을 찾아낸다. 지금은 겨우 4단어 정도로 이루어진 짧은 문장이므로 금방 찾겠지만, 수십단어로 이루어진 긴 문장은 예문 사전에 없을 수도 있다.
어쨌든, 번역문이 예문 사전에 실제로 있는 문장이라면 그 번역문은 어찌되었든간에 한국사람이 올바른 번역이라고 판단할 개연성이 높은 문장이다.
만약에 번역문을 예문 사전에서 찾을 수 없다면, 번역문을 실제로 새롭게 만들어 내야 한다. 그렇게 하기 위해서는 가장 그럴듯한 패턴을 찾아내야 할 것이다. 그 방법은 다음의 두가지 방법이 가능하다.

우선, 번역문에 들어있는 단어를 모두 포함하는 문장을 찾아낸다. 그런 후, 번역문과 가장 "유사"한 예문을 찾아낸 후 그 예문을 완성된 번역문으로 제시하는 것이다. 이때, 유사하다는 말의 정의는 다음과 같다. 번역문에 들어가 있는 단어를 순서대로 2개씩 쌍으로 묶는다. 첫번째와 두번째 단어, 두번째와 세번째 단어, 등등으로. 그런 후, 예문사전에 있는 문장들도 2개씩 쌍으로 묶는다. 이제, 번역문과 예문을 비교하는데, 각 단어 쌍을 비교하는 것이다. 만약에 모든 단어 쌍이 일치한다면, 번역문과 예문은 동일한 문장이다. 즉, 번역문과 예문이 다르면 다를수록 단어 쌍이 일치하는 수는 적어지게 된다. 따라서, 이러한 점수를 평가하여 번역문과 예문의 일치성을 골라낼 수 있을 것이다.

번역문이 여러개 있고, 각 번역문에 대해서 일치하는 점수가 가장 높은 예문을 가져다 둘 수 있다. 물론 하나의 번역문에 일치하는 점수가 가장 높은 예문이 유일하지 않을 수도 있다. 그럼 그런 예문을 모두 끌어온다.
이렇게 골라낸 예문을 다시 번역문과의 일치하는 점수를 모두 더한다. 즉, 하나의 예문을 골라서 그 예문과 모든 번역문 사이의 일치하는 점수를 더한다. 이 점수는 모든 예문에 대해서 한개씩 부여할 수 있을 것이다. 이제, 그중에서 가장 점수가 높은 예문을 골라낼 수 있을 것이다.

이렇게 골라진 예문은 번역문들과의 단어와 순서 일치도가 가장 높은 예문이다. 아마 원래 문장과 뜻이 같을 개연성이 가장 높은 것이다. 물론, 위의 일치도 점수가 가장 높은 예문이 1개가 아닐 수도 있다. 그럴 때는 단어 쌍을 3개씩, 4개씩 하면서 일치도를 차츰 높여나가면 후보가 되는 예문들이 차츰 줄어들어서 1개만 남을 수 있다.

하지만 그럼에도 불구하고 가장 일치도가 높은 예문을 특정할 수 없을 경우가 있다. 그럼, 이제 문장만 갖고 번역할 수는 없는 상황이다. 문맥과 문단 속에서 의미를 찾아내야 한다. 문단 전체를 이러한 방법으로 번역한 후, 예문들로 구성 가능한 모든 문단을 검토하여 그중에 가장 의미가 맞는 것을 골라내야 한다. 이것 역시 위와 마찬가지 방법으로 가능할 것이라고 본다.
by snowall 2008. 6. 16. 00:27