구글 v2.5 번역도 한 3개월 정도 사용한 것 같은데 전반적으로 번역 품질은 꽤 만족스러운 편이네요 고성능의 AI 번역에는 비할 바는 아니지만 번역을 이해하는 데 큰 문제는 없고 번역 자체도 대부분 자연스럽고 비속어나 어려운 단어나 문장도 곧 잘 번역하는 것 같습니다
(v2.5 등의 버전 표기는 구분을 위해 제 임의로 붙인 것이고 구글이 사용하는 공식 표기는 아닙니다)
덕분에 과거에 쌓아둔 번역 사전 데이터는 요새는 새 데이터를 추가하는 빈도보다 기존 데이터를 지우는 빈도가 더 많은 느낌이네요 (이 사전 데이터는 모든 상황에서 보편적으로 쓸 수 있는 범용/단일 번역인 반면 구글 번역은 상황에 맞춰서 더 적절하게 번역하고 있습니다)
아무튼 그럼에도 불구하고 꽤 치명적인 오역(버그)이 몇 가지 있습니다 이 글에서는 이런 오역 패턴에 대해서 조금 이야기해 보겠습니다
1. 러시아어
원문: You know - think up a little surprise for me?
번역: 있잖아, 나를 위해 작은 сюрприз 를 생각해 내는 거 말이야? -> 놀라움/서프라이즈
원문: Seriously, the feeling is incredible .
번역: 정말이지, 그 느낌은 невероят 했다. -> 놀라웠다
원문: I thought it was pretty obvious ?
번역: 꽤 очевид 한 거 아니었어? -> 명백한
이전에도 가끔 번역문에 일본어나 한자가 튀어나오거나 하는 경우가 있었는데 최근 번역에는 러시아어가 상당히 높은 빈도로 나옵니다 작은 게임은 평균적으로 10개 정도, 분량이 많은 게임은 수십 개 이상이네요
저를 포함해서 러시아어를 읽을 수 있는 분들은 많지 않을 거라고 생각하기 때문에 이 부분은 상당히 치명적인 오역에 속한다고 생각하고 최근 번역들은 제가 번역 후에 러시아어 문자를 따로 검색해서 수작업으로 수정하고 있습니다 덕분에 평균 번역 처리 시간이 조금 늘어났습니다
또 다른 문제는 러시아어 뿐만 아니라 때때로 아랍어라든지 다른 언어도 보이네요 ㅋㅋ 다만 빈도는 러시아어가 가장 많고 다른 언어까지 다 처리하기에는 너무 힘들어서 다른 언어는 테스트 중에 발견되는 게 아니라면 처리하지 못하고 있습니다
2. 글자 깨짐
원문: Petite as she is, there's nothing dainty about the way Anna knocks back her drink.
번역: 체구는 작지만, 안나가 술을 마시는 모습은 전혀 가
<binary data, 3 bytes>
지 않아. -> 가냘프지
원문: Okay, let's get you two a little fresh air.
번역: 좋아, 너희 둘 다 신선한 공기 좀
<binary data, 5 bytes>
러 가자. -> 쐬러
원문: Don't play the innocent with me, you nasty old sow!
번역: 나한테 순진한 척하지 마, 이 더러운 늙은 암
<binary data, 4 bytes>
지야! -> 암퇘지
특정 글자가 자주 깨지는 현상이 있는데 번역문에 <binary data, 3 bytes> 등의 텍스트가 출력됩니다 이 부분은 번역 과정의 문제라기 보다는 한글 처리 과정에 뭔가 문제가 생긴 것으로 보이네요
정확한 원인은 알 수 없지만 위에서 볼 수 있는 것처럼 주로
냘
,
쐬
,
퇘
와 같이 조금 특수한 구조의 글자가 자주 깨지는 것으로 보입니다 러시아어 오역과 마찬가지로 자동 처리는 어렵지만 검색은 가능하기 때문에 마찬가지로 수작업으로 처리하고 있습니다
3. 대명사 오역 문제
원문:
(엠마의 대사) Maybe I should talk to
Aunt Lucy
?
(샬럿의 대사)
She
's fallen asleep and missed her favourite part of the movie - the six-pack.
번역:
(엠마의 대사)
루시 이모
랑 얘기해 봐야 할까?
(샬럿의 대사)
이모
는 잠들어 버려서 영화에서 제일 좋아하는 부분, 바로 식스팩 장면을 놓쳤어.
-> 여기서 She는 이모가 아닌 엠마
이전 문제점
에서도 언급한 내용인데 대명사(he/she/him/her 등)를 이름 등으로 치환해서 번역합니다 한국어에서는 그/그녀 같은 대명사는 실생활에서 거의 사용하지 않기 때문에 번역의 방향성 자체는 잘못되지 않았지만 문제는 이 대명사를 잘못 추측하는 경우가 상당히 많습니다 첫째로는 물론 AI 자체의 성능 이슈일 수 있지만 게임이라는 매체의 특성상 텍스트가 순서대로 배치되어 있지 않기 때문에 더 그렇기도 하고 게임의 씬 구조를 텍스트만 가지고 정확히 해석하기는 아무래도 어렵겠죠
가장 쉬운 예로 선택지를 생각해 보시면 됩니다 예를 들어 게임을 플레이하던 중 특정 상황에서 선택지 3개가 나온다고 한다면 보통 이 3개의 선택지는 각각 서로 다른 상반된 성격의 선택(문장)일 확률이 높습니다 하지만 AI는 이 3개의 선택지(문장)를 순서대로 구성된 3줄의 문장으로 잘못 해석하기 때문에 오역이 자주 발생하곤 합니다
아무튼 이 문제는 현재 진행형이고 딱히 해결 방법이 없습니다 제가 초반부 정도만 테스트 플레이를 하다가 보이면 몇 개 수정하는 정도네요 이 문제를 괜찮다고 생각하시는 분도 있을 거고 아닌 분도 있을 거라고 생각하는데 일단 제가 안 괜찮습니다 어쨌든 가장 해결하고 싶은 문제 1순위이지만 해결 방법도 없고 게임을 플레이하다가 찾는 게 아닌 이상 검색하는 것도 불가능에 가깝습니다
4. 기타
최근에는 쯧을
쯯
으로 표기하는 경우도 많습니다 (예: 쯧쯧 -> 쯯쯯)
다행히 쯯이라는 글자는 실생활에서는 사용하지 않은 글자이기 때문에 그냥 일괄(자동) 처리가 가능한 부분이네요
또 하나는 말줄임표(…)의 사용 빈도가 갑자기 늘어났습니다
원문과 관계없이 마침표 3개(...)를 말줄임표(…) 특수 문자 1개로 교체하는 상황이 많은데 폰트에 따라서 개인적으로 조금 보기 불편한 경우가 많더군요 어쨌든 마찬가지로 일괄 처리가 가능하기 때문에 큰 문제는 아닙니다
그 외에도 영어나 한국어에서는 잘 사용하지 않은 특수 기호를 자주 쓰는 모습이 보이네요 (예: <Test> -> «테스트») 아마도 일본어나 다른 언어의 영향을 보입니다
제가 언급한 문제 이외에 플레이하시면서 발견하는 특이한 (주로 반복적으로 보이는) 오역이 있다면 알려주세요 또 번역 상태에 대한 피드백은 언제든지 환영합니다 번역이 좋았다 나빴다 정도만 알려주시더라도 많은 도움이 되고 가능하면 제가 확인해 볼 수 있도록 좀 더 구체적인 문장 예시까지 들어주시면 더 좋습니다
