요새 자동 역식이 편해진 것 같지만, 여전히 말풍선 없는 경우 상당히 분석하기 힘들었던 기억이 있다.
메인 아이디어는 그림에서 대사 부분만을 따와, OCR에 집어넣는 평범한 방식.
우선 Isenori 작가의 작품에 대해서 하드코딩하는 식으로 진행했다.
Isenori 작가의 작품은 이런 식으로, 항상 대사는 흰색 + 이중테두리가 들어가 있다.
우여곡절이 많았지만, 아래와 같이 대사를 추출하고 OCR에 넣기 위해 전처리하는 것에는 성공했다.
대충 궁금해하는 사람이 있을 것 같기도 해서 설명하자면,
아래와 같이 블럭으로 자른 뒤, 세로로 dilate시켜 잉크량을 보고 판별하는 방식이다.
글자만 남기는 건 색 반전과 Threshold, 침식 뭐 이런 느낌으로 진행했다.
그래서 우선 전처리 결과는 만족스러웠다.
사람이 보기에는 편하다.
하지만 사실 사람은 원래의 사진을 보고서도 대사를 어렵지 않게 읽는다.
OCR을 하는 것이 애초에 목적이었다.
처음 올라간 사진을 위와 같이 전처리 공정을 거친 다음, manga-ocr (정확히는 manga-ocr-base-2025) 모델을 기반으로 OCR을 진행하니,
아래와 같은 결과물을 얻었다.
보다시피, 어느 정도 잘 읽긴 한다.
약간 다르게 읽어버리는 것들도 보인다.
少しつこう呼び私にも登場してくれるのは当然嬉しい
약간 이렇게 불러 나에게도 등장해 주는 건 당연히 기쁘다
(어차피 번역 안되는 문장, 대충 이런 느낌)
少しコミュ障な私にも普通に接してくれるのは、当然うれしい
약간 커뮤증인 나에게도 평범하게 대해 주는 건, 당연히 기쁘다
위가 OCR 결과, 아래가 원문이다.
사실 이런 경우 OCR 결과로는 전혀 원문이 예상이 안 간다. 어쩔 수 없는 희생인가, 하고 생각하고 있자니
생각보다 이런 결과가 빈번히 일어난다.
위와 같은 전처리 결과물을 OCR했을 때,
사용한 모델은 아래와 같은 결과를 보인다.
これから情報をしての本当の家。
지금부터 정보를 해서의 진짜의 집.
원문은
これが私の、雌奴隷としての本当の姿。
이것이 나의, 암노예로써의 진짜 모습.
전혀 다르다.
만족스럽지 않다.
기존 manga-ocr은 manga-ocr-base-2025보다 성능이 떨어지니 논외로 한다.
Ballontranslator가 manga-ocr 기반인 것으로 알고 있는데, 아마 이 문장이 제대로 안 읽힐 것이다.
폰트가 약간 둥글고, 테두리 날려버리면서 더더욱 모델이 학습한 데이터셋과 거리가 생겨서
약간 복잡한 한자는 아예 다르게 읽어버리는 현상이 생기는 것 같다.
또 폰트가 약간 특이해서, manga-ocr은 み를 ふ로 읽어버리곤 했다.
일단, 이렇게 OCR로 추출한 대사를 json으로 정리해 api로 한 번에 번역하니 편하긴 한데,
OCR이 찐빠내는 상황이라 많이 아쉽다.
못 읽는 건 대충 10%, 많으면 20% 정도인 거 같긴 한데, 식질 편하게 하려고 만든 거라 이상한 문장 볼 때마다 좀 숨이 턱 막히는 느낌
아예 가벼운 쪽의 VLM 모델 같은 걸 사용해 볼까 싶지만, GPU가 딸려서 로컬 환경에선 못 돌려볼 것 같다.
전처리 과정도 manga-ocr의 성능을 끌어올리기 위한 과정이었어서, 사실 다른 모델을 사용하면 갈아엎어야 할 것도 같다.
진척 기록 겸 푸념 겸 조언을 구하러 글을 썼다.
+) Isenori 작품 진짜 개맛도리
