텍스트 번역 도우미(번역파일 검수용) (파이썬)

aHR0cHM6Ly9raW8uYWMvYy9hNEJ2QjFMell1Sjd6OUk5bjgxek9i
한달/ㄱㄹ

제가 올렸던 재검수 하는방법이랑 다른 검수 프로그램 구조 참고해서 ai한테 만들어 달라고 하고
대략 4,50번 정도 추가 및 수정하면서 작성한 파이썬입니다
만약에 작동안되면 cmd나 파워쉘로 기능을 아마도 다운받아야할텐데
파이선 스크립트 (확장자명 .py) 메모장으로 열어서 복사해서 ai한테 물어보시면 됩니다

파일이 config, glossary, 텍스트 번역 도우미v최신

이렇게 3가지 있는데 단순히 api 목록, 용어집, 해당 프로그램입니다

[유틸] 통합 텍스트 번역/교정 도우미

이 프로그램은 대용량 웹소설 텍스트의 전처리(청소), 문장 추출, 번역 적용 을 돕는 올인원 툴입니다.
단순히 텍스트를 치환하는 것을 넘어, 번역에 방해되는 요소(작가 후기, 공지, 한자 괄호 등)를 스마트하게 제거 하고, 번역이 필요한 문장만 쏙 뽑아내어 비용과 시간을 절약 하는 데 특화되어 있습니다.

1. 프로그램 주요 기능 소개

[탭 1] 단순 일괄 치환기

복잡한 기능 없이 A단어를 B단어로 대량으로 바꾸고 싶을 때 사용합니다.
원본.txt , 찾을내용.txt , 바꿀내용.txt 를 각각 불러와 실행하면 줄 번호에 맞춰 일괄 변경됩니다. (직접 텍스트 입력도 가능)

[탭 2] 번역 도우미 (메인 기능)

[STEP 1] 강력한 전처리 (Preprocessing)
이 프로그램의 핵심 기능입니다. 텍스트를 읽기 좋게 다듬고 번역 품질을 높입니다.
실행 순서는 [용어집] → [기본 삭제] → [제목 뒤 삭제] → [PS/하단 삭제] 로 진행됩니다.

1. 용어집 적용 (Glossary) :
- 같은 폴더에 glossary.tsv 파일이 있고, [용어집 적용] 체크박스를 켜면(기본값) 가장 먼저 용어를 치환합니다.
2. 기본 삭제 및 교정 (로그 없음) :
- 제목 정제 : ### , ** 같은 기호를 제거하고 중복된 챕터 제목을 정리합니다.
- 한자 처리 : 제목의 漢字(한글) 은 한글 만 남기고, 본문의 (漢字) 는 삭제합니다.
- 특수 파트 삭제 : (본편완) , (이장 완료) 등 에피소드 종료 문구가 나오면 해당문구부터 다음 챕터 제목 전까지 통째로 삭제 합니다.
- 어미 일괄 교정 : ~했어 , ~봤지 , ~네 같은 구어체/반말 어미를 ~했다 , ~봤다 , ~다 같은 서술형 어미로 자동 변환합니다.
3. 키워드 삭제 (로그 생성 - 안전장치) :
- 제목 뒤(상단) 삭제 : 챕터 제목 바로 다음 줄 에 작가의 공지(예: 월표 요청)가 붙어 있을 경우 반복적으로 감지해 삭제합니다. (기본값: .*월표.* )
- PS/하단 삭제 : 챕터 끝부분의 작가 후기(PS), 후원 감사 목록 등을 감지하여 다음 챕터 제목 전까지 삭제합니다.
- 로그 저장 : 키워드로 삭제된 내용은 _deleted.log 파일 에 저장됩니다. (삭제된 문장 + 위치 확인용 다음 문장) 혹시 모를 오삭제를 여기서 확인하고 복구할 수 있습니다.
- 로그 파일(_deleted.log) 확인 후 오삭제가 발견되면, 해당 키워드를 목록에서 제외하고 전처리를 다시 돌리거나 수동으로 복구하시면 됩니다.
- 중복/누락 체크: 누락 및 중복체크를 위한 기능입니다 제목이외에도 사용되는 표현은 중복으로 체크될수 있습니다(예: xxx검법 3장, 성서 제 2장 등)
편의 버튼 :
- [전처리 파일 불러오기] : 이전에 작업하던 결과물( _preprocessed.txt )을 불러와서 이어서 작업할 수 있습니다.
- [중복/누락 체크] : 텍스트 내의 제N장 번호를 분석하여, 중간에 빠진 화수나 중복된 화수가 없는지 자동으로 리포트해 줍니다.

[STEP 2] 문장 추출 (Extraction)

유연한 워크플로우: [전처리 파일 불러오기] 버튼을 통해 기존 작업물을 로드하면, 전처리 과정을 생략하고 바로 문장 추출 단계부터 시작할 수 있습니다.
전처리가 끝난 파일에서 번역이 필요한 외국어 문장 만 추출하여 _to_translate.txt 파일을 만듭니다.
영어 제외 : 기본적으로 영어 알파벳만 있는 문장이나 이미 번역된 한글 문장은 제외합니다. ( [영어 포함] 체크박스로 변경 가능)
이 과정 덕분에 전체를 번역할 필요가 없어 API 비용과 시간을 획기적으로 절약 합니다.

[STEP 3] 번역 적용 (Translation)

API 자동 번역 :
- config.json 에 설정된 Google Gemini API(2.5-pro 기준)를 사용해 50줄씩 끊어서 자동 번역합니다.
- 키 로테이션 : API 키 한도가 차면( 429 error ), 설정해둔 다음 키로 자동으로 넘어가 끊김 없이 작업합니다.
- _to_translate.txt 파일을 직접 수정/선별한 뒤 버튼을 눌러도 반영됩니다. (버튼 클릭 시 파일 재로딩)
- 필요한 api 모델및 사용량, 호출빈도는 직접 스크립트에서 직접 수정해서 사용 가능합니다
수동 번역 파일 적용 :
- AI Studio나 다른 번역기로 따로 번역한 파일이 있다면, 이를 불러와 원본 위치에 정확히 덮어씌웁니다.
[STEP 3 바로 시작] 버튼 :
- 이미 전처리된 파일과 번역 대상 파일( _to_translate.txt )이 준비되어 있다면, 앞 단계를 건너뛰고 바로 번역 적용 단계로 진입할 수 있습니다.

2. 시스템 최적화

대용량 파일 지원 : 수십 MB가 넘는 텍스트 파일도 앞부분 50KB만 분석 하여 인코딩을 감지하므로 로딩 속도가 매우 빠릅니다.
속도 개선 : 반복적인 삭제 작업에 최적화된 알고리즘( callback )을 적용하여, 삭제할 내용이 많아도 버벅임 없이 처리합니다.
호환성 : 결과물은 UTF-16 LE (BOM 포함) 인코딩으로 저장되어 대부분의 텍스트 뷰어에서 깨짐 없이 열립니다.

3. 사용 팁 & 커스터마이징 가이드

[팁 1] 한자가 너무 많이 남는 경우 (재검수 꿀팁)
저는 기본적으로 한자를 다 날리고 보는 스타일이라 제 기준에 맞춰져 있습니다. 만약 작업 후에도 같은 한자가 여러 번 나와서 거슬린다면, 스프레드 시트(엑셀, 구글 시트)를 활용한 재검수 방법 을 추천합니다.

남은 한자들을 긁어서 시트에 넣고 '중복 제거' 기능을 돌립니다.
1. b에 한자들을 넣을 경우 다른 칸에 =QUERY(B:B, "SELECT B, COUNT(B) WHERE B IS NOT NULL GROUP BY B ORDER BY COUNT(B) DESC LABEL B '항목', COUNT(B) '개수'")를 입력합니다
고유명사나 자주 나오는 한자만 추려서 glossary.tsv 에 번역어를 등록하고 프로그램을 다시 돌리면 훨씬 쾌적하고 빠르게 작업할 수 있습니다.

[팁 2] 나만의 기능으로 수정하기
이 프로그램은 파이썬 스크립트( Python Script )로 되어 있습니다.
메모장이나 코드 에디터로 파일을 열어서, 필요한 부분을 AI(챗지피티 등)에게 수정해달라고 요청 해서 쓰시면 됩니다.

예: "이 기능은 빼줘", "이런 문구도 삭제되게 규칙 추가해줘", "버튼 위치 바꿔줘"
전체 코드를 복사해서 AI에게 주고 원하는 기능을 말하면 뚝딱 수정해 줍니다. 본인 입맛에 맞게 개조해서 사용하세요!

[3줄 요약]

필요한 것만 쏙 : 영어/한글은 빼고 번역이 필요한 외국어 문장만 추출 해 줍니다.
똑똑한 청소기 : 작가 후기(PS), 상단 공지, 한자 괄호 등을 자동으로 지워주며, 어미(말투)도 자동으로 교정 해 줍니다. (중복/누락 체크 기능 포함)
안전한 작업 : 키워드로 삭제된 내용은 별도 로그 파일( _deleted.log )에 저장 되므로, 혹시 모를 실수도 쉽게 확인하고 복구할 수 있습니다.

필요하시면 댓글로 문의 해주시거나 ai한테 물어보시면 됩니다(ai가 잘해요)
대체로 자동 번역 제외하고는 꽤나 빠른 편입니다
자동번역 프롬프트는 단순히 한글로 번역해달라는게 다입니다 필요하신경우 수정하시거나 각자 편하거나 빠른 방법 취사선택해서 쓰시면 좋습니다
당연하지만 수정 및 가공 재 배포등 자유입니다

다크모드/라이트모드 둘다 잘보이게 수정했습니다 ㅠㅠ 겨우겨우 해결함;
대신 이미지가 무슨 수를 써도 안되네요 수정버튼 누르면 잘보이는데;;;;