텍스트 번역 도우미 업데이트 및 3.0플 누락방지 번역법

aHR0cHM6Ly9raW8uYWMvYy9kcGVHUHJ3a3REUlBEX29kTE5BNVNi
30일/국룰

본래 기능은 밑에 링크 참고해주세요
https://kone.gg/s/ainovel/cMO2lkEO1fTuj4s9wD1zOb

누락/병합 도구 사용법 & 누락방지 번역법

1. 배치 번역기나 기타 번역 프로그램+원문파일 준비

2. 원문 파일을 포멧팅합니다( 빈줄, 텍스트 앞에 각종 공백 제거후 처음부터 숫자 붙이기)

3. 프롬프트에
[
  {"source": "숫자:: 원문 문장 1", "target": "숫자:: 번역 문장 1"},
  {"source": "숫자:: 원문 문장 2", "target": "숫자:: 번역 문장 2"},
  {"source": "숫자:: 광고 등 삭제 대상 문장", "target": "숫자::삭제한 문장"},
...
]
이런 항목 추가해서 결과물이
[
  {
    "source": "1::::声明：本书为八零电子书(txt8080.com)的用户上传至本站的存储공간，本站只提供TXT全集电子书存储服务以及免费下载服务，以下作品内容之版权与本站无任何关系。",
    "target": "1::삭제한 문장"
  },
  {
    "source": "2::::---------------------------用户上传之内容开始--------------------------------",
    "target": "2::삭제한 문장"
  },
  {
    "source": "3::::《剑卒过河》作者：惰堕",
    "target": "3::검졸과하(剑卒过河) 저자: 타타"
  }
]
이런식으로 나오게 만들고 번역기를 사용

4. 번역기로 모든 결과물이 나오면 원문 파일을 포맷팅한 파일로 새로 찾고 기존번역에 결과물을 입력하고 추출함
└ 프롬프트에 의해 삭제된 결과물은 따로 추출해서 확인하거나 마지막 추출에서 안합쳐짐

5. 나온 결과물을 재번역

6. 재번역 결과물을 찾고 병합하면 '2.기존번역' 파일에 합쳐짐 (누락은 그냥 합쳐지고 재번역된건 덮어쓰기로 됨)

7. '1.원문파일'(포맷팅기준)과 '2.기존번역' 누락 추출이 없을때까지 실행하고 4번에 넣고 텍스트만 추출하면 포맷팅과 json 형식 제거되면서 완성본이 나옴

8. 한자나 외국어 등은 재검수 하거나 다른 탭 활용해서 검수하면 됩니다 기존과 동일

추가 기능 소개 (v15.5.19 업데이트)

1. [탭 2] 누락/병합 도구 상세 가이드

이 탭은 번역 후 **"빠진 문장을 찾거나(보수)", "여러 번역 파일을 합치거나(병합)", "중복된 내용을 제거(정제)"**하는 유지보수 전용 공간입니다.

[기본] 파일 준비 및 편의 기능

1. 원문 파일 / 2. 기존 번역 : 비교할 원본 텍스트(.txt)와 작업 중인 번역 파일(.json/.txt)을 선택합니다.
[CN 포맷팅(1::)] 버튼 : 줄번호가 없는 중국어 원문 파일 등을 넣고 누르면, 공백을 정리하고 1::내용형식으로 ID를 자동 부여합니다.
[삭제된 문장(원본) 추출] 버튼 : 번역 파일 내에서 프롬프트 규칙에 의해 "삭제된 문장" 으로 처리된 항목들의 원본 텍스트만 따로 추출 합니다. (오삭제 검수용)

[STEP 1] 누락분 추출 실행

"원문에는 있는데 번역 파일에는 없는" 문장을 찾아냅니다. 단순히 ID만 비교하는 게 아니라 내용까지 검사합니다.

기본 감지 : ID가 아예 없거나, 번역 내용(target)이 비어있으면 추출합니다. (단, "삭제된 문장" 마킹이 있으면 제외)
내용 변경 감지 (스마트 분석) :
- 유사도 검사 (80%) : 오타나 띄어쓰기 차이는 무시하고, 내용이 80% 이상 달라진 경우에만 원문이 수정된 것으로 보고 추출합니다.
- [용어집 적용] 체크박스 : 체크 시, 원문/번역문 양쪽에 용어집을 적용한 후 비교하여 용어 치환으로 인한 불일치를 무시합니다.
- 합쳐진 라인 감지 : 번역 파일에 줄바꿈( \n)이 섞여서 뒷 문장까지 합쳐진 경우, 이를 쪼개서 비교하여 "내용이 포함되어 있다면 누락이 아님" 으로 똑똑하게 판정합니다.

[STEP 2] 병합 실행

기존 번역 파일에 새로 번역한 파일(STEP 1에서 추출한 것)을 합칩니다.

새 파일 우선(Overwrite) : 두 파일에 같은 ID가 있다면, 새로 로드한 파일의 내용을 우선 하여 덮어씁니다. (수정된 번역 반영)

[STEP 3] 텍스트만 추출 실행

합쳐진 파일에서 ID::태그를 떼고 순수 소설 텍스트만 뽑아냅니다. ("삭제된 문장"은 제외됨)

다중 중복 제거 (Reverse Lookahead) : AI 번역 오류로 앞줄 내용 끝에 뒷줄 내용이 중복되어 붙는 현상을 해결합니다.
현재 줄이 뒤따라오는 1~5줄의 내용 을 끝부분에 달고 있다면, 가장 먼 뒷줄부터 역순으로 검사 하여 껍질을 벗기듯 중복된 텍스트를 잘라냅니다.
다중 JSON 감지 : 입력 파일 안에 JSON 덩어리가 여러 군데 흩어져 있어도 파일 전체를 스캔하여 빠짐없이 데이터를 긁어옵니다.

2. 나머지 기능 추가/변경점 요약

[탭 1: 번역 도우미]

프롬프트 관리 : [프롬프트] 버튼으로 여러 개의 번역 지시문을 저장하고 선택할 수 있습니다.
키워드 편집 분리 : PS/하단, 시스템(고정), 제목 뒤(상단)3가지 영역으로 세분화하여 관리합니다.
완결 문구 강화 : (이 장 완료), (본장 완결)등 다양한 패턴과 유니코드 자모 결합 문제 해결.
API 결과 별도 저장 : 번역 완료 시 _api_results.txt파일을 따로 생성하여 결과만 백업합니다.

[시스템/공통]

Config 영구 저장 : 모든 키워드 목록, 프롬프트, 설정을 config.json에 저장합니다.
최적화 및 안정성 : 대용량 파일 로딩 속도 개선(50KB 헤더 스캔), BOM 제거, 상태창 기호( =, ×) 인식 강화 등.

--- Version History (v15.0.0 ~ v15.5.19) ---

# [기능 추가 (New Features)]
# v15.0.0: [탭 2] 누락/병합 도구(유지보수 기능) 신규 탑재 (누락 추출/병합/텍스트 정제)
# v15.1.0: [탭 2] 중국어 원문 포맷팅(CN 포맷팅) 버튼 추가
# v15.2.0: [탭 2] 삭제된 문장(원본) 별도 추출 버튼 추가
# v15.3.0: [탭 2] 용어집 적용 여부 체크박스 추가
# v15.4.0: [탭 1] 설정(Config) 영구 저장 및 프롬프트 관리(제목/내용) 기능 추가
# v15.5.0: [탭 1] API 번역 결과 별도 저장(_api_results.txt) 기능 추가

# [수정 및 보완 (Modifications & Improvements)]

# <탭 2: 누락/병합 도구>
# 01. 병합 저장 포맷 변경 (.json → .txt, 내용은 JSON 유지)
# 02. 텍스트 추출(Step 3) 입력 개선 (.txt 지원 및 경로 자동 연동)
# 03. 정규식 오류 수정 (IndexError 및 그룹 캡처 문제 해결)
# 04. 누락 감지 로직 강화 (단순 ID 비교 → 내용 변경 감지 추가)
# 05. 유사도 검사 도입 (80% 일치 시 통과)
# 06. 유사도 검사 시 용어집 적용 후 비교 기능 통합
# 07. 줄바꿈(/n) 뭉침 현상 해결 및 텍스트 추출 시 다중 중복 제거 로직 추가
# 08. 누락 감지 로직 버그 수정 (빈 내용 처리 및 포함 관계 로직 개선)
# 09. 합쳐진 내용 분리 비교 로직 강화 (정교한 비교)
# 10. 병합 로직 개선 (기존 내용 유지 → 새 파일 내용으로 덮어쓰기)
# 11. 정규식 패턴 강화 ([:\+]+ 오타 수정 및 유연성 확보)
# 12. 챕터 제목(第...章) 누락 우선 감지 로직 추가
# 13. 번역문(Target)이 비어있는 경우 감지 로직 추가
# 14. "삭제된 문장" 키워드 인식 범위 확대 ("삭제한" 추가)

# <탭 1: 번역 도우미 & 공통>
# 15. 전처리 실행 순서 재정립 (한 줄 정리 -> 다중 라인 삭제 -> 최종 정리)
# 16. 완결 문구(End of Arc) 정규식 강화 (유니코드 자모 결합 및 조건 수정)
# 17. 제목 뒤 삭제 로직 최적화 (Loop 방식 및 로그 기록 복원)
# 18. 시스템 키워드와 PS 키워드 로직 분리 (오작동 방지)
# 19. 파일 로딩 시 BOM 문자(\ufeff) 일괄 제거 (모든 정규식 호환성 확보)

원래 탭은 기존과 달라진게 거의 없고 외국어 추출 기준 유니코드 좀 추가하고 장/화수(제목 감지) 기준 수정했고

프롬프트랑 전처리에서 삭제할 키워드 config 파일에 저장하고 유지/보수 가능하고
기본값을 파이선 안에 내장해서 언제든지 원래 대로 돌아가거나 기본값을 파이썬 애세서 수정해서 사용하고

용어집이 단순하게 메모장으로 '찾을내용-탭-바꿀내용'인데 앞뒤에 스페이스바 감지해서 바꾸게 수정

추가로
프롬프트가 이 방식으로 출력하면 토큰값이 두배긴한데 각 줄마다 출력은 했는데 결과물 원본이랑 다른 경우도 감지해서 이렇게 씁니다
누락 방지 관련해서는 이 링크 참고해서 각자 편하게 사용하세요
https://gall.dcinside.com/mgallery/board/view/?id=eastfantasy&no=35144
그 방법 맞춰서 파이썬도 ai한테 이 방법에 맞게 수정해달라고 하시면 될꺼 같습니다.