다수의 비디오 음성 자막 AI 딸깍으로 번역하는 툴과 워크플로우

보다 많은 사람들이 대사를 알면 더 꼴릴거 같은데 답답한 상황을
정식 번역 나오기 전에 대충이라도 알아 들을 수 있는 자막을 딸깍으로 쓸 수 있기 희망하며,
딸깍 번역을 위한 세팅 방법을 공유함.

0. 사실 동영상 1개만 번역한다면 PotPlayer 쓰면 된다. '소리로 자막생성' 기능이 오른쪽 버튼 누르면 나온다. 아래 링크를 참조하자.

https://blog.naver.com/feena74/223747772196

1.문제는 영상이 여러개인 경우다. 이건 Buzz라는 응용프로그램이 쓰면 자막 생성이 쉽다.
Buzz-1.4.4-windows.exe

https://github.com/chidiwilliams/buzz/releases/tag/v1.4.4

Release v1.4.4 · chidiwilliams/buzz

Bug fixes and minor improvements. Fixed Youtube link downloading Added option to import folder Extra settings for live recordings Adjusted live recording batching process to avoid min-word cuts Up...

여기서 자신의 컴퓨터 환경에 맞게 대충 다운 받으면 된다.
- 팟플과 똑같이 오픈소스인 Whisper 에 기반해서 음성을 인식하기 때문에 성능은 또이또이하다. 영문 외 다국어 용으로는 Large V2가 더 큰 다른 모델 보다 좋다고는 하는데, 잘 모르겠다. 오픈 소스 인데다 사람이 한 것에 비해 STT 인식률은 처참하다. 정말 퀄리티를 중시한다면 한달에 600분 공짜로 쓸수 있는 네이버 클로바 노트를 써보는 것도 고려해봐야한다.
- 내 입장에선 대충 청해가 되기 때문에 그냥 너무 많은 대사가 나오면, 밀리기 전에 어느 정도 시간을 벌어준다는 느낌으로 쓰고 있다.
- 참고로 내 경우는 자막 만들면 해당 대사가 끝나도 남아있다가 다음 대사가 나와야 사라지거나 하는 식으로 자막이 나타나는 시간이 할당되어 있어, 경우에 따라선 좀 기분 나쁘다.

2. 이제 번역하고 싶은 음성이 담긴 동영상을 + 버튼을 누르거나 드래그로 읽어들인다.

- 이걸 돌리면 GPU 100% 쓰기 때문에 이 프로그램 돌리는 동안은 다른 GPU 가 소모되는 프로그램 쓰기 힘들다(크롬 쓰다보면 가끔 렌더링이 뚝뚝 끊겨서 힘들다). 대량의 영상에서 자막 추출 할 거라면 시간 할당 잘하기 바란다. 성능에 따라 다르겠지만, 자막 추출에 시간도 오래걸린다. 대충 1시간 짜리 영상이 있으면 최저 20분은 기본으로 각오해야한다.

사실 다른 오픈소스도 많지만 내 경우는 그냥 팟플레이어에서 쓰던대로 그냥 설정했다. 허깅 페이스에 따로 맘에 드는 STT 모델 있으면 그걸로 따로 설정해도 된다.
영문 번역 위주인지, 영문을 디폴트 도착어로 하는 기능도 있다.

3. 그외 추가 설정.
- 그냥 Default export file name은 분간을 위해 .jp 같은 식으로 설정해두길 권장한다. 왜냐면 이후 번역한 결과물을 확인하기 위해 원본을 남기는 편이 편하기 때문이다.

- 그리고 보다시피 Open AI API 유료 구독하면 여기서 그냥 번역하는 것도 일단은 된다.(주의 : chatGPT 구독이랑 다르다)
그러나 우리 돈 없는 솜붕이들이 토큰 값을 감당할 수 있을리가 없으니 다른 대안을 택하기 바라며, 위에처럼 OpenAI Base url을 입력하고,
다음 번역 파트에서 이게 어떻게 쓰이는지 확인 바란다.

- 어쨌거나 최초 설정 이후 Run 을 누르면 GPU 사용량 100%를 찍기 시작하며 전기를 퍼먹기 시작한다.
다만 최초로 STT 를 하도록 할때 4.3.1의 최초 설정 부분을 참고해서 해두기 권한다. (이거 나중에 못바꿔서 그런다. 나도 나중에 알았다.)

- 잘 끝나면 상태 열에 Completed라 뜨고, 안되면 Failed 라고 뜬다. 보다 시피 파일 크기에 따라 속도는 천차 만별이니 컴퓨터 안쓸때 이 프로그램을 써야한다.

4. 번역
- 알다시피 요즘 AI 회사들 지랄이 짜지고 있다. 어떤 방법이 막히면 다른 방법으로 우회하기 위해 무료로 할 수 있는 여러 방법론을 적어놓는다.

4.1. 설치 귀찮으면 손으로 일일이 처리하기 : 손은 좀 가도 퀄리티가 제일 좋다.
- 위 과정을 거치면 자막 파일 .srt로 끝나는 파일이 튀어나온다. 메모장으로 열면 대략 이런 구조로 나타난다.

```
1
00:00:00,000 --> 00:00:07,000
この曲は、私が作った曲の中で一番好きな曲です。

2
00:00:07,000 --> 00:00:13,000
私はこの曲を作ったのは、私が作った曲の中で一番好きな曲です。
```

- 이제 자막 파일 마지막 확장자를 .srt에서 .txt로 바꾼다.
- 그리고 선호하는 AI chat의 첨부파일로 넣는다.
개인적으론 튜닝 쉽고, 이런저런 편의기능 빠지니 성능 괜찮고, 성인 검열 해제도 가능한(물론 완전 해제 안될 때도 있음) AI studio에서 해보기 권한다.
-- 참고로 검열 해제는 AI studio 챗 들어가면 우측 탭에 'Safety Settings'라고 있다. 그걸 눌러서 모두 Block None으로 바꾸면 된다.
- 프롬프트는 아래와 같이 해보기 바람

```
0. 이번엔 다른 자막파일이야. 자막파일은 아래와 같은 구조를 대체로 따르고 있어. 순서와 타임라인에 해당하는 시간 표기는 절대 건들지말고 대사만 번역해야해.
순서
타임라인
대사

1. 목적어를 한국어로 번역해.
2. 맥락 : 여성이 연인에게 모종의 서비스를 해주는 것으로 추정된다.
3. STT를 썼기 때문에 불분명한 부분은 비슷한 발음 중에 적당히 연인들이 나눌법한 대화로 의역해줘
4. 가급적이면 srt 형식의 파일 확장자로 출력해서 다운 받을수 있는 형태로 돌려줘
5. LLM을 쓰면 결과적으로 순서 부분의 넘버링 마지막 숫자와 번역본의 마지막 숫자가 틀릴 때가 많아. 게다가 타임라인도 멋대로 고쳐져있고. 이런 부분을 최종적으로 한번 확인하는 절차를 거쳐서 틀린 부분 부터 원본 보고 다시 고쳐
```

- 이러면 1분 쯤 기다리면 대충 결과가 나오는데 맨 아래 박스쳐진 Srt 라고 된 부분 우상단에 네모 2개가 겹쳐진 아이콘이 있다. 복사 버튼이다. 그걸 누르고, 원래 txt 파일 있던 데다 복붙하던가 새로 txt 파일에 복붙하던가 한다. 이후 저장한다.

- 자기가 보려는 영상의 명칭과 같은 파일명으로 자막 파일명을 세팅하고, 확장자도 srt로 바꾼다.

4.2. Subtitle Edit + Google AI api : 이 방안은 귀찮을 수 있지만 방법 중에 하나니까 고려해보기 바란다.
- 구글 AI api키를 얻는다. 방법은 아래 링크 참고한다. 카드 정보 입력하지 말고, 무료 티어로도 그럭저럭 자막 번역에 쓸만한 수준으로 사용량이 나온다.
https://m.blog.naver.com/ryurime88/224153496396

제미나이(Gemini) API 키 무료 발급 및 기본 연동 방법

제미나이(Gemini) API 키 무료 발급 및 기본 연동 방법 최근에는 구글의 안티그래비티나 Anysphere의 ...

- Subtitle Edit 이란 응용 프로그램이 있는데 다운 받고 설치한다.
https://github.com/SubtitleEdit/subtitleedit/releases

Releases · SubtitleEdit/subtitleedit

the subtitle editor :). Contribute to SubtitleEdit/subtitleedit development by creating an account on GitHub.

윈도우면 setup이 포함된 exe 파일 받으면 된다.

- 설치 하고, Buzz로 만들어진 자막 파일을 연다.
- 상단 탭을 보면 Auto-translate란 게 있다. 이걸 클릭하면

아래와 같이 API 종류를 설정하는 곳이 있는데 여기에 Gemini 로 설정하고 From은 원하는 언어, To는 Korean으로 한다.
- 물론 Gemini를 안 써도 되기는 하는데 그러나 현시점에서 api가 제한적으로나마 무료인데다, 성능이 잘 나오는 건 찾기 힘드니 이것도 방법이다. 로컬 LLM 쓰는 방법은 4.3.2. 에서 다룬다.

주의 : 혹시라도 API 키는 남에게 공개하지 말자. 이걸로 다른 사람이 맘대로 써대면 골치 아파진다.

모델은 무난하게 Gemini 2.5 flash로 했다. 더 낮은 모델로 바꾸고 싶으면 바꿔도 되는데, 내 기억이 맞다면 구글이 1.5Pro 모델은 못쓰게 막아놓는다는 얘길 들어서 못쓸 것이다.

이만큼 설정했으면 OK누르는 것도 방법인데, 이런다고 번역 안된다.

반드시 상단의 'Translate' 버튼을 눌러야 번역을 한다.

4.3. 로컬 LLM 쓰기 : 여긴 나도 최근에 시도해본 거라 자신이 없다. 자세한 건 퍼플렉시티한테 물어보던가 하기 바란다.
- 로컬 LLM이 Open ai의 api 서버에서 chatGPT가 답해주듯 같은 포맷의 답변을 해주는 방법이 있다. 우선
- LM Studio 깐다. Ollama도 될텐데, 요즘 돌아가는 꼬라지도 수상하고, 허깅페이스 상에 모델을 UI선에서 대충 선택하기 쉬운 LM Studio 기준으로 한다.
https://peekaboolabs.ai/blog/lm-studio-installation-guide

LM Studio 설치 및 사용 가이드(로컬 LLM 입문용) - 피카부랩스 블로그

코딩 없이 내 PC에서 로컬 LLM을 실행하는 가장 쉬운 방법, LM Studio 설치 및 사용법을 소개합니다. API 비용과 데이터 보안 걱정 없이 나만의 AI 챗봇을 만드는 전 과정을 따라 해 보세요. | Product

- 내 경우는 GTX 1060 6GB라 VRAM이 그럭저럭 감당할 수 있는 Gemma 4 E2B 모델로 택했다. 최근 한국어는 Gemm4가 잘한다고 하니 택한 것이며(대충 Gemeini 2.5 수준이라는데 체감상 이상한 외국어가 덜 나오는 편이긴 하다), 이 게시물 읽는 시점에서 더 좋은 로컬 LLM이 나오면 그걸 쓰면 된다.
- 좌측 탭을 보면 CMD창 같은 아이콘이 있다. 대충 여기서 Status : Stopped이라 된걸 아래 처럼 Running으로 녹색 불 나게 바꾼다. 이제 API 서버가 컴퓨터에서 돌아가게 된다.

4.3.1. Buzz + 로컬 LLM : 퀄리티만 고려한다면 별로 추천은 안 한다. 문맥 없이 그냥 해당 행의 문장만 번역한다.
- Buzz 를 들어간 뒤 상단 탭의 Help >> Preference를 누르면 아래 같이 General 탭이 나온다.

- open API 키는 대충 아무거나 입력한다. 어차피 api키가 없으니까.
- OpenAI Base URL을 http://127.0.0.1:1234/v1 으로 세팅하고 Test버튼을 눌러서 위와 같은 알림창으로 잘된다고 나오면 괜찮은 것이다.
- http://127.0.0.1:1234/v1 은 그냥 LM studio로 디폴트로 쓰는 로컬 주소를 댄거고, 사람에 따라선 포트가 충돌해서 못 쓸 수도 있으니 이건 알아서 설정 바란다.

- 이후 영상 처음 번역할 땐 Advanced 를 눌러서 나온 창에서 Enable AI Translation 을 체크 표시한다.

- 여기서 구체적인 프롬프트를 정할 수 있다. 근데 모델 파라미터도 작고, 대단한 문장이 있는게 아닌 이상 지시문도 명료하고 짧은게 좋은거 같다. 내가 적어놓은 프롬프트보단 아래의 것을 하는게 좋겠다.
```
Translate Japanese to Korean. Output contain mainly Korean.
```
정도면 될거다.

- Buzz로 SRT 추출이 끝났으면 해당 영상 목록이 선택된 상태에서 엔터를 누르거나 좌우 대각선 화살표로 된 아이콘을 누른다.

- 그럼 아래 같이 별도 창이 켜지면서 Translate 란 버튼이 나오는데

대충 이런식으로 열이 추가되면서 번역이 된다.
- 끝나면 좌상단에 있는 Extract 버튼 눌러서 SRT - Translation 누르고 폴더를 지정하면 이제 번역된 물건이 나간다.

4.3.2. EditSubtitle에서 Gemini 대신 로컬 LLM 쓰는 법 : 이것도 퀄리티만 고려한다면 별로 추천은 안 한다. 여러 줄을 한번에 번역하지만, 프롬프트로 튀는 걸 손보기 어렵다.
- 4.2. 에서 언급한 Auto Translate 창에서 LM Studio (local LLM) 옵션을 선택한다.
- 파파고나 구글 번역도 지원하니 다른걸 좋아하면 그걸로 바꾸면 된다.

이런 창이 되면 api 설정 없이 4.3. 에서 언급한 대로 로컬 LLM의 api 서버를 running 상태로 바꾼 다음 'Translate' 버튼 누르면 번역에 들어간다.

LM Studio Developer 탭 하단에 있는 Developer Log 탭을 보면 LLM이 대사 받아 먹는 걸 볼 수 있다.

2026-04-23 21:33:16
[DEBUG]

Received request: POST to /v1/chat/completions with body
{
"messages": [
{
"role": "user",
"content": "Translate from Japanese to Korean, keep punctuatio... <Truncated in logs> ...>.<br />でてくんは<br />.<br />耳も感じる?<br />.<br />でてくんは"
}
]
}

5. 당부의 말
- Enable Folder Watch 옵션이 있는걸로 봐선 영상 들어오면 알아서 추출해주는 기능이 있는거 같긴 한데 GPU 사용량 보면 굳이 필요 없어 보이는 기능이다.
- 이제 대사가 있으면 더 꼴릴거 같은 영상을 딸깍으로 일본어 음성 추출해서 번역까지 돌리기 바란다.
- 그리고 댓글상에서 키오 메가든 적극적인 공유를 권하고 싶다. 나도 딸깍이라고 말했지만 가끔은 이것 마저 하기 귀찮아서 그렇다.
- 어차피 연산자원 쓴거, 더 낭비되지 않게 공유하는 것도 한 가지 미덕이라 생각한다

소미소프트

s/somisoft

댓글 3개