WAN2.2 AI 움짤 야짤을 만들어보자

어떻게? 뭐에요? 이런거 묻는 사람이 간간히 보여서 그냥 공?략겸 올려놓음

일단 주로 ComfyUI를 쓸줄 안다는 가정하에 설명을 시작 함

그거까지 설명을 시작하면 감당을 못 함

그래서 기본적으로 comfyUI로 나 그림 한장은 뽑을 줄 알아요! 라는 가정하에 설명 시작

그럼 시작

1. 나도 돌릴 수 있음? 어케 함?

Wan 2.2는 5B 모델과 14B 모델이 있음

여기서 B는 모델 크기를의미함 빌리언 ㅇㅇ

아마 인공뉴런이라 할 수있는 노드의 개수일거임

각 행렬에 들어있는 가중치의 개수라고 할 수도 있고

그냥 저게 높으면 "대체적"으로 뭐가 나아도 낫다 정도로 보면 됨

아무튼 Wan2.2 모델은 기본적으로 프롬프트를 분석하고 지시를

내리는 언어 모델까지 포함해서 총 20~40GB의 용량이 GPU에 올라감

??? 어 그럼 나는 3060 12GB인데

응 뒤로 누....를필요 까진 없고

일단 최저한의 커트라인이 3060 12GB라고 말 할 수 있음

그러니까 극도로 압축된 모델을 올렸다 내렸다 할 수 있는정도가 저정도고

저 이하면 모델이 한번에 안올라가서 올렸다 내렸다 일이 많아짐 ...

대략 예전 테스트 했던 기억으로 5초짜리 720p 정도가 하나에 45분? 정도 걸렸는듯?

다만 프롬프트 영상 품질보다도 오히러 프롬프트 이해 능력에서 좀 차이가 나서

많이 출력해보고 비교해본건 아니지만 5B는 비추천하는 편임

실제로 5B는 각종 로라나 그에 맞는 자료 공유양이 압도적으로 적음

다만 5B는 장점이 가볍고 빠르다는점인데

4090 5090은 5초짜리 720p 영상이 순정으로 한 10분 밑으로 찍히는걸 생각하면

만질 셋팅값도 적고 그냥 가볍게 돌리기엔 나쁘지 않다는 정도..

다만 성능이 올라갈수록 5B를 쓸 이유가 없어지는게

작업량을 극도로 줄이는 라이트닝이라는 LoRA를 적용하고 셋팅을 잘하면

14B 모델을 쓰더라도 4090 5090으로도 5초짜리 720p를 만드는데 10분 이내에 만들 수도 있다고하니...

고사양일 수록 5B모델을 쓸 필요가 없는 것도 사실임

다만 12GB 이하 모델에서는 오히러 5B 모델을 권장한다고 볼 수 있음

다만 14B위주로 자료공유가 워낙 활발하다보니까 12GB에선 14B 양자화 모델을 돌리는 경우가 꽤 있음

※양자화란 신경망연산 단위를 끝자리를 반올림(?)해서 용량을 줄이고 최대한 성능을 보장하는걸 말함

보통 4Q까지는 성능을 거의 보존한다고 말 함

AI보러 작성시킨 스펙 관련 차트

요약

VRAM 8GB = 5B, 480p

VRAM 12GB (3060 12Gb 등의 12Gb 모델)

= 5B 모델 권장

14B 모델 4q 양자화에 각종 옵션 만져야....

VRAM 24GB 이상 (3090,4090,5090,....)

= 14B 모델 권장 (단, 최적화 필요 )

480p는 가볍고 720p는 돌릴만한 정도

5B는 권장 되지 않는 모델이라 미안하지만 뒤 설명에선 생략할께

아니 애초에 워크플로우도 이미지 만들듯이 짧게 이어붙여도 가능한 부분이라서

아 내가 comfy로 AI 이미지좀 만들어 봤다 하면 할정도고

이쪽은 진짜 자료 적음 ... 적은 성능으로 튜닝으로 커버하는게 쉽지는 않을꺼임

2. 가장 빠른 실행 가이드

먼저 선요약

civitai 에서

WAN 2.2 I2V native Enhanced (Lightning Edition) long video multi prompt FP8-GGUF

이 워크플로우를 열어서

WAN 2.2 Enhanced NSFW | camera prompt adherence (Lightning Edition) I2V and T2V fp8 GGUF

을 받아서

워크플로우 GGUF 로드에 하이 로우 맞춰서 넣고

길이나 옵션은 여길 만지고

각 5초마다 장면 설명하는 프롬프트를 입력하고

시드값을 임의로 하나의 값으로 통일하면 영상 5초마다 생기는 위화감이 줄어든다고는 함 ..

아무래도 같은 시드값이라는건 앞뒤 프레임 상황에서 같은 연속된 프레임을 찍어낼 확율이 높다고 볼 수도 있으니까

아 첫 프레임 이미지 넣고

첫프레임 이미지 넣는게 나은게 정확하게 너가 원하는데서 시작하기때문에 정확하고 품질도 유지 잘 됨

아무튼 저걸 다 셋팅하면 실행만 누르면 됨

3. 부가 설명

?? High? Low ? 뭐임 왜 두개임?

High는 이런걸 그리는 애고

Low는 이런걸 그리는 애임

이세끼 뭔개소리 싶을텐데 내가 5분 10분 걸리는걸

하나 만들어서 올려봐야 이해가 될 만한 직관적인 이미지가 나오는게 아니라

예시를 들자면 저렇다는거임 풀네임 High noise는 변화가 빠른 부분을 대략적으로 복원 하는거고

풀네임 Low noise 변화가 적고 세밀한 부분을 복원하는거임

?? 뭐? 복원? 원래 이미지 처리 자체가 노이즈부터 시작해서 순차적으로 복원하는 알고리즘이라 그럼

정말 간단하게 인간 관점으로 얘기하면

High <- 스케치 그림
Low <-세부 디테일 그림

따라서 도트가 튀거나 아 그림이 흐릿한데?

Low의 스탭수를 조절 하면 됨

2) 라이트닝? 라이트닝이 뭐라고 하던데

WAN 2.2 Enhanced NSFW | camera prompt adherence (Lightning Edition) I2V and T2V fp8 GGUF

모델에서 "Lightning Edition"를 붙였는데

해당 모델 제공자는 Lightning LoRA를 적용한 모델을 공유한거라 해당은 없지만

(소개한 모델은 Lightning LoRA를 쓰면 안되는 체크포인트다)

수많은 모델들이 Lightning LoRA를 적용해야지 4+4 스탭 제작이 가능함

원본 그대로 쓰면 10+10 ,15+15 은 해야 퀄리티 나온다고함

뭐 저러면 당연 생산속도가 2~5배는 뛰니까 Lightning LoRA가 적용되어 있지 않다면

얼른 Lightning LoRA를 적용하고 스탭수를 2+2 , 4+4 등으로 조절해서 작업량을 줄여보자

3. 기타

1) ??? : 리사수 혐오자세끼 AMD는 언급도 없네 AMD는 못함?

아님 할 수있음 음 내가 일단 AMD로 Wan2.2를 돌리고 있고

시행 착오가 좀 있었는데

왠만하면 조금 기다렸다 하는걸 추천 함 시행착오 안할려면 좀 기다리는게 좋을꺼임

간단하게 설명하자면

AMD가 제공하는 프리뷰 ROCm 7.1.1 관련 자료를 모두 설치하고

comfyUI 실행할때
set TORCH_ROCM_FA_PREFER_CK=1
py -3.12 main.py

***매우 중요)파이썬 무조건 3.12로 셋팅해야함 ***

2) 프롬프트 작성이 어려워요

->그록한테 시키세요

???: ? 왜 그록임?

->그세끼는 세이프 필터고 나발이고 안빼고 야한 프롬프트 작성해주니까요

소미소프트

s/somisoft

댓글 3개