/ai/ - Локальной генерации ИИ-видео №5

Локальной генерации ИИ-видео №5 /video/ Аноним 27/04/26 Пнд 21:09:05 № 1599474 1

177477548717001[...].mp4 4743Кб, 1408x1088, 00:00:15

177453697558003[...].mp4 7425Кб, 720x1056, 00:00:25

177473824032703[...].mp4 6323Кб, 1856x1056, 00:00:05

177566917461134[...].mp4 922Кб, 1280x720, 00:00:10

Актуальные модели

1. Wan от Alibaba

https://huggingface.co/collections/Wan-AI/wan22

VACE модели:
https://github.com/ali-vilab/VACE
https://huggingface.co/Wan-AI/Wan2.1-VACE-14B
https://huggingface.co/Wan-AI/Wan2.1-VACE-1.3B

2. LTX-2.3 - делает локальную генерацию грейт агейн. Подходят лоры от 2.0

https://huggingface.co/Lightricks/LTX-2.3

3. Hunyuan от Tencent

https://huggingface.co/tencent/HunyuanVideo-1.5

4. Ovi

https://huggingface.co/chetwinlow1/Ovi

5. Starflow

https://huggingface.co/apple/starflow

6. MAGI-1 от Sand AI

https://sand.ai/magi
https://github.com/SandAI-org/MAGI-1

7. LongCat-Video

https://github.com/meituan-longcat/LongCat-Video
https://huggingface.co/meituan-longcat/LongCat-Video
https://meituan-longcat.github.io/LongCat-Video/

8. MOVA

https://github.com/OpenMOSS/MOVA

Локальный UI
https://github.com/comfyanonymous/ComfyUI

Установка локальных моделей
Wan 2.2: https://comfyanonymous.github.io/ComfyUI_examples/wan22/
Wan 2.1: https://comfyanonymous.github.io/ComfyUI_examples/wan/
Hunyuan Video (осторожно, ссылки в туторе на предыдущую модель): https://comfyanonymous.github.io/ComfyUI_examples/hunyuan_video/

Гайд для использования Wan 2.2

https://alidocs.dingtalk.com/i/nodes/EpGBa2Lm8aZxe5myC99MelA2WgN7R35y

Альтернативные ноды ComfyUI
Hunyuan Video: https://github.com/kijai/ComfyUI-HunyuanVideoWrapper
Wan: https://github.com/kijai/ComfyUI-WanVideoWrapper

Где брать готовые LoRA
https://civitai.com/models

Обучение LoRA
https://github.com/tdrussell/diffusion-pipe

Терминология моделей
prune — удаляем ненужные веса, уменьшаем размер
distill — берем модель побольше, обучаем на ее результатах модель поменьше, итоговый размер меньше
quant — уменьшаем точность весов, уменьшаем размер
scale — квантуем чуть толще, чем обычный fp8, чтобы качество было чуть лучше, уменьшение чуть меньше, чем у обычного квантования, но качество лучше
merge — смешиваем несколько моделей или лор в одну, как краски на палитре.

lightning/fast/turbo — а вот это уже просто название конкретных лор или моделей, которые обучены генерировать видео на малом количестве шагов, они от разных авторов и называться могут как угодно, хоть sonic, хоть sapogi skorohody, главное, что они позволяют не за 20 шагов генерить, а за 2-3-4-6-8.

Предыдущий тред
>>1554318 (OP)

Аноним 28/04/26 Втр 12:25:05 № 1599906 2

Анончики поясните LTX2.3 может в v2v с моей аудиодорожкой?
Есть видео персонажа на котором он двигается, но не говорит, либо говорит - просто рандомно шевелит губами и аудиодорожка которую я хочу чтобы он сказал. В LTX2.3 хороший липсинк на крупных кадрах. Идея оставить само видео практически без изменений и налепить липсинк. Если можно такое сделать поделится ктонибудь ВФ по этой теме?

Советы нейронки Аноним 28/04/26 Втр 18:43:25 № 1600292 3

Чекните плиз, они адекватны или нет и работают ли вместе

Вот пошаговая инструкция, как внедрить каждую из этих технологий в твой ComfyUI для RTX 4070:
1. Реализация SageAttention
Самый важный шаг для видеомоделей (Wan 2.1/2.2).
Установка: Проще всего через расширение ComfyUI-SageAttention.
Применение: В Workflow добавь узел "SageAttention Loader". Соедини выход MODEL твоего лоадера (например, Wan2.1 Loader) со входом узла SageAttention, а его выход — дальше в сэмплер.
Что дает: Ускоряет математику внимания внутри модели на ~30-50%.
2. Реализация TeaCache
Позволяет пропускать похожие шаги генерации.
Установка: Установи расширение ComfyUI-TeaCache.
Применение: Добавь узел "TeaCache Patch". Он ставится в разрыв между моделью и сэмплером.
Настройка: Установи параметр threshold на 0.1 (почти без потерь) или 0.25 (максимальное ускорение).
Что дает: Сокращает время генерации в 1.5–2 раза за счет уменьшения реальных шагов вычислений.
3. Реализация Model Compilation (Торч-компиляция)
Требует наличия Triton и свежего PyTorch (2.4+).
Применение: Используй узел "ModelCompile" из набора ComfyUI-ExtraModels или встроенный функционал в продвинутых лоадерах.
Нюанс: Первый запуск будет идти 5–10 минут (черное окно консоли) — это нормально, идет сборка ядра под твою 4070. Последующие генерации станут ощутимо быстрее.
Важно: Работает только на Linux стабильно, на Windows требует установленного Triton для видеокарт 40-й серии.
4. Включение FP16 Accumulation (Параметры запуска)
Это настройка самого экзешника ComfyUI.
Как сделать: Отредактируй свой .bat файл (например, run_nvidia_gpu.bat).
Добавь флаг: В строке запуска допиши --fast.
Пример: .\python_embeded\python.exe -s ComfyUI\main.py --windows-standalone-build --fast
Что дает: Включает оптимизированные пути вычислений для архитектуры Ada Lovelace (RTX 40).
5. Использование GGUF (Квантование)
Чтобы модель 14B влезла в 12 ГБ VRAM без тормозов.
Установка: Установи расширение ComfyUI-GGUF.
Применение: Скачай модель Wan 2.2 в формате .gguf (ищи на HuggingFace от пользователя city96 или bartowski). Используй узел "Unet-GGUF Loader" вместо стандартного.
Выбор: Для 12 ГБ VRAM бери версию Q4_K_M или Q5_K_M.
6. Стратегия "Low-Res + RIFE" (Workflow-хак)
Вместо долгой генерации 60 кадров:
В сэмплере Wan 2.2 выстави frame_count: 16 или 32.
После генерации пропусти видео через узел "RIFE VFI" (из набора ComfyUI-Video-Helper-Suite).
Выстави multiplier: 2 или 4.
Результат: Ты генерируешь 2 секунды видео, а на выходе получаешь плавные 8 секунд за счет того, что ИИ «дорисовывает» промежуточные кадры.
С чего начнем? Могу скинуть прямую ссылку на проверенный GGUF-файл Wan 2.2 для твоей карты.

они работают вместе все?
Да, большинство этих технологий отлично работают вместе, создавая «эффект синергии», когда каждый слой оптимизации ускоряет процесс еще сильнее.
Вот как они сочетаются в одной цепочке (Workflow):
1. Идеальная связка (Рекомендуется для 4070)
GGUF + SageAttention + TeaCache: Это «золотое трио».
GGUF экономит VRAM, чтобы модель не тормозила из-за выгрузки в оперативную память.
SageAttention ускоряет математику внутри каждого шага.
TeaCache просто выкидывает лишние шаги.
Результат: Вы получаете максимально возможную скорость для Wan 2.2 на 12 ГБ памяти.
2. Что НЕ работает вместе (Конфликты)
Nunchaku + SageAttention/TeaCache: Как мы обсуждали ранее, Nunchaku — это «закрытая» экосистема. Она использует свои ядра, которые не позволяют SageAttention вклиниться в процесс.
Model Compile + SageAttention: Иногда могут конфликтовать на Windows. Если вы используете ModelCompile, SageAttention может вызвать ошибку «Triton kernels not found». Лучше выбрать что-то одно (для видеомоделей SageAttention эффективнее и проще в настройке).
3. Как это выглядит в ComfyUI (Схема подключения)
Если вы соберете всё вместе, цепочка узлов будет такой:
GGUF Loader (Загружает экономную модель).
➡️ SageAttention Loader (Патчит модель для быстрой математики).
➡️ TeaCache Patch (Патчит модель для пропуска шагов).
➡️ Sampler (Начинает генерацию).
➡️ RIFE / Upscale (Увеличивает плавность и размер уже готового видео).
Итоговый совет:
Для вашей RTX 4070 самым стабильным и быстрым набором будет:
Флаг --fast при запуске + GGUF модель + SageAttention + TeaCache.
Эта комбинация позволит вам генерировать видео Wan 2.2 в несколько раз быстрее, чем «из коробки», не вызывая при этом ошибок совместимости.
Хотите, я помогу составить правильную строку запуска (батник) со всеми нужными флагами для вашей карты?

Аноним 28/04/26 Втр 19:27:46 № 1600337 4

>>1600292
teacache давно неактуален, с лайтом не работает

Аноним 29/04/26 Срд 11:05:47 № 1600768 5

Сап, как называются эти ваши лоры, где видео, что тян стоит одетая (загружается и2в фото в одежде), а через секунду ее голую в другом ракурсе и позе сношают в жёпу? Может это лоры на персонажей индивидуальные или все-такие универсальные лоры, что так делают?

Аноним 29/04/26 Срд 14:52:45 № 1600958 6

>>1600768
Проще 2 видео склеить, лоры для такого не нужны.

Аноним 29/04/26 Срд 15:02:29 № 1600962 7

>>1600958
Вы тупой?

Аноним 29/04/26 Срд 16:38:09 № 1601025 8

>>1600962
Нет я умный. Делаешь с помощью любой картиночной edit модели голую версию тян во время ебли, и делаешь два ролика. Потом клеишь. Получаешь 100% экспириенс >>1593720 →
только без лишних лор.

Аноним 29/04/26 Срд 17:02:20 № 1601045 9

https://www.reddit.com/r/StableDiffusion/comments/1smonvh/motifvideo2b/

Motif-Video 2B

Open-source 2B DiT, 720p at 121 frames, one checkpoint for both T2V and I2V.

83.76% on VBench Total, highest among open-source, beats Wan2.1-14B at 7x fewer parameters. Caveat: Wan2.1-14B still wins on temporal stability and fine human anatomy in blind tests.

тыкал кто? уже есть нода для комфи

https://github.com/MotifTechnologies/ComfyUI-MotifVideo2B

Аноним 29/04/26 Срд 17:08:20 № 1601048 10

>>1601025
Это костыльно и долго, иначе б не спрашивал советов, я сам уже нашел, идиот.

Аноним 29/04/26 Срд 17:10:05 № 1601050 11

>>1601045
>2B

Аноним 29/04/26 Срд 17:24:54 № 1601059 12

>>1601048
Нашёл? Поделись. Иначе идиот тут ты.
И да, мой способ проще и лучше.

Аноним 29/04/26 Срд 17:41:28 № 1601069 13

>>1601059
Ладно, я думал ты трлишь, а не заинтересован в этом вопросе, раз такие советы даешь, но реально идиот получается на костылях ходишь. Нужна всего лора на cinematic hardcut и в промптах тоже hardcut.

Аноним 29/04/26 Срд 20:00:26 № 1601249 14

вот вы любители на ровном месте посраться :) каждый выбирает удобный ему метод, причем мне лично тоже было бы проще два видоса склеить если бы такая задача стояла и не юзать лору на хардкат, но кстати в лтх 2.3 он уже и так встроен, точно работало с этим тэгом и без лор, а вот насчёт вана помню была отдельная лора на него у меня

Аноним 29/04/26 Срд 21:31:44 № 1601351 15

Я не могу, обдрочился уже, по загадочным причинам генерироваю с соской, которая итак уже снимается в порно. Влюбился в проститутку и хочу от нее теленочка!

Аноним 29/04/26 Срд 22:07:50 № 1601382 16

>>1601351
>по загадочным причинам
Вижу на видео как минимум две веские причины.

Аноним 30/04/26 Чтв 00:19:02 № 1601516 17

ltx2.3 по прежнему не умеет в нормальный прон, даже с учетом лор, они чаще всего делают хуже а не лучше, а eros файнтюн тот ещё кал, в итоге я решил что удобнее svi-ваном генерить, а уже потом загонять на переозвучку через ltx2.3, в целом недурно выходит, звуки для ебли всяко лучше чем гонять ван + ммаудио
на моем среднем конфиге полутора-минутный видеоролик среднего качества влезает вполне

Аноним 30/04/26 Чтв 00:21:40 № 1601518 18

>>1601516
А есть рабочий v2v воркфлоу под ltx2.3 под озвучку? Поделись, пожалуйста, если не трудно

Аноним 30/04/26 Чтв 01:02:53 № 1601532 19

>>1601518
я для этой задачи тупо адаптировал тот что гуглится на реддите для LTX2 (вот отсюда брал :
hps://www.reddit.com/r/StableDiffusion/comments/1q916xs/you_can_add_audio_to_existing_videos_with_ltx2/
а тот чел видимо переделывал штатный вф (был у киджая) для дубляжа,
понятное дело я поменял все пути к моделям для LTX2.3, ну и приукрасив слегка нодами интерполяции + под себя переделал, например кабель перетащить с фиксированного фпс чтоб можно было его перенастраивать, но это мелочи, оно и без них работает предупреждаю что тот вф слегка накуреный потому что ltx нужно 24 кадра в процессе генерации, соответственно количество кадров нужно строго определенное указывать, при этом то что у тебя будет в изначальном видео и в том что тебе хочется делать можно указывать другое значение fps, если возникает ошибка vae encode значит количество кадров на вход не совпадает с тем что умеет жрать ltx, самый идеальный вариант конечно если у тебя изначально видео в 24 кадра в секунду и ты генеришь на его основе звук с новым видео 24 кадра, тогда ничего делать лишнего не нужно, будет работать сразу из под коробки,
и видео лучше хорошего качества скармливать, тогда ии будет понимать что там

Аноним 30/04/26 Чтв 11:56:27 № 1601732 20

Есть у кого вокрфлоу для Wan с последовательным прогоном пачки латентов сначала через high сэмплер, а потом через low (чтобы модели в память не грузить на каждое видео)? Пробовал промежуточные латенты выгружать на диск, но быстро заебался вручную файлы туда сюда гонять. Есть рабочий вариант через Repeat Latent Batch, но оно в какой-то момент перестает в память влезать.

Аноним 30/04/26 Чтв 12:17:58 № 1601749 21

>>1601732
Сам спросил, сам ответил. Если между Repeat Latent Batch и сэмплером вставить Rebatch Latents со значением 1, то оно латенты будет по одному передавать, а не ебанет туда всю пачку.

Аноним 30/04/26 Чтв 13:35:46 № 1601809 22

>>1601749
Я правильно понимаю что у тебя видяха с маленьким ВРАМ и ты пытаешься ускорить генерацию, помогает такое?

Можешь скрин воркфлоу скинуть?
мимо ньюфаг

Аноним 30/04/26 Чтв 16:57:15 № 1601947 23

>>1601809
БАМпецкий

Аноним 30/04/26 Чтв 17:22:08 № 1601969 24

>>1601532
Благодарю, буду изучать.

>>1601749
Идея неплохая. Интересно, насколько ускорит, если у меня 12 ГБ ВРАМ, а модели fp8/Q8 по 14-20 ГБ? Если модели полностью помещаются результат должен быть приличным.

Поделись примером воркфлоу для теста, пожалуйста.

>>1601809
Насколько я понял идею анона, это поможет при генерации пачки видео из одного воркфлоу для подборки seed'f, силы лор и подобных вещей.
На генерацию одного видео не повлияет.
Лучше будет работать, если одна часть модели (в смысле high/low) целиком или почти целиком, если только половина - эффекта не будет.

Аноним 30/04/26 Чтв 17:23:14 № 1601971 25

как в ltx2.3 для анимации (любой где НЕ фотореализм) сделать нормальную музыку?!
что бы я не делал какие бы промпты не писал всегда играет почти однотипная полусимфоническая ебанина, словно какая то мелодия затычка

Аноним 30/04/26 Чтв 17:24:41 № 1601972 26

>>1601969
>seed'f
seed'а

>целиком или почти целиком
помещается в видеопамять

фикс

Аноним 30/04/26 Чтв 19:06:27 № 1602032 27

batch.png 129Кб, 1407x486

>>1601809
>>1601969
У меня 16гб вирама и столько же древнего рама лол, плюс файл подсрачки на ссд. Бутылочное горлышко возникает из-за постоянной загрузки и выгрузки моделей из памяти. Если пачками обрабатывать, то на условные 5 генераций модели грузятся 1 раз вместо 5.

Пикрел просто картинка без воркфлоу.

Аноним 30/04/26 Чтв 19:43:22 № 1602051 28

>>1602032
Чет нихуя не понял, 5 генераций одного и того же? И что значит 5 генераций, это типа когда 5 раз кнопку ран нажимаешь?

Аноним 30/04/26 Чтв 20:00:18 № 1602061 29

>>1602051
За один запуск он тебе выдаст столько видосов, сколько задано в Repeat Latent Batch. Сид при этом обновляется, результаты будут разные.

Аноним 30/04/26 Чтв 20:19:04 № 1602072 30

>>1602061
А какой в этом смысл? Я же за один запуск смогу подать только 1 скажем картинку.

Аноним 30/04/26 Чтв 20:34:24 № 1602089 31

>>1602072
Генеришь несколько вариантов, выбираешь лучший. Если заморочиться, можно и разные картинки с разными промптами подавать.

Аноним 30/04/26 Чтв 20:40:26 № 1602098 32

>>1602089
Но оно же дольше будет генерить, чем если бы я генерил просто один раз? При том, что я не знаю, может с первого раза получится нормально. Тоесть этот способ просто увеличивает время генерации на ровном месте. Очень странно.

Аноним 30/04/26 Чтв 20:52:18 № 1602112 33

>>1602098
У меня 5 видео через сэмплер проходят быстрее, чем один раз модель загрузится.

Аноним 30/04/26 Чтв 20:58:09 № 1602123 34

2026-04-3000012.mp4 554Кб, 480x720, 00:00:06

Какое нынче товое решение для бесшовного продления видео?

Аноним 30/04/26 Чтв 20:59:11 № 1602125 35

>>1602123
>товое
топовое

Аноним 30/04/26 Чтв 21:10:19 № 1602137 36

>>1602123
Топове решение подождать лет 5 нормальных видеокарт и моделей.

Аноним 01/05/26 Птн 00:30:30 № 1602265 37

>>1602137
Можно состарится и умереть
везет зумерам

Аноним 01/05/26 Птн 01:18:09 № 1602295 38

>>1602123
Кроме svi решений по сути и нет

Аноним 01/05/26 Птн 01:22:53 № 1602298 39

>>1602032
Понял, благодарю, seed variation оказывается очень просто сделать)

>У меня 16гб вирама
У тебя все варианты, все кроме fp16, за раз помещаются и на одном семплере нет выгрузок/подгрузок - в этом случае должно сильно разогнать. Есть цифры?
У явно будет скромнее, надо потестить.

>>1602098
Тебе никто не мешает делать по одному ролику, пока ты подбираешь промпт, меняешь картинки и прочее.
А когда у тебя уже получается плюс-минус то, что ты хочешь - прогнать пачкой в поисках более удачного сида или еще каких-то продвинутых вещей.
Я полагаю, есть способ запустить 5 разных картинок из папки и/или 5 разных промптов из файла.

Если у тебя момент выгрузки хай-модели и загрузка лоу в видяху - бутылочное горлышко ты можешь условно сгенерить 5 вариантов видосика по такой схеме, как 2 по обычной.

Аноним 01/05/26 Птн 01:27:33 № 1602301 40

>>1602298
>Если у тебя момент выгрузки хай-модели и загрузка лоу в видяху - бутылочное горлышко
А как это определить. Я вообще не ебу откуда они грузятся, по частям они грузятся или целиком.

Квен например 25 гиговый у меня тоже работает. Хотя видюха 12 гигов.

Аноним 01/05/26 Птн 04:39:58 № 1602358 41

>>1602032
>>1602298
> будет скромнее, надо потестить.
Железо: 4070 12 ВРАМ, 96 ОЗУ
Размер моделей 13853MB, где-от 1,2 ГБ ВРАМ жрет в простое

Обычный запуск
100%|██████████| 2/2 [01:19<00:00, 39.76s/it] хай
100%|██████████| 2/2 [01:20<00:00, 40.24s/it] лоу
Prompt executed in 195.83 seconds

5 штук пачкой
100%|██████████| 2/2 [01:20<00:00, 40.07s/it] хай
100%|██████████| 2/2 [01:15<00:00, 37.77s/it]
100%|██████████| 2/2 [01:16<00:00, 38.31s/it]
100%|██████████| 2/2 [01:20<00:00, 40.20s/it]
100%|██████████| 2/2 [01:14<00:00, 37.47s/it]
100%|██████████| 2/2 [01:16<00:00, 38.31s/it]
100%|██████████| 2/2 [01:14<00:00, 37.33s/it]
100%|██████████| 2/2 [01:15<00:00, 37.77s/it]
100%|██████████| 2/2 [01:20<00:00, 40.07s/it] лоу
100%|██████████| 2/2 [01:15<00:00, 37.77s/it]
100%|██████████| 2/2 [01:15<00:00, 37.86s/it]
100%|██████████| 2/2 [01:14<00:00, 37.24s/it]
100%|██████████| 2/2 [01:15<00:00, 37.64s/it]
Prompt executed in 00:14:16 (856 секунд)

экономия на пачке
195.83*5 - 856 = 123,15 секунды
123,15 / 5 = 24,63 - на одном видосе, среднее
Сокращение времени, среднее 24,63 / 195.83 = 0,1257 = 12,57%

Пытался запустить Q4_K_M, но у меня GGUF отказывается полностью грузится в карту и генерирует за тоже время, что и fp8. То ли руки кривые, то ли я чего-то не понял.

>>1602301
Упрощенно, каждый шаг в ksample - проход по всем слоям модели (для примера - 100). Если в видеопамять поместилась только часть слоев (например 80), то после прохода по ним, часть слоев (20) выгрузится из видеопамяти и на их место загрузятся новые.
То есть каждый шаг эту колоду будет дрочить туда-сюда.

У анона мало ОЗУ и она медленная, поэтому загрузка-выгрузка происходит еще и в своп на диске, что максимально медленно, но его 16ГБ ВРАМ хватает на хай-модель ну и сама карта быстрая наверно, поэтому сам проход семплера достаточно быстрый. Поэтому его идея будет давай максимально большой прирост

>Квен например 25 гиговый у меня тоже работает. Хотя видюха 12 гигов.
У тебя и flux-dev на 100 гб заработает, если оперативки свопа на диске хватит) Работать правда будет очень медленно

Аноним 01/05/26 Птн 08:34:12 № 1602397 42

>>1601732
Я что то колупался с этим и по итогу сдался посчитав это не выполнимой задачей на программном уровне. Само устройство двух ксамплеров не позволяет генерировать сначала хай потом лоу. Ведь в конечный латент, который передаешь в следующий сегмент генерации, уже должен содержать генерации от хай и лоу, иначе никакой конситсентности не получится.

Аноним 01/05/26 Птн 08:41:55 № 1602400 43

>>1602397
>>1602358 А, понял ты писал про генерацию одного и того же ролика, тогда да - будет работать, но вот в последовательных видео - увы.

Аноним 01/05/26 Птн 10:55:05 № 1602461 44

>>1599474 (OP)
Что по генерации маняме? Оно менее ресурсозатратно для ВРАМ?

Аноним 01/05/26 Птн 11:52:24 № 1602493 45

Проёб насыщенности изображения в LTX это такая фича модели?

Аноним 01/05/26 Птн 12:05:13 № 1602500 46

>>1602461
Столько же, генерирует так себе.
>>1602493
>Проёб ... в LTX это такая фича
Да.

Аноним 01/05/26 Птн 12:43:54 № 1602514 47

>>1602400
>последовательных видео
Точно не будет, только "независимые" видео ролики для черрипика.
Я уже предлагал варианты использования выше:
- перебор сидов;
- подбор силы лоры;
- перебор вариантов первого кадра;
- перебор промптов;
- вариации озвучки.

>>1602461
По качеству в среднем хуже, почти все модели хуже работают с аниме. Разницу по ВРАМ как-то не ощутил

Аноним 01/05/26 Птн 13:25:54 № 1602541 48

Гружу на hight модель fp16, а на low fp8 - в итоге все умещается в 96 гигов рама без свопа и ебли ссд. Проверил с полноценным fp16 на low - разницы ноль. Еще и свободно немного остается рама

В чем не прав? Минусы интересно есть еще какие то?

Аноним 01/05/26 Птн 13:45:06 № 1602553 49

Мде, провёл вчера весь вечер в экспериментах с LTX 2.3 и анимацией, в отличие от реализма он не умеет в музыку для анимаций вообще, похоже что обучали только на беззвучных роликах.
Везде примерно одна и та же фоновая унылая духовая музыка даже на всех видеопримерах с civitai где люди пробуют анимацию делать в этой модели, нормальная музыка отсутствует как сущность. Даже если накидать весов типа на такой то секунде играет мощный бит, он будет играть почти не слышно.
Предполагаю что разработчики так сделали намеренно чтобы не нарваться на туеву хучу копирайтов, особенно от японцев или диснея.
Тут видимо придётся или лор ждать кто сообразит музыку с анимацией скрестить или просто на своём аудио генерить уже через S+I2V вф стандартный
[p.s. с не анимационными роликами такого у модели поведения нет, модель может клепать вполне годное музло и с вокалом и без

Аноним 01/05/26 Птн 15:16:30 № 1602623 50

>>1602541
Сколько по времени генерируется 5 секунд в HD?

Аноним 01/05/26 Птн 15:23:38 № 1602625 51

Если видео на выходе отдельными кадрами сохранять (или вообще латентом), будет выигрыш по качеству если потом его загружать для продления через svi?

Аноним 01/05/26 Птн 15:29:52 № 1602628 52

>>1602623
800X600 - 23 секунды на шаг. Больше я не делаю только апскейл. Карта 4070s

Аноним 01/05/26 Птн 18:54:00 № 1602772 53

>>1602493
имхо чтобы его избегать нужно в бОльшом разрешении генерить желательно вообще в самом максимальное которое тянет система и референс не во всратом качестве пихать

Аноним 02/05/26 Суб 00:18:57 № 1603023 54

Пацаны, я вот использую ранпод в своем проекте (тг боте)
Юзаю Serverless Endpoint чтобы постоянно не платить за аренду карточки и у меня вопрос.

На ранподе есть шаблоны готовые. В этой репе есть и сама модель и API для нее и все ноды с вф предустановленные. Кароче кайф, но тут проблема в том что менять что-то в самом репозитории проблематично.

Я могу через нетворк вольюм поменять некоторые небольшие файлы, просто в баш скрипте перед стартом воркера заменить их, и это занимает секунды времени при старте.

Но проблема щас заключается в том, что я не могу прихуярить туда SVI, так как тех нод что предустановленны в репозитории - недостаточно. KJnodes там есть, но он старой версии, без SVI, а качать их перед стартом воркера - это очень долго и сильно повысит стоимость каждой генерации

Кто знает, что если я сделаю форк этой репы, а потом соберу ее сам, не будет ли ебучий ранпод скачивать для каждого воркера мой репозиторий всегда? А это десятки если не сотни ГБ из-за моделей и декодеров.

Репозиторий на пикриле же закеширован внутри ранпода, поэтому он его грузит быстро. Если будет, то есть ли у кого решение этой проблемы?

Аноним 02/05/26 Суб 00:24:12 № 1603028 55

Бле да когда ж нормальные модели появятся делать аниме и чтоб не ебанутым цепочным воркфлоу или с премиумами за сто тыщ баксов, а чтобы просто зарядил промпт и погнал. Вот как anima для картинок, какой то топовый локальный инструмент народ бы взял за запилил, за который не жалко будет и задонатить.
Протестировал за последние два месяца всё что можно, наиболее оптимальный вариант пока выглядит всё тот же локальный svi ван, а это долго ужасно рандомно, нет встроенного звука, но с ним хоть что то приличное можно сочинить если как следует поебаться. LTX2.3 не обучен 2d аниме, только картунсы, все текущие лоры на аниме 98% делают кал, нр можно потрахаться сделать неплохо для этого надо наверное часов эдак 40 посидеть. Тут надежда только на то напихают ли аниме в следующую версию модели или найдется боярин с бабками натренирующий жирный топовый файнтюн (ну типа как Lodestone с хромой).
онлайн Клинг неплох, знает много аниме (если например написать сгенери в стиле Призрака в Доспехах) но частенько косячит в стиле примерно на уровне ltx, хоть и не добавляет сильно CGI-щины, но она в нём увы присутствует, + ещё он неебаться дорогой и цензурный, если б цензуры не было и подписка была адекватная то можт на нём бы и сидел, по аниме он примерно как и Грок, этот тут уже его сравнивали, жаль что оно там хентайщину за пейволом держит, если ещё не снесли. Грок примерно как ван иногда может а то и веселее, только вот пользоваться им ну такое.
Гугловый вео в нормальное аниме вообще хуйню какую то делает (обычные мульты в целом ок), мне кажется видеомодели не их тема, остальные модели от гугла в целом прекрасные (живу с жемини и локальной гемме годами, иногда слегка изменяя с квеном).
сэмпл с клинга если что, не локалка. ну и вановский старый.

Аноним 02/05/26 Суб 00:31:06 № 1603031 56

апплоад еле пашет

Аноним 02/05/26 Суб 00:41:59 № 1603037 57

AnimateDiff001.mp4 11095Кб, 1920x1080, 00:00:08

длинные вообще не лезут в аттачи, svi ван две склейки на пробу

Аноним 02/05/26 Суб 00:45:36 № 1603040 58

LTX 2.3 на этом референсе делает отличные транзисты, понимает хорошо камеру в промпте, hurd cut и вовсе отлично, а рожи строит почти как в наруте, динамику делает лучше всех выше перечисленных, кроме самого изображения, оно настолько всратое и там такой лютый бади-хоррор, что я под страхом расстрела бы не это стал показывать, а так конечно потенциал у модели шикарный

Аноним 02/05/26 Суб 06:25:30 № 1603141 59

>>1600292
а для 50 серии это актуально?

Аноним 02/05/26 Суб 12:15:24 № 1603275 60

>>1603028
И правильно понимаю, что среди онлайн инструментов сейчас топовый для аниме это Seedance? Но я так понимаю, это что-то очень дорогое?

Аноним 02/05/26 Суб 13:58:28 № 1603324 61

Как в LTX промптить растя-я-я-я-янутые слова? Если просто буквы повторять, он начинает заикаться.

Аноним 02/05/26 Суб 14:58:07 № 1603353 62

>>1603040
Меня интересует как он делает порно и работает относительно самой жесткой цензуру, без базы, остальное ерунда.

Аноним 02/05/26 Суб 15:32:25 № 1603387 63

177766847323806[...].mp4 2032Кб, 720x1048, 00:00:05

В аниму треде проигнорировали сие творчество. Посоветейте лоры на окончание, как-то коряво идет даже с конечным фреймом. Оно должно граммотно вылетать из хуя, а не вылезать как слайд шоу. Может я что не так в настройках делаю? Какйо вес модели, лор, промпты надо?

Аноним 02/05/26 Суб 17:27:08 № 1603485 64

>>1603387
>а не вылезать как слайд шоу
Ускорь отдельно в видеоредакторе.

Аноним 02/05/26 Суб 18:54:36 № 1603559 65

>>1603485
Вот показываю наглядно что не так, хотя мне стыдно такое постить.

Аноним 02/05/26 Суб 19:29:18 № 1603579 66

>>1603559
Ты пытаешься все за раз сделать. Склей три видео в одно и все получится.
Первое у тебя есть >>1603387 .
Во втором сделай ласт фрейм без жидкостей, чтобы модель нормально анатомию сгенерировала.
А в третьем используй ласт фрейм который хотел.

Аноним 02/05/26 Суб 19:39:21 № 1603585 67

>>1603579
Я так и делаю отдельно, последний фрейм с фапчей. Причем заметил на крайне низком разрешеении происходит как надо

Аноним 02/05/26 Суб 19:54:44 № 1603598 68

>>1603585
Что ты так и делаешь? Тебе же сказали первый ролик i2v ебля, второй ролик на ласт фрейм - вытащенный писюн, 3 ролик ласт фрейм - конча на всю спину. Направление движения и источник кончи надо описать в промпте. Еще желательно добавить физ параметры что конча жидкая/густая fluid в общем.

Аноним 02/05/26 Суб 22:05:09 № 1603652 69

>>1603598
Это не работает, "Лицевое" тоже, он по-еврейски рендерится, ну лан похуер.

Аноним 03/05/26 Вск 01:06:04 № 1603728 70

>>1603559
А где звук пидорас, нещитово.

Аноним 03/05/26 Вск 01:08:15 № 1603729 71

>>1603559
А че ты 5 секунд клеешь долбодятел совсем седня ЛТХ тебе 20 секунд даст с той же скоростью и одним видосом тут уже можно плучается минутное видео на корыте(почти) делать локально если еще склеивать епта.

Аноним 03/05/26 Вск 01:46:05 № 1603742 72

https://youtu.be/rzs6Lgu0UX0?is=grmU3c3M3Xe4TmbL

Аноним 03/05/26 Вск 02:50:27 № 1603748 73

А можно звук с охами и ахами чтоли на локалке генерить, пидарасы? Я только ТТС речь видел с синхроном губ, не щитово.

Аноним 03/05/26 Вск 02:51:40 № 1603750 74

>>1603729
Я ниче не клеил, долюодятел, это другой анон советовал.

Аноним 03/05/26 Вск 07:24:51 № 1603785 75

Wan22SVIProLowF[...].mp4 3406Кб, 736x1088, 00:00:11

>>1603652
>Это не работает

Аноним 03/05/26 Вск 14:48:46 № 1603986 76

Возможно вышел вменяемый файнтюн для ltx, нужен тест
https://civitai.red/models/2447875/ltx23-10eros?modelVersionId=2892069

Аноним 03/05/26 Вск 17:04:00 № 1604062 77

>>1603986
Лтх это мертворожденный кал. Модель - ошибка. Она непригодна вообще кроме мультиков и анимации какой нибудь для детей

Аноним 03/05/26 Вск 17:58:04 № 1604084 78

>>1603785
>>1603785
Раз воркфлоу даешь подглядеть, то даже критиковать не хочется недочеты, малаца, все вылетает. А где вообще лоры взял?

Аноним 03/05/26 Вск 18:36:40 № 1604111 79

>>1603986
с виду он сильно лучше для нсфв, чем все остальные модели. Судя по первым тестам. Эта модель хотя бы лучше анатомию понимает без всяких лор. Не идеально конечно, но лучше. Только промпт лучше через Грок генерить или другие бесцензурные ллм.

Аноним 03/05/26 Вск 20:04:11 № 1604159 80

>>1604084
Да тут проблемы в основном что исходного материала мало и лень возиться было, по быстрому в квене наклепал недостающи кадров. Иметь хорошие старт и энд фреймы - считай пол дела сделано. Можно было бы момент с кончёй распилить на 2 отрезка по 41 кадру и лучше бы все получилось. Ну и еще какую нибудь лору на аниме поверх наложить не помешало бы, но у меня таких нет так как аниме не генерю.

Лоры на civit брал.

Аноним 03/05/26 Вск 20:05:30 № 1604162 81

И еще одна нсфв модель для лтх вышла несколько часов назад

https://huggingface.co/SulphurAI/Sulphur-2-base

Аноним 03/05/26 Вск 20:40:59 № 1604186 82

>>1603986
Киньте рабочий воркфлоу для fp8, а то у меня артефакты полезли.

Аноним 03/05/26 Вск 22:20:08 № 1604251 83

>>1604159
А как ты нарезал чтоб без стыков? Обычно 1 фрейм как бы контрасней, а последний щатемняется немного. Это в комфи самом можно?

Аноним 03/05/26 Вск 22:42:08 № 1604263 84

>>1604186
>I'm uploading a new FP8 version.
Сууука.

Аноним 03/05/26 Вск 23:26:28 № 1604299 85

Кто-нибудь знает почему выполняется то, что подключено в номер 0.

Я поставил значение 2 которое снизу вот идет. Я ожидал, что будет выполняться то, что подключено в 2. Не пойму, что нетак.

Аноним 04/05/26 Пнд 00:50:48 № 1604347 86

>>1604162
Каким воркфлоу пользуешься для таких нейроситей NSWF чтобы без протекшен файла был. А то у меня только с ним, а те что без него не работают со звуком. Мне надо чтобы были ItV и TtV, и voice+ItV и TtV желательно.

Аноним 04/05/26 Пнд 08:01:02 № 1604468 87

>>1604347
Для ЛТХ использую отсюда basic вариант https://huggingface.co/RuneXX/LTX-2.3-Workflows/tree/main. Там много и других ВФ и они все для ЛТХ, но под разные задачи

Аноним 04/05/26 Пнд 11:39:59 № 1604619 88

>>1604251
ВФ в видео, без стыков делает SVI PRO

Аноним 04/05/26 Пнд 16:48:39 № 1604837 89

>>1603028
Ну у тебя весь стык что ты анимедаун, а если без этой хуйни смотреть то ЛТХ даже неплох. И я уже много по нему воркфлоу моделий и прочего в тырнетах видел, которые при том неплохо склеивают разные видосы в однин делая более длинные ролик, довольно качественно и без проебов, даже звук голосов не проебуется.