Терминология моделей prune — удаляем ненужные веса, уменьшаем размер distill — берем модель побольше, обучаем на ее результатах модель поменьше, итоговый размер меньше quant — уменьшаем точность весов, уменьшаем размер scale — квантуем чуть толще, чем обычный fp8, чтобы качество было чуть лучше, уменьшение чуть меньше, чем у обычного квантования, но качество лучше merge — смешиваем несколько моделей или лор в одну, как краски на палитре.
lightning/fast/turbo — а вот это уже просто название конкретных лор или моделей, которые обучены генерировать видео на малом количестве шагов, они от разных авторов и называться могут как угодно, хоть sonic, хоть sapogi skorohody, главное, что они позволяют не за 20 шагов генерить, а за 2-3-4-6-8.
Анончики поясните LTX2.3 может в v2v с моей аудиодорожкой? Есть видео персонажа на котором он двигается, но не говорит, либо говорит - просто рандомно шевелит губами и аудиодорожка которую я хочу чтобы он сказал. В LTX2.3 хороший липсинк на крупных кадрах. Идея оставить само видео практически без изменений и налепить липсинк. Если можно такое сделать поделится ктонибудь ВФ по этой теме?
Чекните плиз, они адекватны или нет и работают ли вместе
Вот пошаговая инструкция, как внедрить каждую из этих технологий в твой ComfyUI для RTX 4070: 1. Реализация SageAttention Самый важный шаг для видеомоделей (Wan 2.1/2.2). Установка: Проще всего через расширение ComfyUI-SageAttention. Применение: В Workflow добавь узел "SageAttention Loader". Соедини выход MODEL твоего лоадера (например, Wan2.1 Loader) со входом узла SageAttention, а его выход — дальше в сэмплер. Что дает: Ускоряет математику внимания внутри модели на ~30-50%. 2. Реализация TeaCache Позволяет пропускать похожие шаги генерации. Установка: Установи расширение ComfyUI-TeaCache. Применение: Добавь узел "TeaCache Patch". Он ставится в разрыв между моделью и сэмплером. Настройка: Установи параметр threshold на 0.1 (почти без потерь) или 0.25 (максимальное ускорение). Что дает: Сокращает время генерации в 1.5–2 раза за счет уменьшения реальных шагов вычислений. 3. Реализация Model Compilation (Торч-компиляция) Требует наличия Triton и свежего PyTorch (2.4+). Применение: Используй узел "ModelCompile" из набора ComfyUI-ExtraModels или встроенный функционал в продвинутых лоадерах. Нюанс: Первый запуск будет идти 5–10 минут (черное окно консоли) — это нормально, идет сборка ядра под твою 4070. Последующие генерации станут ощутимо быстрее. Важно: Работает только на Linux стабильно, на Windows требует установленного Triton для видеокарт 40-й серии. 4. Включение FP16 Accumulation (Параметры запуска) Это настройка самого экзешника ComfyUI. Как сделать: Отредактируй свой .bat файл (например, run_nvidia_gpu.bat). Добавь флаг: В строке запуска допиши --fast. Пример: .\python_embeded\python.exe -s ComfyUI\main.py --windows-standalone-build --fast Что дает: Включает оптимизированные пути вычислений для архитектуры Ada Lovelace (RTX 40). 5. Использование GGUF (Квантование) Чтобы модель 14B влезла в 12 ГБ VRAM без тормозов. Установка: Установи расширение ComfyUI-GGUF. Применение: Скачай модель Wan 2.2 в формате .gguf (ищи на HuggingFace от пользователя city96 или bartowski). Используй узел "Unet-GGUF Loader" вместо стандартного. Выбор: Для 12 ГБ VRAM бери версию Q4_K_M или Q5_K_M. 6. Стратегия "Low-Res + RIFE" (Workflow-хак) Вместо долгой генерации 60 кадров: В сэмплере Wan 2.2 выстави frame_count: 16 или 32. После генерации пропусти видео через узел "RIFE VFI" (из набора ComfyUI-Video-Helper-Suite). Выстави multiplier: 2 или 4. Результат: Ты генерируешь 2 секунды видео, а на выходе получаешь плавные 8 секунд за счет того, что ИИ «дорисовывает» промежуточные кадры. С чего начнем? Могу скинуть прямую ссылку на проверенный GGUF-файл Wan 2.2 для твоей карты.
они работают вместе все? Да, большинство этих технологий отлично работают вместе, создавая «эффект синергии», когда каждый слой оптимизации ускоряет процесс еще сильнее. Вот как они сочетаются в одной цепочке (Workflow): 1. Идеальная связка (Рекомендуется для 4070) GGUF + SageAttention + TeaCache: Это «золотое трио». GGUF экономит VRAM, чтобы модель не тормозила из-за выгрузки в оперативную память. SageAttention ускоряет математику внутри каждого шага. TeaCache просто выкидывает лишние шаги. Результат: Вы получаете максимально возможную скорость для Wan 2.2 на 12 ГБ памяти. 2. Что НЕ работает вместе (Конфликты) Nunchaku + SageAttention/TeaCache: Как мы обсуждали ранее, Nunchaku — это «закрытая» экосистема. Она использует свои ядра, которые не позволяют SageAttention вклиниться в процесс. Model Compile + SageAttention: Иногда могут конфликтовать на Windows. Если вы используете ModelCompile, SageAttention может вызвать ошибку «Triton kernels not found». Лучше выбрать что-то одно (для видеомоделей SageAttention эффективнее и проще в настройке). 3. Как это выглядит в ComfyUI (Схема подключения) Если вы соберете всё вместе, цепочка узлов будет такой: GGUF Loader (Загружает экономную модель). ➡️ SageAttention Loader (Патчит модель для быстрой математики). ➡️ TeaCache Patch (Патчит модель для пропуска шагов). ➡️ Sampler (Начинает генерацию). ➡️ RIFE / Upscale (Увеличивает плавность и размер уже готового видео). Итоговый совет: Для вашей RTX 4070 самым стабильным и быстрым набором будет: Флаг --fast при запуске + GGUF модель + SageAttention + TeaCache. Эта комбинация позволит вам генерировать видео Wan 2.2 в несколько раз быстрее, чем «из коробки», не вызывая при этом ошибок совместимости. Хотите, я помогу составить правильную строку запуска (батник) со всеми нужными флагами для вашей карты?
Сап, как называются эти ваши лоры, где видео, что тян стоит одетая (загружается и2в фото в одежде), а через секунду ее голую в другом ракурсе и позе сношают в жёпу? Может это лоры на персонажей индивидуальные или все-такие универсальные лоры, что так делают?
>>1600962 Нет я умный. Делаешь с помощью любой картиночной edit модели голую версию тян во время ебли, и делаешь два ролика. Потом клеишь. Получаешь 100% экспириенс >>1593720 → только без лишних лор.
Open-source 2B DiT, 720p at 121 frames, one checkpoint for both T2V and I2V.
83.76% on VBench Total, highest among open-source, beats Wan2.1-14B at 7x fewer parameters. Caveat: Wan2.1-14B still wins on temporal stability and fine human anatomy in blind tests.
>>1601059 Ладно, я думал ты трлишь, а не заинтересован в этом вопросе, раз такие советы даешь, но реально идиот получается на костылях ходишь. Нужна всего лора на cinematic hardcut и в промптах тоже hardcut.
вот вы любители на ровном месте посраться :) каждый выбирает удобный ему метод, причем мне лично тоже было бы проще два видоса склеить если бы такая задача стояла и не юзать лору на хардкат, но кстати в лтх 2.3 он уже и так встроен, точно работало с этим тэгом и без лор, а вот насчёт вана помню была отдельная лора на него у меня
Я не могу, обдрочился уже, по загадочным причинам генерироваю с соской, которая итак уже снимается в порно. Влюбился в проститутку и хочу от нее теленочка!
ltx2.3 по прежнему не умеет в нормальный прон, даже с учетом лор, они чаще всего делают хуже а не лучше, а eros файнтюн тот ещё кал, в итоге я решил что удобнее svi-ваном генерить, а уже потом загонять на переозвучку через ltx2.3, в целом недурно выходит, звуки для ебли всяко лучше чем гонять ван + ммаудио на моем среднем конфиге полутора-минутный видеоролик среднего качества влезает вполне
>>1601518 я для этой задачи тупо адаптировал тот что гуглится на реддите для LTX2 (вот отсюда брал : hps://www.reddit.com/r/StableDiffusion/comments/1q916xs/you_can_add_audio_to_existing_videos_with_ltx2/ а тот чел видимо переделывал штатный вф (был у киджая) для дубляжа, понятное дело я поменял все пути к моделям для LTX2.3, ну и приукрасив слегка нодами интерполяции + под себя переделал, например кабель перетащить с фиксированного фпс чтоб можно было его перенастраивать, но это мелочи, оно и без них работает предупреждаю что тот вф слегка накуреный потому что ltx нужно 24 кадра в процессе генерации, соответственно количество кадров нужно строго определенное указывать, при этом то что у тебя будет в изначальном видео и в том что тебе хочется делать можно указывать другое значение fps, если возникает ошибка vae encode значит количество кадров на вход не совпадает с тем что умеет жрать ltx, самый идеальный вариант конечно если у тебя изначально видео в 24 кадра в секунду и ты генеришь на его основе звук с новым видео 24 кадра, тогда ничего делать лишнего не нужно, будет работать сразу из под коробки, и видео лучше хорошего качества скармливать, тогда ии будет понимать что там
Есть у кого вокрфлоу для Wan с последовательным прогоном пачки латентов сначала через high сэмплер, а потом через low (чтобы модели в память не грузить на каждое видео)? Пробовал промежуточные латенты выгружать на диск, но быстро заебался вручную файлы туда сюда гонять. Есть рабочий вариант через Repeat Latent Batch, но оно в какой-то момент перестает в память влезать.
>>1601732 Сам спросил, сам ответил. Если между Repeat Latent Batch и сэмплером вставить Rebatch Latents со значением 1, то оно латенты будет по одному передавать, а не ебанет туда всю пачку.
>>1601749 Идея неплохая. Интересно, насколько ускорит, если у меня 12 ГБ ВРАМ, а модели fp8/Q8 по 14-20 ГБ? Если модели полностью помещаются результат должен быть приличным.
Поделись примером воркфлоу для теста, пожалуйста.
>>1601809 Насколько я понял идею анона, это поможет при генерации пачки видео из одного воркфлоу для подборки seed'f, силы лор и подобных вещей. На генерацию одного видео не повлияет. Лучше будет работать, если одна часть модели (в смысле high/low) целиком или почти целиком, если только половина - эффекта не будет.
как в ltx2.3 для анимации (любой где НЕ фотореализм) сделать нормальную музыку?! что бы я не делал какие бы промпты не писал всегда играет почти однотипная полусимфоническая ебанина, словно какая то мелодия затычка
>>1601809 >>1601969 У меня 16гб вирама и столько же древнего рама лол, плюс файл подсрачки на ссд. Бутылочное горлышко возникает из-за постоянной загрузки и выгрузки моделей из памяти. Если пачками обрабатывать, то на условные 5 генераций модели грузятся 1 раз вместо 5.
>>1602089 Но оно же дольше будет генерить, чем если бы я генерил просто один раз? При том, что я не знаю, может с первого раза получится нормально. Тоесть этот способ просто увеличивает время генерации на ровном месте. Очень странно.
>>1602032 Понял, благодарю, seed variation оказывается очень просто сделать)
>У меня 16гб вирама У тебя все варианты, все кроме fp16, за раз помещаются и на одном семплере нет выгрузок/подгрузок - в этом случае должно сильно разогнать. Есть цифры? У явно будет скромнее, надо потестить.
>>1602098 Тебе никто не мешает делать по одному ролику, пока ты подбираешь промпт, меняешь картинки и прочее. А когда у тебя уже получается плюс-минус то, что ты хочешь - прогнать пачкой в поисках более удачного сида или еще каких-то продвинутых вещей. Я полагаю, есть способ запустить 5 разных картинок из папки и/или 5 разных промптов из файла.
Если у тебя момент выгрузки хай-модели и загрузка лоу в видяху - бутылочное горлышко ты можешь условно сгенерить 5 вариантов видосика по такой схеме, как 2 по обычной.
>>1602298 >Если у тебя момент выгрузки хай-модели и загрузка лоу в видяху - бутылочное горлышко А как это определить. Я вообще не ебу откуда они грузятся, по частям они грузятся или целиком.
Квен например 25 гиговый у меня тоже работает. Хотя видюха 12 гигов.
экономия на пачке 195.83*5 - 856 = 123,15 секунды 123,15 / 5 = 24,63 - на одном видосе, среднее Сокращение времени, среднее 24,63 / 195.83 = 0,1257 = 12,57%
Пытался запустить Q4_K_M, но у меня GGUF отказывается полностью грузится в карту и генерирует за тоже время, что и fp8. То ли руки кривые, то ли я чего-то не понял.
>>1602301 Упрощенно, каждый шаг в ksample - проход по всем слоям модели (для примера - 100). Если в видеопамять поместилась только часть слоев (например 80), то после прохода по ним, часть слоев (20) выгрузится из видеопамяти и на их место загрузятся новые. То есть каждый шаг эту колоду будет дрочить туда-сюда.
У анона мало ОЗУ и она медленная, поэтому загрузка-выгрузка происходит еще и в своп на диске, что максимально медленно, но его 16ГБ ВРАМ хватает на хай-модель ну и сама карта быстрая наверно, поэтому сам проход семплера достаточно быстрый. Поэтому его идея будет давай максимально большой прирост
>Квен например 25 гиговый у меня тоже работает. Хотя видюха 12 гигов. У тебя и flux-dev на 100 гб заработает, если оперативки свопа на диске хватит) Работать правда будет очень медленно
>>1601732 Я что то колупался с этим и по итогу сдался посчитав это не выполнимой задачей на программном уровне. Само устройство двух ксамплеров не позволяет генерировать сначала хай потом лоу. Ведь в конечный латент, который передаешь в следующий сегмент генерации, уже должен содержать генерации от хай и лоу, иначе никакой конситсентности не получится.
>>1602400 >последовательных видео Точно не будет, только "независимые" видео ролики для черрипика. Я уже предлагал варианты использования выше: - перебор сидов; - подбор силы лоры; - перебор вариантов первого кадра; - перебор промптов; - вариации озвучки.
>>1602461 По качеству в среднем хуже, почти все модели хуже работают с аниме. Разницу по ВРАМ как-то не ощутил
Гружу на hight модель fp16, а на low fp8 - в итоге все умещается в 96 гигов рама без свопа и ебли ссд. Проверил с полноценным fp16 на low - разницы ноль. Еще и свободно немного остается рама
В чем не прав? Минусы интересно есть еще какие то?
Мде, провёл вчера весь вечер в экспериментах с LTX 2.3 и анимацией, в отличие от реализма он не умеет в музыку для анимаций вообще, похоже что обучали только на беззвучных роликах. Везде примерно одна и та же фоновая унылая духовая музыка даже на всех видеопримерах с civitai где люди пробуют анимацию делать в этой модели, нормальная музыка отсутствует как сущность. Даже если накидать весов типа на такой то секунде играет мощный бит, он будет играть почти не слышно. Предполагаю что разработчики так сделали намеренно чтобы не нарваться на туеву хучу копирайтов, особенно от японцев или диснея. Тут видимо придётся или лор ждать кто сообразит музыку с анимацией скрестить или просто на своём аудио генерить уже через S+I2V вф стандартный [p.s. с не анимационными роликами такого у модели поведения нет, модель может клепать вполне годное музло и с вокалом и без
>>1602493 имхо чтобы его избегать нужно в бОльшом разрешении генерить желательно вообще в самом максимальное которое тянет система и референс не во всратом качестве пихать
Пацаны, я вот использую ранпод в своем проекте (тг боте) Юзаю Serverless Endpoint чтобы постоянно не платить за аренду карточки и у меня вопрос.
На ранподе есть шаблоны готовые. В этой репе есть и сама модель и API для нее и все ноды с вф предустановленные. Кароче кайф, но тут проблема в том что менять что-то в самом репозитории проблематично.
Я могу через нетворк вольюм поменять некоторые небольшие файлы, просто в баш скрипте перед стартом воркера заменить их, и это занимает секунды времени при старте.
Но проблема щас заключается в том, что я не могу прихуярить туда SVI, так как тех нод что предустановленны в репозитории - недостаточно. KJnodes там есть, но он старой версии, без SVI, а качать их перед стартом воркера - это очень долго и сильно повысит стоимость каждой генерации
Кто знает, что если я сделаю форк этой репы, а потом соберу ее сам, не будет ли ебучий ранпод скачивать для каждого воркера мой репозиторий всегда? А это десятки если не сотни ГБ из-за моделей и декодеров.
Репозиторий на пикриле же закеширован внутри ранпода, поэтому он его грузит быстро. Если будет, то есть ли у кого решение этой проблемы?
Бле да когда ж нормальные модели появятся делать аниме и чтоб не ебанутым цепочным воркфлоу или с премиумами за сто тыщ баксов, а чтобы просто зарядил промпт и погнал. Вот как anima для картинок, какой то топовый локальный инструмент народ бы взял за запилил, за который не жалко будет и задонатить. Протестировал за последние два месяца всё что можно, наиболее оптимальный вариант пока выглядит всё тот же локальный svi ван, а это долго ужасно рандомно, нет встроенного звука, но с ним хоть что то приличное можно сочинить если как следует поебаться. LTX2.3 не обучен 2d аниме, только картунсы, все текущие лоры на аниме 98% делают кал, нр можно потрахаться сделать неплохо для этого надо наверное часов эдак 40 посидеть. Тут надежда только на то напихают ли аниме в следующую версию модели или найдется боярин с бабками натренирующий жирный топовый файнтюн (ну типа как Lodestone с хромой). онлайн Клинг неплох, знает много аниме (если например написать сгенери в стиле Призрака в Доспехах) но частенько косячит в стиле примерно на уровне ltx, хоть и не добавляет сильно CGI-щины, но она в нём увы присутствует, + ещё он неебаться дорогой и цензурный, если б цензуры не было и подписка была адекватная то можт на нём бы и сидел, по аниме он примерно как и Грок, этот тут уже его сравнивали, жаль что оно там хентайщину за пейволом держит, если ещё не снесли. Грок примерно как ван иногда может а то и веселее, только вот пользоваться им ну такое. Гугловый вео в нормальное аниме вообще хуйню какую то делает (обычные мульты в целом ок), мне кажется видеомодели не их тема, остальные модели от гугла в целом прекрасные (живу с жемини и локальной гемме годами, иногда слегка изменяя с квеном). сэмпл с клинга если что, не локалка. ну и вановский старый.
LTX 2.3 на этом референсе делает отличные транзисты, понимает хорошо камеру в промпте, hurd cut и вовсе отлично, а рожи строит почти как в наруте, динамику делает лучше всех выше перечисленных, кроме самого изображения, оно настолько всратое и там такой лютый бади-хоррор, что я под страхом расстрела бы не это стал показывать, а так конечно потенциал у модели шикарный
В аниму треде проигнорировали сие творчество. Посоветейте лоры на окончание, как-то коряво идет даже с конечным фреймом. Оно должно граммотно вылетать из хуя, а не вылезать как слайд шоу. Может я что не так в настройках делаю? Какйо вес модели, лор, промпты надо?
>>1603559 Ты пытаешься все за раз сделать. Склей три видео в одно и все получится. Первое у тебя есть >>1603387 . Во втором сделай ласт фрейм без жидкостей, чтобы модель нормально анатомию сгенерировала. А в третьем используй ласт фрейм который хотел.
>>1603585 Что ты так и делаешь? Тебе же сказали первый ролик i2v ебля, второй ролик на ласт фрейм - вытащенный писюн, 3 ролик ласт фрейм - конча на всю спину. Направление движения и источник кончи надо описать в промпте. Еще желательно добавить физ параметры что конча жидкая/густая fluid в общем.
>>1603559 А че ты 5 секунд клеешь долбодятел совсем седня ЛТХ тебе 20 секунд даст с той же скоростью и одним видосом тут уже можно плучается минутное видео на корыте(почти) делать локально если еще склеивать епта.
>>1603986 с виду он сильно лучше для нсфв, чем все остальные модели. Судя по первым тестам. Эта модель хотя бы лучше анатомию понимает без всяких лор. Не идеально конечно, но лучше. Только промпт лучше через Грок генерить или другие бесцензурные ллм.
>>1604084 Да тут проблемы в основном что исходного материала мало и лень возиться было, по быстрому в квене наклепал недостающи кадров. Иметь хорошие старт и энд фреймы - считай пол дела сделано. Можно было бы момент с кончёй распилить на 2 отрезка по 41 кадру и лучше бы все получилось. Ну и еще какую нибудь лору на аниме поверх наложить не помешало бы, но у меня таких нет так как аниме не генерю.
>>1604162 Каким воркфлоу пользуешься для таких нейроситей NSWF чтобы без протекшен файла был. А то у меня только с ним, а те что без него не работают со звуком. Мне надо чтобы были ItV и TtV, и voice+ItV и TtV желательно.
>>1603028 Ну у тебя весь стык что ты анимедаун, а если без этой хуйни смотреть то ЛТХ даже неплох. И я уже много по нему воркфлоу моделий и прочего в тырнетах видел, которые при том неплохо склеивают разные видосы в однин делая более длинные ролик, довольно качественно и без проебов, даже звук голосов не проебуется.