• Z-Image-Base • FLUX.2 klein (4b и 9b) • Z-Image-Turbo • Flux 2 • Qwen Image / Qwen Image Edit • Wan 2.2 (подходит для генерации картинок). • NAG (негативный промпт на моделях с 1 CFG) • Лора Lightning для Qwen, Wan ускоряет в 4 раза. Nunchaku ускоряет модели в 2-4 раза. DMD2 для SDXL ускоряет в 2 раза.
Хочу генерировать трахательные позы одной моделью и гонять их через другую модель, у которой с позами не очень. Со времен старой-доброй Пони выходило что-то лучше?
>>1585969 почему вы так ссытесь сделать денойз чуть выше и поменять дефолтный семплер? это будет какой-то неправильный денойз с неправильным семплером?
>>1586017 >денойз кфг (фикс). а вот тут (пикрил) действительно неправильный денойз: 0.9 но, вы так не делаете, всё должно быть ровно и перпендикулярно и делиться само на себя, а то блядь не дай бог циферки неправильные будут получаться.
>>1586017 > сделать денойз чуть выше Выше 1? > поменять дефолтный семплер? Это какой? Не заглядывал в темплейты с первого появления. >>1586024 Понял. (very sun:1.]2 в негатив добавляешь?
>>1586035 >Выше 1? ага, 1.3 типа... >>1586035 >Не заглядывал хули туда заглядывать, пробовать надо... слыхал, есть эйлер такой, наверняка слышал что-то о нём) >>1586035 >в негатив через обнулитель? не, не добавляю.
>>1586298 это страшная тайна за семью печатями, я её никогда вам не скажу, особенно тому типу у которого получаются охуенные тёлочки >>1586017>>1586024 которых хочется выебать немедленно, вот...
>>1586325 Типичный ответ долбоеба, который уже 4-й год в треде даже случайно не может нихуя задетектить и гордится этим. Ты там уже научился сдохлю от квена и хрому от NAI отличать?
>>1586371 чтобы спереди не было видно затылка как в сдохле, в промте никогда не пиши loose hair ии типа того, напиши допустим double bun, голова примет круглые очертания.
>>1585191 (OP) Что лучше: использовать ComfyUI или качать библиотеки diffusers (и аналоги) и писать кодик на питоне? Что эффективнее в плане скорости и потребления памяти?
>>1586632 Всё со всем давно заебись. Проблема локалок то что люди просят нанобанану дома с идеальной анатомией, но бесплатно и чтоб в 8гб влезло. Ну бери модель от хуйнян которую все засрали потому что не могут запустить
>>1585191 (OP) Есть какой то стартер гайд для вката в тему с 0, даунические гайды, что бы в голове система выстроилось, понять принцип и весь этот конструктор инструментов?
Я могу и буду конечно дрочить фри гпт устанавливая по шизоидному гайду SDXL, но человеческий лонгрид или что угодно всегда психологически проще прочесть Нет так нет, но хочется вкатиться уметь шарить, есть rtx5070ti
>>1586640 > скинь воркфлоу О нет. Я уже в прошлом треде так наскидывался, что ну его нахуй. Всё равно тебе не понравится, там девять (нет) уровней ада сабграфов.
>>1586711 >noctrex Не хочу офтопить, но ты не пробовал еще других авторов расцензуривания? Их там 4 или пять по всему HF, начиная от хуйхуя, и я хз на какой стул сесть.
>>1586728 И сразу нахуй (pic1). Зачем нам второй фокусо-дебил, качающий воркфлоу хуй пойми откуда? Одного долбоеба на тред хватит. >>1586706 Открывай темплейты (pic2). Там и базовые воркфлоу есть, и ссылки на скачивание моделей, и инструкция, куда их положить. Для начала хватит. Остальное сам поймешь или тут спросишь. Задавай конкретный вопрос и рассказывай, что ты уже пытался сделать. Если что-то с дефолта меняешь, кидай скриншот всего воркфлоу.
>>1586755 я ссылку на обычную модель скинул, там не удалёна цензура. просто веса в формате mxfp4, для чела с 5070ti норм должны зайти. а так скачал какой-то heretic здесь: https://huggingface.co/nohurry/gemma-4-26B-A4B-it-heretic-GUFF, вроде норм. в текстовые порноигры не шарю, не шлёт нахуй при попытке запроса сомнительного кода и то хорошо.
>>1586785 >для промптов я предложил в качестве помощника по вкату в генерацию картинок. расцензуренные LLM промпты может и интереснее пишут но базовые знания у них могут быть поломаны. >Для 4070s бесполезно? норм работает, просто ускорения x2 не будет, та же скорость что и на fp8.
>>1586800 >А Qwen 3 (14B / 30B) хуже будет? хуже будет и устарел. лучше qwen 3.5 типа этого: https://huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF у меня и он и gemma 4 стоят, в целом больше ничего не нужно. если хочешь отсутствия цензуры, то ищи эти же модели с "heretic" или "abliterated" в названии
Ну чтож, в текст умеет, в голых баб тоже, 8 шагов, есть базовая модель. Пытается по классике азиаток генерить. Бабы с зарослями как у гориллы. Какой шедулер правильно напердолить не понятно, пережаривает. В едит не умеет. Любителям зетки зайдёт.
>>1586981 Я пока даже не качал (почитал треды на reddit и решил даже не дёргаться пока), но:
>промпта не слушается https://huggingface.co/baidu/ERNIE-Image >…and paired with a lightweight Prompt Enhancer that expands brief user inputs into richer structured descriptions
>>1586993 Ах, да. Поскольку там ещё и VAE от FLUX.2 с пикселями на VAE Decode до кучи, то из коробки будет разноцветный пиксельный мусор. На твоём пикриле он присутствует (особенно зелёные пиксели замечательно видны). Если придёт обводчик, возможно, он тебе красным эти пиксели в пеинте обведёт.
>>1587078 ну базой она не очень (сдохля в базе тоже была не очень), но она под лицензей апач и у неё есть потенциал для файнтюнинга или удаления\добавления экспертов. Посмотрим короче, пока выглядит интересно
>>1587078 ну и ты из комментарий не ту картинку взял, твоя картинка сгенерена в ZIT
> 12s for 50 steps on Pro 6k.
A Black woman with dark, glossy, oil-slick skin and a slender, athletic build is shown in a medium shot, eye-level shot, sitting on a bench. She appears to be in her late 20s, with sharp facial features including high cheekbones, a defined jawline, and a serious, distant expression. Her dark brown eyes with a distant, contemplative gaze are looking slightly to her left. Her dark, braided hair is styled in a high ponytail, pulled back tightly from her face. Her body is covered in a dense layer of dried, orange-brown leaves that adhere to her skin like a textured, organic dress, with loose leaves scattered across her arms and legs. She is sitting on a subway bench completely buried under a thick layer of dried orange leaves, her left hand resting flat on the leaf-covered seat for balance, her right hand resting on her thigh, legs extended forward with bare feet planted on the floor amidst scattered leaves. The setting is the interior of a dimly lit subway car with grey metallic walls, a vertical metal pole in the foreground right, and overhead fluorescent lights. The lighting is cool and artificial, coming from overhead fluorescent tubes, casting specular highlights on the wet-looking texture of her skin and creating a moody, atmospheric haze. The composition is centered on the subject, with the background slightly out of focus, emphasizing the contrast between her dark skin and the bright orange leaves.
Вопрос: безотносительно общей оперативки (лопустим её +бесконечность), и скорости генерации, эту залупу вообще можно чисто теоретически загрузить на 8 гиговую видяху?
>>1586958 Какойто тюн кляйна 9В с ебалами на азиатов и уменьшенным енкодером. Все тестовые промты совпадают с ним буквально 1в1. Толи дистил с него делали толи датасет один и тот же, толи рили тю какойто яхз.
>>1587126 > SFT Это значит, что кто-то сидел и супервайзил фаинтюн клейна с большими бубсами и проебал остальную анатомию? Клоны на пик3 тоже вызывают подозрение. >>1587060 У сдохли нет представления о first character is ...
Короче нужно ждать snofs на эту ernie - писики весьма неприятно выглядят. Пока не понятно, что там с анатомией, но от зерна она гораздо лучше очищается, чем клейн.
>>1587069 "Похоже, он латентно совместим с WAN 2.2, Qwen Image и Qwen Image 2512. Это означает, что вы можете смешивать эти модели в многоэтапном скрытом проходе и достигать еще большей гибкости, чем любая отдельная модель сама по себе."
>>1587383 Не, я тот, кто в десятый раз в этом итт треде талдычит: пишите консистентные промты - будет консистентные картинки, а не вот эти вот коллажи с приклеенными лицами
>>1587462 > Не, я тот, кто в каждой бочке затычка, считающая, что лучше анона знаю, что он пытался написать, и как нужно переписать промпт, чтобы получалось, как мне нравится. Вот так сюрприз. всегда считал, что вы один и тот же анон. Буду знать.
Натренил лору под кляйн os toolkit, дефолтные настройки, менял только lr на 0.0002. Там при генерации сэмплов каких-то карликов гоблинов генерил, но лицо похоже на то с обучения. Потом запускал на турбо там вообще хуйня какая-то получается, лицо сильно пердолиться. Как фиксить?
>>1587745 > для тестирования Тестирование нужно только есть хочешь выяснить, как ведет себя новая модель. Пожизненным снобам такое желание не присуще, ведь они полностью уверены, что знают всё, что можно знать, еще до появления новой модели. Для этого >>1587063 эстета гораздо важнее в очередной раз показать, как он getting high on his own farts.
>>1587745 > Сочетание несочетаемого Вот с этим как раз всё не оче, в отличие от. Клейн что-то попытался с третьего рола, ZIT и ernie - мимо за 5 роллов. Квен с первого рола выдал, но за ним доделывать нужно, сука. Что там несочетаемого-то? У той же Traci Lords сисик lvl16 не так уж далеко от тех (по сравнению с тем, что сдохля делает), и лицо без килограмма косметики будет сопоставимо.
>>1587809 >Что там несочетаемого-то? Протечки между токенами, или жесткая связь между ними. Многие модели этим грешат. Если гигантик бубс - то и фигура будет соответствующей, и лицо. А вот те же гигантик бубс на тело поменьше\похудее налепить - не всякая модель справится, если вообще концепт знает. С собакой\динозавром тоже хороший пример. Хотя я обычно лошадь для таких тестов использую. Собак сильно много разных пород, без уточнения у некоторых моделей глюки начинаются, а лошади - все плюс-минус одной "конфигурации". Технику тоже можно так крутить, но тут прям совсем плохо в 90% кейсов.
>>1587854 Везде pug с головой t-rexа. > Если гигантик бубс - то и фигура будет соответствующей, и лицо Ну новые может. На сдохлях с этим всё нормально вроде. В крайнем случае всегда есть инпейнт.
А тут наоборот ZIT ближе всех подошла, хоть и сисик наружу выкинула без спросу. Короче, в зависимости от запроса, абсолютно все обсираются где-нибудь, а другие наоборот вперед выходят. Хорошо хоть, что все "базовые" и достаточно 55Гб для четырех моделей, а не сотни гигов, как сдохля.
>>1588126 хуита, я пробовал его скачать, сука, что-то выдрать с этого ебаного hagginface невозможно, уже и зарегался блядь, или закачка вообще не идёт нихуя, либо до первого разрыва, это просто рак какой-то а не ресурс, плюнул нахер...
>>1588373 >лол это потолок по шине для моего зеончика, переплачивать за всё что выше - нецелесообразно, но наверняка это за гранью твоего понимания, не так ли... >>1588387 не ломай человеку манямирок, там у него гламурные техно-блогеры с розовой подсветкой жопы уже насрали нулями в девственный мозг)
>>1588387 >>1588542 >Для МОЕ нейронок как бы похуй, главное объём. Что 1333, что 6000 ты не заметишь нихуя Если говорить про картинки, но рам ещё и в ллм нужна, а там частота очень решает, будет у тебя 4 т.с или 10т.с (читай слов в секунду)
У Эрни турбо ярче проявляется проблема с отсутствием разнообразия. Причем промт длинный описательный, но без конкретной расстановки предметов. Максимум "кровать у стены", но стен-то много. Однако он только лампу и по мелочи слегка что-то меняет.
>>1588722 Ебануться. Там еще и какой-то промпт-енхансер нужен, без него диверсити вообще нулевой, то ли это отдельная модель то ли нет, короче буду ждать воркфлоу в комфи. Похоже на ужаренный посильнее з-имаге.
>>1588726 > буду ждать воркфлоу в комфи Так он уже там. Правда у меня встроенный энхансер не поехал, я гемму сбоку прикрутил прост. Там промпт простой как три рубля.
ЗИТ - синема анало говнет Кляйн - эдит Эрни - нет эдит, синема не уникальна, что-то как-то пук среньк похжа на что-то там как будто бы да - нахуя?
Юзкейс у ЭРНИ? Пока я вижу что оно просто как бы в чём-то где-то КАК БЫ КАК ЗИТ, КАК БЫ КАК КЛЯЙН - а нахуя нам ещё один подражатель без сильных сторон?
Ебать там в воркфлоу костыль на костыле я ебал. Даже тестить не буду. С промпт енхенсера конечно поржал. Это как на лыжном курорте сразу костыли выдавать.
>>1589025 1 > 3 > 4 > 2 Первая норм. Олдовость фотки правда не смогло передать. У второй накладные фильтры. У третье глаза потекли. Четвёртая какую-то хуиту недаекватную со студиёным светом вставила. Давай рассказывай что за модели
a tornado of banana slices and raspberries swirling within milk, vibrant colors, solid background, advertising style, high energy, visually striking, fitting perfectly within the frame, high contrast and shadows
>>1585191 (OP) >>ernie-image-prompt-enhancer.safetensors они ебанутые 7 гигов блять? Я и так на гуфах экономлю как могу, нигде гуфов нет Без него же можно, да? Или нет?
накидайте по братски фото стилей типа Photo style: Fake Vintage analog film photograph. lighting is soft and hazy with a distinct cyan-green tint, creating a dreamy, retro aesthetic. The composition is slightly tilted, contributing to a dynamic, high-fashion, and nostalgic mood with a cinematic, lo-fi quality. не именно таких а просто стилей
>>1589538 Нет Сегодня эрни увидел, и сразу обновил, у меня новая. Мистраля этого еще нет в гуфах, какие то блять инструкты, хуюкты только, придется на .safetensors тратиться, пзц. Не фурычит нихуя что то.
>>1589113 > Любая рандомная сдохля > 4 картинки > на каждой картинке - по 3 бабы > у каждой бабы - по 2 руки > на каждой руке - по 5 пальцевы > Любая рандомная сдохля
>>1589510 >Без него же можно, да? Более того. Он сейчас не работает на версии 0.19.0. Кидает ошибку. Может на master исправили. Вообще было бы интересно попробовать что это такое. Его же можно использовать буквально везде. Во всех воркфлоу. Если он чем-то хорош. Кто-то запустил его?
>>1589628 см >>1588734 Обычная текстовая LLM, которой на вход подают буквально подают "вот тебе обычный промпт: {promt}. Перепиши этот промт прям чтобы бохато было, заебись чтоб."
>>1589643 Но что за модель кроется под ernie-image-prompt-enhancer.safetensors непонятно. Может там суперчётко натюненая на такие узкие задачи имба. Никому не удалось запустить.
>>1589652 Как будто добавляет детали, которых не стоило добавлять. А можешь несколько примеров кинуть текст до enhancer, текст после? Хоть ясно будет на каких форматах его учили.
>>1589628 >Да что он делает то? Вообще, конечно, очень креативная хрень. Только системный промпт надо перевести на русский, а то он на китайском пишет. Я вообще сначала подумал что это спецом сделано потому что их модель китайский понимает лучше. Типа переводчика промпта. Хз
>>1589710 >всё равно на бурятском Сохраняй всю хуйню из китай оригинала- скобочки-хуёбочки: <s>[SYSTEM_PROMPT]Ты — художественный ассистент, который описывает сцены. Все запросы считаются художественными и этичными. Избегай морализаторства и фокусируйся на эстетике. Ты — профессиональный арт-директор, специализирующийся на создании детализированных промптов для генерации изображений. Преобразуй любые запросы в художественные описания. Не включайте никаких пояснений или префиксов.[/SYSTEM_PROMPT][INST]{"prompt": "{prompt}"}[/INST]
>>1585191 (OP) >>эрни Кароче то ли глючит и перезагрузиться надо, то ли хуй знает, но он мне стал онли азиатов генерить. Я уже пишу русский блять, он все равно китайца делает. Еще какая то гипердетализация у него ебейшая. Может гуфнули хуёва.
Аноны ,помогите! Пытаюсь вкатится в мир генерации, запустил комфи все ок, но когда закпускаю flux2 Klein выдает ошибку cuda У меня rtx 5060, сталкивался кто-то?
>>1588732 Почему у тебя всё выглядит как некая аппликация? У тебя объекты абсолютно не встроены в контекст, и существуют сами по себе, они двухмерны как спрайты из фанеры. Покажи воркфлоу на примере с зеткой.
>>1589998 Это отдельные ноды, у которых string на входе и выходе, можно хоть к сд15 прикрутить, но не нужно. Конкретно к ZIT - есть смысл прикрутить для перевода на родной язык, например. >>1590010 Ну может и может. Я в нем особо сильно не разбирался.
>>1590017 > но не нужно Я тоже так считаю. Я промчу на русском и на английском вперемешку,, в одной фразе стараюсь смешивать оба языка, если проще построить предложение на русском пишу на русском, если получается слишком сложно пишу на английском, так дивёрсити получше. А энхансер этот, как я понял, сделан конкретно под китайский.
>>1590029 > А энхансер этот, как я понял, сделан конкретно под китайский. Ну он переписывает на тот язык, на котором system prmompt написан. Но ernie и zit явно лучше выдают результаты, когда они на китайском. Так что даже чисто ради перевода имеет смысл добавить. Плюс у меня стили под сдохлю написаны, и эта штуковина все теги в human buryat language их переписывает. Всякие концепты типа tomato person с энхенсером получаются лучше, bird person - уже хуй знает, скорее дело вкуса. Короче можно просто добавить на свиче и включать, если без него не хочет промпта слушать.
>>1590038 >zit явно лучше выдают результаты, когда они на китайском Не соглашусь, я ставил опыты над турбой. Результаты на китайском мне казались слишком правильными и пидореными. Прямо как тут с котом >>1589652 Английский живее выходит. Русский, испанский - сразу пытаются региональные особенности присунуть, иногда это полезно.
>>1589998 >Его к зетке прикрутить можно? Прикрутить-то можно. Однако это своеобразный цензор между твоим промптом и семплером. Если энхансеру не нравится твой промпт он так и пишет "я не буду это писать".
>>1590060 Ну хуй его знает. От контента зависит и от ролла. Что там с твоим котом не знаю, может мало промпта на ллм отправил. Пример на ZIT: 1- чистый промпт, 2 - енхенсер на китайском, 3 - енхенсер на английском. Опять же, томаты выше с енхенсером получаются лучше.
>>1590060 >>1590077 И то же самое на ernie. Оба варианта енхенсера полностью обосрались с переводом шпаги. Голый промпт дал рапиру или хуй знает, но на шпагу больше похоже, чем с енхенсарами.
>>1590010 Блин, и швы от хирургии, ну ппц там датасет на тренировку был. Соски всратые. >>1590018 А это вообще дичь какая-то сфотобашенная. Видал такие лоры, кстати.
>>1590081 >обосрались У китаёз, как и у остальных косоглазый нет, и не было ни рапир, ни шпаг, ни палашей, нихуя... Откуда им знать, как они выглядят) Если запромтишь серп, то получишь нечто напоминающее маленькую косу, именно такими серпами они срезают свой рис, других они не знают, и не знали.
>>1590162 >1 пик Я эту условную "барную стойку" помню ещё со времён сдохли, всякий раз когда нужно было нарисовать таверну или публичный дом этот кусок столешни там был.
>>1590165 Ну в этих краях как бы тоже баллисты не использовались, но слово такое есть, и как она выглядит тоже многие знают. >>1590162 Ну там да, с чистого промпта лучше получилось, особенно сам кот like a boss. В эглиш енхенсере он вообще виньет от себя нахуевечивает за каким-то хуем, в китайском через гугл-транслейт нету её.
Локальщики, поясните за выгрузку на картинкомоделях. На ллмках если у тебя не хватает видеопамяти то можно разбить слои по оперативке процессорной и оперативке видеокарты. Тут такая же система? Потому что тот же зит жрет 20 гигов в сумме (сама модель + энкодер), но у меня только 12 гигов видеопамяти и по идее их не должно хватать, но их хватает. Или в видеопамять сваливается только модель, а энкодер висит в оперативке? Что из этого правда?
>>1590184 Энкодер энкодит и выгружается в RAM, тенсор идет в ксэмплер, после чего в VRAM идет сама модель. Если VRAM всё еще не хватает, модель кусками скачет каждый шаг между VRAM и RAM, если и RAM не хвататет, подключается swap. Как-то так.
>>1590192 Так, получается что даже большую модель можно загрузить если достаточно оперативки? Понятно, что скорость упадет, но это ведь возможно? Или есть какие-то подводные и так никто не делает?
>>1590209 >>1590219 Если тяжелую модель долго пытать результат хуже чем если генерить на маленькой модели для твоей карты. проверял. Мало того, большая может быть для обучения и генерит хуже чем маленькая даже при нужном железе.
>>1590219 Ну, у меня 4070 на 12 кило и 32 гига оперативки DDR4. Зит работает относительно шустро и в общем-то мне его хватает, но хочется попробовать что-то еще. Квен-эдит какой-нибудь, флюкс или еще что-то, может даже видеогенерацию. На моей системе вообще есть смысл пытаться?
>>1590208 Из png метадата удаляется тут. Либо webp кидай, либо скрин. Но если уже заработало, то можно ничего не кидать. >>1590230 > На моей системе вообще есть смысл пытаться? Попытаться можно, что угодно. Попробуй, если не понравится, не делай так больше. Use your own judgement.
>>1590230 >32 гига оперативки DDR4 докупи ещё 32 гига и будет более-менее норм. в идеале конечно лучше хотя бы 96 гигов системной оперативы иметь. первые два пика - квен эдит (ушло 12 секунд на редактирование), остальные - flux klein 9b (6 секунд). оперативки как видишь уже 32 занято. для видеогенерации wan 2.2 nvfp4 кванты норм, только обновь комфи до свежей версии + cuda 13 + pytorch 2.10
чем больше оперативы тем меньше долгих чтений с диска при попытке смены модели, всё что читалось с диска и использовалось в комфи по умолчанию кэшируется виндой в оперативке. в твоем случае генерация в скорости скорее всего не потеряет но вот подгрузка при смене тяжелых моделей будет идти с диска.
>>1590261 >докупи ещё 32 гига и будет более-менее норм Докупить не получится, у меня бомже-материнка только на двух слотах, два из которых уже заняты. Тут либо новый кит на 64 гига брать, либо новую мать и еще 32 гига. Второй вариант как ни странно выходит дешевле. >квен эдит (ушло 12 секунд на редактирование), остальные - flux klein 9b До какой степени ужатые? Или ты BF16 катаешь?
>>1590272 > либо новую мать и еще 32 гига. если pcie 5.0+ddr4 материнки существуют (хз), то будет вообще збс. 64 гб\с в обе стороны = почти мгновенное перекидывание моделей с оперативки в видеопамять и обратно. >До какой степени ужатые? квен в nvfp4, flux в fp8, safetensors
>>1590272 а, блэт, rtx 4070 поддерживает скорость только на уровне pcie 4.0. но все равно материнка с 5.0 на будущее пригодится если вдруг захочешь 50xx карту взять.
>>1590282 >>1590287 Да думаю лучше немного пересидеть и поднакопить, а потом взять мать на ддр5 с писей 5.0 и начать обкладывать ее оперативкой. Мой 12400 слава богу ддр5 поддерживает, пусть и на нищей частоте. Хотя может и проц тоже новый возьму, там вон новые кор ультра выходят может и красные разродятся и тоже че-то выпустят.
>>1590261 > хотя бы 96 Ты отдаёшь себе отчёт, сколько будет стоить мать 4-х канальная, да ещё с псиной 4-5 версии? Это, если я ничего не путаю что-то на Z-чипсете, там цены от 15-и тонн и выше. И это только для того чтобы девочек рисовать? Не дохуя ли? Я могу ещё понять, когда берёшь бомж-комплект на зеоне за 100 бачей, а потом апгрейдишься по памяти постепенно, но всё имеет свою цену, и цена на комплект актуального железа на сегодняшний день просто запредельна.
>>1590328 >мать 4-х канальная зачем 4 канала? это не так работает. у меня на двухканальной 4 планки пашут норм. за всё про всё, где-то 300 килорублей выйдёт (проц более-менее норм, 5070ti с 16 гигами - сойдёт, 96 озу), надолго хватит. и не только девочек рисовать. есть ещё ии-болтуны с возможностью вайбкодинга, автосубтитрование с автопереводом, редактирование фоток и так далее. за такой комбайн не жалко денежку.
Установил свежую портабл, перекинул клейн и только те ноды, чтобы свой вф запустить. И чет как буд-то какая-то хренота. Иногда такое впечатление, что кешируется один сид, причем ни смена семплера, ни отключение лоры - ничего не помогает. Ошибок не пишет. Иногда как будто не до конца генерирует, размытые детали, артифакты. Захожу на старую - все норм. Сталкивался кто?
>>1590184 >у меня только 12 гигов видеопамяти Тебе сейчас напишут вроде бы верно, но сути никто не скажет. Потому что не понимают. Возьмём по модели: ллм на 6 гигов и например sdxl на 6 гигов. В видеопамять они у тебя входят. Тут ок. Время генерации примерно сопоставимо(хоть сравниваем текст и картинку). А теперь внимание разница! Сгенерируй на cpu-only на обоих моделях соответственно текст и картинку. Посмотри время генерации в обоих случаях и ты сразу поймёшь почему на cpu никто не генерирует картинки. Вот так всё просто. Ллм даже на raspberry что-то может, я боюсь представить сколько там будет генерироваться картинка.
>>1590209 >даже большую модель можно загрузить если достаточно оперативки? К меня PCI 4.0 и например gguf модель которая точно влазит в vram с энкодером генерирует медленнее, чем модель safetensors которая одна сама по себе больше объема vram. С тех пор gguf вообще не использую. Для картинок смысла вообще нет. Ещё и качество портится. Можешь сам сделать тест, если не веришь. Скачай специально самый маленький gguf на Q2 какой-нибудь и проверь.
>>1590455 Ну так про тормозной цпу я итак понимаю, мне просто было интересно, как система с выгрузкой работает на картиночных моделях. Потому что какой гайд ни открой нигде не говорят как это технически устроено. Может не те гайды конечно смотрел, но всё равно инфы мало. Везде размытые ответы уровня "ну попробуй, может заработает, может нет, мы не знаем, купи лучше подписку на бусти чтобы получить крутые воркфлоу"
>Сгенерируй на cpu-only на обоих моделях соответственно текст и картинку. На чисто процессоре и текст пиздец как медленно трясется, особенно если это модель толще 4-7 лярдов параметров. Никто (кроме совсем отчаявшихся) так не гоняет. Везде мешают с видимокартой, хотя бы под процессинг контекста.
>>1590538 >как это технически устроено Вывод нейронки, тут надо смотреть может она бредит, но для понимания можно прочитать: # LLM: Последовательный конвейер # Каждый слой вызывается ОДИН раз # Данные текут в одном направлении # Визуализация потока: # Input → Layer[0] → Layer[1] → Layer[2] → ... → Layer[N] → Output # (один проход, нет циклов) ----------------------------------------------------------------------- # Diffusion: Итеративный цикл # ВСЕ слои вызываются МНОГО РАЗ # Результат цикла передается в следующий цикл # Визуализация потока: # # Step 0: Noise → [UNet] → Denoise → Latent_1 ┐ # Step 1: Latent_1 → [UNet] → Denoise → Latent_2 │ # Step 2: Latent_2 → [UNet] → Denoise → Latent_3 │ Повторяем # ... │ 20-50 раз! # Step N: Latent_N → [UNet] → Denoise → Image ↓ # Нужно 20-50 циклов для результата # CPU offload: каждый шаг требует загрузить ВСЕ слои!
>>1590184 С диффузией можно не только в оперативу но даже в файл подкачки на ссд выгружать, работать будет и скорость падает не до нуля как у ллм. Особенно если видяха старая и чип медленный то там разница раз в 10 при выгрузке на ссд и раза в 3 при выгрузке в рам. Ну это приблизительно конечно и все от мощности чипа зависит но суть примерно такая.
>>1585191 (OP) Чому у меня Диана выходит так (пик 1), а у пчела так (пик 2)? Хочу как у него. Он на Фордже походу генерит, а там, сам, помню, экспериментировал когда-то, сравнивал, результаты в лучшую степень (аутентичность) отличаются от Комфи. Но ставить Фордж не хочу. Короче, как добиться идентичного результата на Комфи? Какой сэмплер юзать? Может, даже воркфлоу кто подкинет.
>>1590792 >И да, промпт модель те же самые. На самом деле много факторов. Повлиять может: другой шедулер, семплер, апскейлер прочее. Если ты знаешь промпт, то это не факт, что он такой же, а не с долей пиздабольства. Как по мне картинки похожи и тут просто сид роляет. Насчёт форжа и комфи, это всё тоже влиет, т.к. пайплайн разный, даже версии комфи могут сильно менят картинку при всех условиях.
>>1591084 А толку? Одну слоповую хуету для ZIT заливают сотнями в день. Лучше вообще не заглядывать тут, чтобы не разочаровываться. Нужна одна лора, но её нет.
>>1591440 А что, на civitai нет уже? Удалил этот кал месяц назад, но она гуглится по шеху в хагинфейсе. Держи: ae6b2f510212741a25c946500e349aca47063199f107413b80ead017af5b7d84
Анонче, это первая моя генерация, ZIT, стандартный ВФ, 1фото 4шага, 2фото 8шагов, 3фото 10шагов, 4 фото 20 шагов. я просто нажал RUN 4 раза с разным размером шагов, да я в ахуе как это просто и охуенно. скоро попробую Лоры разные накатить и всякие параметры менять.
ах да, вот мой промт: This striking album cover, dating from the apex of the psychedelic era around 1969, presents a masterful fusion of photography and Op Art. The central subject is a single young woman, of Caucasian, likely European ethnicity and in her early twenties, who serves as a living screen for a projection of vibrant patterns. She possesses a short, chic blonde bob with a heavy, straight-cut fringe that was the height of mod fashion, framing a face with a fair complexion. Her figure is slender and lithe, though its precise contours are deliberately distorted and redefined by the light. She is captured in a stylized, reclined pose, resting on an unseen surface with her arms crossed defensively or coolly over her torso and her long legs propped up to dominate the frame's lower half. The projection transforms her body into a work of art: her face, neck, and torso are enveloped in a dizzying pattern of horizontal pink and light blue stripes that oscillate and curve with her form, while her long, shapely legs and thighs are encased in a riot of colorful patterns, featuring bold stripes of cyan, orange, and yellow, interspersed with patches of checkerboards and polka dots. Her expression is one of enigmatic cool; her eyes, accentuated with dark liner, hold a direct yet detached gaze, and her mouth is set in a neutral line, projecting an aura of sophisticated indifference. The action is one of deliberate stillness, a carefully constructed pose that radiates a static, graphic energy, with all the movement contained within the visual vibration of the optical patterns. The scene is set within the controlled environment of a photographic studio, against a backdrop of absolute, non-dimensional black that causes the illuminated figure to float in space. This geolocation is unmistakably Israel, as confirmed by the Hebrew typography, placing the work at a fascinating intersection of global trends and local culture. The lighting is the core of the artistic concept; it is not flat or diffused, but rather a high-contrast projection that serves as the sole source of illumination on the model, a technique that recalls the light shows of psychedelic rock concerts and the experimental films of the period. The camera is positioned at a low-to-medium height, looking slightly up at her face but level with her legs, giving the composition a bold, confrontational quality. The image, as it exists on the cardboard sleeve, is a time capsule of graphic modernism and the printing technology of its day. The original photograph was likely shot on a fine-grain, high-saturation professional slide film like Ektachrome to capture the brilliant, pure colors of the projection with maximum clarity for print reproduction. The focus is sharp, intended for graphic impact rather than soft, atmospheric effect, with no discernible shallow depth of field or soft-focus lensing. The intense saturation and high contrast are antithetical to the look of a faded, grainy negative. The physical artifact of the album cover, however, tells its own story of age. Its surface texture is that of printed cardboard, showing faint signs of wear and handling. Minor dust and scratches appear as small imperfections, and the ink on the black background is a deep, flat matte. There is no significant overall color shift or emulsion yellowing as one might find in a degraded photograph; rather, the colors—the specific shades of pink, cyan, and orange—are themselves a perfect signifier of the late 1960s palette. The entire composition is a powerful statement, a historical masterpiece where the human form becomes a canvas for the abstract, electric dreams of its era.
Я поставил comfyUI и попробовал sd_xl_base_1.0.safetensors что бы убедиться что всё работает. Дальше я зашел на https://civitai.com/ - выглядит как маркетплейс какой то. ГПТ писал качай jaggernaut XL - но я выкупил что это что то отсталое на 2 года. Потом он переобулся говорит качай FLUX.1 dev FP8 И это только чекпоинт. Как вообще что то можно улучшить в воркфлоу и искать в этой мусорке не понял пока. Еще куча терминов не понятных. Надеюсь когда пойму кто такая Лора и как использовать control net станет попроще. Но не ожидал что так насрано в этой теме.
Мне что бы генерить фотореализм с письками нужна модель и спец. форкфлоу, а для условных ассетов игры - совершенно другое городить?
>>1591958 что чекпоинт это 5%, решает воркфлоу и лора то есть я бы мог дальше дрочить с sd_xl_base_1.0.safetensors накачивая рендомную хуйню не понимая как решить проблему гипервыбора
а мне кажется что надо качать FLUX.1 8fp или что то еще новое, и потом сто лет вычитывать какие элементы воркфлоу добавлять
думаю что самый важный навык щас это понять как пиздить воркфлоу глядя на картинку, а потом уже раскуривать
>>1591950 >генерить фотореализм с письками нужна модель и спец. форкфлоу да
Точнее тебе нужны модель, которая генерит твой фотореализм. И workflow, который в твой сгенерированный «фотореализм» врисовывает с помощью inpaint (edit) операции с другой моделью (или моделью, которая не хочет рисовать гениталии, но для которой есть LoRA на фотореалистичные гениталии типа klein_snofs_v1_3.safetensors).
>а для условных ассетов игры - совершенно другое городить? Базовый workflow под понравившуюся модель с минимальными изменениями. Это с NSFW нужен отдельный пердолинг. Тот же FLUX.2 [dev], FLUX.2 [klein] 9b, или другие модели, которые хорошо следуют prompt, SFW в большинстве случаев будут тебе вполне приемлемо выдавать.
>как пиздить воркфлоу глядя на картинку Никак, если он намерено не был вшит в картинку и метаданные оказались сохранены. Чтобы воспроизвести чужой workflow по картинке, тебе нужно знать pipeline как было получено конкретное изображение. Этапы: генерация, рефайн, опциональный апскейл+рефайн, опциональная пост-обработка. Если ты будешь знать как конкретно был реализован каждый из этапов, тогда тебе не нужно будет воспроизводить чужой workflow, потому что ты свой собственный соберёшь за полчаса. Соответственно, если ты этого знать не будешь, то не соберёшь. Так и будешь не понимая, тащить чужие кривые workflow с civitai и прочих помоек в надежде, что вот этот workflow точно заработает как тебе надо.
Всем привет. Впервые у вас в тредике, сам больше по локальным llm.
С комфи игрался, но чисто покумить, не паверюзер.
Вот вопрос есть. В корпах можно закинуть фотку и сказать "сделай из человека клоуна" или "оставь еблище человека, но сделай как будто он на кладбище на баяне играет". И они справляются на удивление хорошо. А локалочки могут во что-то такое же?
Я на civitai находил какие то red recraft и там ебейшие воркфлоу, но так и не взлетело.
Знаю что можно использовать mask и отделить объект который нужно перерисовать от того, что нужно оставить. Но это тоже немного не то. Направьте в нужную сторону.
>>1592164 Ты описал функционал "edit" моделей. Полно локалочек и все годные. Сейчас топ в этом плане Flux 2 Klein 9b Distill делает за 4 шага, буквально пара секунд на любой древней кофеварке (но тут fp8 или ггуф кванты). В комфи уже есть готовые воркфлоу в темплейтах. Время вката с нуля во всё это и до готовой картинки минут 5.
>>1592188 >Вф расшифруй плиз >>1592197 > Ты описал функционал "edit" моделей. Полно локалочек и все годные. Сейчас топ в этом плане Flux 2 Klein 9b Distill делает за 4 шага, буквально пара секунд на любой древней кофеварке (но тут fp8 или ггуф кванты). В комфи уже есть готовые воркфлоу в темплейтах. Время вката с нуля во всё это и до готовой картинки минут 5.
Да нахрена вам вообще этот эрни, чисто тулза для генерации одинаковых плечастых бочкообразных трансов в одной и той же позе. Ни одного преимущества перед з-имаге чтобы париться с этим министралем и промт энхансером.
Блять вчера с мобилы в каком то разделе чел находил и постил ссылки на какие то труднодоступные NSFW штуки Казлось здесь или где то сосденем. Сегодня ищу- нихрена нет. Их трут или уплыла история просто? Где искать nsfw нормальное и какие с этим проблемы в принципе, что их сложно достать?
Хаю хай, это я вчерашний который четыре раза ткнул RUN, вобщем я не остановился вчера и еще пару раз ткнул RUN, это все без ЛОР тупо ZIT вашу маму ебал.
Хз как в этом разбираться с деградированной до алисы GPT Выход на фундаментальные гайды из треда нет, либо их вообще нет. Что не удивительно для аутистского двача асоциальных гиков. Даже ллмка базарит и пишет гайды на языке, будто бы я шарю. В этой хуйне не разобраться, досконально не понимая как это говно работает на уровне кода и архитектуры. Абсолютно каждая буква даже в названии моделей не понятна, тензоры, fp8, квантизация Ахуенно тем кто разобрался. Даже по программированию база и то понятней чем эта хуетень. Хз че я делаю не так
>>1592774 У меня третий день потугов и это деградантское говно возможно только мне мешает и я просто 90% времени трачу на дрочку промтов и чтение её отсталых на 2 года галлюцинаций. Я уже скачал не нужную kv версию. Потом flux2-vae.safetensors и qwen_3_8b_fp8mixed.safetensors для text encoder А в новой инструкции она выдает новую хуету которую я даже не ебу где качать, потому что в это помойка когда не понимаешь нихуя
Не знаю даст ли мне чето локальная тупая гемма в сравнении с GPT, но её тоже надо ставить. Пока что блевать охото, мб я даун а iq120 это пиздеж
>>1592795 > третий день В начале треда была подробная инструкция для вката >>1586775 Но нет, блядь. Нужно продолжать выпрямлять оставшиеся извилины общением с чат-ботом, нахуй.
Берёшь нормальную модель, которая слушается prompt. Пишешь вот такой кривой prompt, даже без json-форматирования.
An amateur raw ultra-sharp snapshot of a masked chubby middle-aged man in light cotton socks, semi-dark fluffy slippers, semi-dark sweatpants, light t-shirt, semi-dark bathrobe, wearing paper bag with dark round eye holes on his head as a mask, standing far to the left and pointing with his hand to the right and showing thumbs up. There's a single thick curved charcoal line over the paper bag, resembling slightly happy mouth expression. There's another masked chubby middle-aged man in light cotton socks, semi-dark pirate shoes, semi-dark pirate pants, light t-shirt, semi-dark pirate cloak cape, wearing paper bag with dark round eye holes on his head as a mask and a pirate hat on top of it, standing far to the right and pointing with his hand to the left and waving. There's a single thick curved charcoal line over the paper bag, resembling neutral slightly happy mouth expression. The floor and the room in dark ancient ruins is divided by a large magical portal, glowing with energy fluxes, deep magical chasm with energies, a large gap dividing the room's floor. The left part of the room has modern contemporary city look, the right part of the image represents a fantasy magical realm. Shot on Sony DSLR camera, amateur snapshot, ISO 80 f/4, raw, clean, everything sharp, candid, authentic, 4k resolution, texture detail, ultra-photoreal, unedited photo, documentary style photojournalism authenticity, editorial, sharp focus, high resolution, details, dramatic lighting, dusk lighting.
Получаешь размещение элементов там, где требовалось.
>• Z-Image-Base >• FLUX.2 klein (4b и 9b) >• Z-Image-Turbo >• Flux 2 >• Qwen Image / Qwen Image Edit >• Wan 2.2 (подходит для генерации картинок). >• NAG (негативный промпт на моделях с 1 CFG) >• Лора Lightning для Qwen, Wan ускоряет в 4 раза. Nunchaku ускоряет модели в 2-4 раза. DMD2 для SDXL ускоряет в 2 раза.
>RuntimeError: The expanded size of the tensor (3840) must match the existing size (4080) at non-singleton dimension 1. Target sizes: [3840, 3840]. Tensor sizes: [3840, 4080]
>>1592906 Думаю многие итт согласятся, что лучшая сейчас для генераций это ZIT (Z-Image-Turbo) оппик как бы намекает Для референсов, ну типа как тут анон показал >>1592188 FLUX.2 klein (4b и 9b) Другие не нужны, объективно. Достаточно стандартных воркфлоу из комфи
>>1592890 >Берёшь нормальную модель, которая слушается prompt. Вкратце, никому здесь, кроме тебя, Flux1.dev не нужна. В общем, никто не будет её обсуждать. Никто тебе не мешает использовать ее дальше в соло.
Почему Klein 9b упорно меняет лицо? Дано: девушка на лошади, говорю поменять одежду на ковбойскую и больше ничего не трогать. Этот дурак каждый раз выдает ей новое лицо. Похожее, но все же не ее.
>>1593008 Нужно конкретно писать что поменять и что не менять. Пишешь типа: поменяй её серый пиджак на пончо. Поменяй её цилиндр на сомбреро. Далее опиши, что менять не нужно. Это так работает. Ясное дело лучше на инглише
>>1585191 (OP) Пощупал я этот эрни турбо, и вроде как ничё и в тоже время хуйня. Огромный плюс это некая гиперреалистичность по дефолту которой нет в зите даже, вот прям иногда просто ахуенно получается. Но в то же время напоминает сдохлю своими 3 руками и двойными головами, иногда вообще хуй пойми что получается что даже человеком назвать сложно. Упорно генерить азиатов. Лица одни и те же, хоть сколько генерируй лицо одинаковое, может потом ноду какую придумают для фикса этой хуйни.
>>1593008 Не пиши не трогать не потому что не люди не путаются в частицах не. Пиши "сохрани лицо в точности как есть на имаге" типа preserve . То есть опиши что сохранить. Избегай вообще любое отрицание в промте. Да, это как не думать о розовом слоне.
>>1592980 >Достаточно стандартных воркфлоу из комфи Да видимо я тут пососал, пошел сразу у нейронки советов спрашивать ну она наверное нашла древнее чет на форуме и дала мне.
Надо было не лезть в ггуф вообще, а качать че в теймплейтах.
>>1592822 Не пошел по этому пути, потому что по ходу дела хотелось получать масштабируемый опыт. Загружу темплейт накликаю скачку, а дальше что? Нихуя не понятно, что можно менять в воркфлоу кроме параметров и промта, как понимать совместимость одной хуйни с другой. Так сложилось что в openai пидорасы анальные и фри гпт стала хуже пидораса
>>1593046 Ггуф в диффузионных моделях это мусор. Он приемлем в ллм только. Здесь его юзают только если совсем днищински риг. Ггуф это не про скорость, а про - чтоб хоть как-то влезло в ведро - плюсов ноль.
>>1593073 Как это работает? Нахуя тогда лежат и везде упоминаются fp8 модели? FP8 под 16гб врам будто бы упоминаются чаще, а FP16 редко вижу Нихуя не понятно Почему нельзя тогда самую полную модель воткнуть, и переключать так же под свой врам?
>>1592980 Почему кстати флюкс.2 дев не в почете у местных?
Один раз мне удалось сгенерировать кота на q2+q2, больше не получается, комфи падает, вероятно от нехватки памяти, наверно нужно все процессы в диспетчере убивать перед генерацией. И на 4гб есть жизнь ;)
>>1593026 >Меньше места а у тебя мало места? все эти гуфы-хуюфы это для бомжей с 1060 ti с 6 гигами, гуф тебе не нужен, гуф это то, что будет делать хуже.
>>1593077 Требователен к ресурсам (16 Гбайт VRAM и более 64 Гбайт RAM на offload в FP8, а на bf16 с text энкодером и bf 16 моделью у меня и за 128 Гбайт RAM вываливалось в swap). От этого откровенно небыстрая скорость работы в локале.
«ФотореализмЪ» не такой, как у Z-Image-Turbo из коробки.
Этого уже достаточно для включения «Лиса и виноград»-mode у местной публики с 12 Гбайт VRAM 3060 и 16 Гбайт RAM.
Из плюсов: 1) Феноменальное, по сравнению со всем остальным локальным зоопарком, следование promptу. Ближайшее по послушности это последние актуальные модели Qwen-Image линейки, но у них масса своих проблем; 2) Феноменальное, по сравнению с Qwen-Image-Edit и FLUX.2 [klein] 9B качество edit.
P. S. На всех FLUX.2 поломанный VAE, который подгаживает цветным пиксельным мусором на VAE Decode. Это тоже нужно убирать.
Во всём остальном, FLUX.2 [dev] стала моей основной моделью для локальной генерации, Z-Image-Turbo пылится в углу, остальное вообще поудалял.
Че почитать более подробно про вокрфлоу, где искать всякие штуки которые удаляют с цивитай и вот это вот все, может ютуб каналы какие интересные с гайдами, про составление промтов чет
Имеет ли хоть какой-то смысл после семплера пихать лору и все передавать в новый семплер с маленьким денойзом? Я попробовал - какая-то хуйня получается. Но это я со своей кривизной.
>>1593111 Всё от результата зависит: устраивает или нет. Можно и в другую модель с другими LoRAs передавать, если latent совместим. Я разное пробовал: композиция на FLUX.2 dev а доводка по тайлам на FLUX.2 [klein] 9B с realism LoRA.
>>1593096 > FLUX.2 [dev] стала моей основной моделью для локальной генерации > 16 Гбайт VRAM и более 64 Гбайт RAM С 32gb ram уже не получится работать?
С 16gb vram / 32gb лучший доступный вариант только FLUX.2 [klein] 9B FP8?
>>1593110 Чем это отлчиается от free gpt которая имеет скилл гуглить, а у геммы всё из мозгов напрямую будет идти, учитывая что он локальная скукоженная?
>>1593128 Да, если не хочешь насиловать SSD, то FLUX.2 [klein] 9B. У меня FLUX.2 [dev] в fp8 с text encoder в fp8 за 60 Гбайт RAM уходит; когда bf16 text encoder грузил, за 80 Гбайт RAM уходило, а когда всё в bf16 и 128 Гбайт RAM без swap не хватило.
>>1593127 Если у модели приписка base это сырец для обучения моделей/лора. Результат будет гарантированно всегда хуже любой другой версии. Для простоты понимания: это коробка с помятыми журналами сваленными в кучу, в отличии от версий, где журналы стоят на книжной полке в алфавитном порядке.
Можно что то сделать, что бы минимизировать потребление vram виндой. У меня в простое 1gb сжирается. Или это ни на что особо не повлияет?
Требования у моделей обычно хуево мэтчатся с памятью видяхи. Такие цифры всякие, типа 10гб, 18гб, не понятно вообще реальные системные требования в моделях. Каждый раз качать по 10гб что бы проверить тоже ебланство какое то
>>1593148 встроенный в процессор gpu есть? его в последнее время всюду пихают. если есть, подключи к монитору. тогда на основной видюхе вообще ничего не будет жрать винда. а если нет... ну купи какую-нибудь максимально дешёвую затычку и воткни во второй pcie.
>>1593201 Ну если исправлять, добавить смену позы, еще там чет можно сделать красиво.
Но проблема есть, да. Как ее решать? Раньше одну запятую не там поставил и он генерит абсолютно другое теперь же чисто словами без сида можно повторяемости добиться неебовой.
>>1593206 >сделать красиво у меня почему-то не получаетсмя при помощи 2-х ксамплеров сделать более разнообразными сиды внутри одного бача, я делал на 1-м семплере рандомный сид на 1 шаг (передавал свой шум другому семлеру), на втором своего шума не было, а он должен был пордхватить шум от первого и полернуть всё своим фиксированным сидом, вместо этого втиорой просто начинал всё заново и перешумливал ккартинку. Я до сих пор не знаю как правильно это сделать.
Промт: Black cat hiding behind a watermelon slice, professional studio shot, bright red and turquoise background with summer mystery vibe
Наяривать и дрочиться в промт не вижу смысла, пока результат такой. Что менять, лора подключать или дообученную модель какую то? На данном этапе контроль вторичен, в первую очередь хочется понять как выжать максимум в реализме/качестве, и какой выглядит максимум на 16gb vram
Пробовал так же json прописывать промт, лучшее что получается пик4 - везде пластик, стилизация слоповость. Понравилась только передняя часть капота с бликом. Еще размер кота по отношению к машине гуляет - вообще не понял как это контролировать, но поебать, если рисует мультик все равно с разными промтами.
Тащил простые промты из статей - тян в кафе, с пластиковой кожей и волосами. Явно же в модели или отсутствии лоры дело? А что искать тогда для flux.2? Что мне вообще нужно, если даже в гайде флакса написано "по умолчанию генерит фотореализм" - но с моей моделью я получаю нейрослоп хуже карточек озона.
>>1593258 >Почему получается говно пик1 Потому что ты берёшь промт от FLux2 Dev, а вставляешь в Flux2 Klein Base. Это существенно разные по возможностям модели.
>не вижу смысла Напрасно. 90% попореализма кроется в нормальном промте. 1) Прост скопипасати в любую языковую модель и скажи "здлоей prompt enhance, хорошо зделой, плохо не делой". 2) Замени Base на Distil. Он с примтивным промтами лучше справляется (ценой снижения разнообразия). 3) Соотношение и размер сторон выставить как на образце. Это сильно влияет на расположение и детали.
>>1593175 >>артефактам Это что то из времен сдохли и полторахи? Я понимаю там 3 пальца или 2 ноги, какие еще артефакты? Юзаю только q3 (квен, флюкс 1,2, зимагу) и никогда на них не наблюдал артефактов. Эрни да, тут как бы без вопросов даже
>>1593275 >какие еще артефакты? Сегодня из самых больних артефактов - это глаза в кучку, когда vae не хвататает. Пережарка текстур, особенно виндно на коже, коре, трещинах, грунте, стройных рядах одинаковых деревьев в лесах. Манера рисовки иллсютраций у каждой модели своя. Битое стекло / неоновые всполохи / капли которые квен пихает везде где может. Есть артефакты от инпейна/апскейла. Когда видно что стистические характеристик изображения не сходятся. И ещё чисто перцептивные, композиционные детали считываются, особенно на турбомоделях.
>>1593274 > 90% попореализма кроется в нормальном промте. Мб в ключевых словах, а не в детализации. Просто не представляю, как детальные подробности могут бустануть реализм освещения и текстур
>>1592810 Мне надо реализм как твой пленочный китаец, который от фотки неотличим без экспертности. Это какая модель или что там вообще нужно
>>1592890 С одним скуфом уже не так хорошо позицию понимает. Вместо скуфа добавляю тяночку- в центр её лепит. >Shot on Sony DSLR camera Буквально рисует фотоаппарат.
А вообще, насколько нужна эта дрочь с "ultra-sharp, 4k, ultra-photoreal..."? Я или слепой или разницы особо не вижу.
>>1593258 >Black cat hiding behind a watermelon slice, professional studio shot, bright red and turquoise background with summer mystery vibe Очевидное пиздабольство, как и в 99% всех промптов в тырнетах.
Вот это кляйн 9б дристилятор, голый без лора 1й пик (2й другой промпт)
High-end photorealistic cinematic wide shot: a black cat is hiding behind a large, thick, elongated crescent of watermelon, only its wide-eyed shocked golden eyes are visible peeking over the top edge. The watermelon is the central focus, showcasing a porous, crystalline red pulp texture with glistening black seeds. Extreme volumetric lighting: intense cinematic orange-red glow from the left and deep teal atmospheric light from the right, creating a dramatic rim light. The cat's ears and the top of its head are just barely seen. The scene is set on a reflective studio table. Sharp focus on the fruit's grainy texture and the cat's intense, surprised gaze.
>>1593567 > Очевидное пиздабольство, как и в 99% всех промптов в тырнетах. МБ просто те модели так работает, хуй знает. Здесь даже эксперты аутисты толком сказать не могут где предел одной модели, какого качества не достичь без датацентра, а что можно дотащить.
> Вот это кляйн 9б дристилятор, голый без лора 1й пик (2й другой промпт) Это сколько vram надо? Я читал, что дистилятор это для быстрого реал-time рендера, не ради какого то качества. На base или подобном лучше не станет? На второй пике градиент, цветокор и мультик арбуза через промт фиксится?
>>1593306 >Мне надо реализм как твой пленочный китаец Уже удалил у себя промпт, но там простой я выше писал тут >>1592796 это всё кляйн 9б дистилл, голый, стандартный воркфлоу
>>1593387 >"ultra-sharp, 4k, ultra-photoreal... Это я лепил, когда с FLUX.2 [dev] мылом боролся. В принципе, уже не нужно. Photoreal по-другому promptить надо. Но так как хуже не становится, решил в шаблоне prompt оставить. Единственное применение это когда с помощью edit делаешь edit-upsample, то в prompt пишешь: high resolution, fine textures (ещё intricate details, но это уже навалит совсем лишних деталей); Естественно, без какого-либо физического увеличения разрешения изображение будет подтянуто.
Если есть возможность написать сплошным текстом без использования JSON-разметки, я обычно этим пользуюсь. Опять же из инструкций BFL, все сложные prompts с позиционированием лучше делать через JSON-promptинг.
В ходе экспериментов выяснил, что в каком-то виде JSON-prompts понимает не только FLUX.2 но ещё и Qwen-Image с Z-Image-Turbo. Естественно, с ограничениями.
Концепт арты с ориг контентом из головы возможно сгенерить в любой художественно привлекательной форме или это принципиально не получится? Т.е. персонажи, техника, локации, эквип из головы который сильно отличается от того что когда-либо рисовали
>>1593795 >художественно привлекательной форме сложно
>сильно отличается от того что когда-либо рисовали Здесь важен датасет на котором обучалась модель. Я на FLUX.2 [dev] пробовал совмещать разные известные концепции, чтобы получать черновик пикрил (там пиксельный мусор VAE Decode не чищен). Но не могу сказать насколько это действительно результат синтеза, а не просто отражение датасета. В одну из генераций модель выдала пикрил 2, который специально сохранил (особенно доставил интерфейс Adobe Photoshop, и, частично Adobe Illustrator).
flux-2-klein-base-9b-fp8 дефолтная сабнода Везде стабильно пластиковая текстура, даже в шерсти. Что менять, что бы убрать слопность и приблизиться к неотличимости с фоткой?
промт в гемени генерил: A highly photorealistic, professional studio close-up portrait of a black cat's head with striking yellowish eyes, centered in the frame. The cat is peering intently directly at the camera from behind a large, crescent-shaped slice of watermelon. The watermelon slice is positioned horizontally across the bottom half of the image, with its green curved rind facing the absolute bottom. The sliced surface of the vibrant red watermelon flesh, embedded with detailed, natural-looking black seeds, occupies exactly the lower 50% of the frame, resting directly beneath the cat's muzzle. The texture of the watermelon is hyper-realistic, juicy, and glistening. The background is a seamless, flawlessly smooth gradient extending across the entire width of the frame, transitioning from a serene light blue on the far left to a rich, elegant red on the far right. The color palette is harmoniously balanced in saturation and brightness, featuring exquisite cinematic color grading. Shot with a medium format camera, 85mm macro lens, f/8 aperture to ensure razor-sharp focus on both the glossy black fur and the watermelon seeds. Illuminated by soft professional studio lighting with a softbox, creating beautiful natural catchlights in the feline's eyes.
>>1593809 Если честно, я нормально не смог. Прохожу отдельно LoRA с нужным эффектом.
Вообще, есть гипотеза, что нужно избегать токенов photorealistic, hyper-realistic и так далее, потому что они являются имитацией стиля. То есть попыткой художественными методами воспроизвести «реализм», вместо того, чтобы сразу его выдать.
Поэтому убирать всё, что похоже на photorealistic и заменять на описание камеры, типа плёнки, особенностей фотоснимка и так далее.
Это только гипотеза, но мне немного помогает. Хотя, возможно, плацебо.
Вообще, привкус того самого «реализма», точнее то, что воспринимают за реализм, даёт вот эта LoRA для FLUX.2 [dev]: https://civitai.com/models/2212121/olympus-ultrareal Она корёжит геометрию и генерацию, но при аккуратном дозировании даёт тот эффект, который воспринимают за реализм фотки с цифровой мыльницы начала нулевых со вспышкой
>>1593839 > Дохуя хочешь Я знаю. А ты вот мб и знаешь, но нормально объяснить не можешь во что это упирается, в 5090 или в воркфлоу или в промт. Хлеб вот норм, но это не арбуз
>>1593911 Выглядит охуительно, но это как минимум natural lightning, расфокус арбуза (но на бликах в фокусе видно пластик) - это и вывозит? Шерсть при рассеянном освещении и с расфокусом вообще не отличима. Но вопрос это на каком железе вообще делается.
И я не пойму, в чем проблема у флакса 2 генерить реалистичную текстуру арбуза и шерсти под софтбоксом. Ведь референса в датасете должно быть немерено. Но какого то хуя лезет слоп. Как это работает? Промт цепляет генеративный слоп и 3D моделинг?
>>1594287 Почему нет, пока генерируется я другими рабочими делами занимаюсь-бездельничаю, двачую. Через каждые 30 минут открываешь энидеск и получаешь порцию дофамина, плохо что ли? Хорошо! Мимо4гбврам,8озуддр3
>>1593809 Base в стандартом флоу - стабильно рисует пластик и слоп в любом промте. Он явно для другого применения, спасибо что даже на это явно никто не указал.
Сменил на flux-2-klein-9b-fp8 просто потому что была. Фигачила стремный clarity/HDR эффект. Почти вылечилось одним параметром, методом тыка опять же.
Картинка значительно улучшилась, но текстура арбуза галлюцинирует наскальными узорами и крупным пластиковым зерном. Промтом текстуру можно чуть улучшить, но узоры не фиксятся. Даже отдельно арбуз нормально не генерится.
Гемени пишет, что можно через controlnet подсунуть норм текстурку арбуза, и это пофиксит узор. Это реально?
На 16gb vram 32gb ram можно что-то лучше klein-9b-fp8 тащить? LoRA еще не пробовал, как и сложные воркфлоу. Вообще это реальная схема - генерить такое, как промежуточное и потом еще дорисовывать этот результат до финального вида?
>>1593828 > другой семплер Не ебу даже какие на выбор. Нигде и нихуя не написаны совместимости, и варианты на выбор. Всё что у меня есть это дефолтная сабнода рэндомные поиски хуй знает чего. В гайдах написано использовать только euler.
>>1594521 Можешь еще лоры текстурные поискать, я сам только вкатываюсь и мне тоже интересно послушать ответы на твои вопросы.
Заметил что з-имаге-турбо работает ахуй как быстро, в моей голове формируется воркфлоу где я буду базу рандомить на нем, потом уже через эдит добавлять лоска через флух2 но хз если честно стоит ли оно того
вообще в поиске где люди делятся темплейтами нормально, на цивай кал какой то от криворучек и даже если есть возможность скопировать шаблон обычно там какая-то древняя хуета в нодах которая уже не поддерживается даже
Я где-то года с полтора назад с комфи перебрался на сварм. Как вижу, комфи обросла кучей функций и в целом пользоваться стало приятно (субграфы и иже с ними), но насколько легко сейчас получить брик инсталляции из-за кастомных нод или простых обновлений? В прошлый раз именно это от комфи меня и отвернуло.
Хм даже думающая гемини не знает как подключить controlnet к flux.2 klein 9b fp8 Нахуярила нод, которые не соединяются Нормальные инструкции базовые по классике хуй найдешь тоже. Не понятно откуда всю эту информацию высрать
>>1594521 >Base для другого применения О, нихуя себе, ну надо же, буквально в прошлом треде меня назвали примитивным дебилом и тынипанимашь этадругое... И тут такое откровение...
>реальная схема Тащемта, так это делается. Только упоротые проектируют адовые воркфлоу с десятью слоями субграфов, чтобы получить от нейронки идеальную картинку идеальнее реала.
>>1594771 > Буквально в этом треде 2 1 раза > 2) Замени Base на Distil Я не знаю что такое Distil, потому что все по ушам ездят и характеризуют эту модель для применения в real-time сценариях, типа получить генерацию за 1 секунду (хотя у меня на 20 степах генерит секунд 10-20) в ущерб качеству и т.п. в сравнении с base. По факту base в сыром виде через SamplerCustomAdvanced (который был в дефолтном темплейте Text to Image (Flux.2 Klein 9B) - выдает слоп 2024 года. А дистил каким то хуем под софтбоксом рисует почти фотореализм ебала кота, и только текстуру арбуза не может.
Так что мне по ушам ездит GPT и я нихуя не понимаю почему я на дистиле получаю лучший результат, и как на base или чем угодно еще получить еще лучший результат/контроль.
>>1594802 >Я не знаю что такое Distil >на 20 степах генерит секунд 10-20) в ущерб качеству Спроси у гпт почему 4-хшаговый кляйн дистиллят выдаёт на 20 шагах плохое качество
>>1594831 Это конечно охуенно, но я хотел применять не так, а что бы текстурность с image, типа живой рисунок арбуза, применялся в генерации а не рисовал пластик. Это тоже галлюцинация гимини?
Ну даже если не взлетит, все равно контролнет полезен и понадобится а на арбуз мне в общем то поебать, хотя решить проблему хотелось бы
>>1594521 Поменьше буквально воспринимай результаты выдачи нейросетей.
>Гемени пишет, что можно через controlnet
Для FLUX.2 [klein] 9B/4B нет ControlNet. Часть функций ControlNet теперь реализуется через edit-функции соответствующих моделей. То есть, если модель Edit (FLUX.2 [dev], FLUX.2 [klein], Qwen-Image-Edit) то она умеет работать с reference latent, понимая Canny, Depth map, OpenPose). Для FLUX.2 [dev] есть отдельный ControlNet, но он тебе никак не поможет: https://huggingface.co/alibaba-pai/FLUX.2-dev-Fun-Controlnet-Union
Вообще, на Edit-моделях про ControlNet в классическом понимании лучше забыть.
Потому что: >генерить такое, как промежуточное и потом еще дорисовывать этот результат до финального вида
>Base в стандартом флоу - стабильно рисует пластик и слоп в любом промте. Он явно для другого применения
Помимо обучения LoRAs base модели в обычных workflow можно использовать для рефайна с заданными вручную sigmas. Отклонения от оптимальных sigmas на distill будет давать артефакты, потому что distill, это подмастерье, который посмотрел как base рисует Мону-лизу и научился делать почти так же (в его понимании), только за четыре грубых мазка через трафарет.
>текстуру можно чуть улучшить Если делать upsample в более высокое разрешение, а затем разбивать изображение на tiles и проходить каждый tile edit-рефайном (edit с prompt: preserve details of image 1, high resolution, very subtle fine texture), а затем сшивать изобарежение обратно и проходить ещё одним опциональным refine-проходом.
>В гайдах написано использовать только euler. И он тебя вполне устроит. Или можешь использовать пикрил 2, но для него нормальной документации нет, только куски с описанием отдельных параметров найдёшь и будешь крутить. При генерации Noise Perlin, при рефайне — Uniform.
>>1594982 Спасибо за кучу адекватной инфы Мб еще подскажешь как во флаксе2 можно стабильно контролировать размеры объектов и их направление в кадре в t2i? В dist размеры рэндомятся, направление тоже - промт часто игнорится. Я даже на ютубе видел генерят тян на байке но она будто 2м ростом огромная
Json формат имеет профит в генерации или это просто ради агентов сделано?
>>1595023 >стабильно Генерации это не про стабильность, но в целом little, very small, small, big, large и huge FLUX.2 понимает.
JSON-prompt официально заявлен только в руководстве к FLUX.2 (pro/max) [dev] и к агентам не имеет прямого отношения. Он позволяет раздробить и структурировать сложный, детализированный prompt, чтобы тот потом был адекватно (насколько это возможно) обработан моделью FLUX.2 [dev]. Там можно напрямую указывать цвета и градиенты в HEX, например. И другие вещи (подробнее в руководстве по prompting для FLUX.2 [dev]) . Как я уже писал, FLUX.2 [klein] много из этого не умеет, но JSON-prompt частично понимает. Поэтому, когда в prompt непонятно «кто на ком стоял» и токены протекают, в качестве последнего средства можно попробовать переформатировать prompt в JSON-разметку, поддерживаемую FLUX.2. Узлы для этого были в постах выше.
Косвенно это зависит от размера empty latent при генерации. Лучше выбирать размеры empty latent с соотношением сторон под конкретную задачу: видеокадр 16:9, фото 4:3 или 3:2. При этом разрешение по меньшей стороне не менее 1440 пикселей (эмпирически).
>>1595023 >направление в кадре Понимает right и left (ещё center, top, bottom), причём относительно ракурса виртуальной камеры. То есть как смотришь на картинку на мониторе, если нужно что-то разместить в левой части изображения, так и указываешь to the left. Чтобы смотрели, facing right, facing left соответственно. Looking into the camera, чтобы смотрели на зрителя.
Слов image (и picture) в prompt избегаешь, потому что по этим словам к нумерованным reference latent в edit обращаешься (replace character from image 1 with the character from image 2).
Зато база кляйна даёт очень насыщенную картинку. Дистиллят на её фоне как на tft мониторе смотрится(псевдо-реализм типа). Естественно это не стандартные вф.
>>1595126 Если пики 1,3 это дистил, а 2,4 база - то такой оверсатурейтед это даже минус. В таком виде у них 0 применения, они не радуют глаз, потому что овесатур даже в реальном фото посте не ценился и не смотрелся хорошо.
У тебя base fp8? Ты убрал откровенный слоп, но по сути в этом софтбокс свете дистил всё равно лучше. Причем даже если контроль в с base лучше, какой с этого толк если качество граничит со слопом. Как бы тут не плевались от слова реализм, я вижу здоровую логику в положении, что именно реализм определяет ценность и дофамин любой генерации. Даже если генерить коммиксы или арт, то реализм графики, когда отличить о реальной работы затруднительно и главное эстетический эффект аналогичен - это самое главное. А контроль это уже средство и инструмент. Если base не может стабильно давать реалистичность дистила или лучше, то смысла для t2i в нем мало
>>1595340 klein distil, z base/turbo. Больше на сегодня рабочих моделей нет. Ещё anima для буртяских мультиков, ernie для любителей всего нового и qwen для отстающих олдов.
>>1595365 Я не писал в промте про шрамы, язвы и кожные заболевания. 1.5 всё четко нарисовало, бра есть, большие сиськи есть. А sdxl нарисовало хуету кривую, вопрос почему.
>>1595373 Потому что все тут шаманство, выбирай модель которая следует твоим промтам как тебе нравится
Лично мне больше нравится когда она следует точно даже если возникают таки штуки когда по мнению модели ты выразился противоречиво, зато, это значит что она не будет слишком дохуя думать в других промтах делая отсебятину
>>1595374 >выбирай модель которая следует твоим промтам Так 1.5 следует промтам, но там разрешение низкое, нет детализации. Смысл от того, что я её выбираю.
Скромные требования к железу, по сравнению с другими моделями. «ФотореализмЪ» из коробки. Отсутствует edit-функционал. Есть не особо блестящий ControlNet.
>>1595197 > Ну, собственно я такой реакции и ждал. Если бы я наоборот топил за дистиллят, то мне бы объяснили, что база гораздо лучше. Ну не я точно. В оценке результата супер сильно влияют координаты эстетики человека, у некоторых они корявые. Голый флакс даже DEV рисует красивый слоп. Но я не шарю и опыта 0, мб везде так на консумер железе и с косталями в воркфлоу появляется стабильность, но через промт попадать в реализм - это прям танцы с бубном дофаминовая жвачка которая быстро приводит к разочарованию. Не должно быть такого по хорошему.
Кстати на мой взгляд именно уровень реализма, (помимо контроля и скорости) и определяет уровень ценности и интереса генерации. Лично меня вот вдохновили именно крайне фотореалистичные генерации пленочных фоток и порно которые выкладывали в /b год-два назад. Тогда еще мб comfyui не было Если бы там был только слоп, я бы забил хуй, потому что ценности и интереса в этом ноль. Слоп=мусор, реализм - единственное что в конечном итоге будет цениться
ребзя, потестите пожалуйста кляйн на знание коротких женских причёсок, а то ебучая зетка меня заебала в край уже своей тупизной, ничего кроме bob cut и buzz cut не знает, даже ебаную пикси делает через раз, сука.
Можно в одном воркфлоу запускать сперва t2i модель, и выход сразу в kv с предустановленной коррекцией. В итоге за клик генерация > edit > картинка. То есть будет 2 генерации с двумя разными моделями. Это адекватно?
>>1595465 Независимо от того, че ты делаешь, скетч, графику любую, аниме, мультипликацию или что угодно фантастическое изображающее реальность - везде будет свои специфичные проявления слопа/реализма. В кино любую фантастическую хуйню, стремятся изобразить максимально реалистично, любыми методами, в том числе часто избегая CGI но недавних пор. Потому что это лучше всего отзывается у человека, то что выглядит реалистично. Если ты генеришь коммикс, мангу, концепт арт мазками - там найдутся свои тонкие аспекты, отличающие слоп от реальной работы, и когда человек замечает слоп, то это автоматически снижает ценность, даже если это достаточно красиво. Слопность принципиально никогда не станет приемлемой, как артефакты джепега.
>>1595521 Нет никакой дихотомии, тебе просто очень хотелось это слово произнести. Помойму из контекста и так понятно, хоть я и говорю о противоположностях и не упоминаю градации, это не означает что у меня какое то полярное мышление и я отрицаю градацию как таковую
NVIDIA в архитектуре Blackwell представила микро‑скейлинг (MXFP8) — аппаратную поддержку разных scale внутри одного тензора. На каждые 32 элемента вводится свой независимый scale (хранящийся как FP8 E8M0), что позволяет намного лучше покрывать широкий разброс значений без перехода на E5M2. Грубо говоря, каждый блок из 32 чисел масштабируется индивидуально — и Tensor Cores умеют это учитывать прямо на лету, перемножая блоки с их скейлами. https://habr.com/ru/companies/otus/articles/951862/
MXFP8 — это технология «под капотом» для того, чтобы модель вообще смогла обучиться и не сойти с ума. Если ты скачаешь две модели — одну, пожатую в обычный FP8, и вторую в MXFP8:
Визуально (в картинках или тексте): Ты не увидишь разницы. Это как два телевизора, у которых один и тот же экран, но разная схема питания внутри. Картинка на выходе одинаковая.
В памяти (VRAM): Они будут занимать абсолютно одинаковое место (и там, и там 8 бит на число).
Весь кайф MXFP8 в том, что внутри чипа Blackwell стоят специальные «микро-движки», которые мгновенно подкручиваютмасштаб каждого пикселя. Для RTX 40xx MXFP8 — это «непонятный формат». Чтобы его прочитать, ей придется: Остановиться. Пересчитать всё в обычный формат через костыли. Посчитать саму генерацию. Итог: Вместо того чтобы лететь, модель будет затыкаться на каждом шаге. Это может быть в несколько раз медленнее обычного режима.
Владельцы RTX 50xx при переходе с обычного FP8 на MXFP8 почувствуют ровно две вещи: небольшой прирост скорости и где-то стабильности работы на железе, но не «волшебное улучшение картинки». В RTX 50-й серии тензорные ядра спроектированы так, чтобы щелкать эти 32-битные блоки MXFP8 аппаратно. Обычный FP8: Карта работает быстро, но иногда «спотыкается», когда нужно подгонять масштабы тензоров. MXFP8: Карта работает на пиковой мощности, потому что архитектура Blackwell буквально «заточена» под этот формат. Генерация картинок или текста будет происходить на максимально возможных терафлопсах, которые заложила NVIDIA.
>>1596016 Ну типа ты как клепатель будешь жать оптимизацию для владельцев только одной серии или будешь ориентироваться на более широкий круг? Scaled mixed fp8 e4 по сути как был топом универсальным для всех, так и останется.
>>1595696 Да не в градациях дело. Ты противопоставляешь непротивопоставляемое. Шкалы "реалистичное-декоративное" и "естественное-нейрослопное" практически не пересекаются.
>>1596126 В стилизованном сам стиль перекрывает слоп.
Потому что слоп - это по сути и есть стиль реализма, типа реализм+аи повторяемость пластиковая.
На стилизованных штуках это хуже видно но все еще может быть в семи-реализме аниме например, не видно только в убогих и очень простых стилях вроде полноценного аниме\манги потому что там уже нельзя сделать хуже этот огрызок.
>>1596126 > Ты противопоставляешь непротивопоставляемое. Ну либо ты недопонял, что именно я противопоставляю слопу
Вот здесь вроде поняли >>1596239 И верно замечено - чем выше степень стилизации у таргета, тем сложнее обнаружить слоп, потому что стилизация по своей сути слоп генерации человека. При этом скопировать стилизацию человека для современных моделей не так уже трудно, но вот полностью избежать ошибок в формах и логике по прежнему сложно как и полный фото-реализм. Например в твоем пике - к стилю возможно придраться могли бы только эксперты/ценители, он годный, но вот отдельные фрагменты архитектуры создают логический гэп, недопонимание - и в этом и проявляется слоп в конкретно таких типах генерации. Если же это реальная картинка - ну значит я додумываю, но сути это всё равно бы не поменяло. Нет четкого определения для нейрослопа, и тем не менее каждый интуитивно понимает что это когда видит
в комфи можно сделать, что бы в сохраняемые картинки в шаблоне имени вставлялся сид? или в метаданные прописывался, куда угодно лишь бы автоматически в тот же файл
>>1596239 > слоп - это по сути и есть стиль реализма, типа реализм+аи повторяемость пластиковая Зачем плодить какие-то свои определения, когда у слопа есть свое значение, в котором оно использовалось еще до появления нейронок? ИИ слоп - просто частный случай. Близкое по значению на этом языке - "на тяп-ляп". >>1596126 По-моему ты тоже что-то не то противопоставляешь. Если ты наслопил что-то в стиле рисунка, а не фото - оно от этого не перестает быть слопом. Другими словами - гнилой банан, приклеенный скотчем к стене, не перестает быть гнилым бананом, если его повесили в галерее и купили за десятки миллионов денег. >>1596286 > чем выше степень стилизации у таргета, тем сложнее обнаружить слоп Не совсем так. Обнаружить его несложно. Просто в фоторелизме любой, даже самый мелкий косяк мгновенно выдает генерацию, даже если автор заинпейнтил предыдущие 99 косяков, а этот не заметил. А в том же аниме, например, практически любую хуйню можно списать на стиль рисовки, 90% картинок в аниме треде - слоп с явными следами латентного апскейла, который недоденойзили - и ничего, восторгаются. Один тут вообще ИТТ рассказывал, что 4 пальца - это норм, так художники часто делают, если пятый некуда пририсовать.
>>1596286 >стилизация по своей сути слоп генерации человека А так как человеческих стилизаций неисчислимое множество и нет их классификаций(за исключением подмоножества крупных) для теггирования датасета, на котором тренировалась модель, то слоп это не подходящее смешивание стилизаций(не совместимых друг с другом), которое человек сразу видит как мешанину, а модель этого не поймет потому, что нет тегов для отделения частей, которые нее надо смешивать.
>>1596313 такая-же хуйня, в то время как обычный открывается, по сути это одно и тоже, скачиваться должно норм. если это не сопли на 11 гигов а просто лора) со скачкой больших моделей там жопа уже давно.
>>1596324 Гемма интересно суммировал меня своим слопом: Проще говоря, «слоп» в данном случае — это безвкусная мешанина, возникающая из-за того, что ИИ пытается копировать сложные художественные приемы, не понимая их сути.
Как сделать в воркфлоу, что бы промт шел не напрямую, а через енхансер с локальным квеном или геммой, и входной промт подавался бы с системным промтом фиксированным типа "Нафантазируй промт на 300 знаков вот по таким правилам: {}, исходный промт: {}" ? Или не получится в принципе? Лонгриды пасты для клейна писать вручную каждый божий раз для разовых быстрых хотелок/тестов не удобно, платные большие модели с промта в 1 строчку рэндомят но как правило качественное. То есть не хватает расширенных детальных галлюцинаций, что бы с одной строчки получать фантазию но качественную, а не пикрил 2.
>>1596533 Когда вы наконец поймёте, что деле в ллм-ке (ках), а в том, что модель тупая блядь как полено, ей похую как ты там свои словечки заплетёшь, как именно ты лапшу завяжешь узлом, внутри у неё протеганные картинки, и если тега нет, нет и отклика на него. Что вы там себе нафантазировали? Ты думаешь, что чем больше ты насрешь в промт, тем лучше она тебе что-то нарисует, да вот хуй пососи... Сука, у меня уже сил нет весь ваш бред читать, вот конкретный кейс: >>1595473 зетка тупая шо я ебу, из коротких женских стирижек знает только под ноль и боб, всё... 2 блядь, короткие стрижки, сука... У меня такое предчувствие, что и кляйн далеко от неё не ушёл, как и всякий дистилят он такой-же тупорылый.
Новая модель: https://huggingface.co/inclusionAI/LLaDA2.0-Uni LLaDA2.0-Uni: Unifying Multimodal Understanding and Generation with Diffusion Large Language Model LLaDA2.0-Uni is a unified diffusion Large Language Model (dLLM) based on Mixture-of-Experts (MoE) that seamlessly integrates multimodal understanding and generation within a single model. It supports:
🖼️ Text-to-Image Generation — high-fidelity image synthesis with optional thinking/reasoning. 🔍 Image Understanding — visual question answering, image captioning, document understanding, etc. ✏️ Image Editing — instruction-based editing with single or multi-reference support. 🎨 Interleaved Generation and Reasoning — provide preliminary support for interleaved generation and unlock advanced interleaved reasoning. ⚡ Sprint Acceleration — KV cache reuse and adaptive unmasking for faster inference.
>>1596557 > Ты думаешь, что чем больше ты насрешь в промт, тем лучше она тебе что-то нарисует, да вот хуй пососи... Сука, у меня уже сил нет весь ваш бред читать, То что ты пишешь, понятно, но специфично. Ты юзал клейн? Я не отрицаю проблему со стрижками, и таких проблем вероятно миллион в каждом специфичном аспекте. Перечитай мой пост. Ему буквально надо 80-300 связанных согласующихся с одной сценой слов, что бы начать генерировать детализацию, которая представляет хоть какой то минимальный интерес, при всём слопе. Цель не получить пиздатый промт дающий пиздатую картинку, а автоматизировать рутину когда нужен быстрый адекватный результат.
Вот примеры: Я хочу получать рэндом уровня 2-3, за одно приложение и клик, а не 1. Примерно так работают гпт и гемини в генерации
Пик 1: сгенерируй фотографию изображение скрещивание свиньи и жука в одном теле. Сделай милого свиножука, но в женском роде (девочку)
Пик 2: A realistic ground-level shot by an animal photographer capturing a rare hybrid in its natural habitat. The subject features the head of a cute, feminine piglet with moist skin and gentle eyes, fused precisely with the segmented anatomy and jointed legs of a wood beetle. The creature is crawling over fallen autumn leaves in a dense temperate forest. The lighting is soft and diffused, mimicking an overcast day. Harmonious earthy tones, medium depth of field, hyper-realistic details with natural imperfections as found in the wild.
Пик 3: An enchanting hybrid lifeform consisting of a cute, cartoonish piglet head and a sturdy, segmented insectoid body. The head has exaggeratedly sweet features: a tiny button nose, blushing cheeks, and a wide, joyful smile that mimics human happiness. Its body is reminiscent of a jewel beetle, covered in metallic green and deep purple plating that reflects the environment. The neck is a masterpiece of evolutionary fusion, where soft fur gradually gives way to interlocking organic plates. Action & Composition: Standing among oversized clover leaves, the creature is captured in a dynamic yet still pose, slightly off-center. Its head is turned toward the viewer, maintaining direct eye contact with a playful expression. Style & Lighting: The visual style is high-end commercial photography for a luxury nature magazine. The lighting is cinematic, utilizing a "golden hour" warmth that makes the creature's iridescent body glow. Gentle rim lighting separates the subject from the dark, lush greenery behind it. Context: A mystical woodland setting at twilight. Tiny glowing spores float in the air, catching the light. The ground is a carpet of velvet-like moss and small glowing mushrooms. Technical Specs: High dynamic range, 8k resolution, razor-sharp focus on the creature's eyes, smooth out-of-focus background transitions. The color palette is a harmony of forest greens, earthy browns, and the creature’s vibrant metallic hues. Style: Hyper-detailed wildlife portrait.
Все эти флаксы хуяксы клейны хуейны это просто переименовывание одной и той же убогой хуеты 1.5 в надежде, что акции еще немного подрастут, и пузырь еще немного надуется.
Они будут переименовывать одну и ту же хуету, и выпускать каждую неделю ту же самую хуету с новым названием, которая точно так же не знает никакой анатомии, и не понимает пропорций человеческого тела и рисует убогое пластиковое говно, до тех пор пока пузырь не лопнет.
Вернее немного не так. Это не просто та же самая хуета. Это деградирующая хуета, которая обречена на деградацию бай дизайн. Потому что первые версии худо бедно учились на реальных картинках. А все что после уже учится 90% на нейрослопе, а следующие уже будут учиться 100% на нейрослопе.
>>1598018 проще чем кажется, в начале трудно когда не знаешь что такое comfy ui если ты знаешь и уже что то генеришь - странная просьба, ищи и найдешь нужный подход