• Lens (3.8B) от Microsoft • HiDream-O1-Image • Z-Image-Base • FLUX.2 klein (4b и 9b) • Z-Image-Turbo • Flux 2 • Qwen Image / Qwen Image Edit • Wan 2.2 (подходит для генерации картинок). • NAG (негативный промпт на моделях с 1 CFG) • Лора Lightning для Qwen, Wan ускоряет в 4 раза. Nunchaku ускоряет модели в 2-4 раза. DMD2 для SDXL ускоряет в 2 раза.
>>1618321 > Победитель в точности по циферкам >¹Z-Image Base weights have been Deprecated in favor of Convrot OTF, which is higher quality. >²Tensorwise models are worse than on the fly quantization since we switched to row-wise INT8 Спасибо большое за объяснение, подожду пока кто-то большой это запилит
>>1618308 > Чем это отличается от q8_0? Быстрее чем FP8 работает, и по синтетическим тестам точнее чем q8. Но реальное качество на уровне изображения никто не может подтвердить или опровергнуть, т.к. различия на уровне погрешности сида. Но к этому подключается непонятный мутный гемор с лорами. Мне не удалось получить выгоду по скорости против клейна mxfp8 у меня не получилось, но мб я перегнал как то некорректно bf16 модель
>>1618349 Работает медленно, картинка уровня полторашки, нужно много памяти. Одним словом говно. Даже не пробуй а если попробуешь то всё равно пиши что говно, так принято
>>1618349 Нужен блок натуртекста в промпте не меньше определённой длины, иначе качество резко падает. Теги бур понимает, база обширнее и новее чем у люстры. Сбоит до мутаций как люстра и более тугой инпэйнт, чем у люстры. VAE более мощный, поэтому рисует более тонкие детали.
Amazon представила Alexa Podcasts, позволяя пользователям в США создавать подкаст-эпизоды по запросу с помощью ИИ, расширяя возможности создания аудиоконтента на базе искусственного интеллекта.
LetinAR привлекла $18,5 млн на разработку оптики PinTILT для ИИ-очков, обещая более яркие, тонкие и энергоэффективные дисплеи и сигнализируя о растущих инвестициях в носимые устройства с ИИ.
Google DeepMind сигнализирует, что сцена готова к Google I/O, и направляет зрителей на прямую трансляцию в X в 10:00 по тихоокеанскому времени для новых прорывов в области ИИ и анонсов продуктов
🏢 Приобретения
Anthropic приобрела Stainless более чем за $300 млн, закрепив за собой инфраструктуру SDK и ограничив возможности таких конкурентов, как OpenAI и Google.
Cohere приобретает Reliant AI, добавляя исследователей с опытом работы в области корпоративных приложений ИИ для здравоохранения и биофармацевтики, и интегрируя операции в Берлине и Монреале
Mistral AI покупает стартап Emmi AI
📦 Продукты
Amazon представила Alexa Podcasts, позволяя пользователям в США создавать подкаст-эпизоды по запросу с помощью ИИ, что знаменует собой выход на рынок автоматизированного аудиоконтента.
Google Gemini 3.5 Flash появляется в интерфейсе квот Cloud Console под идентификатором gemini-3.5-flash по цене $1,5 за миллион входных токенов и $9 за миллион выходных токенов
💻 Оборудование
LetinAR привлекла финансирование в размере $18,5 млн для развития оптических модулей PinTILT для ИИ-очков, стремясь к созданию более ярких, тонких и энергоэффективных дисплеев и выходя на рынок, который вырос на 300% в 2025 году.
NVIDIA начинает распространение ранних блоков процессоров Vera для рабочих нагрузок агентного ИИ, поскольку Илон Маск получает один для оценки SpaceXAI, а Oracle планирует сотни тысяч развёртываний, начиная с 2026 года
ASML сотрудничает с Tata Electronics по строительству 300-миллиметровой фабрики в Гуджарате, стремясь сделать Индию равным игроком в области чипов к 2032 году, в то время как в Техасе солнечная энергия впервые в истории может превзойти угольную генерацию в рамках ERCOT.
📱 Приложения
SandboxAQ приносит свои модели для открытия лекарств в Claude — степень кандидата наук в области вычислительной техники не требуется
Deutsche Börse разработала инструмент генеративного ИИ для решения задачи масштабной миграции блокнотов Zeppelin в Databricks
В поставщике услуг по уходу за пожилыми людьми Regis ИИ берёт на себя бумажную работу, чтобы сотрудники могли сосредоточиться на подопечных
OpenAI обновила ChatGPT для поддержки разворачиваемых и сворачиваемых сообщений, позволяя пользователям скрывать или отображать длинные ответы одним касанием
Новое приложение Siri от Apple, похожее на ChatGPT, по сообщениям, будет автоматически удалять чаты.
🔓 Открытый исходный код
Qwen 3.7 появляется на Arena. Релиз скоро на хаггингфейсе.
Выпущен бесплатный многоязычный корпус Indic из 9,8 млн документов — хинди, бенгали, тамили, телугу + ещё 7 языков (CC0, HuggingFace). Многоязычный корпус для предобучения из 9 836 075 документов (~8,4 млрд оценочных токенов) на 10 языках Индии и английском языке, созданный на основе высококачественных данных веб-краулинга HPLT Monolingual v3.
PSA: Если вы не обновляли Llama.cpp пару дней и обнаруживаете, что MTP работает плохо, обновите llamacpp. Обновил его вчера и получил прирост скорости генерации токенов примерно в 1,5–1,8 раза. Они даже в значительной степени исправили проблему с pp.
Unsloth AI выпускает оптимизированные под MTP GGUF-файлы для Qwen3.6-27B и Qwen3.6-35B-A3B на Hugging Face, обеспечивая генерацию в 1,4–2,2 раза быстрее
Perplexity AI выпускает pplx-embed-v1-late-0.6b — модель эмбеддингов с поздним взаимодействием на 0,6 млрд параметров — на Hugging Face с оптимизацией MaxSim на уровне токенов и поддержкой нескольких языков
OpenAI открывает исходный код Symphony — спецификации SPEC.md для оркестрации автономных агентов для написания кода.
NVIDIA представляет SANA-WM: открытую мировую модель с 2,6 млрд параметров, которая генерирует видео разрешением 720p длительностью в минуту на одном графическом процессоре.
💰 Финансирование
Kin Health привлекает $9 млн на создание ИИ-ассистента для ведения заметок для пациентов
Viktor привлекает $75 млн в раунде серии А под руководством Accel — крупнейшее финансирование для компании, основанной в Польше, поскольку её ИИ-коллега работает внутри Slack и подключается к более чем 3000 инструментам
Leopold's Situational Awareness раскрывает новые длинные позиции в NVDA, AMD, TSM, MU и других названиях полупроводниковых компаний, а также корректировки владений, связанных с майнингом биткойнов, в своём последнем отчёте 13F
Капитал оценивает будущее до его наступления: акции SpaceX открылись для торговли на бессрочных фьючерсах Hyperliquid с оценкой в $2,4 трлн — крупнейшее размещение в истории, а Илон заявляет, что Starship создан для вывода на орбиту более мегатонны груза в год.
🏭 Компании
Бум ИИ не помешал компаниям США нанимать дешёвую офшорную рабочую силу, и занятость в зарубежных кол-центрах по-прежнему стремительно растёт
Присяжные выносят победу Сэму Альтману и OpenAI в споре с Илоном Маском
Андрей Карпати присоединяется к Anthropic для исследований передовых больших языковых моделей — Андрей Карпати объявил, что присоединился к Anthropic для работы над большими языковыми моделями на переднем крае исследований. Он выразил энтузиазм по поводу возвращения к практическим НИОКР и внесения вклада в усилия компании в ближайшие несколько лет. Карпати также отметил свою неизменную страсть к образованию и намерение возобновить соответствующие проекты в будущем.
DeepSeek нанимает команду для создания конкурента коде-харнессу Claude — DeepSeek активно набирает менеджеров по продукту и сотрудников НИОКР в Пекине для создания собственного инструмента для работы с кодом, явно смоделированного по образцу Claude Code.
💰 Бизнес
Бывший генеральный директор Google Эрик Шмидт освистан выпускниками при упоминании ИИ
Edison Scientific развёртывает ИИ-агента Kosmos совместно с Incyte для ускорения разработки лекарств
Кен Гриффин из Citadel описывает качественный скачок в наборе инструментов ИИ: финансовая работа уровня кандидата наук, которая раньше занимала человеко-годы, теперь выполняется агентным ИИ за часы или дни.
Президент заявляет, что Белый дом «должен был просить более крупную долю в Intel» сверх своих 10 процентов, после того как знаковые сделки подняли акции компании более чем на 300 процентов.
Выручка резко концентрируется: Anthropic и OpenAI получают 89% годовой выручки среди 34 наиболее зрелых стартапов в области ИИ.
Amazon привлекает немецкую компанию DeepL для сотрудничества.
🤖 Робототехника
Figure 03 демонстрирует потрясающую пропускную способность 2,6 секунды в течение 8-часовой смены без монтажа
«Момент iPhone 1»: Figure 04 достигает полной фиксации дизайна. Генеральный директор Figure Бретт Эдкок подтвердил, что Figure 04 достиг «полной фиксации дизайна», и компания уже начала отгружать детали для новой системы. Эдкок описывает предстоящего гуманоида как «момент iPhone 1» для отрасли, представляющий собой самый значительный скачок между поколениями в истории компании.
Великий параллелизм: Джим Фан из NVIDIA излагает стратегию «конечной игры» в робототехнике. NVIDIA прогнозирует проведение «физического теста Тьюринга» в течение 2–3 лет и завершение «технологического древа» робототехники к 2040 году.
Boston Dynamics публикует видео, на котором её гуманоидный робот Atlas поднимает и переносит мини-холодильник, используя управляемую ИИ координацию всего тела в лабораторной демонстрации
Unitree Robotics демонстрирует управление своим гуманоидным роботом G1 в реальном времени с помощью голоса, когда внешние команды запускают автономные действия, сгенерированные ИИ, записанные в один дубль
В Атланте десятки пустых автомобилей Waymo вторглись в тупик и кружили там часами без пассажиров.
Робот может позволить себе проиграть, человек — не может позволить себе выиграть. Человек-сортировщик посылок от Figure выиграл с минимальным перевесом, при этом его левое предплечье было «практически сломано», а генеральный директор Бретт Эдкок предсказал: «Это последний раз, когда человек когда-либо победит».
>>1618334 Его просто сдвигают по чуть-чуть всё время. В 2040м те, кто дожил и не помер от цирроза ИТТ будут говорить, что в 2042м году уже 100% выйдет АГИ, который будет за нас делать открытия
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.
>>1618345 >я даже не знаю что такое фифи. Скрин с фифи >>1618180 стал началом этого диалога, чел. Фифи для нашего треда - как сын полка, точнее дочь. Эталонная карточка для проверки множества вещей - рп отыгрыша, следования карточке и характеру персонажа, ну и проверка цензуры, конечно.
>Чем лучше "18+ NSFW", с которым гемма тоже всякое пишет А ты вчитайся в тот промпт, посмотри что именно там разрешено.
>а с этим как-то так, в основном что ничего не может? По семплам фиг поймешь что там раньше было, ей что в предыдущем промпте написал, то она и ответит. Или это не про гемму вообще? Поток сознания какой-то, связнее мысли выражай.
Тред про AI-агентов - от вайб-кодинга до персональных ассистентов, которые сидят в твоих чатах, читают заметки и автономно ломают всё вокруг. Для кодеров, которые разучились писать руками, и для гуманитариев, чей диплом филолога наконец котируется в IT. Сеньор в 2026 - это тот, кто умеет внятно объяснить машине, чего он блять хочет.
С чего начать: - Хочешь кодить с AI эффективно: Cursor или Claude Code - Хочешь кодить в VS Code без привязки к конкретному провайдеру: Kilo Code, Cline или Roo Code + OpenRouter - Хочешь кодить с AI локально: OpenCode, Qwen Code или Pi Coding Agent + из моделей аноны советуют Qwen3.5, подробности в llama-треде - Хочешь приложение без кода: Lovable или bolt.new - Хочешь автоматизировать рутину: n8n или Langflow - Хочешь персонального ассистента: OpenClaw + API корпов или локальная модель на твоей пеке
>>1618086 Ничем. Я больше нигде не видел подписку за 50р, которая даёт и код генерить, и в чате рисерч сделать, и в консоли работать с файлами, и пикчи генерить с видео во флоу. Если копрогпт есть за копейки, тоже взял бы.
1. Suno https://suno.com/ Вышла версия 5.5 (но для тех кто платит денюшку), качество моделей постепенно улучшается: звук, понимание концепций, набора различных жанров. Но в то же время все сильнее урезается для бесплатных юзеров: осталось только 5 бесплатных генераций в день на аккаунт, а также по заявлением некоторых анонов, модель для генерации на бесплатке (на момент создания треда использовалась 4.5) ухудшили. Спам аккаунтами пока что работает. Купить подписку из РФ: 1. https://payment.mts.ru/tools/suno-ai 2. https://plati.market/games/suno-ai/1701/
2. Tunee https://www.tunee.ai Хороший звук, более-менее понимание концептов, но тоже сильно урезан для бесплатных юзеров: режет концепты в промптах, плюс произвольно определяет "цену" за каждую генерация исходя из какой-то "сложности запроса". И получается, что если с бесплатки забацаешь промпт сложнее банальщины "Make cool rock about love for youtube" он может решить что у тебя нет кредитов для такого сложного запроса и пошлет нахуй. Способов оплаты из РФ неизвестно.
3. Sonauto https://sonauto.ai/ Как по мне, недооценённая вещь, особенно учитывая что недавно он обновился до 3.0, который очень даже разъебывает. Но он тут более ограничен тегам и понимает чисто какие-то жанровые теги, гибкости поменьше. Но зато пока что халявный и не ограничен кредитами, генерируй пока есть настроение.
Потихоньку развиваются, стоит внимания ACE-STEP 1.5: https://github.com/ace-step/ACE-Step-1.5 Звук уже на уровне раннего Suno ~2.0-3.0, аноны делают на нем уже приемлемые результаты и постят в тред. Если есть хотя бы 12 GB VRAM и хочется генерировать без цензуры и подписок - можете юзать.
МЁРТВЫЕ ГЕНЕРАТОРЫ
1. Udio (udio.com) - куплен Warner Bros, но затем сами Warner Bros сдали назад и откатили сделку. Но уже успели испортить, больше нельзя скачивать треки, их только доставать из буфера в 160 кбит/с. Плюс непонятно как работающая цензура, которая не дает генерировать треки с определенными тегами. Плюс уже год ебут один и тот же 1.5 allegro. 2. Riffusion, Producer.ai (producer.ai) - куплен гуглом, удалены все старые относительно норм модели, вместо этого запихали безальтернативную каловую модель, которая и промпты сложнее самых нормисных в духе "make cool rock about love" не понимает, и вокал смазывает в какую-то кашу. При этом еще и максимально дегенеративная цензура, которая режет чуть ли не любые попытки сделать просто что-то не попсовое и не "музыку для ютуб".
ПРОЧИЕ ПОЛЕЗНЫЕ УТИЛИТЫ
1. https://www.bandlab.com/mastering Быстрый мастеринг в две кнопки, если хочешь чтобы звучало более слушабельно, но не имеешь навыков в DAW или аудиоредакторах (или лень). 2. https://morpher.ru/accentizer/ Если генерируешь музыку с лириками на русском, то очень часто случается, что твой генератор путает ударения в словах. Прежде чем пихать свою графоманию в генератор, проставь ударения в сервисе по ссылке. И уже из этого сервиса копируй текст в генератор. По крайней мере в Suno это помогает. 3. https://x-minus.pro/ai Быстро вытащить минус или вокал из трека.
Примечание от афтора шапки: в прошлых шапках были ссылки на нерабочие сервисы или полностью мертвые ссылки, я их не включил в шапку
Терминология моделей prune — удаляем ненужные веса, уменьшаем размер distill — берем модель побольше, обучаем на ее результатах модель поменьше, итоговый размер меньше quant — уменьшаем точность весов, уменьшаем размер scale — квантуем чуть толще, чем обычный fp8, чтобы качество было чуть лучше, уменьшение чуть меньше, чем у обычного квантования, но качество лучше merge — смешиваем несколько моделей или лор в одну, как краски на палитре.
lightning/fast/turbo — а вот это уже просто название конкретных лор или моделей, которые обучены генерировать видео на малом количестве шагов, они от разных авторов и называться могут как угодно, хоть sonic, хоть sapogi skorohody, главное, что они позволяют не за 20 шагов генерить, а за 2-3-4-6-8.
>>1617605 Да как-то так в целом и работает. Жирнее промпт - больше шансов на изменение картинки. Больше шагов - ещё больше шансов на изменения. Под "нодой цикла" я имел в виду WanFirstLastFrameToVideo, потому что она для зацикленных видео. В ней можно отключить end_image и видео будет не зацикленным. Это даст ещё больше изменений в видео со стороны Вана.
Исследования ИИ тред #3 /research/
Аноним13/04/25 Вск 22:51:56№1151064Ответ
Обсуждаем развитие искусственного интеллекта с более технической стороны, чем обычно. Ищем замену надоевшим трансформерам и диффузии, пилим AGI в гараже на риге из под майнинга и игнорируем горький урок.
Я ничего не понимаю, что делать? Без петросянства: смотри программу стэнфорда CS229, CS231n https://see.stanford.edu/Course/CS229 (классика) и http://cs231n.stanford.edu (введение в нейроночки) и изучай, если не понятно - смотри курсы prerequisites и изучай их. Как именно ты изучишь конкретные пункты, типа линейной алгебры - дело твое, есть книги, курсы, видосики, ссылки смотри ниже.
Почему python? Исторически сложилось. Поэтому давай, иди и перечитывай Dive into Python.
Можно не python? Никого не волнует, где именно ты натренируешь свою гениальную модель. Но при серьезной работе придется изучать то, что выкладывают другие, а это будет, скорее всего, python, если работа последних лет.
Стоит отметить, что спортивный deep learning отличается от работы примерно так же, как олимпиадное программирование от настоящего. За полпроцента точности в бизнесе борятся редко, а в случае проблем нанимают больше макак для разметки датасетов. На кагле ты будешь вилкой чистить свой датасет, чтобы на 0,1% обогнать конкурента.
Количество статей зашкваливающее, поэтому все читают только свою узкую тему и хайповые статьи, упоминаемые в блогах, твиттере, ютубе и телеграме, топы NIPS и прочий хайп. Есть блоги, где кратко пересказывают статьи, даже на русском
Где ещё можно поговорить про анализ данных? http://ods.ai
Нужно ли покупать видеокарту/дорогой пека? Если хочешь просто пощупать нейроночки или сделать курсовую, то можно обойтись облаком. Google Colab дает бесплатно аналог GPU среднего ценового уровня на несколько часов с возможностью продления, при чем этот "средний уровень" постоянно растет. Некоторым достается даже V100. Иначе выгоднее вложиться в GPU https://timdettmers.com/2019/04/03/which-gpu-for-deep-learning заодно в майнкрафт на топовых настройках погоняешь.
Когда уже изобретут AI и он нас всех поработит? На текущем железе — никогда, тред не об этом
Кто-нибудь использовал машоб для трейдинга? Огромное количество ордеров как в крипте так и на фонде выставляются ботами: оценщиками-игральщиками, перекупщиками, срезальщиками, арбитражниками. Часть из них оснащена тем или иным ML. Даже на швабре есть пара статей об угадывании цены. Тащем-то пруф оф ворк для фонды показывали ещё 15 лет назад. Так-что бери Tensorflow + Reinforcement Learning и иди делать очередного бота: не забудь про стоп-лоссы и прочий риск-менеджмент, братишка
Список дедовских книг для серьёзных людей Trevor Hastie et al. "The Elements of Statistical Learning" Vladimir N. Vapnik "The Nature of Statistical Learning Theory" Christopher M. Bishop "Pattern Recognition and Machine Learning" Взять можно тут: https://www.libgen.is
Напоминание ньюфагам: немодифицированные персептроны и прочий мусор середины прошлого века действительно не работают на серьёзных задачах.
>>1614204 >Зачем тебе хаос? Интеллект - это упорядоченность, противоположность хаосу. Если тебе нужен хаос, в компьютерах это решается генератором случайных чисел... Ты там случайно не путаешь рандом с хаосом, шиз? Хаос - про чувствительность динамической системы к начальным условиям, про непредсказуемость таких систем. К случайности никакого отношения не имеет. Возьми тот же "game of life" - максимально простые правила развития системы, полностью отсутствует фактор случайности. При этом система непредсказуема. Ты не сможешь сказать что будет с ней через 1000 шагов, даже если тебе дать первоначальные условия (за исключением тех случаев, когда система умирает сразу после первого шага). Единственный вариант понять что будет через 1000 шагов - это вычислить их начиная с самого первого шага. >Интеллект в любой его форме - это стремление к уменьшению хаоса. Интеллект - это способность моделировать окружающую среду, а уже через моделирование появляется возможность предсказывать изменения в среде, что даёт определенные бонусы к адаптации. Чем сложнее модель - тем больше интеллекта требуется для её построения. Возможность адаптироваться к окружающей среде есть у всех живых организмов, делает ли это их интеллектуальными? Нет, не делает. >сама концепция обучения абстрагируема от нейросетей. Ты берешь систему и стараешься её упорядочить - это и есть "обучение". Если ты про чисто математический аппарат оптимизации, где нужно подобрать оптимальные коэффициентики для моделирования какого-либо явления, например линейного, то да, нейросети тут не нужны - достаточно простой линейной модели.
В этом треде обсуждаем нейронки генерящие 3д модели, выясняем где это говно можно юзать, насколько оно говно, пиплайны с другими 3д софтами и т.д., вангуем когда 3д-мешки с говном останутся без работы.
>>1616046 Попробуй запустить модель правильно. Постарайся не запускать её неправильно. Перед запуском не забудь загрузить операционную систему. Надеюсь, мой совет тебе поможет.
Используя /promo MIRAGROWTH2026 можно получить Mira pro на месяц и 2000 токен для генерации видео и фото или для других целей. Успей забрать! Ссылка: https://t. me/mira?start=ref_5950919176
🎤🔊 ОБСУЖДАЕМ ПРЕОБРАЗОВАНИЕ ТЕКСТА В ГОЛОС И КЛОНИРОВАНИЕ ГОЛОСОВ 🔊🎤 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
🌟 ТОП ЛОКАЛЬНЫХ МОДЕЛЕЙ ПО КАЧЕСТВУ РУССКОГО ГОЛОСА НА МАРТ 2026 🌟
🐟👑 Fish-Speech S2 Pro (FishAudio) — SOTA, ElevenLabs на локале! → zero-shot клон от 10–30 сек записи → 80+ языков (русский топ), теги эмоций [excited], [whisper], [angry], [laughing] и вообще дохуя → диалог между несколькими голосами → тяжёлая сучка (FP8 в 12 ГБ VRAM, full ~17 ГБ), но есть экспериментальный вариант для 6+ ГБ https://github.com/rodrigomatta/s2.cpp 🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹 🧠 Qwen3-TTS → клон от 3–30 сек (ВАЖНО: без reference-транскрипта текста — хуйня, если хочешь поудобнее подключи сразу QwenASR) → VoiceDesign: пишешь «весёлая молодая девка с хрипотцой» — и получаешь голос → 10 языков, включая русский → диалог между спикерами → лёгкая — влезает в 6 ГБ VRAM 🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹 🎙️ VibeVoice-7B от Майкрософт → тяжёлая, но 4-bit квантизация — запускается на 8 ГБ (проверено на 3070) → поддержка долгих спичей → подкаст-режим: 4 спикера одновременно → норм клонирование голоса 🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹 ☁️ FL CosyVoice3 → ультралёгкий 0.5 — запустится даже на тостере → 9 языков, включая русский → zero-shot клон от 3–10 сек референса 🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹🔹 🌍 Chatterbox Multilingual (23 языка, включая русский) → zero-shot клонирование голоса 🎤 F5-tts → zero-shot клонирование голоса → официально русский не поддерживается, но есть файнтюн (см. ниже) ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 🚀 КАК ЭТИМ ПОЛЬЗОВАТЬСЯ (если что-то не понятно — спроси у ИИ лол) 🚀
🔥Вариант «всё в одном месте» — ComfyUI + TTS-Audio-Suite
1. Устанавливаем ComfyUI (Desktop для нормисов, Portable для здешних нейромантов) 2. Ставим https://github.com/diodiogod/TTS-Audio-Suite — постоянная обновляемая солярка почти всех моделей 3. Поставить FFmpeg (через winget в комадной строке: winget install FFmpeg или скачать) 4. Запускаем Комфи → перетаскиваем готовый json-воркфлоу из репозитория 5. Отсавляем включенными выбранные ноды, жмём Run 6. При первой генерации модели сами скачаются (~1–9 ГБ)
💥 Вариант «по отдельности» (кастом под каждую модель) 💥 Тоже через ComfyUI, только ставим отдельные кастомные ноды (на выбор):
в комфи в ноде F5 TTS audio advanced выбрать: model model:///ru.safetensors model_type: F5TTS_v1_Base sample_audio: emma_ru_xtts_3 ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━ 🎉 Если что-то не запускается — пиши, разберёмся! Голосуем, клонируем, ебём нейросети вместе! 🔥🎙️
Ну и сами модели, разумеется, нихуя не скачиваются "сами" все пришлось качать вручную. Может комфи не видит саму модель? Вставил её в папку "TTS" в комфи.
Собственно, подскажите по сабжу. А то я недавно вдруг осознал, что уже года два как пользуюсь Rope, но ведь за это время нейросети сделали огромный скачок вперёд, так что почти наверняка есть более качественные способы натянуть лицо еот на тело порноактриссы и тд. Интересует именно локальная нейронка, а не онлайн-сервисы.
Ну появилось много всего Но свелось все к семейству лор Best faceswap а там уже смотри что железо потянет и для каких целей, есть и для видео LTX, есть и для эдитов с помощью flux klein и qwen.
Джюпити видит другие чаты
Аноним19/05/26 Втр 13:39:05№1615371Ответ
Сап. Замечал ли кто-то, что даже с выключенной памятью гпт ссылается на другие чаты, а когда его ловишь, начинает отнекиваться и утверждает, что темы моего интереса "видно по стилю общения"? Гуглил эту фигню, ничего не нашел
>>>>1615371 (OP) Ты только сейчас об этом узнал? Два года назад была новость. Я из-за этого старые чаты удаляю, так как chatgpt жалуется на переполнение контекста. > гуглил Значит, плохо искал.
>>1615371 (OP) Это у всех сейчас так, хранят выжимку контекста из предыдущих сессий для твоего аккаунта, типа повышает персонализацию ответов. Удаление старых чатов не поможет. Если параноик - просто не регайся в чате.
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.