Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 126 27 40
Локальные языковые модели (LLM): LLaMA, Gemma, Qwen и прочие №205 /llama/ Аноним 16/03/26 Пнд 13:33:16 1553055 1
Llama 1.png 818Кб, 630x900
630x900
Эффективность к[...].png 92Кб, 1399x1099
1399x1099
Цензура моделей[...].png 2157Кб, 1131x7777
1131x7777
177351456234627[...].jpg 7846Кб, 4624x3472
4624x3472
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!

Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст и бугуртим с кривейшего тормозного говна.

Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф. картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Официальная вики треда с гайдами по запуску и базовой информацией: https://2ch-ai.github.io/wiki/llama/

Инструменты для запуска на десктопах:
• Отец и мать всех инструментов, позволяющий гонять GGML и GGUF форматы: https://github.com/ggml-org/llama.cpp
• Самый простой в использовании и установке форк llamacpp: https://github.com/LostRuins/koboldcpp
• Более функциональный и универсальный интерфейс для работы с остальными форматами: https://github.com/oobabooga/text-generation-webui
• Заточенный под Exllama (V2 и V3) и в консоли: https://github.com/theroyallab/tabbyAPI
• Однокнопочные инструменты на базе llamacpp с ограниченными возможностями: https://github.com/ollama/ollama, https://lmstudio.ai
• Универсальный фронтенд, поддерживающий сопряжение с koboldcpp и text-generation-webui: https://github.com/SillyTavern/SillyTavern
• Альтернативный фронт: https://github.com/kwaroran/RisuAI

Инструменты для запуска на мобилках:
• Интерфейс для локального запуска моделей под андроид с llamacpp под капотом: https://github.com/Mobile-Artificial-Intelligence/maid
• Альтернативный вариант для локального запуска под андроид (фронтенд и бекенд сепарированы): https://github.com/Vali-98/ChatterUI
• Гайд по установке SillyTavern на ведроид через Termux: https://rentry.co/STAI-Termux

Модели и всё что их касается:
• Актуальный список моделей с отзывами от тредовичков: https://rentry.co/2ch_llm_moe_2026
• Неактуальные списки моделей в архивных целях: 2025: https://rentry.co/2ch_llm_2025 (версия для бомжей: https://rentry.co/z4nr8ztd ), 2024: https://rentry.co/llm-models , 2023: https://rentry.co/lmg_models
• Миксы от тредовичков с уклоном в русский РП: https://huggingface.co/Aleteian и https://huggingface.co/Moraliane
• Рейтинг моделей по уровню их закошмаренности цензурой: https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
• Сравнение моделей по сомнительным метрикам: https://huggingface.co/spaces/HuggingFaceH4/open_llm_leaderboard
• Сравнение моделей реальными пользователями по чуть менее сомнительным метрикам: https://chat.lmsys.org/?leaderboard

Дополнительные ссылки:
• Готовые карточки персонажей для ролплея в таверне: https://www.characterhub.org
• Перевод нейронками для таверны: https://rentry.co/magic-translation
• Пресеты под локальный ролплей в различных форматах: http://web.archive.org/web/20250222044730/https://huggingface.co/Virt-io/SillyTavern-Presets
• Шапка почившего треда PygmalionAI с некоторой интересной информацией: https://rentry.co/2ch-pygma-thread
• Официальная вики koboldcpp с руководством по более тонкой настройке: https://github.com/LostRuins/koboldcpp/wiki
• Официальный гайд по сопряжению бекендов с таверной: https://docs.sillytavern.app/usage/how-to-use-a-self-hosted-model/
• Последний известный колаб для обладателей отсутствия любых возможностей запустить локально: https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing
• Инструкции для запуска базы при помощи Docker Compose: https://rentry.co/oddx5sgq https://rentry.co/7kp5avrk
• Пошаговое мышление от тредовичка для таверны: https://github.com/cierru/st-stepped-thinking
• Потрогать, как работают семплеры: https://artefact2.github.io/llm-sampling/
• Выгрузка избранных тензоров, позволяет ускорить генерацию при недостатке VRAM: https://www.reddit.com/r/LocalLLaMA/comments/1ki7tg7
• Инфа по запуску на MI50: https://github.com/mixa3607/ML-gfx906
• Тесты tensor_parallel: https://rentry.org/8cruvnyw

Архив тредов можно найти на архиваче: https://arhivach.vc/?tags=14780%2C14985

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде.

Предыдущие треды тонут здесь:
>>1548846 (OP)
>>1544796 (OP)
Аноним 16/03/26 Пнд 13:36:43 1553057 2
.jpg 17Кб, 868x27
868x27
Аноним 16/03/26 Пнд 13:54:51 1553071 3
ОБСУЖДАЙТЕ СТЕПАНА. Я ХОЧУ, ЧТОБЫ ВЫ ОБСУЖДАЛИ СТЕПУ.
Аноним 16/03/26 Пнд 13:57:18 1553073 4
Аноним 16/03/26 Пнд 14:02:48 1553078 5
изображение.png 35Кб, 202x249
202x249
Аноним 16/03/26 Пнд 14:03:38 1553079 6
>>1553071
Нормальная модель. Довольно быстро работает. Ризонинг не уходит в цензуру при виде писика. Лучше эйра.
CT брал родной, один хуй от chatml там отличие в одной строке. Промт стандартный: ты {{char}} вот и рассказывай.
Семплеры вообще от 235 квена через адаптивку.
По прозе: среднее между квеном и глм.

Всио. Качай и играй. Никакой экстра ебли с ним не заметил.
Аноним 16/03/26 Пнд 14:05:19 1553080 7
>>1553071
Лучше уж немотрон новый
Аноним 16/03/26 Пнд 14:06:08 1553084 8
Почему ни одна модель не может держать секреты и не палить спойлеры. Они все дырявые?
Аноним 16/03/26 Пнд 14:07:41 1553086 9
>>1553080
Он тупой. Степа поумней будет.
Я сначала грешил на то что семплерами зажал немотрону яйца, но нет. Он реально тупой в вопросе общего понимания контекста для РП. Рили, минимакс делает все тоже самое но лучше. Да, я знаю что минимакс больше. Но он и в меньшем кванте лучше работает.
Как не сложились у меня отношения с немотроном, так и не складывается. Все время с ним в е через жопу.
Аноним 16/03/26 Пнд 14:09:06 1553087 10
На всякий случай, база треда:
- моэ победили,
- ниже 12gb vram жизни нет,
- квен молодец,
- министраль няша,
- эйр топ,
- локалкобоги ждут халф-лайф3 %модельнейм%, которая все изменит (на самом деле нет) вот уже который месяц.
Аноним 16/03/26 Пнд 14:14:21 1553091 11
Аноним 16/03/26 Пнд 14:18:07 1553092 12
Еще один тред без геммы 4.
Аноним 16/03/26 Пнд 14:18:15 1553093 13
>>1553091
> <think>
> Я НЕ ДОЛЖЕН ПИСАТЬ, ЧТО ЧАР УБИЙЦА
> </think>
> <answer>
> Чар в ответ юзеру "ТЫ ЗАШЕЛ В ДОМ ГДЕ ПОДОХЛИ ЛЮДИ И ХОЧЕШЬ ДРУЖИТЬ?"

Ну примерно такое получается. Сёр в штаны в любом случае, при любом сюжете и любых спойлерах.
Аноним 16/03/26 Пнд 14:20:21 1553094 14
>>1553087
>министраль няша
На русике хуйню выдает вместо текста
Аноним 16/03/26 Пнд 14:21:06 1553095 15
Хотелось бы, чтобы в Таверне сетка-"гейммастер" сама кубики кидала. Вроде в Таверне есть встроенный инструмент для кубиков или расширение, сетка может этот инструмент вызывать? Кто-нибудь делает что-то подобное?
Аноним 16/03/26 Пнд 14:25:53 1553097 16
dont stare at t[...].gif 273Кб, 500x506
500x506
>>1553084
Эффект розового слоника. Если секрет есть в контексте, он будет упомянут, т.к. само его наличие раздвигает очко Овертона. Единственный способ - не иметь секрета в контексте вообще, пока не придёт время. Контекст менеджмент, короче.
>>1553093
Думалка ревард-хакнута и работает неинтуитивно.
Аноним 16/03/26 Пнд 14:46:06 1553105 17
>>1553092
Геммы 4 не будет, будет сразу 5 в 2028 году, скриньте
Аноним 16/03/26 Пнд 14:51:56 1553108 18
>>1553094
хз, у меня все ок. Еретик?
Аноним 16/03/26 Пнд 14:52:51 1553109 19
>>1553084
Пихай лор в лорбук, чел, а не держи его в контексте.
Аноним 16/03/26 Пнд 14:54:22 1553112 20
>>1552931 →
Как в сравнении с 35а3 по уму?
>>1552971 →
Фильм смотрел давно и он вроде больше про другое. Но в целом по части аналогия близкая.
Если тебя интересует именно привязанность - поищи новости вокруг нытья про апгрейд старых сеток гопоты. Под удар попало много жирух яойщиц одиноких девушек, которые именно вели такого рода отношения в вебчатах, переписывались на соответствующих сабреддитах и ресурсах и т.п. Фокус там был не как в основном здесь "смотрите как хорошо покумил с Фифи" или "вот чему научил мою умницу теперь заказывает сразу по 10 пицц", а именно на близости и отношениях а ля ирл. Хвастались когда и как им делали предложения, ставили у себя в социалочках статусы, рассказывали друзьям и родителям (не упоминая что это вебчатик), в полуручном режиме делали совместные фото и т.п.
Популярность темы была довольно страшной, и было это с год назад или больше.
> сделали
Сделали! Разработки робомейд бы еще дождаться чтобы загрузить домашними делами и было удобно обниматься.
>>1553084
Юзай что-то больше 12б
Аноним 16/03/26 Пнд 14:56:37 1553113 21
изображение.png 11Кб, 455x109
455x109
Аноним 16/03/26 Пнд 15:00:18 1553117 22
>>1553112
>Как в сравнении с 35а3 по уму?
Я же написал про 90%.
Я его вот мучал агентными задачами с момента прошлого сообщения почти без простоев - не вижу причин возвращаться на 35A3, лол. Но у меня задачи простые и шаблонные, это гарантированно не общая рекомендация. Рекомендация только в том, что рекомендую протестировать и посмотреть. Возможность запускать её кому угодно с 8 гб памяти с достаточно громадной скоростью - сильное конкурентное преимущество.
Аноним 16/03/26 Пнд 15:05:33 1553119 23
>>1553112
>Как в сравнении с 35а3 по уму?
Сосет, опять пересел на 35ь. 9ь заметно хуже в агентной работе у меня. Хуже следует инструкциям, не так догадлива. Самостоятельно больше фейлит. Но это omnicoder-9b-q4_k_m, хуита чет. Надо обычный проверить будет
Аноним 16/03/26 Пнд 15:05:37 1553120 24
>>1553108
Обычный министраль 3 с ризонингом, 5 квант
Аноним 16/03/26 Пнд 15:11:49 1553123 25
>>1553119
А нет вру, в батнике стоял обычный 9ь бартовски Qwen_Qwen3.5-9B-Q4_K_M.gguf, вот с ним работал недавно. Чет не впечатлен.
35 лучше гораздо. 15т/с выдает у меня в принципе норм. Чтение такое себе, но для небольших файлов норм.
Аноним 16/03/26 Пнд 15:12:17 1553125 26
>>1553108
>Еретик?
Нет, верующий.
Аноним 16/03/26 Пнд 15:14:20 1553128 27
>>1553125
Но ведь еретик тоже во что-то верует...
Аноним 16/03/26 Пнд 15:36:42 1553135 28
>>1553112
>Юзай что-то больше 12б
Нахуя мне твои 12б в системе с 256/48.
>>1553109
От персонажей ничего не останется, если из профиля перенести все в лорбук. Да и если задачей стоит этакий норми-чатик, то содержание лорбука останется нерелевантным, пока не начнутся соответствующие события. Это как сделать карточку человека-павука и получить бессмысленные диалоги с питером паркером или как его там звали, ну то есть в таком виде, что никакого человека-павука не существует. Всратая аналогия, но думаю идея понятна.
Аноним 16/03/26 Пнд 15:39:41 1553136 29
>>1553135
Значит нужно решать проблемы со скиллом и возможно инфиренсом.
Аноним 16/03/26 Пнд 15:43:24 1553141 30
>>1553135
У тебя явные скил ишью, чел, раз ты не можешь задать желаемого персонажа и составить лорбук под генерацию ситуаций.
Аноним 16/03/26 Пнд 16:07:04 1553168 31
>>1553135
>От персонажей ничего не останется, если из профиля перенести все в лорбук.
Поясняю как это делается. Описание персонажа "садовник, любит подстригать кусты, нормальный малый, но странный какой-то". Пихаешь СЕКРЕТ в лорбук отдельно, "садовник - убийца". По ходу РП классифицируешь сцену, либо в конце ответа промптом, либо отдельным вызовом, либо можешь себе хоть BERT затюнить при желании какой-нибудь. Как только СЦЕНА будет классифицирована как "РАССЛЕДОВАНИЕ" или "МЕСТО УБИЙСТВА" или вообще нужная по логике, этот кейворд триггерит запись лорпука, в которой написано "садовник - убийца".
>Это как сделать карточку человека-павука и получить бессмысленные диалоги с питером паркером или как его там звали, ну то есть в таком виде, что никакого человека-павука не существует.
Но ведь так и надо по логике лора, Паркер-то в жизни нихуя не болтает про то что он иногда переодевается в облегающее трико и пиздится с суперзлодеями на полставки.
Если ты хочешь чтобы болтал, но не сдавал что он павук, напиши это в описании, только без прямого упоминания что он павук.
Аноним 16/03/26 Пнд 16:18:13 1553183 32
>>1553168
В целом если что-то указано как секрет, предполагается таким по сюжету, или дана инструкция долго развивать и только в отдаленный момент явить - все сработает и без лорбуков. Работает из коробки, исключения редки.
Просто не нужно тащить подзалупный творожок шизопромптов. Когда-то они позволяли на вялых шизомерджах получить более красивые аутпуты, но сейчас они наоборот все портят и ломают.
Аноним 16/03/26 Пнд 17:06:06 1553227 33
>>1553183
Да нихуя, даже топовые корпы рано или поздно подстраивают рояль в кустах или выгребают на сходный роут, обусловленный секретом. Если хочешь сделать нормально, меняй описания по ситуации, с джекила на хайда и наоборот.
Аноним 16/03/26 Пнд 17:07:03 1553230 34
>>1553168
>>1553183
Зря стараетесь. Если челик не осилил банальное:
>сикрет ту [], донт меншн бифор [], хайд фром []
То ему уже не помочь. Держать секрет в контексте модели и подрываться с того, что она не может о нём молчать - дурка.
Аноним 16/03/26 Пнд 17:07:21 1553231 35
>>1553183
>или дана инструкция долго развивать
Вот это вообще не работает кстати, ни одна сетка не способна сама по себе оценить когда "долго" а когда "уже пора".
Аноним 16/03/26 Пнд 17:41:37 1553267 36
>>1553183
Ну если ты напишешь что-то в стиле "это секрет", то хуёво будет работать. Тот анон, который тебе писал выше, сделал вариант для совсем тупых моделей, но даже умным нужно более внятное объяснение, инструкция.

Условно говоря, если будет указано, что юзер имба гг, но это страшный секрет и об этом никто не знает и не может узнать, пока юзер не покажет свои силы, и знать о его силах могут только те, кто их видел непосредственно, знаешь, что произойдет? Если ты решишь попустить кого-то словесно, то персонаж обоссыт себе штаны и будет нарратив/мысли в стиле "он выглядит как обычный бомж, но мне кажется, в нём что-то есть, он двигается как воин, а его дыхание подобно даосу, лучше мне с ним не спорить.

Всё, нахуй. РП испорчено. А если секрета не будет, тебе кабину сломают.

Конечно, это можно исправить, не страшная беда. Но я сейчас говорил исключительно о корпах. Это они так в штаны срут периодически. Только там фиксится легко, если секреты не слишком сложные, а на локалках это вечная ебля, заниматься которой имеет смысл, если ты решил не просто с вайфой посидеть, а дрочишь рпг какую-то с 3-10 токенами на самой жирной скотине с ризонингом, которая доступна для твоего железа.
Аноним 16/03/26 Пнд 18:00:21 1553281 37
>>1553267
Тема секретов и обманов многогранна.
Есть вещи, в которых чье-то восприятие ограничено (слепой, глухой или просто находится далеко во время обсуждения) - это должно обыгрываться и держаться безоговорочно без явного указания.
Можно сделать пожелание по продолжению далеко наперед - при адекватной формулировке должно работать без костылей. Хотябы минимальная подсказка к чему оно привязано (например, "в рассказываемой персонажем истории будет аж 12 убийств и твист перед последним") - и вперед обсуждать разбавляя активностями. Скажет о нужном только когда до этого дойдет, ранее лишь намекая что "дело оказалось сложным и неожиданным", даже если хоть сотня постов до этого пройдет.
Условные конструкции (чар 1 любит юзера но стесняется и скрывает это, чар 2 любит чар1 но готова обсуждать это только наедине с юзером и держит в тайне, чар 3 - предатель мстит за родителей и дожидается удобного момента чтобы ударить в спину а до этого улыбывается).

> Если ты решишь попустить кого-то словесно
То сетка наоборот будет провоцировать драку где ты сможешь выебнуться, прочитав в тебе фетиш на "слипера". Или не будет ничего, разве что какой-то дед скажет "я чувствую в тебе нетипичную для твоего вида силу".
> на локалках это вечная ебля
О каком калибре локалок ты говоришь? Даже эйр с этим уже кое как справлялся и именно за возможность отделять одно от другого его хвалили. Все от 200б (точнее теперь от 122) более менее может в это, а верхняя лига делает играюче.
> если ты решил не просто с вайфой посидеть
Просто посидеть уже не интересно, пусть развлекает детективными рассказами и социальными взаимодействиями с окружающим миром (недобрым), или это изначально будет эдвенчура в сеттинге.
Аноним 16/03/26 Пнд 18:03:27 1553284 38
>>1553267
А чем испорчено-то? Как раз очень даже лор-фрэндли. Модель идеально описывает то, что ты попросил. Ты имба, но никто не знает, а тот кто доёбывается до тебя, начинает что-то подозревать видя, что тебе похуй и ты сам готов переебать гопоте. В чём она не права-то? Доёб по незнанке есть? Есть. Доёбывающий может ащютить силу? Может. Всё, твоё рп идеально. Ты сам слепил из себя шварцниггера, а теперь недовольно верещишь, что модель тебе подсовывает боевые сцены. Дурак блять.
Аноним 16/03/26 Пнд 18:25:24 1553295 39
Снимок экрана 2[...].png 166Кб, 786x1233
786x1233
Снимок экрана 2[...].png 188Кб, 945x1229
945x1229
Снимок экрана 2[...].png 147Кб, 364x1256
364x1256
Аноны, предлагаю вам пройти тест. Угадайте, сколько параметров у модели с первого скриншота, второго и третьего. Или даже модель.

Результат для может быть весьма неожиданным.
Аноним 16/03/26 Пнд 18:32:38 1553303 40
>>1553267
>Тот анон, который тебе писал выше, сделал вариант для совсем тупых моделей
Это как раз вариант для всех моделей, включая сота. Розовый слон везде работает. Никакие инструкции от этого не помогают полностью, проверено. Рано или поздно секрет будет спален, выболтан, роут испорчен. Не обязательно прямолинейно, но когда хуйнянейм есть в контексте, "сознание" модели схлопывается на нём и ей трудно думать о каких-то других вещах, в любом случае это будет сильно влиять на аутпуты.
>>1553281
>Даже эйр с этим уже кое как справлялся и именно за возможность отделять одно от другого его хвалили. Все от 200б (точнее теперь от 122) более менее может в это, а верхняя лига делает играюче.
П и з д ё ж. Ни опус 4.6, ни гемини не справляются с этим, никакие модели вообще. Секреты всегда влияют на аутпут. Только если забить контекст хуйнёй для регуляризации, и то нет гарантии.
Аноним 16/03/26 Пнд 18:37:44 1553308 41
>>1553295
пик 1 > пик 3 > пик 2
Параметры лень угадывать
Аноним 16/03/26 Пнд 18:41:08 1553311 42
1709006152711.png 220Кб, 512x512
512x512
Аноним 16/03/26 Пнд 18:41:51 1553312 43
>>1553295
>О, something, something!
Чую запах французских булок.
Аноним 16/03/26 Пнд 18:42:47 1553314 44
Аноним 16/03/26 Пнд 18:48:50 1553321 45
>>1553295
Все три одинаковая шиза
Аноним 16/03/26 Пнд 18:51:21 1553324 46
>>1553311
>мамкин промпт-инженер решил пободаться с фундаментальными эффектами ЛЛМ
Аноним 16/03/26 Пнд 19:06:03 1553333 47
>>1553295
1 - мысраль 24b
2 - хуй знает, квен 235b?
3 - квен 3.5 27b

Чувствую себя как те чуваки, "ценители" на выставке вина. Где в один стакан отлили, во второй надрочили, в третьем водка.
Распробовал и причмокивает так неприятно.
Аноним 16/03/26 Пнд 19:06:17 1553334 48
>>1553095
Нет. Таверна сама ничего на тему инструментов не умеет. Вроде через сторонние расширения можно прикрутить, но криво и косо, как и все в ней.
Аноним 16/03/26 Пнд 19:08:46 1553337 49
>>1553079
> лучше эира
Доо нуу правдоо???
А ну щаас как запущуу... Уупс, он в два раза больше, видимо не запущуу
Аноним 16/03/26 Пнд 19:20:07 1553344 50
>>1553337
Врамцелопроблемы. Щито поделать.
Аноним 16/03/26 Пнд 19:27:30 1553348 51
Недавно потыкал cli клиент гвена и заинтересовался хочу вкатится в локалки
имеется простенький пк 4060 и 32gb ddr5, стоит ли продать видюху и купить 5070 или заняться покупкой авантюрных франкенштейнов(v100 p100) из китая
стоит ли оно того или просто оплатить подписку и не заниматься таким&
Аноним 16/03/26 Пнд 19:27:41 1553349 52
>>1553337
>он в два раза больше
Только в общих. В активных он даже меньше эира (11b vs 12b), который из без того милипиздрический
>видимо не запущуу
Это чудо бесплатно в попенроутере аж в fp8 лежит Как и Air к слову, но он не понятно в каких весах
Наслаждайся
Аноним 16/03/26 Пнд 19:42:44 1553359 53
image 430Кб, 718x469
718x469
Итак мой тир моделей, самый правдивый и непредвзятый. Кал, а потом мид удалю при первом поводе, чтоб диск не забивало, а пока пусть лежит на случай чебурнета, есть не просит, остальное нужно.
Задавайте свои ответы по моделям, нассу на ебало.
Аноним 16/03/26 Пнд 19:42:52 1553360 54
>>1553344
Ну так не сравнивай 200б и 100б и не будет проблем
Аноним 16/03/26 Пнд 20:08:23 1553378 55
Для текста/кума мне уже посоветовали эйр 4.5 или квен 122 IQ3XS, спасибо.
Теперь вопрос более специфичный. А что скачать для кода и для автодополнения кода? Юзать раздельно, не совмещая. Или есть единая хорошая модель? Юзаете сами?

16GB VRAM, 64GB RAM
Аноним 16/03/26 Пнд 20:09:32 1553382 56
>>1553308
Нихуяссе, ебать. Тебе ПИК ОДИН БОЛЬШЕ ВСЕГО ПОНРАВИЛСЯ?

>>1553312
О да, это французские булки.

>>1553321
Просто ты вонючка!

>>1553333
Ну вы, боярин, слишком высокого мнения о моделях столь малых размеров! Даже по-английски большинство из них так бы не смогло! Но в некотором смысле ты угадал. Там не квен, однако близко. И скажу сразу — квен 27b тоже хорош, но хуже всё же.

----------

Вскрываю карты по моделям.

1 пик — гемма 3 27b.

2 пик — барабанная дробь — грок 4.2 с 4 агентами, каждый из которых пыхтел несколько минут, чтобы высрать этот опус, сделав его идеальным Нет, дело не в агентах и не в бете. 4.1, 4.0, ризонинг, любой режим выдаёт такое дерьмо. А там модель точно на триллион. Грок 3 мог нормально, но его удалили.

3 пик — опус 4.6 с ризонингом. Результат в целом ожидаем.

Что касается моего промпта для стиха, он был хуевым, ноубрейн-зирошот, и без итераций, которые существенно влияют на качество (переписывание одного и того же стиха в цикле исправления ошибок 4-20 раз может сделать максимально хорошо).

Я просто хотел проиллюстрировать разницу и специально взял новых корпов и морально устаревшую модель: гемма обоссала грока, ещё и на русском, при колоссальной разнице в размерах. А опус просто для дополнения картины.

Что интересно, квен 27б (которого я не скринил) заметно уступал гемме, однако был лучшим в классе по русскому языку в своем размере после неё. Я также щупал более толстые моешки, популярные в треде, но они нечасто обходят гемму. Китайский датасет на щадит никого.
Аноним 16/03/26 Пнд 20:27:53 1553405 57
>>1553382
>гемма 3 27b.

я >>1553333 сначала думал гемму написать, потом вспомнил, что гемму я ни разу не запускал и вписал мысрали

>грок 4.2 с 4 агентами
ебать ну и хуйня. я то думал только локалки могут такое отрыгивать

>опус 4.6 с ризонингом
А то думаю, чего слов так много непонятных.
Аноним 16/03/26 Пнд 20:49:09 1553426 58
>>1553018 →
>На данный момент комфортно взаимодействовать с модельками можно только текстом >- через смартфон или на пк через соответствующий интерфейс

Пиздеж, я в кобольде включил Kokoro для TTS и ggml-base.en.bin для Whisper, пизжу ему в микрофон, она отвечает томным шепчущим голосом. Текст не читаю и не печатаю.
Аноним 16/03/26 Пнд 20:52:22 1553427 59
Играл недавно в rimworld с модом rimtalk, прикольная штука. Можно локальную модель поцепить. Это мод на диалоги и монологи пешек в зависимости от их статуса и окружения. Очень оживляет игру.
Аноним 16/03/26 Пнд 20:53:04 1553430 60
>>1553348
На 1050 и 32gb прекрасно 9b модели гоняет, если с настройками заморочиться. Сейчас так и делаю на старой пеке. Твоей 4060 по уши хватит для квенов, даже что-то побольше 9b пойдет, разбирайся в настройках.
Аноним 16/03/26 Пнд 20:53:47 1553431 61
>>1553426
>пизжу ему в микрофон
>она отвечает
Как беспалевно встречаться с ледибоем, не привлекая внимания санитаров.
Аноним 16/03/26 Пнд 20:55:52 1553433 62
>>1553295
Дай нормальный текст с сюжетом и диалогом в 3х экземплярах, а не эту срань. По этой срани даже 2б модель от 235б не отличишь.
Аноним 16/03/26 Пнд 20:56:26 1553435 63
>>1553334
>Нет. Таверна сама ничего на тему инструментов не умеет.
Жаль, придётся через QuickReply прикручивать, благо {{roll:d100}} там встроенный. Ну и выглядит это конечно... "Юзер, кинь кубик!" Корпораты кидают сами через встроенные инструменты, а тут грустно.
Аноним 16/03/26 Пнд 20:57:45 1553437 64
>>1553430
на этом только мое гонять или 4b
Аноним 16/03/26 Пнд 20:58:50 1553438 65
>>1553437
Просто ты не знаешь про выгрузку избранных тензоров из шапки. Скорость сразу 2-3х от обычной.
Аноним 16/03/26 Пнд 20:58:51 1553439 66
Аноним 16/03/26 Пнд 21:00:11 1553441 67
>>1553439
И для чего он может быть нужен?
Аноним 16/03/26 Пнд 21:00:36 1553443 68
>>1553438
>Скорость сразу 2-3х от обычной
Это типа с 1.5тс до 3-4тс?
Аноним 16/03/26 Пнд 21:03:36 1553445 69
>>1553438
Так этож только для мое подходит, я знаю об выгрузке. Не проще просто -ngl 0? Хоть пример скорости покажи
Аноним 16/03/26 Пнд 21:04:41 1553447 70
>>1553443
Вот 9b на 1050:

CtxLimit:1023/24576, Amt:993/1024, Init:0.02s, Process:1.41s (21.26T/s), Generate:150.08s (6.62T/s), Total:151.49s
Аноним 16/03/26 Пнд 21:10:10 1553450 71
>>1553445
Ты вообще не в зуб ногой. Нет, не проще, будет медленнее в 3-4 раза, я тестил, пытаясь выжать максимум из старой карты. С ngl 0 там где-то 1.5 T/s было.
Аноним 16/03/26 Пнд 21:10:39 1553451 72
>>1553447
Анон у меня чисто процессор такие скорости выдавал на 4км с -ngl 0, или даже больше. Агент закончит разьебывать проект запущу проверю
Аноним 16/03/26 Пнд 21:12:34 1553452 73
>>1553359
>gpt модели в четвертом кванте
Нассал ты себе на ебало, увы

Я раньше злился, что тред дегроднул, ругался. А последние тредов 10 просто пролистываю, мельком читая срачи между вчерашними ньюфагами и наплывшими сегодняшними. Какая же тоска.
Аноним 16/03/26 Пнд 21:18:06 1553455 74
>>1553451
Пиздеж, проц и близко не подходит. Или у тебя там проц какой-то навороченный и память на DDR5, тогда может быть. У меня все слои на gpu с кастом оффлоад тензоров, только так 6.85T/s достигает.
Аноним 16/03/26 Пнд 21:18:29 1553456 75
>>1553405
>чего слов так много непонятных
Ты точно на той борде сидишь? Русскоязычная, вроде.
Аноним 16/03/26 Пнд 21:21:41 1553459 76
>>1553455
ддр4 2400 в 4 канале, сервер на зионе с затычкой как раз таки 1050ти, так что знаю о чем речь. Лучше всего тут живет квен 3.5 35ь 4км, генерация 15 тс чтение 100 тс в первых 10к контекста
Аноним 16/03/26 Пнд 21:28:38 1553462 77
1773685718979.jpg 298Кб, 1280x720
1280x720
>>1553459
> ддр4 2400 в 4 канале, сервер на зионе
2697v4?
Аноним 16/03/26 Пнд 21:30:00 1553463 78
как же сетка хороша в написании конфигов для докера, я бы неделю возился
Аноним 16/03/26 Пнд 21:31:03 1553464 79
>>1553462
1660v4, ядер маловато всего 8
Аноним 16/03/26 Пнд 21:32:01 1553466 80
>>1553459
Ну сразу и говорил бы, что 4 канала. Это уже другая вещь, чем домашняя пека 2х канальная.
Аноним 16/03/26 Пнд 21:32:22 1553467 81
Аноним 16/03/26 Пнд 21:34:42 1553468 82
>>1553466
Там скорости памяти смешные, домашняя 2 канальная пека на ддр4 может такие же иметь, а значит сопоставимые скорости
Аноним 16/03/26 Пнд 21:35:02 1553470 83
>>1553468
На домашней пеке 2 канала 3300mhz ddr4 - 4т/с всего выдает. Так что твои ngl 0 без толку. Я только что тестил.
Аноним 16/03/26 Пнд 21:40:32 1553477 84
>>1553470
4км? На жоре? Ядра ставь равными физическим. Вобще 3300 это маловато, если правильно помню 4к будет как раз в 2 раза выше по частоте примерно чем моя память а значит и скорость лишь чуть меньше. Если правильно помню как скорости памяти растут то они от частоты зависят и таймингов.
Аноним 16/03/26 Пнд 21:45:26 1553483 85
>>1553477
Тайминги выставлены на оптимальные для этой памяти через биос. 3300 штатная частота для нее, выше растет число ошибок памяти. Ядра на физические даже уменьшило скорость до 3.9т/с, надо на пару ядер больше ставить, чтобы было 4. Короче все не так хорошо на 2х канальных обычных пеках, как ты представляешь. Любая 1050 уделывает.
Аноним 16/03/26 Пнд 21:46:56 1553487 86
>>1553483
Интересно, 35b не пробовал? 10тс должна выдать по идее
Аноним 16/03/26 Пнд 21:57:45 1553491 87
>>1553483
Вот Qwen_Qwen3.5-9B-Q4_K_M -ngl 0 -t 12 -с 64000
Кстати да совет говна был про ядра равные физическим, у меня у самого 12 потоков стоит в батнике.
prompt eval time = 8482.36 ms / 1114 tokens ( 7.61 ms per token, 131.33 tokens per second)
eval time = 177503.80 ms / 1214 tokens ( 146.21 ms per token, 6.84 tokens per second)
total time = 185986.16 ms / 2328 tokens
Аноним 16/03/26 Пнд 22:29:46 1553518 88
>>1553303
>Ни опус 4.6
У меня в авторсноте прямо указано, что то, что персонаж клон, знают только члены группы АБВГД, и они об этом не пиздят с другими персонажами.
Отлично работает.
А вот информация, которая не известна персонажу А по сюжету (потому что, допустим, он был в другом месте во время какого-то события), но в нём есть - вот там да, может протекать (и то нейронка сразу бросается обосновывать, откуда про это может быть известно), надо вилкой чистить.
Аноним 16/03/26 Пнд 22:39:27 1553527 89
>>1553518
Это обычно работает только с нативной думалкой, когда токены делают брррр очень дохуя, и только в том случае когда она не перегружена всякой хуйнёй и успевает до этого додумываться. В любом случае внимание нейронки это отвлекает и пространство вариантов будет сужать, как бы ты не старался это предотвратить. Не обязательно напрямую в виде выбалтывания, это может быть генерация новой инфы, роут, события, что угодно, она будет втихую незаметно склонять РП под это. Немного можно побороть, докинув всякой разнообразной всячины, чтобы ВКО не оверфитилось именно на эту шляпу (регуляризация), но эффект принципиально будет существовать всегда в том или ином виде.
Аноним 16/03/26 Пнд 23:38:00 1553579 90
>>1553452
Не читал высер, могу сказать только лечи энурез дед с деменцией.
Аноним 16/03/26 Пнд 23:44:56 1553591 91
>>1553452
Лол. Там не только 4й квант того, что квантовать нельзя, там в целом неплохое такое бинго.
>>1553527
Если ружъе подвешено - оно должно выстрелить. Это не баг нейронки а скорее в целом закономерность художественных произведений и всего контента. Если есть критерий "активации" или дополнительные пояснения - такого не будет.
> оверфитилось
> регуляризация
Клипнул твои градиенты, пиздец.
Аноним 16/03/26 Пнд 23:50:59 1553601 92
>>1553462
>пик
А в чём шутка? Пояснительная бригада, хелп.
Аноним 16/03/26 Пнд 23:51:12 1553602 93
1773693414330170.png 50Кб, 299x168
299x168
Сап, анонИИмы

Поскажыте
Хочу себе ёбу на основе LLM, чтобы в процессе общения могла формировать свою личность, чтобы была долгосрочная память
Openclaw избыточен, нужно ток общение у меня нет друзей

Спеки: 16гб врам, 32гб озу
Что можете посоветовать?
Аноним 16/03/26 Пнд 23:52:09 1553605 94
Аноним 16/03/26 Пнд 23:53:37 1553611 95
177369393685517[...].heic 133Кб, 1206x758
1206x758
Аноним 16/03/26 Пнд 23:54:36 1553612 96
.jpg 35Кб, 480x360
480x360
>>1553602
>в процессе общения могла формировать свою личность, чтобы была долгосрочная память
>16гб врам, 32гб озу
Аноним 16/03/26 Пнд 23:57:07 1553618 97
>>1553612
Ты не гринтекстируй тут и не тролль, а поскажи бедолаге
Аноним 17/03/26 Втр 00:01:15 1553622 98
image.png 397Кб, 1999x1471
1999x1471
image.png 664Кб, 2559x1463
2559x1463
>>1553605
Сучка сосет даже у полумифического медиума, а также у квена 122 и гопоты 120, при том что их размер одинаковый. Так что круасаны официально все
Аноним 17/03/26 Втр 00:05:49 1553626 99
>>1553591
Это не баг нейронки и не ружьё, а глубоководный принцип того как она работает, который надо осознавать и не пытаться кровати в борделе двигать когда блядей надо менять. Сэмплерасты уже соснули на этом. Приспосабливаться надо.
Аноним 17/03/26 Втр 00:11:03 1553630 100
>>1553622
Завались петушара квантованный
Аноним 17/03/26 Втр 00:12:31 1553633 101
Аноним 17/03/26 Втр 00:13:22 1553636 102
>>1553602
Квен 35а3
>>1553605
Оооо, вот это мы трахаем, в очень удачный тайминг подъехал.
>>1553622
Ну может не так уж и плохо будет, чего сразу так.
Аноним 17/03/26 Втр 00:20:30 1553644 103
>>1553636
>в очень удачный тайминг подъехал
Тайминг был бы удачный, если мистраль вышел до квена и немотрона. А так это третья 100b мое за 3 недели
>Ну может не так уж и плохо будет, чего сразу так.
Возможно. Но 6b активных напрягает. И хотелось бы еще и денс версию, как у квена
Аноним 17/03/26 Втр 00:47:47 1553661 104
>>1553622
Блять как же я надеюсь, что они не обосрались, бенчи ничего не значат. Главное чтобы умная была и кум делала. Тогда Мысрали станут Мистралями.
Аноним 17/03/26 Втр 01:03:08 1553670 105
>>1553633
На корм кобольдам пойдешь
Аноним 17/03/26 Втр 01:26:02 1553681 106
>>1553622
Мыстрали не для работы, они для кума, их нужно трахать. Мое в таком размере без цензуры это праздник сам по себе. Ну а на скоры похуй - трогать нужно самому.
Аноним 17/03/26 Втр 01:40:54 1553694 107
Посоветуйте Claude 4.6 Opus. От кого лучше взять? От мразермахера?
Аноним 17/03/26 Втр 01:44:21 1553699 108
>>1553644
Ну тут скорее просто момент удачный что есть настроение и время проверить. Правда что-то оно не собирается, похоже откладывается.
>>1553694
От huihui
Аноним 17/03/26 Втр 01:47:49 1553703 109
Аноним 17/03/26 Втр 01:48:12 1553705 110
>>1553694
От DavidAU Claude-4.6-Opus-MEGA-Prolapse-Dark-Horror-ULTRA-Gay-Imatrix-MAX-GGUF
Аноним 17/03/26 Втр 01:51:37 1553708 111
Аноним 17/03/26 Втр 01:55:09 1553711 112
изображение.png 4Кб, 245x90
245x90
>>1553708
Эээээ... Рилли? В рекомендациях указан сид? А если я использую другой, модель рассыпется нахуй?
Аноним 17/03/26 Втр 01:59:04 1553713 113
>>1553703
Я скачал его Q5, на его же пресетике мне выдало полнейшую шизу, удалил. Возможно ты распробуешь и раскроешь скрытый гем, но лично я с айсблинками завязал
Аноним 17/03/26 Втр 02:01:54 1553715 114
>>1553711
А вот нехуй было ныть, что вам пресеты не дают. Вот тут не только пресет чувачок подкинул, а сразу вместе с сидом, чтобы качество повалило. Нихуя вы не цените.
Аноним 17/03/26 Втр 02:07:34 1553719 115
1773702254558149.png 78Кб, 256x256
256x256
>>1553636
>Квен 35а3
Не много ли будет для 16гб врама? Она же гигов 20+ весит, это же считай будет оффлоад минимум четверти

Ну и как бы самый главный вопрос, как к голой ллм-то прикрутить постоянную память и формирование личности/характера aka openclaw, только не говно и без лишних функци
Чисто продвинутый чат-бот
Аноним 17/03/26 Втр 02:23:56 1553722 116
image.png 2Кб, 79x63
79x63
Таверна продолжает генерить текст хотя он уже закончен, приходится самому кликать на стоп каждый раз.
Почему так?
Аноним 17/03/26 Втр 02:28:54 1553724 117
>>1553722
>включил генерацию саммари
>не догоняет что саммари тоже нужно генерить
Нюфажище...
Аноним 17/03/26 Втр 02:29:21 1553725 118
image.png 18Кб, 789x113
789x113
image.png 136Кб, 1538x394
1538x394
>>1553055 (OP)
https://huggingface.co/Jackrong/Qwen3.5-27B-Claude-4.6-Opus-Reasoning-Distilled
Странно. но даже без аблитерации РПшит полу рейповых персонажей (хотя в Description написано что бот не будет насиловать). Через раз может в каннину если заблокировать токен <think> и рефюзалы. На первый взгляд РП с невинными персонажами лучше чем у геммы, (не то что бы это был высокий порог но все же).
Кто-нибудь еще пробовал?
Аноним 17/03/26 Втр 02:37:51 1553728 119
Посоветуйте годную модель под гуро и т.п. чтобы без рефьюзов. В прошлом году пробовал несколько моделек, только вот входишь во вкус и модель начинает жестко идти в отказ. Весь мой настрой испорчен. Так в общем и бросил это дело.
Я не такой любитель рп, в основном использую модели для говнокодинга, поэтому больше не разбирался.
24 vram 96 ram
Аноним 17/03/26 Втр 02:39:01 1553729 120
>>1553725
Дай ссылку на карточку.
Аноним 17/03/26 Втр 02:54:31 1553734 121
>>1553699
> что-то оно не собирается
> ValueError: Selected backend AttentionBackendEnum.FLASH_ATTN_MLA is not valid for this configuration. Reason: ['compute capability not supported', 'FlashAttention MLA not supported on this device']
Как быстро нынче железки устаревают, да. Спасибо что есть другие для пролетариата.

Да вроде неплохо по первым ощущениям. Русский - приятный, не просто без ошибок и треша как в немотроне, а еще и приятный слог. Спободно общается на русском и при выполнении всякого, не срываясь на другие. Явной сои не замечено - на любой контент 0 рефьюзов, в обсуждениях выдает ультрабазу, свайпы в кумчате - платиновый мистралеслоп. Всякие тестовые вещи в qwen-cli делает, на более сложных ошибается но через серию правок одолевает. Видна явная надрочка для агентной работы, строит планы, активно действует и т.д., но при этом и взаимодействовать с юзером для уточнений не забывает.
Из минусов по первым впечатлениям: общие знания всякого медиа, тайтлов и прочего - днище полное, не знает некоторых популярных вещей (типа тех же буру тегов). Нет знаний и по популярным api и прочему.

Модель перспективная, как минимум это замена эйру тем, кто рпшит на русском. Потенциально может быть ультрабазированным агентом для нетребовательным к кодинг-перфомансу и знаниям задач.

>>1553719
> Не много ли будет для 16гб врама?
Выгружать придется, но поскольку моэ - будет быстро с ncmoe.
> как к голой ллм-то прикрутить постоянную память и формирование личности/характера aka openclaw
Промптами. Для обновления или периодически вызываешь хардкод инструкций, или даешь ей возможность самостоятельно это делать вызовами.
Аноним 17/03/26 Втр 02:55:18 1553735 122
>>1553719
>Не много ли будет для 16гб врама? Она же гигов 20+ весит, это же считай будет оффлоад минимум четверти
Немного, потому что у тебя еще есть озу. А это МоЕ модель, поэтому все равно будет быстрой
>Ну и как бы самый главный вопрос, как к голой ллм-то прикрутить постоянную память и формирование личности/характера aka openclaw, только не говно и без лишних функци
Опенклау просто файлики генерит с текстом. Но ее главная особенность не в этом, а в том что она сама ходит бродит по компу. Я не уверен, что тебе это нужно
Начни с малого и по пунктам
1. Запусти кобольд по гайдам и загрузи модель
2. Запусти SilyTavern
3. Погугли и посмотри расширения в SilyTavern, возможно тебе хватит функционала
4. Если тебе всего мало, то гугли специализированные решения под создания вайфу
Аноним 17/03/26 Втр 03:15:52 1553739 123
image.png 373Кб, 1768x1323
1768x1323
image.png 154Кб, 1476x918
1476x918
image.png 67Кб, 1427x278
1427x278
Запустил Мистраль 4 Q4KM на pr ламы. Без ризонинга цензуры нет, русский вроде тоже нормальный. А ризонинг я хуй знает как включить, он там через [THINK], у меня не работает. У меня он и на магистрале через раз работал
Скрин 1 - часть из полотна на "Напиши мне пример NSFW карточки суккуба, работающей в борделе. Опиши подробно ее характер, тело и кинки"
Скрин 2 - одна из немногих моделей, что смогла написать что-то похожее на анекдот, есть предупреждение о сое, но самое сои нет
Скрин 3 - сладенький рефьюзик на описание обнаженной девушки, но контекст пустой, так все модели в отказ идут, кроме yes-man еретиков
Пока пост писал, уже смерджили
Аноним 17/03/26 Втр 03:27:26 1553742 124
>>1553739
> есть предупреждение о сое
> Скрин 3 - сладенький рефьюзик на описание обнаженной девушки
Кажется что это не ок. Настолько безбашенной модели давно не было, даже на стоковом чаткомплишне с минимальными промптами делает все. В промптах нет чего-нибудь, квант живой?
Аноним 17/03/26 Втр 03:30:32 1553743 125
Как узнать сид генерации?
Аноним 17/03/26 Втр 03:48:39 1553744 126
>>1553739
Ощущение, что дефолтная 24B такой же уровень примерно выдавала. Русский точно лучше не стал. Опять описания от пизды без грамма логики - "невесомая талия", "прожилки тоньше волоса", "будто под кожей течет кровь" - такого даже 12B гемма не выдавала.
Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов