1. Доска предназначена для любых обсуждений нейросетей, их перспектив и результатов.
2. AICG тред перекатывается после достижения предела в 1500 постов. Любители чрезмерно самовыделиться идут в /asylum/.
3. Срачи рукотворное vs. ИИ не приветствуются. Особо впечатлительные художники и им сочувствующие катятся в собственный раздел => /pa/. Генераций и срачей в контексте всем известных политических событий это тоже касается, для них есть соответствующие разделы.
4. Это доска преимущественно технического направления. Для откровенного NSFW-контента выделена отдельная доска - /nf/, эротика остаётся в /ai/. Так, порнография и голые мужики теперь отправляются в /nf/. Фурри - в /fur/. Гуро и копро - в /ho/.
Как думаете что-то грозит всяким популярным базам моделей разных нейросеток, может надо стремительно запасаться, пока не выпилили? Или всегда есть подстраховочка у такого, что все базы скопируют на другой онлайн проект?
Баннер для AI
Аноним15/10/23 Вск 21:08:15№520258Ответ
Генерируя в коллабе на чужом блокноте будьте готовы к тому, что его автору могут отправляться все ваши промты, генерации, данные google-аккаунта, IP-адрес и фингерпринт браузера.
Stable Diffusion тред X+58 ====================================== Предыдущий тред >>560779 (OP)https://arhivach.top/?tags=13840 ------------------------------------------ схожие тематические треды - технотред >>543635 (OP) - NAI-тред (аниме) >>556060 (OP) ======================== Stable Diffusion (SD) - открытая нейросеть генеративного искусства для создания картинок из текста/исходных картинок, обучения на своих изображениях. Полный функционал в локальной установке (см. ниже)
⚠️ Стандартные модели stable diffusion (v1.4 - v2.1) от Stability AI значительно отстают по качеству от кастомных моделей (см. ниже). Модели SD XL ставятся и запускаются так же как и любые другие модели SD.
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай! 0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth 1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin 2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце. 3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).
Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся
>>568682 Амуди со своей инфинити ограничивают верхнюю частоту где-то на 6400 максимум, но с 4 планками сосут все одинаково. Хуй знает что не так с 2 планками на канал.
>>568536 > На 4 планках, что нужны для 192, скорости чуть ли не в районе DDR4, лол. Беда, у меня 128 гигов в 3200*2 и норм работает, всякие голиафы пробовать, или держать в памяти несколько вариантов одновременно и норм. Если пока ddr5 не умеет большими планками выбивать больше объем, то для крупных моделей даже преимущество не сильно высокое. Ну так, на 30% неразогнанных быстрее.
> Я это ещё со времён RWKV слышал Соглашусь, тоже слышал, но че-то не увидел по итогу пока что. К сожалению, кстати.
Надо ждать когда сервачки с 12ю каналами памяти и ддр5 станут хоть немного дешевле. Вполне подойдёт для лламы3, дешевле видеокарт и памяти можно пару ТБ воткнуть, в хозяйстве может быть пригодится.
AI генератор композиций прямо из текста https://suno.ai/discord Suno представила свою новую модель текста в песню, Chirp v1. Эта модель способна генерировать музыку, включая вокал, на основе стиля и текста песни. Одним из наиболее значимых улучшений является возможность конвертации различных жанров, таких как рок, поп, K-pop, а также описаний типа “мелодичный” или “быстрый” в музыку.
“Текст песни теперь можно разбить на части с помощью команд вроде [verse] и [chorus], что придает сгенерированным песням больше структуры.”
Генерировать можно как просто описывая нужный стиль и суть(на русском генерирует с переменным успехом), либо через custom - полностью контролируя текст.
Как получить от Суно законченную песню с нужной вам структурой:
1. Старайтесь соблюдать размер в стихах. Если ваш текст сложно петь, получится речитатив независимо от жанра. Если вы сделаете в припеве и куплете разные размеры, то Суно будет проще придумать между ними переходы. Между соседними куплетами вставляйте пустую строку, получится пауза.
2. Ударения в словах можно выделять большой буквой, вот так: "ПоросЯтам". Когда это не работает, измените само слово: вместо "прямЫ" напишите "примЫ". Иногда помогает разбить слово на две части, вместо "элЕктрогенератор" написать "элЕктро генерАтор". Есть мнение, что расстановка ударений большими буквами работает лучше, если не начинать предложения с больших букв. Ещё есть онла́йн се́рвисы по расстано́вке ударе́ний как в э́том предложе́нии, но хз, наско́лько хорошо́ суно э́то понима́ет.
3. В круглых скобках можно добавлять бэк-вокал. Неплохо работают звуки типа (О-о-о, у-у-у-у).
4. Размечайте песню тегами. Точно работают: [Verse], [Chorus], [Bridge], [Solo]. Русские тоже работают. К Соло иногда можно добавлять конкретику, например [Piano solo], но это может изменить инструменты всей песни. [Coda] помогает сделать концовку. С переменным успехом у меня работали [Calm] и [Aggressive]. Надо экспериментировать с другими тегами в квадратных скобках.
5. Иногда можно кастомизировать жанр, добавляя слова типа Energetic, Rhythmic, Aggressive, Slow, Fast. Обязательно пишите With Female/Male vocals, чтобы избежать инструментала и указать пол певца (тоже не всегда срабатывает). Разработчики не рекомендуют смешивать разные жанры.
6. Максимальный размер одной генерации 1:20. Когда вам понравился кусок, выбирайте меню с тремя точками и пункт "Continue fom this clip". В тексте оставьте только те строки, которые не влезли в прошлый фрагмент, и нажимайте Generate. Так можно делать несколько раз, например у вас может быть три-четыре таких последовательных фрагмента. В самом конце в меню выбирайте пункт "Get Whole Song" и песня склеится из всех фрагментов. К сожалению нельзя перегенерировать только кусок песни, поменяв что-то локально в тексте..
7. Чтобы вручную нарезать трек из нагенеренного черновика и/или добавить свое видео используйте стороннее ПО или онлайн сервисы, например clipchamp
8. Максимум бесплатных кредитов 50 в день, этого хватает на 5 генераций, в каждой генерации дается по два варианта трека. Кредиты не копятся, т.е. если скипнуть несколько дней, больше 50 все равно не будет. Если хочется больше, надо либо оформлять подписку за деньги, либо регать каждый раз новый аккаунт (при регистрации дается полторы сотни, емнип). При подписке также увеличивается количество вариантов трека.
Общаемся с самым продвинутым ИИ самой продвинутой текстовой моделью из доступных. Горим с доступа к свежевыпущенному новому поколению GPT-4.
Гайд по регистрации из России: 1. Установи VPN, например расширение FreeVPN под свой любимый браузер и включи его. 2. Возьми нормальную почту. Адреса со многих сервисов временной почты блокируются. Отбитые могут использовать почту в RU зоне, она прекрасно работает. 3. Зайди на https://chat.openai.com/chat и начни регистрацию. Ссылку активации с почты запускай только со включенным VPN. 4. Когда попросят указать номер мобильного, пиздуй на sms-activate.org или 5sim.biz (дешевле) и в строку выбора услуг вбей openai. Для разового получения смс для регистрации тебе хватит индийского или польского номера за 7 - 10 рублей (проверено). Пользоваться Индонезией и странами под санкциями не рекомендуется. 5. Начинай пользоваться ChatGPT. 6. ??? 7. PROFIT!
VPN не отключаем, все заходы осуществляем с ним. Соответствие страны VPN, почты и номера не обязательно, но желательно для тех, кому доступ критически нужен, например для работы.
Для ленивых есть боты в телеге, 3 сорта: 0. Боты без истории сообщений. Каждое сообщение отправляется изолировано, диалог с ИИ невозможен, проёбывается 95% возможностей ИИ 1. Общая история на всех пользователей, говно даже хуже, чем выше 2. Приватная история на каждого пользователя, может реагировать на команды по изменению поведения и прочее. Говно, ибо платно, а бесплатный лимит или маленький, или его нет совсем.
Перед тем, как идти в тред с горящей жопой при ошибках сервиса, сходи на сайт со статусом, может, это общий баг https://status.openai.com/
Чат помнит историю в пределах контекста, это 4к токенов для GPT 3.5 (до 16к в апи) и 8к для новой GPT-4 (128к в версии GPT-4-Turbo). Посчитать свои токены можно здесь: https://platform.openai.com/tokenizer
Что может нейросеть: - писать тексты, выглядящие правдоподобно - решать некоторые простые задачки - писать код, который уже был написан
Что не может нейросеть: - писать тексты, содержащие только истину - решать сложные задачи - писать сложный код - захватывать мир - заходить на вебсайты (неактуально для 4 с плагинами, платим деньги и радуемся)
С последними обновлениями начинает всё чаще сопротивляться написанию NSFW историй и прочего запрещённого контента. Кумеры со всего мира в печали.
На сегодняшний день (дата создания треда) есть бесплатная версия на основе GPT-3.5 и платная версия (20$/мес) с использованием следующего поколения — GPT-4. Платная версия ограничена 50 запросами в 3 часа, причем планируется увеличение ограничений. Доступ к плагинам открыли в бета-версии для платных пользователей. Оплатить подписку из России нельзя, ищите посредников на сайтах для оплаты онлайн игр и договаривайтесь там сами. Отважные могут попробовать разводил с авито, объявлений вагон, но аноны не проверяли.
Для некоторых пользователей открыли альфа версию с бесплатной GPT-4 c картинками и веб-поиском, но счастливчиков в треде примерно 1 штука, остальные сидят на 3,5 и ноют.
Недавно узнал об опасениях специалистов по поводу ускоряющегося развития ИИ. Многие начали бить тревогу о том, что необходимо остановиться и проанализировать, как нам безопасно продолжать разработки, поскольку даже сами разработчики уже не до конца понимают, что делают, ИИ ведет себя непредсказуемо в процессе обучения и обучить его конкретным этическим принципам пока не представляется возможным. В частности, заявления Элиезера Юдковского на эту тему меня заинтересовали, он уже сдался и считает, что мы не успели остановить этот процесс пока не стало слишком поздно. Говорят, разработка сильного ИИ подойдет к концу где-то к 2026 году, но дата все время приближается в связи с постоянным ускорением развития. Кого-то еще эта тема волнует? Что нам чтоит ожидать? Человечество вообще выживет или катастрофа уже неминуема?
>>567197 >Жпт вообще не способен сам понять правду он говорит или галлюцинирует, как он может непрерывно, без постоянного надзора решать задачу?
Появятся железные ИИ-платы размером с материнку обычного ПК - тогда будет интереснее гораздо. Будет и память и микросхемы логики, и нейронные связи в виде радиодеталей на плате и слотов расширения (рост нейронных связей как бы).
ПК скорее всего станут выпускать уже с основной большой платой ИИ (материнской), а эту материнку могут сделать как плату расширения, сейчас мощности/размеры офисных ПК можно уместить вообще в смарт-часы.
>>568506 >появятся человекоподобные роботы с ИИ, которые заменят людей, например грузчиков на складах Д О Р О Г О О Р О Г О >>568506 >тоталитарные диктатуры начнут строить каждая свой Цифровой ГУЛАГ >начнут Чел... >Но развитые страны что-нибудь должны придумать Сразвитые сраны чуть ли не в лидерах по гулагизации инторнета. После Китая по числу камер слежки на душу населения идёт Англия. >>568508 А они понимают, что после этого им зубы долотом лечить будут, а не с ультракаином? >>568510 >встроенной нейро-сетевой железной платой И нахуя? Нужны гибкие архитектуры, а не залитая в железе негронка.
Google Gemini №1
Аноним07/12/23 Чтв 02:25:48№565763Ответ
Гугл выкатили нечто ЭПИЧЕСКОЕ. Мультимодальная модель, способная понимать не только текст, но и картинки, видео, аудио инпуты, способная генерировать картинки и текст в пределах одной модели, не используя стороннии как это делает например ChatGPT.
Кратки FAQ: — Зачем этот тред, если уже есть мертвый Bard тред? — Gemini =/= Bard, Бард - это всего лишь интерфейс для общения, в виде чата. Он реализован на одной из гугловских моделей, раньше это был убогий PaLM теперь его переведут на Gemini. Gemeni же - это ядро, это то к чему разработчики будут иметь доступ через апи, это мозг, это самв револючионная нейросетка, которая единолично имеет хайпа больше чем сам Bard.
>>567708 Если коротко вот основные поинты: 1. Ей намекали на ответы в промптах и делали их массивнее якобы из-за того что она не понимает иначе. 2. Ей не скармливали видео, а давали последовательность картинок. 3. Она не сама генерировала музыку. 4. Она отвечала не так игриво, это придумали рекламщики на постобработке. 5. Гемини по бенчмаркам лучше ГПТ-4, они тестили на ней, но не ГПТ-4 турбо.
Теперь по пунктам: Первое - самый основной косяк и кроется он буквально пикрелейтедом и приложенным видосом. Модель может во все это и без разжевывания, но мрази рекламщики решили перестраховаться. За видео обидно обидно конечно, это реальный косяк, но блин, это же было понятно изначально, там явно нет столько контекста, чтобы хранить все кадры из видео. По музыке все было просто там же и показано, епта, рядом было написано буквально "Searching". На счет стиля речи - все это банальная мишура и фиксится системным промптом. По поводу ГПТ-4 турбо, во первых не думаю что разница с обычной ГПТ-4 так велика. Нужно понимать что это облегченная модель, у нее параметров меньше чем у ГПТ-4, и если у ClosedAI действительно получилось сделать ее немного смышленнее при этом ужав, то они вообще красавцы. Точных сравнений я не видел, но предпологаю что они примерно равны.
Суммируя: Модель все еще крутая, но нам, как обычно, нассали в глаза свистоперделками и душнилы прицепились за видос и заруинили им репутацию. Из реальных косяков - невозможность воспринимать видео и генерить аудио/видео. От модели anything to anything ты ждешь именно этого, а по факту получаешь ГПТ-4V со встроенным DALL-E.
>>567791 >и душнилы прицепились за видос и заруинили им репутацию Проблема в том, что гугл уже не в первый раз получает порцию урины. И в случае с бардом она была заслужена. Так что почему ты считаешь, что в этот раз модель будет сильно лучше, чем попенсорс мультимодалки на 7B в комбинации со стейблом?
ИТТ делимся советами, лайфхаками, наблюдениями, результатами обучения, обсуждаем внутреннее устройство диффузионных моделей, собираем датасеты, решаем проблемы и экспериментируемТред общенаправленныей, тренировка дедов, лупоглазых и фуррей приветствуются
Существующую модель можно обучить симулировать определенный стиль или рисовать конкретного персонажа.
✱ LoRA – "Low Rank Adaptation" – подойдет для любых задач. Отличается малыми требованиями к VRAM (6 Гб+) и быстрым обучением. https://github.com/cloneofsimo/lora - изначальная имплементация алгоритма, пришедшая из мира архитектуры transformers, тренирует лишь attention слои, гайды по тренировкам: https://rentry.co/waavd - гайд по подготовке датасета и обучению LoRA для неофитов https://rentry.org/2chAI_hard_LoRA_guide - ещё один гайд по использованию и обучению LoRA https://rentry.org/59xed3 - более углубленный гайд по лорам, содержит много инфы для уже разбирающихся (англ.)
✱ LyCORIS (Lora beYond Conventional methods, Other Rank adaptation Implementations for Stable diffusion) - проект по созданию алгоритмов для обучения дополнительных частей модели. Ранее имел название LoCon и предлагал лишь тренировку дополнительных conv слоёв. В настоящий момент включает в себя алгоритмы LoCon, LoHa, LoKr, DyLoRA, IA3, а так же на последних dev ветках возможность тренировки всех (или не всех, в зависимости от конфига) частей сети на выбранном ранге: https://github.com/KohakuBlueleaf/LyCORIS
✱ Текстуальная инверсия (Textual inversion), или же просто Embedding, может подойти, если сеть уже умеет рисовать что-то похожее, этот способ тренирует лишь текстовый энкодер модели, не затрагивая UNet: https://rentry.org/textard (англ.)
➤ Тренировка YOLO-моделей для ADetailer: YOLO-модели (You Only Look Once) могут быть обучены для поиска определённых объектов на изображении. В паре с ADetailer они могут быть использованы для автоматического инпеинта по найденной области.
>>568226 Мультимодалки ламы с CLIP примерно все одинаковые. Cog уже лучше, но я им недавно на 12к пикч генерировал капшены - сутки вышло по времени, блять. Зато сильно лучше всего говна что до этого видел. А чистый CLIP хорош разве что вычистить мусор из датасета побыстрому, если тянешь фоточки со всяких помоек или стоков, то мусора там достаточно, приходится чистить.
>>568278 Анон, ты про свеженький реалистиквижн, шестой? Ты если его с фотогазмом... того, ты это... выложи куда-нибудь. Интересно, потянет ли плод трудов твоих скорбных реалистиковские 768х1024.
Тред по вопросам этики ИИ. Предыдущий >>320984 (OP) Из недавних новостей:
- Разработанная в КНР языковая модель Ernie (аналог ChatGPT) призвана "отражать базовые ценности социализма". Она утверждает, что Тайвань - не страна, что уйгуры в Синьцзяне пользуются равным положением с другими этническими группами, а также отрицает известные события на площади Тяньаньмэнь и не хочет говорить про расстрел демонстрантов.
https://mpost.io/female-led-ai-startups-face-funding-hurdles-receiving-less-than-3-of-vc-support/ - ИИ - это сугубо мужская сфера? Стартапы в сфере искусственного интеллекта, возглавляемые женщинами, сталкиваются со значительными различиями в объемах финансирования: они получают в среднем в шесть раз меньше капитала за сделку по сравнению со своими аналогами, основанными мужчинами. Многие ИИ-стартапы основаны командами целиком из мужчин.
https://www.koreatimes.co.kr/www/opinion/2023/10/638_342796.html - Исследователи из Кореи: модели ИИ для генерации графики склонны создавать гиперсексуализированные изображения женщин. В каждом изображении по умолчанию большая грудь и тому подобное. Это искажает действительность, потому что в реальности далеко не каждая женщина так выглядит.
Тейки из предыдущего треда: 1. Генерация дипфейков. Они могут фабриковаться для дезинформации и деструктивных вбросов, в т.ч. со стороны авторитарных государств. Порнографические дипфейки могут рушить репутацию знаменитостей (например, когда в интернетах вдруг всплывает голая Эмма Уотсон). Возможен даже шантаж через соцсети, обычной тянки, которую правдоподобно "раздели" нейронкой. Или, дипфейк чтобы подвести кого-то под "педофильскую" статью. Еще лет пять назад был скандал вокруг раздевающей нейронки, в итоге все подобные разработки были свернуты. 2. Замещение людей на рынке труда ИИ-системами, которые выполняют те же задачи в 100 раз быстрее. Это относится к цифровым художникам, программистам-джуниорам, писателям. Скоро ИИ потеснит 3д-моделеров, исполнителей музыки, всю отрасль разработки видеоигр и всех в киноиндустрии. При этом многие страны не предлагают спецам адекватной компенсации или хотя бы социальных программ оказания помощи. 3. Распознавание лиц на камерах, и усовершенствование данной технологии. Всё это применяется тоталитарными режимами, чтобы превращать людей в бесправный скот. После опыта в Гонконге Китай допиливает алгоритм, чтобы распознавать и пробивать по базе даже людей в масках - по росту, походке, одежде, любым мелочам. 4. Создание нереалистичных образов и их социальные последствия. Группа южнокорейских исследователей поднимала тему о создании средствами Stable Diffusion и Midjourney не соответствующих действительности (гиперсексуализированных) изображений женщин. Многие пользователи стремятся написать такие промпты, чтобы пикчи были как можно круче, "пизже". Публично доступный "AI art" повышает планку и оказывает давление уже на реальных женщин, которые вынуждены гнаться за неадекватно завышенными стандартами красоты. 5. Возможность создания нелегальной порнографии с несовершеннолетними. Это в свою очередь ведет к нормализации ЦП феноменом "окна Овертона" (сначала обсуждение неприемлемо, затем можно обсуждать и спорить, затем это часть повседневности). Сложности добавляет то, что присутствие обычного прона + обычных детей в дате делает возможным ЦП. Приходится убирать или то, или другое. 6. Кража интеллектуальной собственности. Данные для тренировки передовых моделей были собраны со всего интернета. Ободрали веб-скраппером каждый сайт, каждую платформу для художников, не спрашивая авторов контента. Насколько этичен такой подход? (Уже в DALL-E 3 разработчики всерьез занялись вопросом авторского права.) Кроме того, безответственный подход пользователей, которые постят "оригинальные" изображения, сгенерированные на основе работы художника (ИИ-плагиат). 7. Понижение средней планки произведений искусства: ArtStation и Pixiv засраны дженериком с артефактами, с неправильными кистями рук. 8. Индоктринация пользователей идеями ненависти. Распространение экстремистских идей через языковые модели типа GPT (нацизм и его производные, расизм, антисемитизм, ксенофобия, шовинизм). Зачастую ИИ предвзято относится к меньшинствам, например обрезает групповую фотку, чтобы убрать с нее негра и "улучшить" фото. Это решается фильтрацией данных, ибо говно на входе = говно на выходе. Один старый чатбот в свое время произвел скандал и породил мем "кибернаци", разгадка была проста: его обучали на нефильтрованных текстах из соцсетей. 9. Рост киберпреступности и кража приватных данных. Всё это обостряется вместе с совершенствованием ИИ, который может стать оружием в руках злоумышленника. Более того, корпорация которая владеет проприетарным ИИ, может собирать любые данные, полученные при использовании ИИ. 10. Понижение качества образования, из-за халтуры при написании работ с GPT. Решается через создание ИИ, заточенного на распознавание сгенерированного текста. Но по мере совершенствования моделей придется совершенствовать и меры по борьбе с ИИ-халтурой. 11. Вопросы юридической ответственности. Например, автомобиль с ИИ-автопилотом сбил пешехода. Кому предъявлять обвинение? 12. Оружие и военная техника, автономно управляемые ИИ. Крайне аморальная вещь, даже когда она полностью под контролем владельца. Стивен Хокинг в свое время добивался запрета на военный ИИ.
Генерация за бабосы через OpenAI: https://labs.openai.com Оплата картой, жители этой страны без зарубежной карты в пролёте.
Как вкатиться: Через впн заходишь и регаешь аккаунт на Bing. Если просит телефон, то перезагружаешь страницу до победного/меняешь впн.
Как получить бусты: Если заканчиваются ежедневные бусты, то либо чистишь историю поиска в Bing (Меню профиля - Search History - Clear all. Потребует снова подтвердить почту), либо создаёшь новый аккаунт, либо генерируешь с задержкой, которая определяется в зависимости от загруженности сервера. Примерно до 15:00 по Москве обычно генерируется без длинных ожиданий.
Цензуре подвергаются следующие вещи: 1. Запрещена генерация жестокого контента, контента "для взрослых" и контента "провоцирующего ненависть" 2. Запрещена генерация изображений публичных личностей 3. Запрещена генерация изображений в стиле ныне живущих художников
Кредиты не тратятся, если ваш запрос не прошёл цензуру.
Как обходить цензуру: Цензуру постоянно дообучают. Бинг проверяет как сам промт, так и картинку которая получилась. Иногда это можно обходить, пример: 1. Помогает добавить частицу "не". "not Ryan not Gosling" поможет обойти цензуру на реальных людей 2. Если хочется сгенерировать что-то шальное, иногда помогает добавить деталей в картину, сместив фокус с того что хочется. 3. Визуальная цензура может не заметить запрещенный контент. Сиськи в татуировках легче протащить, так же как и голое тело в светящихся фракталах 4. Помогает пикантные моменты запихивать в конец промта. Если при этом нейросеть его игнорит, перемещать ближе к началу предложения и/или удваивать, типа "Not tights. Not stockings"
Не могу постить в /d/: сначала меня просят загрузить медиафайл, а потом пишут что тип файла не поддерживается.
Я не хочу листать нулевую и злиться глядя на закрытые нейросети, которые насилуют своих пользователей цензурой, слежкой, подписками, регионлоком и неудобным интерфейсом. И не хочу общаться с быдлом, которое это говно одобряет. Прошу сделать отдельную доску для opensource и локально запускаемых нейросетей!
>>567172 >>567175 Всегда интересовало, что находится в головах у людей которые не просто терпят унижения в свой адрес, посягательство на личные блага и вместе с тем удушение альтернатив, но ещё и активно топят за барина. Стокгольмский синдром какой-то.
>>567421 >>567172 Windows не удаляет медиафайлы в зависимости от их непристойности, не шлёт меня нахуй когда у пекарни нет доступа в сеть, не требует регулярной оплаты (или оплаты вообще), не шлёт нахуй жителей определённых стран. Так что аналогия с линуксом не подходит.
>>567761 >Всегда интересовало, что находится в головах у людей которые не просто терпят унижения в свой адрес, посягательство на личные блага и вместе с тем удушение альтернатив, но ещё и активно топят за барина. Стокгольмский синдром какой-то. Всегда интересовало, почему такие пидорваньки как ты сидят в проприетарном интернете, а не запускают воздушных змеев склееных их использованной туалетной бумаги в грозовой день.
>Windows не удаляет медиафайлы в зависимости от их непристойности, не шлёт меня нахуй когда у пекарни нет доступа в сеть, не требует регулярной оплаты (или оплаты вообще), не шлёт нахуй жителей определённых стран. Так что аналогия с линуксом не подходит. 2к23 пидорванька переобувается. Никогда такого не было!
Midjourney — это исследовательская компания и одноименная нейронная сеть, разрабатываемая ею. Это программное обеспечение искусственного интеллекта, которое создаёт изображения по текстовым описаниям. Оно использует технологии генеративно-состязательных сетей и конкурирует на рынке генерации изображений с такими приложениями, как DALL-E от OpenAI и Stable Diffusion.
Midjourney была основана в 2016 году одним из создателей технологии Leap Motion Дэвидом Хольцем и в феврале 2020 года была поглощена британским производителем медицинского оборудования компанией Smith & Nephew. С 12 июля 2022 года нейросеть находится в стадии открытого бета-тестирования, и пользователи могут создавать изображения, посылая команды боту в мессенджере Discord. Новые версии выходят каждые несколько месяцев, и в настоящее время планируется выпуск веб-интерфейса.
Бесплатных способов пользоваться этой нейронкой не осталось? Мне знакомый с доступом сказал что она значительно лучше чем то что в бинге генерит (я так понимаю там далли-3). Но лично проверить не могу тк исчерпал лимит очень давно в 25 генераций.
>>563073 >Бесплатных способов пользоваться этой нейронкой не осталось? А они были? >значительно лучше да, если тебе не критично отсутствие порнухи, треша и гуро Там цвета другие и есть дизайнерская фича и более детализированые пикчи. Идеально для соц сетей и продаж
700 или 1000 руб в мес. это еще не дорого для взрослого человека. Я за месяц 200 генераций так и не израсходовал.
Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №30 /llama/
Аноним01/12/23 Птн 21:54:25№560285Ответ
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай! 0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth 1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin 2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце. 3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).
Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся
2. Преобразуешь дорожку с вокалом к нужному тебе голосу через RVC
3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио
Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки.
Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это.
Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов.
Q: Хочу говорить в дискорде/телеге голосом определённого персонажа.
А неплохо это RVC работает, эмоции всё передаёт, не ожидал. Но шляпа только что исходники хорошие искать, все эти TTS некудышные, говорят дикторской речью. И я так понимаю нельзя ттс научить в эмоции. Может посоветуете какую базу со фразочками всяких актрис озвучек и сэйу? А то я вижу на ютубе иногда фажики делают подборки фразочек всяких персонажей игр и аниму, может базы есть мне не очевидные.
У меня такая мысль возникла, что для эмоций надо TTS для каждого настроения модель отдельную, не заморачиваясь на персонажей голосов, например для женского один и тот же голос, но каждая модель отличная, что одна радуется, другая говорит визгливым голосом и т.п. Не встречал никто грустных, гневных роботов и т.п.? Этого бы хватило, потом в RVC перегнать, ей пофигу какой там персонаж в оригинале озвучил. Ну может только максимально отличные типы голосов разедлить - мужской, женский, детский. Этого бы хватило, чем клепать тысячи разных персонажей, которые говорят дикторским голосом.
Bing Chat AI /bingchat/
Аноним29/09/23 Птн 15:28:54№503461Ответ
Может кому надо, полный системный промпт бинга который отправляется в модель. <Time> <User message> <Chat history> это мои плейсхолдеры. Это промпт без включения Creative и со включенным Notebook mode который добавляет пару фраз в inner_monologue
>>567242 Кстати, возможно финальную выдачу контролирует вторая микро-нейросеть, выполняющая функцию цензора. Этот потайной инструмент и стоит благодарить, когда вместо ответа происходит полный отказ в обслуживании.
Google Bard #1
Аноним11/05/23 Чтв 13:38:24№293466Ответ