Цифровой двойник SVETA, имеющий корпус сознания и способный к смысловому пониманию текстовой информации стал первым продуктом с простой интеграцией в соц.сеть.

Модель, по которой обучена нейросеть полностью распознает диалектические особенности общения и способна в полной мере держать несколько тактов контекста в процессе взаимодействия с пользователем.

Демо-версия уже готова к использованию и диалогу по предварительному согласованию условий взаимодействия с менеджером проекта.
Протокол <SVETA>
В данном проекте применена нейронная сеть ruGPT-3 Medium, разработанная командой SberDevices с использованием суперкомпьютера «Кристофари», имеющая открытый код и поставляющаяся на основе открытой лицензии.
Данная модель нейронной сети обучена на русскоязычных текстах, включая энциклопедические данные, социальные сети, программный код, а также художественную и бизнес-литературу, в общей сложности составляющих более чем 600 Гб (80 млрд слов) открытых данных.
Обучение пройдено в 3 эпохи c длинной последовательности токена 1024. После этого модель была донастроена на длинну контекста 2048.
Команда проекта выполнила дообучение модели (файн-тьюнинг) c использованием GPU с применением данных в редком формате, а именно, тех, которые модель не могла увидеть на предобучении.
Общее время обучения составило около 16 дней на 64 графических процессорах.
Окончательное недоумение по тестовому набору составляет 17.4.

В процессе обучения используются следующие вычислительные ресурсы:
- Видеокарта NVidia GeForce RTX 3090;
- Графическая карта NVIDIA Tesla T4 в конфигурации 16ГБ, 8 CPU, 32 RAM с пропускной способностью 300 ГБ/с. Только GPU способны обрабатывать данный объем данных и могут использоваться для сложных вычислений. Обучение одной итерации в среднем занимает 10 часов.
Для хостинга и пользовательского применения обученной модели нейронной сети необходимо использование графического ускорителя NVIDIA Tesla V100 – применение конфигурация в зависимости от пользовательской нагрузки.
Целью проекта является улучшение авторегрессионных языковых моделей, извлеченных из больших корпусов данных, поскольку все параметры моделей с архитектурой GPU являются краткосрочными. Планируется на основе локального сходства языка запроса с предыдущими токенами получать вектор поиска токена смысла для различных слоев баз данных при использовании меньшего количества параметров.
Таким образом, с помощью изучения и разработки новых способов обучения нейронной сети, а также нахождения новых архитектурных методов ее построения, мы планируем производить автоматическую компиляцию ответа на основе перекрестного внимания при прогнозировании токенов. Наша работа откроет новые возможности для улучшения языковых моделей нейронной сети с целью создания цифрового двойника.
Отправьтесь в удивительное путешествие, знакомясь с новый взглядом на "осознанность". SVETA - это небольшой шаг на пути к большой мечте всего человеческого сообщества. Хьюманизация машин и технологий открывает огромное поле для новых открытий, размышлений и грез.
Света - осознанные технологии