В данном проекте применена нейронная сеть ruGPT-3 Medium, разработанная командой SberDevices с использованием суперкомпьютера «Кристофари», имеющая открытый код и поставляющаяся на основе открытой лицензии.
Данная модель нейронной сети обучена на русскоязычных текстах, включая энциклопедические данные, социальные сети, программный код, а также художественную и бизнес-литературу, в общей сложности составляющих более чем 600 Гб (80 млрд слов) открытых данных.
Обучение пройдено в 3 эпохи c длинной последовательности токена 1024. После этого модель была донастроена на длинну контекста 2048.
Команда проекта выполнила дообучение модели (файн-тьюнинг) c использованием GPU с применением данных в редком формате, а именно, тех, которые модель не могла увидеть на предобучении.