Улучшение авторегрессионных языковых моделей, обусловливая фрагменты фактической модели взаимодействия между пользователем и высокоархитектурной нейросетью и данных, извлеченных из большого массива на русском языке, по принципу локального сходства с предыдущими токенами.
С базой данных токенов и улучшенным поиском Transformer (Retro) получаем сопоставимую производительность с GPT-3, несмотря на использование 25 = меньшего количества параметров.
После тонкой настройки производительность модели преобразуется в последующие наукоемкие задачи, такие как ответы на вопросы.
Retro сочетает в себе замороженный ретривер Bert, дифференцируемый кодировщик и механизм перекрестного внимания с фрагментами для прогнозирования токенов на основе на порядок большего количества данных, чем обычно потребляется во время обучения.
Обычно мы обучаем Ретро с нуля, но также можем быстро модернизировать предварительно обученные трансформаторы с помощью извлечения и при этом добиться хорошей производительности.
Наша работа открывает новые возможности для улучшения языковых моделей с помощью эксплицитной памяти в беспрецедентных масштабах.
В последние годы значительный прирост производительности в авторегрессионном языковом моделировании был достигнут за счет увеличения числа параметров в моделях-трансформерах. Это привело к огромному увеличению затрат энергии на обучение и привело к созданию ”Больших языковых моделей" (LLM) с более чем 100 миллиардами параметров. Одновременно были собраны большие наборы данных, содержащие миллиарды слов, чтобы облегчить обучение этих LLM.
Мы исследуем альтернативный путь улучшения языковых моделей: мы дополняем transformers поиском по базе данных текстовых фрагментов, включая веб-страницы, книги, новости и код. Мы называем наш метод RETRO, что означает “Поиск улучшенных трансформаторов”.
В традиционных моделях языка transformer преимущества размера модели и размера данных взаимосвязаны: пока набор данных достаточно велик, производительность языкового моделирования ограничена размером модели. Однако с RETRO модель не ограничивается данными, увиденными во время обучения – она имеет доступ ко всему набору обучающих данных через механизм извлечения. Это приводит к значительному повышению производительности по сравнению со стандартным трансформатором с тем же количеством параметров. Мы показываем, что языковое моделирование постоянно совершенствуется по мере увеличения размера поисковой базы данных, по крайней мере, до 2 триллионов токенов – 175 полных периодов непрерывного чтения.
Для каждого текстового фрагмента (приблизительно абзаца документа) выполняется поиск по ближайшему соседу, который возвращает аналогичные последовательности, найденные в обучающей базе данных, и их продолжение. Эти последовательности помогают предсказать продолжение входного текста. РЕТРО-архитектура чередует регулярное внимание к себе на уровне документа и перекрестное внимание с извлеченными соседями на более тонком уровне прохождения. Это приводит как к более точным, так и к более фактическим продолжениям. Кроме того, RETRO повышает интерпретируемость прогнозов модели и обеспечивает маршрут для прямых вмешательств через поисковую базу данных для повышения безопасности продолжения текста. В наших экспериментах на Pile, стандартном тесте языкового моделирования, РЕТРО-модель с 7,5 миллиардами параметров превосходит 175 миллиардов параметров Jurassic-1 в 10 из 16 наборов данных и превосходит 280B Gopher в 9 из 16 наборов данных.
Ниже мы показываем два образца из нашей базовой модели 7B и из нашей модели RETRO model 7.5B, которые подчеркивают, что образцы RETRO более фактические и больше соответствуют теме, чем базовая выборка.