Рейтинговые книги
Читем онлайн Охота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков

Шрифт:

-
+

Интервал:

-
+

Закладка:

Сделать
1 ... 282 283 284 285 286 287 288 289 290 ... 482
работы продемонстрировали, что обученная ими модель, получившая название Chinchilla, несмотря на сравнительно скромное число параметров (70 млрд) на большом наборе тестов, уверенно превосходит своих более крупных «собратьев»[2632], [2633].

Результаты, полученные исследователями DeepMind при работе над моделью Chinchilla, существенно повлияли на следующее поколение больших языковых моделей. В первую очередь к ним обратились исследователи из Google Research (обе команды на тот момент входили в один и тот же холдинг — Alphabet, — а сегодня и вовсе объединены в единую структуру в рамках мер, предпринятых Alphabet с целью завоевать лидерство в конкуренции с союзом OpenAI и Microsoft[2634]). Технические отчёты создателей моделей PaLM[2635] и PaLM 2[2636] из Google Research пестрят отсылками к работам коллег. Хотя «генетически» модели семейства PaLM куда ближе к T5 и mT5 (например, они унаследовали от семейства T5 способы токенизации текста), а Chinchilla можно с некоторой натяжкой считать наследницей модели Gopher, выводы, сделанные создателями Chinchilla, оказались достаточно универсальными, чтобы подтвердиться в экспериментах с совсем другой моделью.

Другое потенциальное направление улучшения нейронных языковых моделей связано с применением более совершенных алгоритмов оптимизации. Например, новые алгоритмы оптимизации Lion и Sophia обещают в некоторых случаях ускорить обучение гигантских моделей в несколько раз[2637], [2638]. Результаты более совершенных, чем AdamW, оптимизаторов не всегда хорошо воспроизводятся, но вселяют определённые надежды.

Ещё одна перспективная область исследований — применение на этапе предобучения языковой модели не только задачи предсказания следующего токена, но и других задач. В настоящее время многие команды заняты поиском оптимального набора задач для предобучения языковых моделей. Для архитектур типа «кодировщик — декодер», подобных модели T5, здесь можно отметить такие модели, как UL2[2639] от исследователей из Google и FRED-T5, созданную в нашей команде группой под руководством Дмитрия Змитровича.

Подход, лежащий в основе этих моделей, был предложен авторами UL2 и получил название «смесь денойзеров» [mixture of denoisers], denoiser дословно переводится на русский язык как «удалитель шума». «Шум» в данном случае заключается в случайном повреждении части токенов у используемой для обучения последовательности с тем, чтобы модель затем научилась восстанавливать повреждённые участки, основываясь на неповреждённой части последовательности. Под отдельным денойзером в составе смеси понимают конкретный способ подготовки примера для обучения. Например, в модели UL2 два вида денойзеров (R и X) построены на задаче span corruption (т. е. «повреждение спана», под спаном понимают участок последовательности, состоящий из одного или нескольких следующих подряд токенов) с различными параметрами выбора спанов. В этой задаче берут исходную последовательность, удаляют случайные спаны (R — мало и редко, X — много или часто), подменяя их спецтокенами, и учат модель восстанавливать пропущенные спаны. Третий вид денойзера (S) основан на задаче продолжения последовательности, как в случае обычной языковой модели.

Задача восстановления повреждённого спана похожа на задачу MLM (masked language modeling, маскированное языковое моделирование), которую нередко используют для предобучения энкодерных трансформерных моделей (BERT, RoBERTa и др.). Но восстановление спана несколько сложнее, так как модель должна определить, какой длины спан ей нужно сгенерировать, при этом нередко длина спана может составлять 64 токена и более.

В процессе обучения удалению шума модель выучивает взаимосвязи между различными частями текста, что затем позволяет ей решать множество задач, связанных с пониманием языка. Основное архитектурное различие UL2 и FRED-T5 заключается в наборах денойзеров[2640].

Похожий подход можно использовать и при обучении чисто декодерной языковой модели, подобной моделям из семейства GPT. Этот подход, впервые предложенный исследователями из OpenAI, получил название «заполнение в середине» [fill in the middle][2641]. Поскольку декодерные модели при предсказании следующего токена опираются только на предшествующие токены последовательности (префикс), нужно переупорядочить часть последовательностей в обучающей выборке следующим нехитрым образом. Разделим последовательность на три спана — префикс, середина и суффикс, а затем поменяем середину и суффикс местами, разделив все три спана специальным служебным токеном. Теперь при предсказании токенов середины модель будет видеть как префикс, так и суффикс. Модель, обученная таким образом, не только становится более универсальной (действительно, на практике нередко требуется генерировать последовательности, ориентируясь не только на левый, но и на правый контекст, — если вы хотите дописать новый фрагмент в середину уже существующего текста), но и выучивает представления, которые гораздо лучше отражают синтаксис и семантику естественного языка.

Ещё один способ совершенствования генеративных языковых моделей — применение обучения с подкреплением. Ответы модели можно отдавать на оценку людям-экспертам, чтобы затем обучить модель давать ответы, максимизирующие человеческие оценки. В наши дни этот подход принято называть «обучение с подкреплением с обратной связью от людей» (Reinforcement Learning with Human Feedback, RLHF).

Сама по себе идея соединения задачи генерации текста с методом обучения с подкреплением не нова — такие попытки предпринимались ещё в дотрансформерную эпоху. Однако существенного прогресса достичь долгое время не удавалось. Дело в том, что оценки, даваемые людьми, являются не только весьма дорогостоящими, как и любая другая ручная разметка, но и на практике довольно «шумными» — действительно, порой не так просто понять, какой из нескольких ответов модели лучше, а какой хуже, если речь не идёт о совсем уж очевидных ситуациях. Здесь в дело вмешивается множество случайных факторов и индивидуальных предпочтений. Значительного прогресса удалось добиться только в 2022 г., когда свет увидела работа исследователей из OpenAI под названием «Обучение языковых моделей следованию инструкциям при помощи обратной связи от людей» [Training language models to follow instructions with human feedback][2642]. В этой работе была представлена модель, получившая название InstructGPT.

Первым делом авторы этой работы трансформируют диалоговую задачу таким образом, что из задачи поддержания диалога в духе досужей болтовни она превращается в задачу выполнения различных интеллектуальных задач в соответствии с инструкциями на естественном языке. Если раньше целями диалоговых моделей были поддержание непринуждённой беседы (зачастую с прицелом на голосовые взаимодействия) и ответы на различные фактологические вопросы (например: «Почему небо голубое?», «Где расположен Канин Нос?»), то теперь создатели модели замахнулись на задачи, требующие от модели недюжинных интеллектуальных и творческих способностей (например: «Придумай сказку о менеджере и свинье», «Напиши эссе на тему «Кому на Руси жить хорошо?», «Представь себе, что ты гопник-матерщинник, и объясни по-пацански теорию относительности Эйнштейна»). Фактически реплика человека представляет собой описание условия любой интеллектуальной задачи, и роль модели теперь не в том, чтобы быть простым собеседником, а в том, чтобы стать прилежным исполнителем, интеллектуальным мастером на все руки. И ничего, если ответ займёт целую страницу текста, зато

1 ... 282 283 284 285 286 287 288 289 290 ... 482
На этой странице вы можете бесплатно читать книгу Охота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков бесплатно.
Похожие на Охота на электроовец. Большая книга искусственного интеллекта - Сергей Сергеевич Марков книги

Оставить комментарий