Образование для образованных. 2021 - страница 37
Предобучение даёт нейронной сети какие-то знания о языке и мире, но языковая модель сама по себе не может при этом решать никаких прикладных задач. Про задачи и конкретные предметные области эта сеть ничего не знает. Это сеть-школьник, сеть-бакалавр!
Так что потом идёт fine-tune, прикладная подстройка: берётся эта безумно дорогая предобученная языковая модель и очень быстро и дёшево на небольшом прикладном материале (скажем, несколько книг) доучивается решать одну или даже десять разных прикладных задач в какой-то узкой предметной области. Например, можно быстро доучить такую языковую модель сдавать экзамен MIT по курсу машинного обучения с результатами лучше, чем у студентов80.
Это оказывается экономически эффективно: дорогое и долгое предобучение делается один раз, результат запоминается. Потом подстройка делается легко и быстро каждый раз. За пару последних лет такой подход предобучения+настройки стал мейнстримом в AI81. И чем больше и лучше предобученная языковая модель, тем дешевле и быстрее для неё делать подстройку для какого-то класса задач. Большие деньги на предобучение языковой модели нужно затратить один раз, а на прикладную подстройку много денег не нужно, так что это можно делать много раз для самых разных предметных областей82.
Более того, качественное предобучение часто оказывается достаточным, и подстройки не требуется вообще! Новая парадигма машинного интеллекта связана не с «предобучи, потом подстрой», а с «предобучи, получи приглашение/prompt, предскажи»83 (prompt engineering, иногда называют это Software 3.0).
Знаний у предобученного человека уже вполне достаточно, чтобы предсказать хоть что-то и без подстройки под предметную область, если он сможет какие-то части ситуации воспринять как приглашение к рассуждениям. Но нужно уметь выхватывать из жизни правильные «приглашения», этому тоже нужно учиться. В том числе нужно учиться, конечно, и давать правильные «приглашения» другим людям, чтобы получить от них ответы.
Этот способ взаимодействия с миром очень похож на происходящее в детской песенке:
Обратите внимание, что для правильного ответа нужно уже много чего знать. Идея предобучения в том, чтобы (в отличие от детской песенки, где требуется просто заранее знать возможные ответы) иметь компактное описание самых разных ситуаций, чтобы делать приемлемые предсказания ответов даже в отсутствие знаний о конкретных предметах какой-то предметной области. Рассуждения делаются с абстрактными описаниями, которые оказываются приложимы к самым разным конкретным предметам – и это срабатывает! Умный человек оказывается не столько много знающим, сколько знающим что-то универсальное, а потом умеющим это универсальное знание применять в самых разных ситуациях.
В детском саде, школе и бакалавриате занимаются предобучением нейронной сети мозга человека, хотя для этого и используют другие методы, нежели при предобучении компьютерных нейронных сетей. Это предобучение формирует у студентов самые общие фундаментальные знания о мире и не предполагает какой-то специализации и профессиональных умений для каких-то отдельных задач. Нет, «общий интеллект», умение учиться, какой-то кругозор – и всё. Для большинства задач, которые нужно решать в рабочих проектах, нужно будет доучиваться специально: заканчивать магистратуру (а если даже речь идёт не о высшем образовании, то всё равно придётся пройти курсы специализации в колледже).