Microsoft сделала цифрового ребенка: ее новая нейросеть учится на детских книжках
Почему полезно читать детям сказки
Как-то раз после рабочего дня, проведенного за размышлениями о загадках машинного обучения, эксперт Microsoft Research Ронан Элдан (на фото выше) читал своей 4-летней дочери сказки на ночь и между делом недоумевал: «Откуда она знает это слово? И откуда знает, как соединять слова друг с другом?». Прокручивая это в голове, он внезапно задумался о том, чему можно научить ИИ, используя только слова, понятные дошколенку.
Так детская сказка привела к созданию нового семейства компактных языковых моделей нового класса, не нуждающихся в огромных вычислительных мощностях, а значит доступных более широкому кругу пользователей.
Что такое Phi-3 и чем она хороша
Только что Microsoft представила новую версию первой в семействе малых языковых моделей, Phi-3 Mini. Она оперирует 3,8 миллиарда параметров и обучается на наборе данных, который не так велик, как у больших языковых моделей вроде GPT-4. Microsoft также планирует выпустить Phi-3 Small (7 млрд параметров) и Phi-3 Medium (14 млрд параметров). Количество параметров означает, сколько сложных инструкций способна воспринимать модель.
Корпоративный вице-президент Microsoft Azure AI Platform Эрик Бойд рассказал порталу The Verge, что Phi-3 Mini по своим возможностям не уступает таким большим языковым моделям (LLM), как GPT-3.5, «только в меньшем форм-факторе». Небольшие языковые модели дешевле более крупных решений и больше подходят для смартфонов и ноутбуков.
Как устроен процесс обучения Phi-3
По словам Эрика Бойда, разработчики составили для нейросети «учебный план» от простого к сложному — буквально как для ребенка. Дети начинают черпать информацию из сказок на ночь и детских книжек, в которых сложные вещи и обширные темы объясняют простыми словами. В Microsoft составили список из более чем 3 тысяч слов и поручили полноценной LLM-нейросети сделать из них «детскую литературу» для Phi. Таким образом, LLM выступила в роли учительницы для юного искусственного интеллекта.
Phi-3 объединяет и развивает то, чему научились предыдущие итерации ИИ от Microsoft. Если Phi-1 сосредоточилась на кодинге, а Phi-2 начала учиться рассуждать, то у Phi-3 хорошо получается и то, и другое. При этом она не может превзойти интеллектом ту же GPT-4 или другие LLM — разница между ответами, которые можно получить от малой модели и той, что обучена на всем интернете, слишком велика.
Какие перспективы у малых форм ИИ
Свои небольшие модели ИИ есть и у конкурентов Microsoft. В основном они нацелены на сравнительно простые задачи вроде обобщения документов или помощи программистам в написании кода. Gemma 2B и 7B от Google хороши для простых чат-ботов и работы с языками. Claude 3 Haiku от Anthropic может читать и быстро обобщать научные статьи с графиками. Недавно выпущенная Llama 3 8B от Meta может использоваться для чат-ботов и помогает кодить.
Но в Microsoft уверены, что небольшие модели вроде Phi-3, лучше подходят для пользовательских приложений, поскольку внутренние наборы данных, которыми оперируют компании, довольно часто невелики. Чтобы их обрабатывать, достаточно небольших моделей. И поскольку такие модели потребляют меньше ресурсов, использовать их выгоднее.