Илон Маск заявил, что данные для обучения нейросетей закончились: что дальше

Реальных данных для обучения ИИ больше нет. Будущее – за синтетической информацией.
Илон Маск заявил, что данные для обучения нейросетей закончились: что дальше
Unsplash

Илон Маск заявил о наступлении новой эры в развитии искусственного интеллекта. Как сообщает портал TechCrunch, глава Tesla отметил, что объем реальных данных, доступных для обучения ИИ, практически исчерпан.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

«Мы исчерпали совокупный объем человеческих знаний, подходящих для обучения ИИ. Это произошло, фактически, в прошлом году», — сказал предприниматель.

Unsplash
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Эта проблема, известная как «пик данных», обсуждается в экспертном сообществе уже некоторое время. Еще в декабре 2024 года Илья Суцкевер, один из создателей ChatGPT и бывший главный научный сотрудник OpenAI, предсказывал наступление этого момента. Выступая на конференции NeurIPS, он предупреждал, что нехватка данных для обучения заставит разработчиков пересмотреть подходы к созданию ИИ-моделей.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Маск видит решение проблемы в использовании синтетических данных – информации, генерируемой самими ИИ-моделями.

«Единственный способ дополнить реальные данные – это использовать синтетические, которые создает сам ИИ. С их помощью ИИ будет как бы оценивать себя и проходить процесс самообучения», – пояснил он.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Этот подход уже применяется крупными технологическими компаниями. Microsoft, OpenAI и Anthropic активно используют синтетические данные для обучения своих флагманских моделей. Согласно данным аналитической компании Gartner, в 2024 году доля синтетических данных, используемых в ИИ-проектах, достигла 60%.

В качестве примеров использования синтетических данных Маск привел модели Microsoft Phi-4, Google Gemma, Anthropic Claude 3.5 Sonnet. Обучение на синтетических данных имеет ряд преимуществ, включая экономическую эффективность.

Стартап Writer, например, сообщил, что разработка их модели Palmyra X 004, почти полностью основанной на синтетических данных, обошлась всего в 700 тысяч долларов, в то время как разработка аналогичной модели OpenAI оценивается в 4,6 миллиона долларов.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Unsplash

Однако переход на синтетические данные связан с определенными рисками. Исследования показывают, что такой подход может привести к так называемому «коллапсу модели», когда ИИ становится менее «креативным» и более предвзятым, что в конечном итоге снижает его функциональность.

Поскольку синтетические данные генерируются на основе уже существующей информации, любые предубеждения и ограничения, присутствующие в исходных данных, будут воспроизводиться и усиливаться в синтетических данных.