Илон Маск заявил, что данные для обучения нейросетей закончились: что дальше
Илон Маск заявил о наступлении новой эры в развитии искусственного интеллекта. Как сообщает портал TechCrunch, глава Tesla отметил, что объем реальных данных, доступных для обучения ИИ, практически исчерпан.
«Мы исчерпали совокупный объем человеческих знаний, подходящих для обучения ИИ. Это произошло, фактически, в прошлом году», — сказал предприниматель.
Эта проблема, известная как «пик данных», обсуждается в экспертном сообществе уже некоторое время. Еще в декабре 2024 года Илья Суцкевер, один из создателей ChatGPT и бывший главный научный сотрудник OpenAI, предсказывал наступление этого момента. Выступая на конференции NeurIPS, он предупреждал, что нехватка данных для обучения заставит разработчиков пересмотреть подходы к созданию ИИ-моделей.
Маск видит решение проблемы в использовании синтетических данных – информации, генерируемой самими ИИ-моделями.
«Единственный способ дополнить реальные данные – это использовать синтетические, которые создает сам ИИ. С их помощью ИИ будет как бы оценивать себя и проходить процесс самообучения», – пояснил он.
Этот подход уже применяется крупными технологическими компаниями. Microsoft, OpenAI и Anthropic активно используют синтетические данные для обучения своих флагманских моделей. Согласно данным аналитической компании Gartner, в 2024 году доля синтетических данных, используемых в ИИ-проектах, достигла 60%.
В качестве примеров использования синтетических данных Маск привел модели Microsoft Phi-4, Google Gemma, Anthropic Claude 3.5 Sonnet. Обучение на синтетических данных имеет ряд преимуществ, включая экономическую эффективность.
Стартап Writer, например, сообщил, что разработка их модели Palmyra X 004, почти полностью основанной на синтетических данных, обошлась всего в 700 тысяч долларов, в то время как разработка аналогичной модели OpenAI оценивается в 4,6 миллиона долларов.
Однако переход на синтетические данные связан с определенными рисками. Исследования показывают, что такой подход может привести к так называемому «коллапсу модели», когда ИИ становится менее «креативным» и более предвзятым, что в конечном итоге снижает его функциональность.
Поскольку синтетические данные генерируются на основе уже существующей информации, любые предубеждения и ограничения, присутствующие в исходных данных, будут воспроизводиться и усиливаться в синтетических данных.