Развитие ИИ остановится? Разработчики искусственного интеллекта столкнулись с серьезными ограничениями

​​​​​​​Многие сайты перестали предоставлять ИИ данные для обучения, поэтому прогресс в развитии может остановиться.
Развитие ИИ остановится? Разработчики искусственного интеллекта столкнулись с серьезными ограничениями
Freepik

Как сообщает издание New York Times, процесс развития искусственного интеллекта сталкивается с серьезными трудностями. И дело вовсе не в технологическом пределе современного железа (экстенсивно его можно наращивать еще долго), а в отсутствии данных для обучения.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Дело в том, что ИИ обучается так же, как и обычный человек — на чужих примерах. Но в отличии от человека, искусственному интеллекту нужны терабайты данных для эффективного обучения. Даже переварив содержимое классической районной библиотеки, он не станет хорош в написании текстов. Нужно куда больше данных. Но где их брать?

Freepik
РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Ответ очевиден: в сети. И несколько лет подряд такая модель отлично работала. За несколько десятилетий существования интернета были сгенерированы тысячи терабайт данных. Достаточно, чтобы обучить любой искусственный интеллект. И раньше правообладатели этого контента смотрели на такое обучение сквозь пальцы, потому что никто не видел для себя угрозы. Разве может искусственный интеллект тягаться с человеческим?

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

Но после релиза ChatGPT-3 и стремительного развития индустрии, все внезапно поняли, что до превосходства ИИ над человеком осталось недолго. И люди испугались. Художники начали паниковать, что ИИ заберет у них работу, сценаристы бастовать, что их скоро выкинут на мороз, а крупные звукозаписывающие компании судиться с разработчиками, потому что осознали, что ИИ научился писать музыку. И делает это хорошо.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ
Freepik

Однако суды пока ни к чему не привели, но авторы контента нашли способ ограничить развитие ИИ. У него забрали возможность обучаться на существующих данных. Так, анализ более 14 тысяч доменов, используемых в трех крупнейших базах данных для обучения ИИ, показал значительную тенденцию к ограничению доступа. Примерно 5% всех данных и 25% наиболее ценных данных были защищены протоколом Robots Exclusion Protocol, позволяющим владельцам сайтов блокировать автоматизированные системы сбора данных. Кроме того, почти 45% данных из набора данных C4 теперь ограничены условиями обслуживания веб-сайтов.

РЕКЛАМА – ПРОДОЛЖЕНИЕ НИЖЕ

И, на первый взгляд, ничего страшного не произошло. 5% — это капля в море. Но это не так: искусственному интеллекту нужны терабайты данных. И даже 5% — это огромные цифры. Так, например, Сэм Альтман заявлял, что даже всей информации, которая есть в сети, может быть недостаточно для создания сверхмощного искусственного интеллекта. А значит отсутствие даже 5% от общего числа данных — это трагедия. И это мы не берем в расчет то, что 25% наиболее ценных данных были защищены протоколом Robots Exclusion Protocol. Так что ИИ могут ждать тяжелые времена, но мы надеемся, что проблему удастся решить.