Развитие ИИ остановится? Разработчики искусственного интеллекта столкнулись с серьезными ограничениями
Как сообщает издание New York Times, процесс развития искусственного интеллекта сталкивается с серьезными трудностями. И дело вовсе не в технологическом пределе современного железа (экстенсивно его можно наращивать еще долго), а в отсутствии данных для обучения.
Дело в том, что ИИ обучается так же, как и обычный человек — на чужих примерах. Но в отличии от человека, искусственному интеллекту нужны терабайты данных для эффективного обучения. Даже переварив содержимое классической районной библиотеки, он не станет хорош в написании текстов. Нужно куда больше данных. Но где их брать?
Ответ очевиден: в сети. И несколько лет подряд такая модель отлично работала. За несколько десятилетий существования интернета были сгенерированы тысячи терабайт данных. Достаточно, чтобы обучить любой искусственный интеллект. И раньше правообладатели этого контента смотрели на такое обучение сквозь пальцы, потому что никто не видел для себя угрозы. Разве может искусственный интеллект тягаться с человеческим?
Но после релиза ChatGPT-3 и стремительного развития индустрии, все внезапно поняли, что до превосходства ИИ над человеком осталось недолго. И люди испугались. Художники начали паниковать, что ИИ заберет у них работу, сценаристы бастовать, что их скоро выкинут на мороз, а крупные звукозаписывающие компании судиться с разработчиками, потому что осознали, что ИИ научился писать музыку. И делает это хорошо.
Однако суды пока ни к чему не привели, но авторы контента нашли способ ограничить развитие ИИ. У него забрали возможность обучаться на существующих данных. Так, анализ более 14 тысяч доменов, используемых в трех крупнейших базах данных для обучения ИИ, показал значительную тенденцию к ограничению доступа. Примерно 5% всех данных и 25% наиболее ценных данных были защищены протоколом Robots Exclusion Protocol, позволяющим владельцам сайтов блокировать автоматизированные системы сбора данных. Кроме того, почти 45% данных из набора данных C4 теперь ограничены условиями обслуживания веб-сайтов.
И, на первый взгляд, ничего страшного не произошло. 5% — это капля в море. Но это не так: искусственному интеллекту нужны терабайты данных. И даже 5% — это огромные цифры. Так, например, Сэм Альтман заявлял, что даже всей информации, которая есть в сети, может быть недостаточно для создания сверхмощного искусственного интеллекта. А значит отсутствие даже 5% от общего числа данных — это трагедия. И это мы не берем в расчет то, что 25% наиболее ценных данных были защищены протоколом Robots Exclusion Protocol. Так что ИИ могут ждать тяжелые времена, но мы надеемся, что проблему удастся решить.
Искусственный интеллект (ИИ) предсказывает развитие деменции лучше врачей: он делает это с точностью 82%
Искусственный интеллект научили читать мысли: результаты поражают воображение