Иллюзия разума. Правда об искусственном интеллекте - страница 5
Интересный эффект проявляется при сравнении с человеческим обучением. Ребёнку достаточно увидеть несколько собак, чтобы научиться узнавать их в разных позах, ракурсах и даже мультяшных изображениях. Нейросети же потребуются десятки тысяч фотографий, причём желательно – с разными породами, в разных условиях, под разными углами. И всё равно она может дать сбой, столкнувшись с необычным ракурсом, который не был представлен в обучающей выборке.
Это подводит нас к ключевому выводу: Big Data – не просто «чем больше, тем лучше». Речь идёт о качестве, разнообразии и репрезентативности данных. Одно дело – миллион фотографий кошек, сделанных в идеальных условиях студии. Совсем другое – те же миллионы снимков, но включающих разные породы, освещение, ракурсы и фоны. Именно поэтому современные наборы данных стараются охватывать максимально широкий спектр вариантов: только так можно надеяться, что модель будет работать в реальном мире, а не в «тепличных» условиях.
Перспективы же выглядят ещё интереснее. С развитием технологий мы постепенно переходим от простого накопления данных к их стратегическому использованию. Уже сейчас появляются методы, позволяющие нейросетям обучаться эффективнее – например, с помощью синтетических данных или специальных техник аугментации6. Но одно остаётся неизменным: без качественных данных в достаточном количестве даже самая совершенная архитектура нейросети останется бесполезной.
В этом смысле данные действительно стали новой нефтью – ресурсом, без которого невозможен прогресс в ИИ. Но в отличие от нефти, этот ресурс не иссякает, а только приумножается с каждым днём, создавая и новые возможности, и новые вызовы.
Как данные влияют на качество моделей?
Если вам понравилась книга, поддержите автора, купив полную версию по ссылке ниже.
Продолжить чтение