Семантический Ренессанс - страница 8



Конечно, нейронную сеть можно научить выполнять арифметические действия. Но это будет стрельбой из пушки по воробьям. Есть масса задач, когда нейронные технологии показывают суперрезультаты. Самый банальный пример, необходимо классифицировать фотографии в некую структуру, скажем, из нескольких позиций: люди, животные, неживая природа, дома, прочее. Сначала сеть проходит обучение у эксперта-человека, который смотрит фото и «раскладывает» их по папкам. Сеть наблюдает за действиями человека, вырабатывает и шлифует свой собственный алгоритм обработки. Постепенно, точность алгоритма нейронной сети растет и сеть может уже самостоятельно обрабатывать фото.

К настоящему времени, объем литературы по нейронным сетям уже невообразим. Практически все технические ВУЗы учат нейронным техникам.

Именно нейронные сети используют поисковые компании для ранжирования Интернет материалов. И именно поэтому описание работы нейронных сетей поисковиков является их главным секретом.

Вдумчивый читатель тут же может обратить внимание на важность стартового эксперта. Хорошо, скажет он, нейроны это супер, с классификацией фото понятно. Тут достаточно одного эксперта. Он поработает пару дней, и нейронная сеть будет просто повторять действия эксперта, используя опыт эксперта как образцы. Как быть с морем информации в Интернете, с миллиардами страниц? Навскидку, тут нужны тысячи и тысячи экспертов.

Вы удивитесь, но дело происходит именно так. Как говорилось, недавно Яндекс презентовал последнюю версию своей поисковой технологии «Королев» и раскрыл некоторые её детали. Презентацию можно посмотреть здесь https://yandex.ru/korolev/. Только вдумайтесь в заявленные цифры:

● В нейронную сеть Яндекса было передано 2 миллиарда оценок для обучения нейронной сети, говорят в Яндексе.

● К компании постоянно работают свыше тысячи человек – экспертов, которые занимаются только подготовкой и проверкой правильных оценок. Профессия называется асессор.

● Помимо штатных работников Яндекс нанял через систему Яндекс.Толока свыше миллиона внештатных асессоров, с помощью которых и были приготовлены миллиарды правильных оценок, https://toloka.yandex.ru/.

Думаю, по числу вовлеченных это один из самых крутых проектов.

Наличие миллиона участников удаляет любую мистику с категории цифровой интеллект. Еще раз вдумайтесь, миллион человек учат одну машину делать тоже самое, что и один человек, по большому счету.



Большие числа


Другой пример. Яндекс каждому тексту ставит в соответствие пакет чисел, или, как говорят в математике, вектор. Каждый вектор Яндекса содержит 300 чисел. В результате Яндекс получает невообразимое число текстовых комбинаций. Допустим, отдельное число в векторе Яндекса принимает лишь числа 0, 1, 2, 3….9. Тогда число текстовых комбинаций Яндекса будет 10 в 300-й степени, 10^300.

Это убийственное число. Больше чем «охулиярд». Скажем, если каждый житель Земли напишет по миллиону разных статей, то число всех статей будет лишь 10^16, примерно миллиард миллиардов. Это практически бесконечно малая величина в сравнении с числом комбинаций Яндекса.

Если забыть умные слова – нейрон, интеллект, вектор, BigData – то умное ранжирование (на данный момент) сводится к простой схеме:

● Яндекс записал в качестве образцов выбор миллиона экспертов при просмотре миллиардов страниц;

● когда приходит новый запрос, то компьютер Яндекса просто находит похожий пример среди миллиардов образцов.