Совместимость. Как контролировать искусственный интеллект - страница 8



, но намного сложнее. Система вознаграждения обладает «встроенными» методами обучения, так что наше поведение со временем становится более эффективным в плане получения вознаграждения. Кроме того, она делает возможным отложенное вознаграждение, благодаря чему мы учимся желать, например, деньги, обеспечивающие отдачу в будущем, а не сию минуту. Мы понимаем, как работает система вознаграждения в нашем мозге, в том числе потому, что она напоминает метод обучения с подкреплением, разработанный в сфере исследования ИИ, для которого у нас имеется основательная теория[14].

С эволюционной точки зрения мы можем считать систему вознаграждения мозга аналогом механизма поиска глюкозы у E. coli, способом повышения эволюционной приспособленности. Организмы, более эффективные в поиске вознаграждения – а именно: в нахождении вкусной пищи, избегании боли, занятии сексом и т. д., – с большей вероятностью передают свои гены потомству. Организму невероятно трудно решить, какое действие в долгосрочной перспективе скорее всего приведет к успешной передаче его генов, поэтому эволюция упростила нам эту задачу, снабдив встроенными указателями.

Однако эти указатели несовершенны. Некоторые способы получения вознаграждения снижают вероятность того, что наши гены будут переданы потомству. Например, принимать наркотики, пить огромное количество сладкой газировки и играть в видеоигры по 18 часов в день представляется контрпродуктивным с точки зрения продолжения рода. Более того, если бы вы получили прямой электрический доступ к своей системе вознаграждения, то, по всей вероятности, занимались бы самостимуляцией без конца, пока не умерли бы[15].

Рассогласование вознаграждающих сигналов и эволюционной необходимости влияет не только на отдельных индивидов. На маленьком острове у берегов Панамы живет карликовый трехпалый ленивец, как оказалось, страдающий зависимостью от близкого к валиуму вещества в своем рационе из мангровых листьев и находящийся на грани вымирания[16]. Таким образом, целый вид может исчезнуть, если найдет экологическую нишу, где сможет поощрять свою систему вознаграждения нездоровым образом.

Впрочем, за исключением подобных случайных неудач, обучение максимизации вознаграждения в естественной среде обычно повышает шансы особи передать свои гены и пережить изменения окружающей среды.

Эволюционный ускоритель

Обучение способствует не только выживанию и процветанию. Оно еще и ускоряет эволюцию. Каким образом? В конце концов, обучение не меняет нашу ДНК, а эволюция заключается в изменении ДНК с поколениями. Предположение, что между обучением и эволюцией существует связь, независимо друг от друга высказали в 1896 г. американский психолог Джеймс Болдуин[17] и британский этолог Конви Ллойд Морган[18], но в те времена оно не стало общепринятым.

Эффект Болдуина, как его теперь называют, можно понять, если представить, что эволюция имеет выбор между созданием инстинктивного организма, любая реакция которого зафиксирована заранее, и адаптивного организма, который учится, как ему действовать. Теперь предположим, для примера, что оптимальный инстинктивный организм можно закодировать шестизначным числом, скажем, 472116, тогда как в случае адаптивного организма эволюция задает лишь 472, и организм сам должен заполнить пробел путем обучения на протяжении жизни. Очевидно, если эволюция должна позаботиться лишь о выборе трех первых цифр, ее работа значительно упрощается; адаптивный организм, получая через обучение последние три цифры, за одну жизнь делает то, на что эволюции потребовалось бы много поколений. Таким образом, способность учиться позволяет идти эволюционно коротким путем при условии, что адаптивный организм сумеет выжить в процессе обучения. Компьютерное моделирование свидетельствует о реальности эффекта Болдуина