De Rebus - страница 11



Итак, существует задача сбора информации посредством «зондирования». При этом необходимо обеспечить надежное функционирование дорогущего оборудования. Как запрограммировать аппаратуру таким образом, чтобы она принимала наиболее адекватные решения и избегала поломок? Жестко запаять реакции на те или иные стимулы – только первый шаг в этом направлении. Это безусловные рефлексы, уровень условной амебы. Последовательность трагических неудач в полевых условиях должна была привести к следующему этапу развития – самообучающимся нейронным сетям. Для того чтобы настроить систему, первым делом необходима обратная связь – оценка успеха или неудачи произведенной реакции. Ее обеспечил древний прототип того, что в современности часто величают «системой ценностей». На входе этой модели были сенсорные данные на момент времени непосредственно после принятого решения. На выходе – оценка, регулирующий сигнал для настройки нейронной сети. Это зачатки тех функций, которые мы называем «условными рефлексами».

Но и у этого решения нашлись свои недостатки. Действует быстро и не требует постоянной связи с «Центром» – очевидный плюс. Но продолжает регулярно делать ошибки в условиях меняющейся окружающей среды – не менее очевидный минус. Тем временем постоянно растущий арсенал средств воздействия на окружающую среду привел к новой проблеме: какую именно реакцию из гигантского ассортимента выбрать? Было замечено, что далеко не во всех случаях от организма требуется мгновенная реакция, можно и подумать. Это привело к организации внутреннего интерпретатора, модели (опять же нейронной сети), при помощи которой можно прикинуть, как изменится мир после принятия того или иного решения. И оценить «позицию» впоследствии, при помощи готовой e-модели. Для реализации расчета вариантов потребовалась «оперативная память» – место для сохранения промежуточных результатов (текущей ветки анализа). Стоящая на сенсорном входе нейронная сеть продолжала обрабатывать информацию датчиков, но, отфильтровывая шум, преобразовывала ее уже не в конкретные действия, а всего лишь в ходы-кандидаты для последующего анализа. Теперь их можно было опять запустить на вход того же интерпретатора для расчета «следующего хода». Это еще не разум, но уже осмысленная деятельность, интеллект на уровне AlphaZero. Работает значительно медленнее, чем простая нейронная сеть, но значительно гибче в использовании.

Чтобы отличить те ситуации, где требуется немедленное решение, от более-менее безопасных, потребовалось ввести понятие режимов работы. Изначально это был простенький детектор опасности – подсистема страха. Со временем добавились новые, так называемые эмоции, ограничивавшие спектр возможных действий строго определенным набором. Все это дало некоторое увеличение жизнеспособности, но опять же далеко не всех катаклизмов удавалось избежать. Точная настройка на решение одной проблемы запросто теряла ее плюсы по отношению к ранее решенным. У этой девицы-сети была короткая память. Потребовался новый виток усложнения алгоритма. Было бы здорово запомнить и передать от зонда к зонду накопленный опыт. Ведь на этом этапе он был как-то распределен в виде безумного количества коэффициентов передачи сигнала от нейрона к нейрону по всей сети. Куда бедной Эволюции податься?

Тут в изначально первобытном нейронном море подсознания один за другим начали всплывать островки ментальных моделей. Это они теперь стали использоваться при распознавании образов (событий), и побеждала наиболее адекватная из них. Функция оценки результатов интерпретатора тоже перестала быть запаянной, это теперь настраиваемая модель. У страны психики появился президент. Если ему не нравится положенная ему на рабочий стол ментальная модель, то его отрицательная оценка понижает приоритет победителя в будущем, иначе – усиливает ее. К этой точке мы уже где-то на уровне высших животных, поскольку даже крысы составляют ментальный план лабиринта и в состоянии найти в нем оптимальный путь, если закрыть привычный для них ход.