поддержка
проекта:
разместите на своей странице нашу кнопку!И мы
разместим на нашей странице Вашу кнопку или ссылку. Заявку прислать на
e-mail
код нашей кнопки:
Поведение автоматов в случайных средах
История изучения моделей этого типа начинается _с конца 50-х гг.,
когда М. Л. Цетлин предложил задачу о создании технических устройств,
которые могли бы демонстрировать целесообразное поведение в случайных
средах, о параметрах которых эти устройства априорно не имели бы
информации. Эта задача получила название "Маленькое животное в сложном
мире". К началу 60-х гг. появились несколько конструкций, обладавших
нужными способностями. И первой среди них стал автомат с линейной
тактикой, предложенный Цетлиным.
Автомат с линейной тактикой - это обычный конечный автомат (см. Теория
автоматов), в котором смена состояний под влиянием входных сигналов
происходит так, как это показано на рис. 1 ,а. Это простейший автомат с
двумя состояниями. В левом состоянии автомат выдает в качестве своего
выхода сигнал о том, что он совершает действие d\, а в правом состоянии
- сигнал о том, что он совершает действие d2 Если после этого на
следующем такте работы среда штрафует автомат за сделанное действие, он
меняет свое состояние и автоматически меняет свое действие (эта смена
показана на диаграмме переходов пунктиром). Если же среда поощряет
автомат к тому же действию, то автомат сохраняет свое состояние, и
действие повторяется.
Реализация такого простейшего автомата весьма проста, но эта простота
ограничивает возможности автомата. Предположим, что среда работает как
некоторый случайный механизм (см. Система массового обслуживания).
Другими словами, на действие d\ автомата она отвечает сигналом штрафа с
некоторой постоянной (но неизвестной автомату) вероятностью <2, а с
вероятностью 1 - л,- среда фор-
мирует на вход автомата сигнал поощрения за это действие. Среды такого
типа обычно называют стационарными, подчеркивая их независимость от
времени и воздействия на нее со стороны автомата.
Пусть автомат находился в начальный момент в состоянии 1, т. е. выдал в
среду действие d\. Тогда, если среда, например, определяется вектором
(<1, П2) = (0,8; 0,1), то с вероятностью 0,8 автомат за действие d\
будет оштрафован и в результате этого сменит состояние. С вероятностью
0,2 штрафа за d\ не будет, и автомат может остаться в состоянии 1. В
состоянии 1 на следующем шаге работы вероятность штрафа опять будет 0,8,
а вероятность поощрения - 0,2. В состоянии 2 автомат ожидает более
комфортное существование. Здесь за действие g?2 он получает наказание
лишь с вероятностью 0,1. И лишь изредка он будет попадать в состояние 1
с немалой величиной ожидаемого штрафа.
Целесообразно ведущий себя автомат должен минимизировать суммарный штраф
за время своего существования. Но если бы автомат заранее знал параметры
среды, наилучшей стратегией его поведения было бы постоянное нахождение
в состоянии 2, терпя штрафы в этом состоянии как неизбежное зло. Всякий
переход в состояние 1 лишь увеличивает накапливаемый штраф. Но беда в
том, что априорная информация о параметрах среды автомату не дана. Он на
своей "шкуре" должен узнать эти параметры.
Простейший автомат превращается в автомат с линейной тактикой после
того, как увеличивается число состояний, в которых он выполняет
одинаковое действие. На рис. 1,6 показан такой автомат, рассчитанный на
выдачу в среду трех разных действий: d\, (/2 и d$. Все группы состояний
устроены одинаково. Когда автомат, находящийся в определенной группе
состояний, получает сигнал поощрения за выполненное действие, то он
переходит в новое состояние, двигаясь "в глубину" данной группы к
состоянию с номером т. Если цепочка поощрений достаточна, то, в конце
концов, он достигает этого последнего в группе состояния т и остается в
нем все время, пока идут сигналы поощрения.
Сигналы штрафа заставляют автомат двигаться в обратном направлении. И
если выбранное им действие среде "не нравится", то он, в конце концов,
дойдет до первого состояния в группе, и очередной сигнал штрафа от среды
переведет его в первое состояние группы, связанной с реализацией другого
действия. Если это действие окажется удачным, то автомат начнет
двигаться вглубь по этой новой группе состояний, а если, попав в первое
состояние группы, он мгновенно получит сигнал штрафа, то немедленно
отреагирует на это сменой группы и переходом к новому действию.
Автомат с линейной тактикой в среде, в которой, например, сигналы
штрафов от среды за действия автомата поступают в соответствии с
вектором (0,9; 0,1; 0,7), в конце концов, окажется во второй группе
состояний, и "выбить" его оттуда при большом значении т будет нелегко.
Значение т, называемое глубиной памяти автомата, характеризует его
инерционность, способность сохранять наилучшее действие в данной среде
после некоторого периода адаптации.
Третий автомат, показанный на рис. 1 ,в, отличается от автомата с
линейной тактикой тем, что он весьма чувствителен к штрафам. Даже из
последнего по глубине памяти состояния он при первом же сигнале штрафа
"перепрыгивает" во второе состояние группы. Он всегда "настороже",
всегда готов сменить свое действие.
В стационарных средах такой автомат ведет себя хуже (т. е. набирает
больший суммарный штраф) по сравнению с автоматом с линейной тактикой,
но он оказывается более приспособленным к жизни в нестационарных средах,
в которых значения я, меняются со временем. Большая мобильность в смене
действий обеспечивает этому типу автоматов лучшую приспосабливаемость.
Относительно рассмотренных автоматов доказан ряд теорем, характеризующих
их способность к адаптации в стационарных и нестационарных средах.
Оказалось, что существуют такие конструкции автоматов (такие графы смены
их состояний), которые при неограниченном увеличении периода их
функционирования Т асимптотически стремятся к поведению, обеспечивающему
минимизацию накапливаемого штрафа. К ним относится и автомат с линейной
тактикой, если в среде все щ превосходят 0,5.
В нестационарных средах хорошо показали себя автоматы с переменной
структурой. Примером автомата такого типа может служить простейший
автомат на рис. 1 ,а, если допустить, что на пунктирных дугах стоят
некоторые вероятности п/2 и П21, а на сплошных дугах - соответственно
вероятности 1 -<12 и 1 -121. Получив штраф, такой автомат (находящийся в
этот момент, например, в состоянии 2) с вероятностью <21 меняет свое
состояние и с вероятностью 1 - <21 остается в состоянии 2. Чтобы
получить сигнал поощрения, ему достаточно просто сохранить свое
состояние.
Изменение его структуры происходит следующим образом. Когда в состоянии
i (в нашем конкретном случае i = 1, 2) автомат получает сигнал "штраф",
то он уменьшает вероятность нахождения в этом состоянии на некоторую
величину q и увеличивает равномерно все вероятности покинуть состояние i
и уйти в состояние 1 (т. е. значения пф на Q
величину -, где п - число состоянии, в которые
можно уйти из состояния 1. Путем такого изменения структуры автомат как
бы подстраивается к изменяющимся характеристикам среды.
Для нестационарных сред автоматы с переменной структурой оказались более
приспособленными, чем автоматы с постоянной структурой.
Модели такого типа используются в системах автоматического управления
стационарными в нестационарными объектами, когда информация с
функционировании объекта известна не полностью или вообще неизвестна.
Кроме того, конструкции автоматов, хорошо зарекомендовавшие себя в
рамках данной модели, применяются в системах управления распределенного
типа, где используютс5 методы, опирающиеся на модели коллективного
поведения автоматов.