Принцип Максимума Понтрягина

Постановка задачи оптимального управления.
Состояние объекта управления характеризуется n -мерной вектор функцией,
например, функцией времени[pic][pic]
Так, шестимерная вектор-функция времени полностью определяет положение
самолета как твердого тела в пространстве. Три координаты определяют
положение центра масс, а три — вращение вокруг центра масс.
От управляющего органа к объекту управления поступает вектор-функция [pic].
Векторы x' и u' , обычно связаны между собой каким-то соотношением.
Наиболее развитым в настоящее время является уравнение, в котором векторы
связаны системой обыкновенных дифференциальных уравнений.
И так, пусть движение управляемого объекта описывается системой
дифференциальных уравнений
[pic](1.1)
где [pic]- вектор координат объекта или фазовых координат,

[pic]- заданная вектор-функция, [pic]- вектор управлений или просто
управление.
В уравнении (1.1) векторы [pic]являются функциями переменной t,
обозначающей время, причем[pic], где[pic] — отрезок времени, на котором
происходит управление системой.

На управление обычно накладывается условие
[pic], [pic](1.2)
где U(t) — заданное множество в [pic]при каждом [pic].

Будем называть далее управлением кусочно-непрерывную на отрезке [pic](т. е.
имеющую конечное число разрывов первого рода) r—мерную вектор-функцию и,
непрерывную справа в точках разрыва и непрерывную в точке Т. Управление и
называется допустимым, если оно удовлетворяет ограничению (1.2).

Заметим, что ограничиться рассмотрением непрерывных управлений оказывается
невозможным, так как с их помощью трудно моделировать моменты переключения
управления такие, как, например, включение и отключение двигателей,
отделение ступеней ракеты, поворот рулей и т. д.

Иногда рассматривают и более широкие классы допустимых управлений,
например, класс всех ограниченных измеримых управлений, удовлетворяющих
условию (1.2).

Покажем, как при произвольном начальном положении [pic] и допустимом
управлении и определяется траектория управляемого объекта. Рассмотрим
задачу Коши
[pic][pic](1.3)
Поскольку при разрывных правых частях классическое понятие решения системы
дифференциальных уравнений неприменимо, поясним, что понимается в данном
случае под решением задачи (1.3). Для этого поступим следующим образом.
Пусть функция и имеет скачки в точках[pic] причем[pic]. Предположим, что
задача (1.3) имеет решение х, определенное на всем отрезке [to,[pic]],
причем [pic]. Далее рассмотрим задачу Коши
[pic][pic].
Предполагая, что она имеет решение на отрезке [[pic]] и [pic],приходим к
задаче
[pic][pic]и т. д.
Если функцию х удалось определить указанным способом на всем отрезке [to.
Т], то будем называть ее решением задачи (1.3) или фазовой траекторией
(иногда просто траекторией), соответствующей управлению и. Отметим, что x —
непрерывная по построению функция, удовлетворяющая на отрезке[pic]
равенству
[pic]
При выполнении определенных условий на f решение задачи (1.3),
соответствующее управлению и, существует и единственно при произвольном
начальном положении [pic]и произвольном допустимом управлении и.
Помимо ограничения на управление могут существовать ограничения и на
фазовые координаты
[pic][pic](1.4)
Ограничения на концах траектории целесообразно рассматривать отдельно:
[pic](1.5)

здесь[pic], S (Т) — заданные множества из R»;

[pic]-заданные множества из R, причем inf [pic]< sup[pic], to<.T.
Таким образом, начальный и конечный моменты времени не обязательно
фиксированы. Случаю фиксированных to, Т соответствуют множества [pic],
[pic], состоящие из одной точки; при этом говорят, что рассматривается
задача с закрепленным временем.
Если So (to) = {[pic]} при любом[pic] ,то левый конец траектории называют
закрепленным. Если же So (to) == R» при всех [pic], то левый конец
траектории называют свободным. Во всех остальных случаях левый конец
называют подвижным. В аналогичных ситуациях говорят о закрепленном,
свободном или подвижном правом конце траектории.
Цель управления в задаче оптимального управления состоит в минимизации
некоторого функционала на множестве допустимых наборов.
Если каждой функции y=f(x) определенного класса ставится в соответствии по
некоторому закону определенное числовое значение переменной I, то эту
переменную называют функционалом от одной функциональной переменной
I=I[y]=I[y(x)]=I[f(x)].
Наиболее часто под задачами управления понимаются задачи, в которых роль
функционала выполняет интегральный функционал
[pic]
Мы будем рассматривать задачу с целевым функционалом
[pic](1.6)
представляющим собой сумму интегрального функционала [pic]
и терминального
функционала Ф(х(Т), Т). Эта задача называется задачей Больца. Ее частными
случаями являются задача с интегральным функционалом, называемая задачей
Лагранжа, и задача с терминальным функционалом, называемая задачей Майера.
Задача с интегральным функционалом при [pic] называется задачей
оптимального быстродействия.
Набор (to, Т, х[pic], и, х), минимизирующий функционал (1.6), называется
решением задачи оптимального управления, управление и — оптимальным
управлением, а траектория х — оптимальной траекторией. Часто решением
задачи оптимального управления называют пару (ц, х).

Принцип максимума Понтрягина.
Эффективным средством исследования задач оптимального управления является
принцип максимума Понтрягина, представляющий собой необходимое условие
оптимальности в таких задачах.
Формулировка принципа максимума.
Рассмотрим задачу оптимального управления, являющуюся частным случаем
задачи, сформулированной выше
[pic](2.1)

[pic][pic],

где[pic] (2.2)

[pic]
При этом предполагается, что моменты to, Т фиксированы, т. е.
рассматривается задача с закрепленным временем; множество U не зависит от
времени, фазовые ограничения отсутствуют. Положим
[pic],
где [pic]-константа,[pic]
Функция Н называется функцией Гамильтона.

Система линейных дифференциальных уравнений [pic] относительно
переменных[pic] называется сопряженной системой, соответствующей управлению
и и траектории х. Здесь
[pic].
>В более подробной покоординатной записи сопряженная система принимает вид
[pic], (2.3)
Система (2.3) имеет при любых начальных условиях единственное решение[pic]
, определенное и непрерывное на всем отрезке [pic].
Следующая теорема выражает необходимые условия оптимальности в задаче
(2.1).
Теорема (принцип максимума Понтрягина).
Пусть функции[pic] и, Ф, g1, …, gm имеют частные производные по
переменным х1, …, Хn и непрерывны вместе с этими производными по
совокупности аргументов х[pic] , и [pic] U, t[pic] [to. Т]. Предположим,
что (и, х)-решение задачи (2.1). Тогда существует решение [pic] сопряженной
системы (2.3), соответствующей управлению и и траектории х, и
константа [pic] такие, что
| [pic] | + || [pic](t) || при t[pic] [to, Т], и выполняются следующие
условия:
а) (условие максимума) при каждом t[pic] [to. Т] функция Гамильтона[pic],
достигает максимума по[pic] при v=u (t), т. е.
H(x(t), u(t),[pic]=max H(x(t), v(t),[pic] (2.4)
б)(условие трансверсальности на левом конце траектории) существуют
числа[pic], такие, что
[pic](2.5)
в) (условие трансверсальности на правом конце траектории) существуют
числа [pic] такие, что
[pic](2.6)
Центральным в теореме является условие максимума -(2.4).

Если отказаться от предположения о том, что конечный момент времени Т
фиксирован, то теорема останется справедливой за исключением условия
трансверсальности на правом конце траектории. Условие (2.6) заменим
условием
[pic]
и добавить еще одно условие трансверсальности на правом конце траектории:
[pic]
Примеры применения принципа максимума.
1. Простейшая задача оптимального быстродействия.
Пусть точка движется по прямой в соответствии с законом
[pic](3.1)
где х — координата. Требуется найти управление и, переводящее точку из
начального положения в начало координат за минимальное время Т (задача
оптимального быстродействия). При этом скорость точки в конце траектории
должна быть нулевой, а управление — удовлетворять условию
[pic].
Применим к сформулированной задаче принцип максимума Понтрягина . Введем
фазовые переменные [pic]. Тогда движение управляемого объекта описывается
системой двух дифференциальных уравнений первого порядка:
[pic](3.2)
Начальное положение
[pic]
при t0=0 и конечное положение (0, 0) фиксированы, а конечный момент времени
Т не фиксирован.
В обозначениях п.п. 1, 2 в данной задаче U ==[-1, 1], f0=1, Ф=0, а функция
Гамильтона имеет вид
[pic]
Общее решение сопряженной системы
[pic][pic]
легко выписывается в явном виде [pic]
где С, D — постоянные.
Очевидно, что максимум функции Н по и[pic] U достигается при
[pic]
Таким образом, оптимальное управление и может принимать лишь два значения
+1 .
2.Определить управление u(t) , которое дает минимум интегралу
[pic], в процессе, описываемом уравнением [pic](1).

Решение.

Введем дополнительную переменную
[pic](2)
Для этой переменной имеем дифференциальное уравнение [pic]([pic] (3)
с начальными условиями, получаемыми из (2), т.е. х2(0)=0. Минимизирующий
функционал, используя (2), можно записать в виде I[T]=x2(T).
Построим функцию Гамильтона
[pic]
Запишем сопряженную систему [pic] (3)
Запишем [pic]
?1(Т)=0 (т.к. с1=0)
?2(Т)=-1
Из [pic]поэтому ?2(е)=-1. Теперь функция Гамильтона запишется в виде H=-
a?1×1+?1u-0,5×12-0,5u2 .
По принципу максимума функция Н при фиксированных х1 и ?1 достигает
максимума по u : [pic], [pic], откуда [pic].
Осталось решить систему уравнений (2) и (3) при условии [pic] , ?2(Т)=-1,
[pic], [pic] с граничными условиями [pic]
Сведем данную систему к одному уравнению относительно U.
[pic][pic]
[pic]
[pic]
[pic]
Добавим к этому уравнению граничные условия [pic] и решим его. Составим
характеристическое уравнение к2 — (а2+1) =0, к1,2=+(-)[pic]
[pic]
Найдем С1 и С2. [pic] С2=-с2е[pic]. Тогда [pic]
Используя граничные условия найдем С2[pic]
Таким образом, определено оптимальное решение
[pic]

Примеры применения принципа максимума.
1. Простейшая задача оптимального быстродействия.
Пусть точка движется по прямой в соответствии с законом
[pic](3.1)
где х — координата. Требуется найти управление и, переводящее точку из
начального положения в начало координат за минимальное время Т (задача
оптимального быстродействия). При этом скорость точки в конце траектории
должна быть нулевой, а управление — удовлетворять условию
[pic].
Применим к сформулированной задаче принцип максимума Понтрягина . Введем
фазовые переменные [pic]. Тогда движение управляемого объекта описывается
системой двух дифференциальных уравнений первого порядка:
[pic](3.2)
Начальное положение
[pic]
при t0=0 и конечное положение (0, 0) фиксированы, а конечный момент времени
Т не фиксирован.
В обозначениях п.п. 1, 2 в данной задаче U ==[-1, 1], f0=1, Ф=0, а функция
Гамильтона имеет вид
[pic]
Общее решение сопряженной системы
[pic][pic]
легко выписывается в явном виде [pic]
где С, D — постоянные.
Очевидно, что максимум функции Н по и[pic] U достигается при
[pic]
Таким образом, оптимальное управление и может принимать лишь два значения
+1 .
2.Определить управление u(t) , которое дает минимум интегралу
[pic], в процессе, описываемом уравнением [pic](1).

Решение.

Введем дополнительную переменную
[pic](2)
Для этой переменной имеем дифференциальное уравнение [pic]([pic] (3)
с начальными условиями, получаемыми из (2), т.е. х2(0)=0. Минимизирующий
функционал, используя (2), можно записать в виде I[T]=x2(T).
Построим функцию Гамильтона
[pic]
Запишем сопряженную систему [pic] (3)
Запишем [pic]
?1(Т)=0 (т.к. с1=0)
?2(Т)=-1
Из [pic]поэтому ?2(е)=-1. Теперь функция Гамильтона запишется в виде H=-
a?1×1+?1u-0,5×12-0,5u2 .
По принципу максимума функция Н при фиксированных х1 и ?1 достигает
максимума по u : [pic], [pic], откуда [pic].
Осталось решить систему уравнений (2) и (3) при условии [pic] , ?2(Т)=-1,
[pic], [pic] с граничными условиями [pic]
Сведем данную систему к одному уравнению относительно U.
[pic][pic]
[pic]
[pic]
[pic]
Добавим к этому уравнению граничные условия [pic] и решим его. Составим
характеристическое уравнение к2 — (а2+1) =0, к1,2=+(-)[pic]
[pic]
Найдем С1 и С2. [pic] С2=-с2е[pic]. Тогда [pic]
Используя граничные условия найдем С2[pic]
Таким образом, определено оптимальное решение
[pic]

О методах решения задач оптимального управления
Убедимся вначале, что необходимые условия оптимальности в форме принципа
максимума дают, вообще говоря, достаточную информацию для решения задачи
оптимального управления (2.1), (2.2).
Условие максимума (2.4) позволяет, в принципе, найти управление и как
функцию параметров х, t, [pic]
[pic](2.7)
Рассмотрим систему дифференциальных уравнений
[pic](2.8)
объединяющюю систему уравнений движения объекта и сопряженную систему.
Как известно, общее решение системы (2.8), состоящей из 2n обыкновенных
дифференциальных уравнений первого порядка, зависит от 2п параметров. Кроме
того, система необходимых условий оптимальности содержит т параметров[pic]
и параметр ?0. Таким образом, общее число неизвестных равно 2n+m+1.
Для их определения мы имеем 2п условий (2.5), (2.6) и т условий (2.2). Еще
одно условие определяется из следующих соображений.
Легко понять, что, в силу линейности функции Н по переменным принцип
максимума Понтрягина определяет вектор ([pic]) с точностью до
положительного постоянного множителя. Поэтому если в конкретной задаче
удается показать, что [pic], то полагают обычно [pic] == — 1. В противном
случае накладывают какое-либо условие нормировки, например, [pic]
Таким образом, общее число условий равно 2n+m+1 и совпадает с числом
неизвестных параметров, что, в принципе, позволяет определить эти
параметры. Изложенные соображения дают возможность в простейших случаях
решить задачу оптимального управления в явном виде.
Опишем численный метод, основанный на тех же соображениях. Для этого
рассмотрим краевую задачу для системы дифференциальных уравнений (2.8) с
краевыми условиями (2.5), (2.6), а также выписанными на основе (2.2)
краевыми условиями
[pic](2.9)
Эта задача называется краевой задачей принципа максимума.
Задав произвольные начальные условия[pic]и решив каким-либо численным
методом задачу Коши для системы (2.8), можно найти х(Т),[pic](Т). При этом
на каждом шаге численного интегрирования значение [pic] находится из
решения вспомогательной оптимизационной задачи (2.7) (считаем, что
параметр [pic] задан и равен либо 0, либо -1).
Значения х (Г), [pic] являются очевидно, некоторыми функциями от а и Ь:
[pic]). Решение краевой задачи принципа максимума сводится, таким образом,
к решению полученной из (2.9), (2.5), (2.6) системы уравнений
[pic]
[pic]
[pic]
Эта система содержит 2п+т неизвестных а, Ь,[pic]и состоит из 2п+т
уравнений. Ее решение можно находить известными численными методами,
например методом Ньютона.
Отметим, что вычисление значений [pic]весьма трудоемко, так как требует при
каждом (а, b) решения задачи Коши для системы дифференциальных уравнений
(2.8). Именно в таких случаях особое значение приобретает изучение вопросов
эффективности численных методов и построения оптимальных методов .
При реализации на ЭВМ методов решения задач оптимального управления,
основанных на необходимых условиях экстремума, могут встретиться также
значительные трудности, вызванные некорректностью постановки исходной и
вспомогательных задач и некоторыми особенностями краевой задачи принципа
максимума. Это приводит к необходимости применения методов регуляризации,
учета специфики конкретной решаемой задачи, ее физического смысла и т. п.
Другие численные методы, не связанные непосредственно с принципом
максимума, основаны на редукции исходной задачи к некоторой конечномерной
задаче математического программирования. Их называют иногда прямыми
методами (впрочем, разделение вычислительных методов на прямые и непрямые
довольно условно). Конечномерные аналоги задач оптимального управления
имеют особенности, позволяющие эффективно применять некоторые методы
нелинейного, динамического программирования и т. д]. Продемонстрируем
пример такого подхода.

Рассмотрим следующую задачу оптимального управления
[pic][pic]
[pic]
где моменты времени[pic], Т фиксированы. Это задача более общего вида, чем
(2.1), ибо в (2.10) U зависит от времени и имеются фазовые ограничения
произвольного вида, которые, в частности, могут содержать ограничения на
концах траектории вида (2.2).
Зафиксируем моменты времени [pic] и заменим задачу (2.10) ее
конечноразностным аналогом
[pic]
[pic]
Положив [pic] задачу можно переписать в виде [pic] (2.11)
[pic]
Мы получили задачу математического программирования с переменными [pic]
Задав начальное состояние х0 и управление (u0, u1, …, uN-1), по
формулам [pic] легко вычислить траекторию ( х1, …, хN). Тем самым (2.12)
сводится к задаче с переменными х0, u0 , u1, …, uN-1, и ее размерность,
таким образом, оказывается равной n+Nr.
Для решения задачи (2.11) часто применяют метод динамического
программирования. В данном случае этот метод выглядит следующим образом.
Ввелем функцию [pic]где минимум берется по таким [pic]что[pic](будем
предполагать, что все фигурирующие здесь и ниже минимумы достигаются). Если
множество таких наборов (uк, …, uN-1) пусто, то значение [pic]) не
определено. Нетрудно видеть, что [pic] (2.12)
где минимум берется по таким [pic], что значение [pic] определено.
Положив [pic] и проводя вычисления по формулам (2.12) при k=N-1,N-2,…,0
можно найти решение задачи (2.11).
Действительно, пусть [pic]- значение управления, реализующее минимум в
(2.12). Ясно, что значение задачи (2.11) , т.е. минимальное значение
минимизирующей функции, равно [pic], где минимум берется по таким [pic],
что значение [pic] определено. Оптимальное управление и оптимальная
траектория находятся, очевидно, по формулам
[pic](2.13)
При численной реализации данного метода задаются сеточные аппроксимации
множеств [pic]т.е. некоторые конечные множества [pic]Затем строятся
множества [pic], которые служат сеточными аппроксимациями интересующих нас
подмножеств [pic]
Далее по формулам (2.12) вычисляются значения [pic]для [pic][pic]и т.д.,
причем при каждом k минимум в (2.12) берется по [pic] После того как
приближенно найдена точка [pic], минимизирующая [pic] решение задачи
определяется формулами (2.13).

Заключение:
Отметим, что дискретные задачи оптимального управления встречаются на
практике ( например, при описании импульсных систем) и потому представляют
интерес не только как конечноразностные аналоги непрерывных задач.
Задачи оптимизации управляемых процессов, или как они будут в дальнейшем
называться, задачи оптимального управления, составляют один из широких
классов экстремальных задач и имеют важное прикладное значение.
Структурная схема задачи управления состоит из двух звеньев: управляющего
органа и объекта управления . В качестве объекта управления может служить,
например, космический эксперимент, экономика отрасли промышленности,
система машин, семейный бюджет и т. д. Управляющее звено со времени
возникновения задач управления претерпело эволюции от простейшего
регулятора до современной ЭВМ.

Кыргызско — Российская Академия образования

Доклад

По дисциплине:
ТУТС

Тема: Принцип максимума Понтрягина.

Выполнил:
Бахарев Д. В.ИВТ-1-98.

Проверила: Жданова С. В.

г. Бишкек 2001

Добавить комментарий