Роботизированное обучение по демонстрациям с использованием диффузионной модели и алгоритмов обучения с подкреплением
Аннотация
Дата поступления статьи: 19.01.2025В работе предлагается двухэтапный метод обучения робота по демонстрациям, сочетающий диффузионную генеративную модель и онлайн-дообучение методом обучение роботов по демонстрациям. На офлайн-фазе диффузионная модель использует ограниченный набор экспертных демонстраций и генерирует синтетические «псевдодемонстрации», позволяя расширить вариативность и охват исходного датасета. Это избавляет стратегию от узкой специализации и повышает её способность к обобщению. На онлайн-фазе робот с уже предобученной стратегией корректирует свои действия в реальной среде (или в высокоточной симуляции), что существенно снижает риски небезопасных действий и уменьшает число необходимых взаимодействий. Дополнительно введена параметрически-эффективная донастройка, сокращающая вычислительные затраты на онлайн-обучение, а также ценностное руководство, ориентирующее генерацию новых данных на области состояний и действий с высокими оценками Q. Эксперименты на задачах из набора D4RL (Hopper, Walker2d, HalfCheetah) показывают, что наш подход достигает наибольшей накопленной награды при меньших вычислительных затратах по сравнению с альтернативами. Анализ t-SNE свидетельствует о смещении синтетических данных в области пространства с высокими оценками Q, способствуя ускоренному обучению. Полученные результаты подтверждают перспективность предлагаемого метода для робототехнических приложений, где важно совмещать ограниченный объём демонстраций, безопасность и эффективность онлайн-фазы.
Ключевые слова: обучение роботов по демонстрациям, диффузионные генеративные модели, обучение с подкреплением
.