Учат роботов тому что необходимо людям исследователи
Исследователи разрабатывают более эффективные и быстрые способы обеспечения автономного управления роботами . К примеру, в игре было показано как автомобиль импровизировал и двигался непредсказуемо т.к. ему никто не сказал, что нужно ехать прямо.
Этот пример в компьютерной игре один из тех, которые побудили исследователей Стэнфордского университета создать лучший способ ставить цели для автономных систем.
Дорса Сэди, доцент кафедры компьютерных наук и электротехники, и ее лаборатория объединили два разных способа задания целей для роботов в одном процессе, который показал лучшие результаты, чем любая из его частей, как в моделировании, так и в реальных экспериментах.
Исследователи представили свои работы на конференции «Робототехника: наука и системы». «В будущем я полностью ожидаю, что в мире будет больше автономных систем, и им понадобится некоторое представление о том, что хорошо, а что плохо», - сказал Энди Палан, аспирант по компьютерным наукам и соавтор статьи.
«Очень важно, если мы хотим развернуть эти автономные системы в будущем, чтобы мы получили это право». Новая система команды для обучения роботов, известная как функции вознаграждения, сочетает в себе демонстрации, в которых люди показывают роботу, что делать, и опросы пользователей, в которых люди отвечают на вопросы о том, как они хотят, чтобы робот вел себя.
«Демонстрации носят информативный характер, и в данном способе слишком много недочетов. С другой стороны, предпочтения предоставляют, по крайней мере, один бит информации, что сделает робота более точным», - сказал Садиг. «Наша цель - получить лучшее из обоих миров и более разумно объединить данные, поступающие из обоих этих источников».
Демонстрации и опросы
В предыдущей работе Сэди был сосредоточен только на опросах предпочтений. Они просят людей сравнить сценарии, например, две траектории для автономного автомобиля. Этот метод эффективен, но для генерации следующего вопроса может потребоваться до трех минут, который по-прежнему медленен для создания инструкций для сложных систем, таких как автомобиль.
Чтобы ускорить это, группа позже разработала способ составить несколько вопросов одновременно, на которые мог бы ответить один человек в быстрой последовательности или распределить между несколькими людьми. Это обновление ускорило процесс от 15 до 50 раз в зависимости от ответов на вопросы. Новая комбинационная система начинается с человека, демонстрирующего поведение роботу.
Это может дать автономным роботам много информации, но робот часто пытается определить, какие части демонстрации важнее. Люди также не всегда хотят, чтобы робот вел себя так же, как человек, который его обучил. «Мы не всегда можем проводить демонстрации, и даже когда мы можем, нельзя полностью полагаться на информацию, которую дают люди», - сказал Эрдем Бийик, аспирант по электротехнике, который руководил работой по разработке опросов.
«К примеру, предыдущие исследования показали, что люди хотят, чтобы автономные автомобили ездили более спокойно, чем люди». Вот тут-то и начнутся опросы, из которых робот поймет, как нужно себя вести. Для этого исследования группа использовала более медленный метод с одним вопросом, но они планируют интегрировать опросы с несколькими вопросами в более поздние этапы.
В ходе испытаний команда обнаружила, что объединение демонстраций и опросов было быстрее, чем просто указание предпочтений, и, по сравнению с одними только демонстрациями, около 80 процентов людей предпочитали поведение робота при обучении с использованием комбинированной системы.
«Это шаг к лучшему пониманию того, что люди хотят или ожидают от робота», - сказал Садиг. «Наша работа позволяет людям легче и эффективнее взаимодействовать и обучать роботов, и я рад продолжить эту работу, особенно в изучении того, как роботы и люди могут учиться друг у друга».
Лучше быстрее умнее
Люди, которые использовали комбинированный метод, сообщали о трудностях в понимании того, что происходит с системой, с некоторыми из ее вопросов, которые иногда предлагали им выбрать один из двух сценариев, которые казались одинаковыми или не относились к задаче - общая проблема в обучении на основе предпочтений. Исследователи надеются устранить этот недостаток с помощью более простых опросов, которые также работают быстрее.
«Заглядывая в будущее, я не уверен на 100 процентов, насколько человек сможет повлиять на выбор робота», - сказал Палан. «Возможность разрабатывать подобные функции для автономных систем - большая и важная проблема, которой не уделяется должного внимания в академических кругах».
Команде также интересны изменения в их системе, которые позволили бы людям одновременно создавать функции вознаграждения для различных сценариев. Например, человек может захотеть, чтобы его автомобиль двигался более безопасно в условиях полной наполненности дорог и более агрессивно в условиях малого трафика.