
Как роботы передвигаются
13 июня, 2021
ClicBot — робот для обучения детей программированию и английскому
10 июля, 2021В этой статье я расскажу как видят роботы и мы коснемся двух вопросов: компьютерного зрения и искусственного интеллекта. Роботы уже не слепые и наблюдают за нами что мы делаем и учатся у нас.
Содержание
Многие камеры уже умеют определять человеческую голову и улыбку, значит камера понимает куда ее направили и что снимает. А как же это работает?
Беспилотные автомобили в Украине еще не получили распространения, но они уже легко маневрируют в потоке и останавливаются перед пешеходами, на улице камеры видеонаблюдения понимают и распознают лицо человека. И роботы тоже уже умеют все это. Эти чудеса возможны благодаря компьютерному зрению.
Данная статья поможет разобраться в человеческом и компьютерном зрении, их отличия и польза для людей.
Мы люди не задумываемся над нашим зрением, но при создании робота надо учитывать все. А значит роботу нужны камеры, сенсоры и датчики, чтобы видеть. Нужен компьютер, чтобы обработать картинку. И искусственный интеллект, чтобы проанализировать данные. Все уровни важны и мы подробно остановимся на каждом из них.
Уровень первый: получение картинки
Для начала роботу надо что-то увидеть. Здесь ему помогают камеры, датчики и сенсоры. Чем больше устройств, тем лучше он будет ориентироваться в пространстве, но и вычислений больше, а значит и компьютер нужен мощнее. Если робот передвигается, то лучше всего использовать лидар для определения расстояния до объектов или хотя бы ToF-камеру. Если надо распознать объект, то требуется камера. Часто все устройства работают в кооперации.
Такие умные роботы, как например Промобот для обнаружения человека используют массив микрофонов. Они расположены вокруг робота (8 штук) и при голосе человека, робот понимает откуда исходит звук и поворачивается к говорящему. Другой вариант использования микрофонов, если перед роботом стоит несколько людей, то робот понимает с кем ему разговаривать, благодаря звуку исходящему от конкретного человека.
Так что роботу, чтобы видеть - нужны и микрофоны!

Лидар
На сегодняшний день – это устройство самое современное и перспективное для определения расстояния до объектов и все чаще используется в робототехнике. На заре использования – лидар стоил немало денег и использовался редко. На беспилотных автомобилях лидар используется повсеместно и с помощью своего лазера определяет расстояние до объектов. И да, iPhone уже тоже обзавелись этой технологией.

К преимуществам можно отнести – высокую точность измерений и хорошую видимость на свету и в темноте, на открытой местности и в закрытых помещениях. К недостаткам относится – плохое распознавание прозрачных и отражающих поверхностей.
ToF-камера
Еще одно устройство для определения расстояние - это ToF-камера (ToF — Time-of-flight). Основное отличие в том, что она испускает свет в инфракрасном диапазоне для определения расстояния и по отраженному свету строит изображение.
Данная камера может видеть объекты на расстоянии 5 и более метров и с ее помощью тоже можно построить карту помещения, а еще распознать лицо человека. Она как и лазер испускает свет в невидимом для человеческого глаза диапазоне.

Наша жизнь только сейчас наполняется такими камерами, так как 10 лет назад лидар стоил сотню тысяч баксов. А теперь их встраивают в роботов и в носимые гаджеты.
Роботы с помощью лидаров и ToF-камер строят карту помещений и запоминают ее в памяти, чтобы перемещаться и это позволяет им уверенно ездить без столкновений. А мощный процессор обрабатывает всю информацию, но об этом в другой статье.
Но надо понимать, что помимо преимуществ есть и недостатки, пока еще лидары и ToF-камеры имеют маленькую разрешающую способность. Даже в автомобильных лидарах разрешение составляет от 64 до 128 линий. Поэтому производителям приходится выбирать что сканировать и некоторые области могут не попадать в область наблюдения. Тут на помощь приходят камеры. Это дополнительная возможность увидеть роботу слепые зоны.
Уровень второй: обработка
После получения всей информации от сенсоров ее необходимо обработать. У людей этот процесс происходит незаметно, мозг сам без раздумий выполняет такую операцию. А вот роботу надо заложить алгоритм действий и ему надо потрудится, чтобы "переварить" все данные.
Лидар дает информацию в виде трехмерного облака точек, которые легко поддаются обработке.
Робот видит человека и ему потребуется определить его размеры и где на карте он расположен. Габариты роботу вычислить сложно, одним из способов является "усеченная пирамида". Все обнаруженные предметы помещаются в конус, а объем конуса высчитывается нейросетью. И мы плавно переходим на третий уровень.

Уровень третий: анализ
Анализом данных на изображениях у хороших роботов занимаются нейросети. Чтобы рассказать о них потребуется тысячи таких статей как эта. А если коротко, то это много уравнений, имеющих связь друг с другом. Помещая данные в нейросеть, она их анализирует и дает ответ. Для примера, если указывать нейросети лица людей, то она обучится и начнет понимать где лица.
Процесс проходит в три этапа, первый - нейросети показали лица, второй - показали разные картинки не только лица и если она без ошибок определила лица, то нейросеть обучена, третий - уменьшение размера сети для быстроты и ее оптимизации. Теперь можно запускать нейросеть в работу.
Ученые создали эту технологии на базе нашего мозга. Человек повторяет что-нибудь определенное количество раз, запоминает это, в процессе таких повторений нейронные связи крепнут и наступает понимание.Роботов надо обучить всем предметам, которые его окружают для понимания, что он видит и людям было легко с ним общаться и взаимодействовать. С каждым годом роботы становятся умнее, причем робот с нейронкой сам будет умнеть, без участия человека.
Зрение — оно у тебя в сознании.