Як роботи пересуваються
13 Червня, 2021ClicBot – робот для навчання дітей програмування та англійської мови
10 Липня, 2021У цій статті я розповім, як бачать роботи, і ми торкнемося двох питань: комп'ютерного зору і штучного інтелекту. Роботи вже не сліпі і спостерігають за нами, що ми робимо, і вчаться у нас.
Зміст
Багато камер уже вміють визначати людську голову і посмішку, отже, камера розуміє, куди її направили і що знімає. А як же це працює?
Безпілотні автомобілі в Україні ще не набули поширення, але вони вже легко маневрують у потоці і зупиняються перед пішоходами, на вулиці камери відеоспостереження розуміють і розпізнають обличчя людини. І роботи теж уже вміють усе це. Ці чудеса можливі завдяки комп'ютерному зору.
Ця стаття допоможе розібратися в людському і комп'ютерному зорі, їх відмінності та користь для людей.
Ми, люди, не замислюємося над нашим зором, але при створенні робота треба враховувати все. А значить роботу потрібні камери, сенсори і датчики, щоб бачити. Потрібен комп'ютер, щоб обробити картинку. І штучний інтелект, щоб проаналізувати дані. Усі рівні важливі, і ми детально зупинимося на кожному з них.
Рівень перший: отримання картинки
Для початку роботу треба щось побачити. Тут йому допомагають камери, датчики і сенсори. Що більше пристроїв, то краще він орієнтуватиметься в просторі, але й обчислень більше, а отже, і комп'ютер потрібен потужніший. Якщо робот пересувається, то найкраще використовувати лідар для визначення відстані до об'єктів або хоча б ToF-камеру. Якщо треба розпізнати об'єкт, то потрібна камера. Часто всі пристрої працюють у кооперації.
Такі розумні роботи, як наприклад Промобот, для виявлення людини використовують масив мікрофонів. Вони розташовані навколо робота (8 штук) і під час голосу людини, робот розуміє, звідки виходить звук, і повертається до мовця. Інший варіант використання мікрофонів, якщо перед роботом стоїть кілька людей, то робот розуміє, з ким йому розмовляти, завдяки звуку, що виходить від конкретної людини.
Тож роботу, щоб бачити - потрібні й мікрофони!
Лідар
На сьогоднішній день - це пристрій найсучасніший і найперспективніший для визначення відстані до об'єктів, його все частіше використовують у робототехніці. На зорі використання - лідар коштував чимало грошей і використовувався рідко. На безпілотних автомобілях лідар використовується повсюдно і за допомогою свого лазера визначає відстань до об'єктів. І так, iPhone вже теж обзавелися цією технологією.До переваг можна зарахувати - високу точність вимірювань і хорошу видимість на світлі та в темряві, на відкритій місцевості та в закритих приміщеннях. До недоліків належить - погане розпізнавання прозорих поверхонь, що відбивають, і поверхонь, що відбивають.
ToF-камера
Ще один пристрій для визначення відстані - це ToF-камера (ToF - Time-of-flight). Основна відмінність у тому, що вона випускає світло в інфрачервоному діапазоні для визначення відстані і за відбитим світлом будує зображення.Ця камера може бачити об'єкти на відстані 5 і більше метрів і з її допомогою теж можна побудувати карту приміщення, а ще розпізнати обличчя людини. Вона, як і лазер, випускає світло в невидимому для людського ока діапазоні.
Наше життя тільки зараз наповнюється такими камерами, оскільки 10 років тому лідар коштував сотню тисяч баксів. А тепер їх вбудовують у роботів і в переносні гаджети.
Роботи за допомогою лідарів і ToF-камер будують карту приміщень і запам'ятовують її в пам'яті, щоб переміщатися, і це дає їм змогу впевнено їздити без зіткнень. А потужний процесор обробляє всю інформацію, але про це в іншій статті.
Але треба розуміти, що крім переваг є й недоліки, поки що лідари і ToF-камери мають маленьку роздільну здатність. Навіть в автомобільних лідарах роздільна здатність становить від 64 до 128 ліній. Тому виробникам доводиться вибирати, що сканувати, і деякі області можуть не потрапляти в область спостереження. Тут на допомогу приходять камери. Це додаткова можливість побачити роботу сліпі зони.Рівень другий: обробка
Після отримання всієї інформації від сенсорів її необхідно обробити. У людей цей процес відбувається непомітно, мозок сам без роздумів виконує таку операцію. А ось роботу треба закласти алгоритм дій і йому треба попрацювати, щоб "перетравити" всі дані.
Лідар дає інформацію у вигляді тривимірної хмари точок, які легко піддаються обробці.
Робот бачить людину і йому потрібно визначити її розміри і де на карті вона розташована. Габарити роботу обчислити складно, одним зі способів є "усічена піраміда". Усі виявлені предмети поміщаються в конус, а об'єм конуса вираховується нейромережею. І ми плавно переходимо на третій рівень.
Рівень третій: аналіз
Аналізом даних на зображеннях у хороших роботів займаються нейромережі. Щоб розповісти про них знадобиться тисячі таких статей, як ця. А якщо коротко, то це багато рівнянь, що мають зв'язок одне з одним. Поміщаючи дані в нейромережу, вона їх аналізує і дає відповідь. Для прикладу, якщо вказувати нейромережі обличчя людей, то вона навчиться і почне розуміти де обличчя.Процес проходить у три етапи, перший - нейромережі показали обличчя, другий - показали різні картинки не тільки обличчя і якщо вона без помилок визначила обличчя, то нейромережа навчена, третій - зменшення розміру мережі для швидкості та її оптимізації. Тепер можна запускати нейромережу в роботу.
Вчені створили цю технології на базі нашого мозку. Людина повторює що-небудь певну кількість разів, запам'ятовує це, в процесі таких повторень нейронні зв'язки міцнішають і настає розуміння. Роботів треба навчити всім предметам, які їх оточують, щоб вони розуміли, що бачать, і щоб людям було легко з ними спілкуватися і взаємодіяти. З кожним роком роботи стають розумнішими, до того ж робот з нейронкою сам буде розумнішати, без участі людини.
Зір - він у тебе у свідомості.