Физтехи дали роботам новое зрение - 1 Апреля 2026

Главная » » Физтехи дали роботам новое зрение

16:32

Физтехи дали роботам новое зрение

Новый алгоритм позволит роботам видеть мир в объёме и без слепых зон.

Международный научный коллектив с участием учёных МФТИ представил новую технологию стереозрения Un-ViTAStereo, которая определяет расстояние до объектов, не используя для обучения дорогостоящие лидары и ручную разметку. Она точна даже там, где "слепнут" современные алгоритмы: перед гладкими стенами, в густой листве или тумане. Технология может применяться в том числе для безопасности беспилотных автомобилей и автономных роботов. Исследование опубликовано в IEEE Transactions on Circuits and Systems for Video Technology.

Как мы понимаем, насколько удалён от нас предмет? Каждую секунду наш мозг сопоставляет два немного разных изображения – от левого и правого глаза – и на основе разницы между ними строит трёхмерную карту мира.

Стереосистемы роботов и беспилотных автомобилей устроены подобной зрению человека. Только вместо глаз они используют камеры, а вместо мозга — алгоритмы. Но этот механизм срабатывает не везде. Например, при встрече с идеально белой стеной или зоной с повторяющимися узорами, алгоритму не хватает визуальных зацепок, чтобы верно сопоставить изображения. Могла бы помочь ручная разметка с правильным расстоянием до каждого объекта, но работать она будет только в ограниченном сценарии.

Новый фреймворк для обучения нейросетей, разработанный международной командой учёных, помогает преодолеть этот барьер. Они вводят в процесс обучения "наставника" — модель Depth Anything V2. Она умеет оценивать относительную глубину только с помощью "одного глаза" — одного изображения. Depth Anything V2 не измеряет метры, но распознаёт тени, перспективу и перекрытия объектов и почти безошибочно определяет, что ближе, а что дальше. Алгоритм отбирает только те предсказания стереосистемы, которые согласуются с её подсказками, и учит нейросеть повышать точность.

«Модель Depth Anything V2 постоянно передаёт различные подсказки стереосистеме. Например, “я не знаю, на сколько метров эта машина ближе дерева, но она точно ближе, и граница между ними должна быть резкой” или “на этой стене, где нет контраста, глубина должна меняться плавно” и т.д.» — пояснил Александр Дворкович, руководитель проекта Научно-технического центра телекоммуникаций МФТИ.

Система работает в три этапа. Сначала алгоритм оценки диспаратности (смещения) (DDCV) проверяет каждый пиксель, соответствуют ли его данные подсказкам "наставника", и помечает их зелёным (верно) и красным (ошибка) цветом. Затем функция потерь на основе локального ранжирования глубины (LDR) ищет вокруг каждой красной точки несколько зеленых соседей. Подобно маякам, они задают границы и сдвигают красный пиксель на нужное место.

Наконец, алгоритм «Двойная функция потерь сглаживания диспаратности DDS» помогает построить контуры. Она убирает цифровой шум там, где "наставник" говорит, что цвет должен быть равномерным, и наоборот.

«Работу системы уже протестировали на стандартных датасетах. Результат — абсолютное превосходство Un-ViTAStereo среди всех аналогов на бенчмарке. Например, на тесте беспилотников KITTI 2015 долю грубых ошибок удалось снизить до 5%. Это значит, что при движении будет на 23% меньше опасных ошибок в определении расстояний до объектов (бордюра или пешехода» — добавил Александр Дворкович.

_{Иллюстрация работы алгоритма оценки достоверности диспаратности (DDCV).}

Текущая версия Un-ViTAStereo — только начало. На ее основе учёные планируют создать самообучающуюся нейросеть, которая сможет адаптироваться под специфику разных сред — от городских улиц до заводских цехов. Также учёные хотят использовать редкие, но точные измерения лидаров в качестве "супер-маяков" для обучения, что еще больше повысит точность.

Источник: https://mipt.ru/news/

Просмотров: 80 | Добавил: newjz | Рейтинг: 0.0/0

Всего комментариев: 0

« Апрель 2026 »
Пн	Вт	Ср	Чт	Пт	Сб	Вс
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30