Создана программа для распознания текста, нарисованного пальцем в воздухе

Алгоритм для распознавания создан американскими разработчиками.

Оказывается, текст , нарисованный пальцем в воздухе, можно распознать и не только. Американские разработчики создали уникальный метод, позволяющий набирать текст, рисуя его пальцем в воздухе. При этом разработанный алгоритм способен использовать данные со стереокамеры или перчатки с датчиками для отслеживания кончика пальца и распознавания рукописного текста. Метод вполне применим для ввода данных при использовании VR-шлема, сообщают авторы статьи, представленной на конференции CV4ARVR 2020.

В VR-шлемах для управления обычно используется контроллер, который пользователь держит в руке или обеих руках. С его помощью он может указывать на интересующие его объекты и взаимодействовать с ними с помощью кнопок. Для большинства взаимодействий такой интерфейс вполне подходит, не вызывая особого дискомфорта. В том случае, если пользователю нужно ввести текст, например, для поиска необходимого фильма или ролика, такой способ работает уже гораздо хуже, потому что ему приходится наводить курсор на отдельные буквы и нажимать их.

Ечжоу Ян (Yezhou Yang) и его коллеги из Университета штата Аризона разработали метод непрерывного рукописного ввода для VR-шлемов, который делает набор текста более естественным. Выбраны два устройства, которые можно использовать для распознавания. Одно из них — это перчатка, у которой на конце указательного пальца установлены акселерометр и гироскоп для отслеживания траектории. Второе устройство — это контроллер Leap Motion, состоящий из двух инфракрасных камер и инфракрасной подсветки. Он самостоятельно распознает текущее положение всех частей кисти и выдает компьютеру готовые данные. И в том, и в другом случае пользователю при вводе слова или комбинации символов надо элементарно начертить их пальцем в воздухе.

После сбора устройством данных о траектории, алгоритм классификации на основе сверхточной нейросети или метода опорных векторов, в зависимости от задачи, сопоставляет введенным пользователем данные из датасета. Разработчики проверили работу алгоритмов на нескольких задачах, в том числе распознавании рукописного текста по набору из 210 слов. Для английского языка точность распознавания составила 79,7 процента при использовании инфракрасного контроллера и 78,5 при использовании перчатки. Вместе с этим результаты для китайского языка оказались выше: 87,4 и 83,4 процента, соответственно.

На GitHub были опубликованы датасеты и код библиотеки для распознавания на Python. Также в статье отмечается, что вместе с кодом должны быть отражены и технические подробности работы алгоритмов.

Примечательно, что распознавание рукописных слов в VR-шлеме потенциально можно использовать и с существующими устройствами. Так, например, Oculus Quest еще в 2019 году получил обновление, добавляющее возможность отслеживать в реальном времени положение кистей рук и всех пальцев.

Читайте новости в нашем Телеграме.