RealSpeaker Lab: Скоро люди будут общаться с машинами так же просто, как с людьми

RealSpeaker Lab: Скоро люди будут общаться с машинами так же просто, как с людьми

О том, как создавалось решение для распознавания аудио-видео информации RealSpeaker, его успехах и перспективах, а также о том, какую пожжержку его создатели получали от спонсоров, в интервью CNews рассказал Виктор Осетров, генеральный директор RealSpeaker Lab.

CNews: Расскажите, как возникла идея создания RealSpeaker?

Виктор Осетров: Идея создание проекта RealSpeaker возникла случайно. Стечение обстоятельств и мое увлечение лингвистикой, а также техническими новинками привели к тому, что на втором курсе университета мне в голову пришла идея создания аудиовизуальной системы распознавания речи. В учебниках по лингвистике большое внимание уделяется правильному произношению - артикуляции. Огромное значение для правильного формирования звуков несет умение правильно выговаривать слова. Также в фонетике на основе движения губ можно определить какие произносятся звуки: открытые или закрытые, звонкие и глухие, и так далее.

Также стоит сказать о том, что многие люди (например, глухонемые) со временем развивают в себе способность читать по губам – то есть понимать речь человека без звука. Со мной тоже была такая история, когда однажды, заблудившись - перепутав электрички в Подмосковье - я оказался в практически пустом вагоне, подошел к женщине и спросил, где мы сейчас находимся. К моему удивлению, женщина оказалась глухонемой, но смогла понять меня по губам и отвела меня к карте. Для меня это было шоком.

Однажды я сидел в комнате один и вспоминал этот эпизод. В тот период я активно пытался найти себя, перепробовал множество различных бизнесов. Недовольство существующим на тот момент положением, мысли о глухонемой женщине в поезде, думы о лингвистике, сюжеты романа Жюля Верна, где рассказывалось об универсальном средстве, которое позволяет жителям разных стран общаться без переводчика, исследование последних технических новинок – все это привело к тому, что однажды вечером меня осенило, и я решил реализовать аудио-видео систему распознавания речи. Связать аудио-распознавание с видеообработкой.

Эта идея показалась мне интересной. И я пошел к именитому профессору - создателю мультимедийной лаборатории моего родного города Йошкар-Ола. Я рассказал ему о моей идее. К удивлению, профессор усадил меня к монитору и начал показывать научные статьи азиатских исследователей по данной тематике. Он сказал, что как исследователь активно участвует в международных конференциях и видит, как развивается наука в России, Европе и Азии. По его словам, если Россия движется в 21 век на птице-тройке, то весь цивилизованный мир несется в новое столетие на истребителе. В итоге он сделал вывод, что заниматься моим проектом не стоит.

Его слова сильно задели меня, мне хотелось доказать, что он не прав. Как я могу отказаться от идеи, которая пришла мне в голову! Постепенно я стал посвящать проекту все больше и больше времени. Таким образом, задуманный на 2 курсе историко-филологического факультета RealSpeaker к моменту окончания Марийского государственного университета стал для меня смыслом жизни.

Первый рабочий прототип системы аудио-видео распознавание речи появился на 5 курсе университета. Тогда я познакомился с ученым из Нижнего Новгорода Иваном Губочкиным, который более 6 лет профессионально занимался видеообработкой. Совместно мы подготовили рабочий прототип технологии и впервые представили его на научной выставке. Система имела довольно ограниченную сферу применения: требовалась операционная система Линукс, использовалась специальная камера компьютерного зрения, предназначенная для промышленности. Тем не менее, технология работала, и ее можно было представить в действии. Однако хотелось создать не просто научный проект, а работающий бизнес, который будет приносить пользу людям. Такая работа началась у нас после окончания университета. Когда я вместе с командой переехал из Йошкар-Олы в Казань в стены Казанского ИТ-парка.

Первый рабочий прототип RealSpeaker

CNews: Кто финансировал ваш проект?

Виктор Осетров:: Первоначально для реализации проекта мне удавалось привлекать инвестиции от государства. Как правило, это были научные гранты на проведение исследований в области аудио-видео распознавания речи. Суммы были небольшие, но они позволяли первое время работать над проектом команде из двух-трех человек. Постепенно по мере реализации технологии привлекать государственное финансирование становилось проще.

Также мы выигрывали конкурсы, и полученные призовые деньги также вкладывали в проект. В общей сложности в проект RealSpeaker уже привлечено около $400 тыс., из них $200 тыс. - это средства государства, $100 тыс. - средства от частных компаний и $100 тыс. - собственные средства.

Крупными спонсорами нашего стартапа являются Российская Академия Наук, «Фонд Сколково», Агенство инновационного развития республики Татарстан, корпорация Microsoft, управляющая компания «Стартобаза», фонд Бортника и другие. Сейчас проект уже самостоятельно зарабатывает деньги, и мы выходим на самоокупаемость.

CNews: Почему вы решили использовать платформу Microsoft для разработки решения? Как складывалось сотрудничество с вендором?

Виктор Осетров:: Первоначально мы использовали Линукс-платформу. Но после того, как переехали в Казань, перешли на технологии Microsoft. Для нас это было оптимальным решением, так как мы хотели создать пользовательский продукт.

Затем Microsoft стал нашим партнером, а посевной фонд компании выделил нам $50 тыс. на развитие проекта. Также сотрудники корпорации активно консультируют нас по вопросам разработки приложения и предоставляют маркетинговые услуги. Microsoft отправляла меня на обучение по программе Deep Drive в Калифорнию, в Кремниевую Долину. Мы активно общаемся с представителями Microsoft и планируем запустить версию технологии RealSpeaker для мобильных устройств на операционной системе Windows Mobile (есть еще версия на Android).

Поэтому неудивительно, что Windows-версия нашего решения в данный момент пользуется наибольшей популярностью (есть еще версия на Android). На операционной системе Windows у нас больше 10 тыс. пользователей, из них активная аудитория - более 1 тыс. человек. И каждый месяц число таких пользователей удваивается.

Когда используешь инструменты компании Microsoft, к ним привыкаешь, и становится тяжело разрабатывать на других платформах. Например, работая с базой данных, мы также мигрируем на облачный сервис Azure.

В последнее время мы стали активно общаться с корпорациями Samsung и LG. Им интересна интеграция нашего решения видеораспознавания в голосовые помощники S-Voice и Q-Voice. Также им интересно использовать наши решения для идентификации и верификации пользователя в системах онлайн-банкинга. Мы активно общаемся с корейскими коллегами, и заключили с ними первые договора о сотрудничестве.

CNews: Расскажите подробнее о вашем решении.

Виктор Осетров:: Наше приложение увеличивает точность распознавания речи за счет предварительной аудио-видео обработки на уровне ввода. Мы не создаем распознаватель речи с нуля. Наша задача отфильтровать ненужные шумы за счет предварительной обработки сигнала от пользователя до отправки данных на сервер базы данных программ распознавания речи.

Задачу мы решаем за счет обработки аудио-видео голосовых данных. Согласно тестовым испытаниям, такая фильтрация способна увеличить точность распознавания речи на 20-40%. Выходные данные выводятся пользователю обратно в виде текста или команды.

Мы реализовали фоновый режим, который позволяет вводить с помощью голоса данные в любой активный текстовый редактор: социальную сеть, мессенджеры, скайп, WORD.

Не так давно мы поменяли концепцию. Сначала мы делали акцент исключительно на видеообработку, и нам удалось реализовать самую современную технологию, которая существенно увеличивает точность распознавания речи. Но в скором времени мы поняли, что видео-источник информации не всегда бывает надежным. Многое зависит от качества видеокамеры, освещения, от того, насколько развита у человека мимика. В конечном итоге, мы поняли, что использование программы аудио-видео распознавания речи RealSpeaker в не очень удобно, поскольку приковывает человека к конкретному устройству.

Главное преимущество голосового ввода - свобода. Поэтому мы решили поменять концепцию. Теперь видео для нас – это средство верификации пользователя. У каждого человека свой голос: у мальчиков один, у девочек другой. Более того, голос у разных людей отличается – это индивидуальный отпечаток каждого человека. Поэтому задача, которую мы поставили перед собой, – научиться выделять голос человека из общего потока.

Например, есть голос реального пользователя (мальчика), посторонние шумы, голос другого человека (девочки) – все эти шумы пропадают в микрофон. Задача приложения - из общего шума выделить голос конкретного человека (например, мальчика). Реализовать адаптивную качественную верификацию можно за счет дополнительного видео-анализа.

Текущая версия приложения 1.4

CNews: Сколько пользователей вашего решения уже сегодня?

Виктор Осетров:: В данный момент у нас более 10 000 пользователей, которые говорят на 11 языках мира. Самый серьезный рост базы данных произошел как раз в сентябре 2013 г., когда мы запустили версию 1.4 аудио-видео распознавания речи RealSpeaker в новом для нас варианте, делающем акцент на верификации. База данных за один месяц превысила показатели предыдущих 6 месяцев. Это очень здорово, поскольку показывает, что новая концепция более правильная. Планы до конца этого года - 100 000 пользователей. Реализовать это удастся за счет улучшения юзабилити программы и возможности более точно осуществлять верификацию речи пользователя.

Скачать приложение можно бесплатно и в течение 3 дней протестировать его. Если решение понравится, то можно приобрести лицензию на год – цена $15. В то время как цена для большинства современных продуктов выше, например, лицензия Nuance стоит от $300 до $700.

CNews: Как вы видите перспективы развития вашего проекта в ближайшие 3-5 лет?

Виктор Осетров:: В наших планах на ближайшее будущее – доделать адаптивную версию аудио-видео распознавания, которая позволит правильно идентифицировать диктора и его речь в общем потоке.

Затем мы планируем с помощью программы привязать голосовой и видео-речевой отпечаток к социальному аккаунту конкретного пользователя. Это позволит системе самостоятельно узнавать пользователя программы, где бы он не был. Так же такого рода информация позволит составить лингвистический портрет конкретного человека на основе той речи, которую он произносит. Накопленная база данных позволит лучше понимать интересы человека везде, где он использовал нашу программу на основе накопленной базы данных: взаимодействие с техникой, деловое общение, например через электронную почту, скайп, мессенджер, любая голосовая переписка, разговорное общение, обучение и многое другое.

Реализация качественной системы распознавания речи позволит серьезно изменить взаимоотношения между компьютером и человеком - сделать его более естественным. Люди будут общаться с машинами так же просто, как общаются с людьми. Наше решение за счет использования элементов аудио-видео обработки позволяет приблизить человечество к будущему, поскольку решить задачу взаимодействия человека и техники невозможно без создания высокоточной системы перевода речи в текст. Совсем скоро все силы техники будут направлены на то, чтобы сделать жизнь людей проще, интереснее, насыщеннее. Не человек будет подстраиваться под конкретное устройство, а любое устройство будет подстраиваться под конкретного человека.

CNews: Что бы вы могли посоветовать начинающим разработчикам, исходя из своего опыта?

Виктор Осетров:: Начинающим разработчикам и начинающим предпринимателям мой главный совт - заниматься делом, которое вам нравится! Если Вы делаете, то, что не приносит удовольствия, вы обманываете не столько себя, сколько окружающих. Поскольку, сами того не замечая, передаете этот негатив всем, кто вас окружает. Старайтесь найти себя и найти дело, которое вам по душе и которое приносит пользу людям.

Также рекомендую пробовать, делать ошибки и снова пробовать. Если беретесь за дело, то идите до конца - сделайте все возможное, чтобы его реализовать. Как говорил Редьярд Кипплинг: «Когда, что-то пойдет не так, а это случится когда-нибудь – не сдаваться; когда твои деньги кончились, а долги велики – не сдаваться; когда ты устал – отдохни если невмоготу, но не сдавайся; ведь часто успех значительно ближе, чем это кажется усталому, измученному дорогой человеку».