skysilver

<<< Back

Мой взгляд на вопрос голосового управления в MajorDoMo

Мнение об использовании голосового управления в MajorDoMo, а также разборка массива микрофонов из PlayStation Eye.

Очень часто задаваемый вопрос на форуме и в чате Telegram - как прикрутить голосовое управление к MajorDoMo?

Лично я в своем УД управление голосом в повседневном режиме практически не использую. Пара раз в качестве теста или wow-эффекта для гостей не в счет. Но, видимо, уже настало время подстроиться под современные тренды, поэтому начинаю постепенно погружаться в эту тему.

В MajorDoMo уже есть как минимум три способа управления голосом:

  1. Приложение для android MajorDroid.
  2. Расширение для браузеров ChromeGateMJD.
  3. Telegram-bot + штатный голосовой набор клавиатуры в android или ios.

В принципе все они вполне могут использоваться на практике. Но в то же время имеют ряд недостатков, которые ограничивают возможности их практического применения.

Основой любого голосового управления является правильное преобразование речи в текст (распознавание, speech to text - STT), которое в свою очередь напрямую зависит от качества аудио записи, полученной с микрофона. Соответственно можно сделать вывод, что все упирается в качество микрофона. Использовать для этих целей встроенный микрофон, usb-микрофон и т.п. одноканальные микрофоны - тупиковый вариант. Перспективный и, имхо, единственно верный вариант - это применять массив микрофонов с последующей цифровой обработкой сигнала с помощью специализированного сигнального процессора (DSP). Именно такой подход применяется в коммерческих продуктах таких, как Amazon Echo (Alexa) и Google Home (Ok, Google).

Массив микрофонов (4 и более микрофона) совместно с DSP обеспечивают шумоподавление, эхоподавление, АРУ, бимформинг, определение направления на источник звука.

Для любителей DIY на рынке есть несколько KIT-решений для самостоятельной сборки аналогов Amazon Echo и Google Home:

  • Seeed ReSpeaker Mic Array;
  • Conexant 4-Mic Development Kit;
  • Microsemi AcuEdge;
  • MATRIX Creator;
  • MiniDSP UMA-8.

Хороший сравнительный обзор и тестирование этих микрофонных массивов приведены в Benchmarking Microphone Arrays.

Помимо специализированных массивов в тестировании также участвовала usb-камера от Sony PlayStation 3 - PlayStation Eye. Данная камера имеет на борту микрофонный массив из 4-х микрофонов (4х16-bits/channel, 48kHz, SNR 90db) и по результатам тестирования показала на удивление хорошие результаты, несмотря на то, что в ней отсутствует специализированный DSP. Поэтому для начала остановился именно на ней.

В настоящий момент PlayStation Eye официально не продается, но ее вполне можно найти на барахолках, avito, в ломбардах. Мне удалось купить ее за 600 р. в местном клубе любителей PlayStation.

ps_eye_1
ps_eye_2
ps_eye_3
ps_eye_4
ps_eye_5

Продолжение следует...

P.S. Пользователем форума immortal разрабатывается шилд голосового ассистента, подробности о котором можно узнать в чате Telegram

Discuss (3) (13)

See also:
2018-08-15 Кронштейн NB F120 (North Bayou)
2018-07-18 WiFi-информер на светодиодных матрицах MAX7219 и ESP8266. Часть 3.
2018-06-20 WiFi-информер на светодиодных матрицах MAX7219 и ESP8266. Часть 2.
2018-06-15 WiFi-информер на светодиодных матрицах MAX7219 и ESP8266. Часть 1.
2018-05-20 Кросс-компиляция ядра для Banana Pi M2U
2018-05-14 Ссылки на ресурсы по MajorDoMo
2018-03-02 Знакомство и тестирование Banana Pi M2U
2018-02-21 Распаковка Banana Pi M2U
2018-02-14 Одноплатный ПК для MajorDoMo
2018-08-14 Заметки по железу
2018-01-17 Обзор цен на устройства Xiaomi
2017-12-24 Гирлянда на ESP8266 и WS2812
2017-12-20 Блог им. skysilver

Киров, Россия

На форуме: skysilver

Web-site URL:
http://connect.smartliving.ru/profile/461