Как работает новый диктофон на телефонах Google Pixel?

Однозначно, Google сейчас в авангарде исследований искусственного интеллекта (ИИ) и машинного обучения (МО). Достаточно посмотреть на продукцию компании — начиная с топовой технологии компьютерной фотографии, заканчивая подсказками при наборе писем. ИИ и МО — ключевой элемент всей деятельности Google.


Очередной пример успешного применения МО — диктофон на Pixel 4. Компания выпустила умное приложение вместе с новым Pixel: с помощью встроенного машинного обучения устройство может расшифровывать аудиозаписи. Спустя несколько месяцев приложение стало доступно и на более старых моделях телефона, на днях в блоге Google появилось подробное объяснение того, как именно работает программа.

Расшифровка

Приложение создает скрипт прямо во время проигрывания записи. По готовой расшифровке можно искать отдельные слова — так вам не придется переслушивать целую запись, чтобы найти конкретный момент разговора.

Для этого в Google улучшили встроенную модель распознавания речи. Благодаря обновлению диктофон теперь может расшифровывать записи длиной до нескольких часов. Слова отображаются с прикрепленной временной меткой — при прочтении вы можете нажать на любое слово, и запись начнет проигрываться с нужного момента. Таким же образом можно включить нужное место записи, запустив предварительно поиск конкретного слова.

Визуализация звука

Также в блоге Google объяснили, как для построения связи между звуками и цветами используются сложные нейросети. Та же модель работы используется в Live Caption — функция, появившаяся впервые на Android 10.

Модель распознает различные звуки, например, лай собаки или игру на музыкальном инструменте, а затем назначает выбранной аудиоволне свой цвет. Это позволяет пользователю визуально отличать звуки. Так, если где-то еще на записи лает собака, вы можете сразу это увидеть и промотать этот момент аудио, не слушая его.

Диктофон самостоятельно определяет разные виды звуков — речь, музыку — каждые 50 миллисекунд в промежутке 960 миллисекунд. Представители компании говорят, что такой механизм «позволяет точнее определить начало и конец звука, чем просто проверка большого отрезка длиной в 960 миллисекунд».

Возможные названия и тэги

По окончании записи приложение предложит название для нее и соответствующие тэги. Для этого диктофон рассчитывает частоту употребления отдельных слов и их грамматическую роль в предложении. Слова, которые приложение считывает как наиболее важные, выделяются прописными буквами, после этого встроенный алгоритм помечает существительные и имена собственные, которые пользователю легче всего запомнить. Затем они проходят через специальный механизм, который выстраивает их по порядку в соответствие со степенью важности. Финальный результат выводится на экран.

Что же, сделать действительно хороший диктофон не так просто, как кажется. Удивительно много работы приложение производит за кадром. Причем, помимо всего прочего, в Google позаботились и о безопасности данных — все перечисленные процессы происходят исключительно на телефоне. Единственный минус — пока приложение не может ориентироваться между динамиками, но наверняка и с этим компания вскоре разберется.

Добавить комментарий