Будущее v-commerce: как использовать распознавание речи и голосовой поиск в 2025 году

Время прочтения — 16 минут
Содержание
Привет, Алиса, вот список задач на сегодня:
🍷 Забронируй столик на вечер в ресторане. Что-то романтичное, у нас с женой годовщина.
🐶 Еще закажи корм собаке. Доставка – на завтра, вторая половина дня.
И не забудь про напоминания. Спасибо!
Шопинг с использованием голоса уже не кажется чем-то удивительным. По данным опроса Департамента социальных исследований и консалтинга ВЦИОМ Андрей Даудрих, среди 63% россиян, которые использовали ИИ-инструменты в. 2024 году, 31% прибегали преимущественно к голосовым помощникам.
Сегодня голосовая коммерция помогает бизнесу быстро определить и даже «предугадать» потребности клиента. Ассистенты нового поколения не просто распознают ключевые слова из запроса, но также изучают историю заказов пользователя, делают персонализированное предложение и могут даже понять его настроение, чтобы найти правильный тон и аргументы для общения.
С другой стороны – компании продолжают сталкиваться с проблемами в интерпретации данных, обрабатываемых через голосовой поиск. В этой статье мы рассмотрим успешные кейсы и неудачные примеры, сдерживающие развитие технологии, расскажем про тренды голосового шоппинга и особенности интеграции такого решения.
Вы узнаете:
  • Что такое голосовая коммерция?
  • Какую пользу она приносит бизнесу?
  • Как голосовая коммерция меняет современный ритейл?
  • Какие компании уже успешно внедрили голосовой поиск и распознавание речи в свои процессы, а какие решили отказаться от технологии?
  • Как изменилась обработка голоса человека с развитием искусственного интеллекта?

Что такое голосовая коммерция

Голосовая коммерция (voice commerce, v-commerce) – это технология, которая позволяет пользователям совершать покупки без необходимости ввода текста или нажатия кнопок. Вместо этого достаточно отправить голосовой запрос ассистенту, который обработает его и выполнит нужное действие. Например, найдет товар, оформит заказ на сайте или спишет оплату. Для обработки запросов используются микрофоны и системы распознавания речи, которые преобразуют голос в команды, упрощая процесс онлайн-шоппинга и делая его более удобным и интуитивным.
По данным Statista, к концу 2025 года общее количество пользователей цифровых голосовых помощников достигнет 8,4 миллиарда.
Сейчас технология представлена двумя основными направлениями:
  • Распознавание речи – обработка данных для определения произнесённых слов («что было сказано»);
  • Распознавание голоса – идентификация личности пользователя, отправившего запрос («кто это сказал»).
В России интерес к голосовой коммерции стремительно растёт: согласно исследованию Just AI, с 2015 года рынок разговорного искусственного интеллекта (ИИ) увеличился на 1288%, а к концу 2025 года его объем достигнет 561 млн долларов. Большое влияние на представление о работе с технологией оказывает развитие и распространение искусственного интеллекта: голосовые помощники научились лучше распознавать сложные запросы, повысили скорость обработки речи и теперь могут отвечать пользователю так, как это сделал бы реальный человек. Поэтому сегодня около 37% компаний малого и среднего бизнеса в России применяют технологию для продвижения своих услуг.

Преимущества голосовой коммерции

Согласно статистике Data Reportal, около 20,5% людей во всем мире используют голосовой поиск. Технология дает пользователям следующие преимущества:
  • Скорость ответа – современные системы распознавания речи на основе искусственного интеллекта обеспечивают мгновенную реакцию на запрос с точностью 90–95%;
  • Инклюзивность – технология помогает слабослышащим и людям с ограниченными возможностями или затрудненной мобильностью легче пользоваться услугами компаний;
  • Многозадачность и свобода действий – голосовое управление позволяет взаимодействовать с нужным сервисом и решать самые разные задачи, не отрываясь от вождения, готовки, тренировок, а также в других ситуациях, когда у пользователя нет возможности отправить текстовый запрос;
  • Быстрая локализация – возможность голосовых помощников воспринимать сразу несколько языков и общаться на них дает бизнесу возможность выходить на новые рынки, а также адаптировать свои предложения под их особенности и глубже понимать потребности целевой аудитории за счет анализа голосовых запросов;
  • Доступность 24/7 – с помощью голосового поиска можно принимать заказы по телефону или через приложение даже в нерабочее время, не привлекая к этому реальных операторов.
Возможность взаимодействовать с клиентом в любое время и в любых обстоятельствах увеличивает коэффициент конверсии от первоначального запроса до фактического заказа в 2–3 раза. Поэтому голосовую коммерцию активно используют фудтех и ритейл, где потребность в покупке может возникнуть спонтанно.
Хотите внедрить голосовой поиск для заказа ваших услуг? Расскажите про ваш проект!

Как работает распознавание речи

Отвечая на вопрос «что такое голосовой поиск?», важно рассмотреть его техническую сторону. Сегодня обработка речи включает в себя несколько ключевых этапов:
  1. Ввод аудиосигнала – микрофон улавливает звук и преобразует звуковые колебания в электрические сигналы.
  2. Предварительная обработка данных – аудиосигнал очищается от шумов с помощью частотных кепстральных коэффициентов (MFCC), что позволяет системе сосредоточиться на значимых паттернах и перевести сигнал в цифровой формат, который может быть обработан компьютером.
  3. Извлечение паттернов – система анализирует аудиосигнал, выявляя ключевые характеристики, такие как высота тона, тембр и частота.
  4. Распознавание образов – анализ речи и сопоставление ее с базой голосовых отпечатков (да, как и отпечатки пальцев, каждый голос уникален). Искусственный интеллект учитывает интонацию, дикцию и другие отличительные особенности говорящего.
  5. Обработка речи – распознанные аудиошаблоны преобразуются в текст, после чего алгоритмы обработки естественного языка (NLP) интерпретируют его смысл.
✍ В результате система выполняет конкретное действие в ответ на запрос пользователя. Например, оформляет заказ, проводит авторизацию пользователя или оказывает клиентскую поддержку.

Как использовать инструменты голосовой коммерции

По данным Business Research Company, мировой рынок голосовой коммерции достигнет примерно 151,39 миллиарда долларов в 2025 году, а 60 % пользователей смартфонов уже сейчас используют голосовой поиск при совершении покупок. Поэтому технология становится все более актуальной для разработки приложений для ресторанов и сайтов ритейлеров: она помогает улучшить сервис и предлагает бизнесу новые возможности. Рассмотрим некоторые из них.

Оформление заказов

Тренды e-commerce показывают, что ассистенты на базе ИИ и голосовой поиск делают обслуживание в удаленных точках обслуживания – автокафе, драйвах, заправках – более персонализированным. Технология позволяет быстро проанализировать предыдущие заказы клиента, ненавязчиво рассказать о специальных предложениях и повысить средний чек за счет дополнительных продаж. Поэтому голосовые помощники все чаще интегрируют с киосками самообслуживания и другими девайсами.
Активно использует распознавание речи американская сеть Wendy's. На начало 2025 года компания уже оснастила искусственным интеллектом с поддержкой голосового поиска около 100 кафе. Однако не все остались довольны этими изменениями. Многие клиенты жаловались в своих соцсетях, что голосовой помощник часто перебивает их в процессе оформления заказа, а также может отключиться, если задуматься и сделать паузу.
Компания McDonald's и вовсе планирует прекратить эксперимент по автоматизации обработки заказов с помощью искусственного интеллекта. Напомним, что прием заказов через голосовых помощников также работал в 100 точках продаж сети. Но технология не раз давала сбои и допускала ошибки в заказах клиентов, что вызывало большой негатив с их стороны.
А вот в сети Dodo Pizza остались довольны интеграцией голосовой коммерции в процесс приема заказов. По данным компании, помощник определяет запросы с точностью 85%. Если система правильно распознала их, то 97% запросов бот закрывает самостоятельно. В результате колл-центр компании может принимать на 30% больше заказов.
Другие идеи для приема заказов через киоски-самообслуживания читайте в нашей статье
В России жители Московской и Ленинградской областей также могут оформить доставку в Яндекс Лавке с помощью голосового помощника Алисы. Достаточно просто попросить: «Закажи продукты в Лавке». Затем перечислить нужные товары. Например: «Хлеб, кефир и мандарины» или «Добавь в корзину молоко». Если важен бренд, нужно также уточнить его, иначе Алиса подберёт товар исходя из истории заказов. После того, как список будет готов, завершить оформление нужно командой «Хватит» или «Всё». Далее пользователю придёт пуш-уведомление с покупками в приложении Яндекс Лавка, где можно проверить заказ и внести изменения. Остаётся только оплатить и дождаться доставки.

Проведение оплат

Голосовые помощники упрощают оплату покупок и услуг. Например, в Алисе доступен навык «Оплата голосом», позволяющий пользователям быстро платить по счетам с помощью голосовых команд. Для работы функции необходимо привязать Яндекс Pay или банковскую карту. Так пользователи могут рассчитаться за пользование мобильной связью и другими сервисами, не отвлекаясь от текущих дел.

Клиентская поддержка

Несколько лет назад руководство британской компании Marks & Spencer решило изменить работу службы поддержки и повысить качество обслуживания клиентов. На смену устаревшей системе пришла полная автоматизация процесса с использованием технологии искусственного интеллекта для более точного распознавания сути запросов и улучшенной маршрутизации звонков. Изменения привели к следующим результатам:
  • 90% точности в маршрутизации звонков;
  • 98% вовлеченности абонентов и скорости ответа;
  • 10 секунд экономии на каждом звонке, поступившем в контакт-центр.
Помогает искусственный интеллект и в обслуживании гостей ресторанов. Например, в заведении Bodega в Сан-Франциско работает ИИ-хост Жасмин: она принимает звонки клиентов, консультирует гостей по наличию свободных столиков и оформляет предзаказы. Тон и эмоции голосового помощника автоматически подстраиваются под характер и тему разговора.
По завершению обслуживания голосовой помощник также может запросить обратную связь у клиента: исследования показывают, что люди в 40% случаев предпочитают оставить отзыв нейросетям, чем реальным операторам.
Про важность работы с отзывами пользователей и инструменты сбора обратной мы рассказывали в этой статье

Управление запасами

Рестораны и ритейлеры и теперь могут управлять складами с помощью голосовых команд. Достаточно дать команду устройству, чтобы проверить уровень запасов, обновить инвентаризационные записи и сформировать отчеты. Это помогает сократить необходимость в ручной работе и свести ошибки к минимуму ошибки. А также упрощает процесс инвентаризации, делает его более быстрым и эффективным, предотвращая отсутствие товаров на складе или их переизбыток.

Шоппинг с использованием голоса

Сегодня покупатели могут добавлять товары в корзину и оплачивать покупки с помощью простых голосовых команд. Эти системы работают, объединяя историю заказов и предпочтения пользователя с технологией распознавания речи, чтобы обеспечить плавный процесс покупок без использования рук.
Компания Walmart разработала комплексную систему машинного обучения, чтобы персонализировать голосовой шопинг для своих клиентов. Эта система интегрируется с такими платформами, как Google Assistant и Siri, позволяя пользователям совершать покупки с помощью голоса. Анализируя предпочтения и поведение покупателей, решение Walmart предлагает индивидуальные рекомендации по товарам, упрощает процесс покупки и повышает общую лояльность клиентов.

Специальные предложения

Данные, которые собирают голосовые помощники, могут стать частью маркетинговых кампаний. В феврале 2025 года сервисы «Яндекс Еда» и «Деливери» представили ко Дню всех влюблённых букеты, созданные с помощью голосового помощника «Алиса». Московские флористы «Ирис», «Простоцветы» и ROOTS использовали её опцию «Про» для разработки 20 композиций и названий для них. Заказать букеты можно было в разделе «Сделано с Алисой».
Хотите использовать преимущества голосовой коммерции? Приходите на консультацию, и мы обсудим варианты!
Максим Бонцевич
CEO dev.family

Проблемы и подводные камни

Несмотря на растущую популярность, технология голосовой коммерции по-прежнему сталкивается с такими проблемами, как конфиденциальность пользователей, точность распознавания речи и угрозы информационной безопасности.

ИИ «галлюцинации»

Участились случаи, когда системы генерируют ложные или неточные ответы. Например, исследователи обнаружили, что голосовой сервис Whisper склонен к галлюцинациям: он создает текст или целые предложения, которых нет в оригинальном аудио. Результатом таких галлюцинаций часто становятся враждебные высказывания и даже угрозы. Поэтому обеспечение точности и надежности остается важнейшей задачей при разработке систем распознавания речи.

Многоязычие и ошибки в диалектах

Системы распознавания речи также испытывают сложность в интерпретации различных акцентов и диалектов. Особенно остро эта проблема стоит для мультинациональных Штатов. Исследование показало, что акценты Нью-Йорка, Нью-Джерси и Лонг-Айленда являются одними из самых сложных для понимания системами распознавания речи ИИ. Поэтому местные часто сталкиваются с ошибками при оформлении заказов, что снижает доверие к технологии.

Конфиденциальность и безопасность

Сбор и использование данных в ходе голосового поиска затрагивает и вопросы конфиденциальности. Во время слушаний в сенатском комитете Австралии руководители Amazon не смогли уточнить количество голосовых записей, которые собирает устройства с помощником Alexa. Это вызвало обеспокоенность по поводу использования персональных данных пользователей и отсутствия их согласия на участи в этой процедуре. Такая двусмысленность может подорвать доверие к технологиям с голосовым управлением.

Тренды в развитии голосовой коммерции с использованием ИИ

Давайте рассмотрим основные изменения в области обработки речи и тенденции, которые сегодня определяют перспективы этой технологии.

От Speech-To-Text к Speech-To-Speech

Ранее обработка речи ограничивалась только преобразованием данных в текст или команды, которые нужно выполнить системой. Этот процесс был довольно длительным и вызывали негатив у пользователей, которые со своей стороны ожидали более быстрого ответа.
С появлением технологии Speech-to-Speech общение между людьми и машинами практически происходит в режиме реального времени. Она сочетает в себе распознавание речи, обработку естественного языка (NLP) и синтез голоса, что позволяет голосовому помощнику понимать суть сказанного и реагировать, как это сделал бы реальный человек. Также технология лучше распознает различные языки, что позволяет преодолеть и этот барьер.
Speech-to-Speech использует модели искусственного интеллекта и машинного обучения для точного определения и транскрибирования различных акцентов, диалектов и речевых шаблонов. Рабочий процесс выглядит следующим образом:
  1. Автоматическое распознавание речи (ASR) точно определяет и транскрибирует различные акценты, диалекты и речевые паттерны, используя модели искусственного интеллекта и машинного обучения.
  2. Алгоритм машинного перевода обрабатывает текст и переводит его на целевой язык.
  3. Обработка естественного языка (NLP) анализирует и интерпретирует транскрибированный текст, чтобы лучше понять контекст и смысл сказанного.
  4. Синтез речи преобразует переведенный текст в устную речь на целевом языке.
  5. Технология преобразования текста в речь (TTS) преобразует написанные слова, используя модели искусственного интеллекта и машинного обучения для генерации естественной речи с вариациями высоты тона, темпа, произношения и интонации.
При использовании такого решения вы можете выбрать любой голос для обратного ответа. А улучшенная технология MFCC позволяет системе делать паузы, что дает возможность пользователям уточнить суть своего запроса и улучшить общение с голосовым помощником.

Генеративный ИИ и голосовые помощники

В 2025 году ключевые изменения будут также связаны с интеграцией генеративного ИИ в работу голосовых помощников. Среди последних изменений можно выделить следующие релизы:
  • Яндекс Алиса – в декабре 2024 года «Яндекс» обновил опцию «Алиса Про» и предоставил пользователям доступ к новейшей языковой модели YandexGPT 4 Pro. Это улучшение позволяет «Алисе» генерировать более точные и осмысленные ответы, делая взаимодействие с пользователями ещё более естественным и эффективным;
  • Сбер Салют – в ноябре 2023 года «Сбер» представил обновлённого виртуального ассистента, интегрировав в него нейросеть GigaChat. Теперь он может вести более осмысленные диалоги и предоставлять пользователям персонализированные рекомендации;
  • Amazon Alexa – обновлённая версия помощника превратится в ИИ-агента, способного выполнять практические задачи и работать как персональный консьерж;
  • Google Gemini Live – обновлённый помощник для iPhone, поддерживающий бытовые разговоры. Он поможет с подготовкой к собеседованиям, планированием путешествий и решением творческих задач;
  • OpenAI Whisper – система автоматического распознавания речи (ASR), обученная на 680 000 часах многоязычных данных. Она хорошо распознаёт акценты, фоновые шумы и технические термины, поддерживает несколько языков и переводит их на английский.
Хотите использовать возможность ИИ для развития своего бизнеса? Закажите бесплатную консультацию!
Максим Бонцевич
CEO dev.family

«Очеловечивание» роботов

Ещё один тренд в развитии голосовой коммерции – создание эмоционально востпреимчивых ИИ-моделей. Согласно данным Hindawi, около 57% разработчиков используют продвинутые модели, чтобы заставить голосовых помощников имитировать эмоции.
К последним примерам можно отнести:
  • FunAudioLL – семейство моделей, предназначенное для улучшения естественного речевого взаимодействия между человеком и большими языковыми моделями (LLM). В него входят SenseVoice для распознавания многоязычной речи, эмоций и аудиособытий, а также CosyVoice для генерации естественной речи с контролем над языком, тембром, стилем и идентификацией диктора;
  • ИИ-чатбот Meta с голосами знаменитостей – Meta запустила ИИ-чатбот с возможностями голосового взаимодействия, включая голоса знаменитостей, таких как Джуди Денч.

Перспективы голосовой коммерции

Шоппинг с использованием голоса уже давно не футуристическая концепция, а новая для ритейла и ресторанного бизнеса. Голосовая коммерция меняет подходы для всех, кто с ней взаимодействуют:
  • Бизнес – голосовой ИИ становится важной частью digital-стратегии, где компаниям предстоит персонализированный и многоязычный голосовой сервис, чтобы оставаться конкурентоспособными;
  • Покупатели – удобство через управление сервисами без рук и улучшенная персонализация повышают актуальность голосовой коммерции для оформления заказов;
  • Разработчики – ключевыми задачами остаются повышение точности ИИ, защита конфиденциальности и баланс между автоматизацией и человеческим взаимодействием.
К 2030 году голосовая коммерция станет неотъемлемой частью цифрового опыта, изменив подход к покупкам, заказу еды и взаимодействию с брендами. Компании, которые адаптируют эти технологии раньше других, получат конкурентное преимущество и возможность создать более удобные и бесшовные сервисы на основе ИИ.
Чтобы узнать больше о возможностях ИИ для бизнеса, оставьте свой запрос
Читайте также