Будущее v-commerce: как использовать распознавание речи и голосовой поиск в 2025 году
🍷 Забронируй столик на вечер в ресторане. Что-то романтичное, у нас с женой годовщина.
🐶 Еще закажи корм собаке. Доставка – на завтра, вторая половина дня.
И не забудь про напоминания. Спасибо!

- Что такое голосовая коммерция?
- Какую пользу она приносит бизнесу?
- Как голосовая коммерция меняет современный ритейл?
- Какие компании уже успешно внедрили голосовой поиск и распознавание речи в свои процессы, а какие решили отказаться от технологии?
- Как изменилась обработка голоса человека с развитием искусственного интеллекта?
Что такое голосовая коммерция
- Распознавание речи – обработка данных для определения произнесённых слов («что было сказано»);
- Распознавание голоса – идентификация личности пользователя, отправившего запрос («кто это сказал»).

Преимущества голосовой коммерции
- Скорость ответа – современные системы распознавания речи на основе искусственного интеллекта обеспечивают мгновенную реакцию на запрос с точностью 90–95%;
- Инклюзивность – технология помогает слабослышащим и людям с ограниченными возможностями или затрудненной мобильностью легче пользоваться услугами компаний;
- Многозадачность и свобода действий – голосовое управление позволяет взаимодействовать с нужным сервисом и решать самые разные задачи, не отрываясь от вождения, готовки, тренировок, а также в других ситуациях, когда у пользователя нет возможности отправить текстовый запрос;
- Быстрая локализация – возможность голосовых помощников воспринимать сразу несколько языков и общаться на них дает бизнесу возможность выходить на новые рынки, а также адаптировать свои предложения под их особенности и глубже понимать потребности целевой аудитории за счет анализа голосовых запросов;
- Доступность 24/7 – с помощью голосового поиска можно принимать заказы по телефону или через приложение даже в нерабочее время, не привлекая к этому реальных операторов.
Как работает распознавание речи
- Ввод аудиосигнала – микрофон улавливает звук и преобразует звуковые колебания в электрические сигналы.
- Предварительная обработка данных – аудиосигнал очищается от шумов с помощью частотных кепстральных коэффициентов (MFCC), что позволяет системе сосредоточиться на значимых паттернах и перевести сигнал в цифровой формат, который может быть обработан компьютером.
- Извлечение паттернов – система анализирует аудиосигнал, выявляя ключевые характеристики, такие как высота тона, тембр и частота.
- Распознавание образов – анализ речи и сопоставление ее с базой голосовых отпечатков (да, как и отпечатки пальцев, каждый голос уникален). Искусственный интеллект учитывает интонацию, дикцию и другие отличительные особенности говорящего.
- Обработка речи – распознанные аудиошаблоны преобразуются в текст, после чего алгоритмы обработки естественного языка (NLP) интерпретируют его смысл.

Как использовать инструменты голосовой коммерции
Оформление заказов
Проведение оплат
Клиентская поддержка
- 90% точности в маршрутизации звонков;
- 98% вовлеченности абонентов и скорости ответа;
- 10 секунд экономии на каждом звонке, поступившем в контакт-центр.
Управление запасами
Шоппинг с использованием голоса
Специальные предложения

Проблемы и подводные камни
ИИ «галлюцинации»
Многоязычие и ошибки в диалектах
Конфиденциальность и безопасность
Тренды в развитии голосовой коммерции с использованием ИИ
От Speech-To-Text к Speech-To-Speech
- Автоматическое распознавание речи (ASR) точно определяет и транскрибирует различные акценты, диалекты и речевые паттерны, используя модели искусственного интеллекта и машинного обучения.
- Алгоритм машинного перевода обрабатывает текст и переводит его на целевой язык.
- Обработка естественного языка (NLP) анализирует и интерпретирует транскрибированный текст, чтобы лучше понять контекст и смысл сказанного.
- Синтез речи преобразует переведенный текст в устную речь на целевом языке.
- Технология преобразования текста в речь (TTS) преобразует написанные слова, используя модели искусственного интеллекта и машинного обучения для генерации естественной речи с вариациями высоты тона, темпа, произношения и интонации.
Генеративный ИИ и голосовые помощники
- Яндекс Алиса – в декабре 2024 года «Яндекс» обновил опцию «Алиса Про» и предоставил пользователям доступ к новейшей языковой модели YandexGPT 4 Pro. Это улучшение позволяет «Алисе» генерировать более точные и осмысленные ответы, делая взаимодействие с пользователями ещё более естественным и эффективным;
- Сбер Салют – в ноябре 2023 года «Сбер» представил обновлённого виртуального ассистента, интегрировав в него нейросеть GigaChat. Теперь он может вести более осмысленные диалоги и предоставлять пользователям персонализированные рекомендации;
- Amazon Alexa – обновлённая версия помощника превратится в ИИ-агента, способного выполнять практические задачи и работать как персональный консьерж;
- Google Gemini Live – обновлённый помощник для iPhone, поддерживающий бытовые разговоры. Он поможет с подготовкой к собеседованиям, планированием путешествий и решением творческих задач;
- OpenAI Whisper – система автоматического распознавания речи (ASR), обученная на 680 000 часах многоязычных данных. Она хорошо распознаёт акценты, фоновые шумы и технические термины, поддерживает несколько языков и переводит их на английский.
«Очеловечивание» роботов
- FunAudioLL – семейство моделей, предназначенное для улучшения естественного речевого взаимодействия между человеком и большими языковыми моделями (LLM). В него входят SenseVoice для распознавания многоязычной речи, эмоций и аудиособытий, а также CosyVoice для генерации естественной речи с контролем над языком, тембром, стилем и идентификацией диктора;
- ИИ-чатбот Meta с голосами знаменитостей – Meta запустила ИИ-чатбот с возможностями голосового взаимодействия, включая голоса знаменитостей, таких как Джуди Денч.

Перспективы голосовой коммерции
- Бизнес – голосовой ИИ становится важной частью digital-стратегии, где компаниям предстоит персонализированный и многоязычный голосовой сервис, чтобы оставаться конкурентоспособными;
- Покупатели – удобство через управление сервисами без рук и улучшенная персонализация повышают актуальность голосовой коммерции для оформления заказов;
- Разработчики – ключевыми задачами остаются повышение точности ИИ, защита конфиденциальности и баланс между автоматизацией и человеческим взаимодействием.