Что такое speech service
Google Speech Services: что за приложение на Андроид, можно ли удалить?
Смартфон теперь обязательная часть жизни, без него не обходится ни одни человек, который живет в городе или поселке. В общем, везде, где есть связь. Вот и получается, что без смартфона и общения не обойтись, ведь теперь даже работа завязана на то, чтобы быстрее отвечать на звонки и вопросы и всегда быть на связи.
Выбор смартфонов на данный момент довольно большой. Большая часть из них работает под управлением операционной системы андроид и только меньшая часть под всеми другими видами систем.
Google Speech Services
Это одно из стандартных и вшитых приложений в системе андроид. По названию понятно, для чего оно используется. Google Speech Services – это программа, которая переводит тест в звук. Саму по себе её запустить нельзя, она используется всеми другими приложениями, но самостоятельно пользователем вызвана быть не может. Например, она используется в переводчике, когда он зачитывает перевод слова.
Точно также она относится и к другим приложениям, вроде мессенджеров и много другого. Они вызывают данное приложение тогда, когда нужно озвучить текст синтезированным голосом. Как видите, оно полностью системное, используется другими программами и довольно полезное, даже если напрямую им не пользуетесь.
Удаление Google Speech Services
По стандарту, телефон не даст пользователю удалить Google Speech Services. Оно считается системной службой, так что защищено от намеренных или случайных посягательств пользователя. Это не значит, что от него совсем нельзя избавится. Способы есть, но они недоступны на стандартном телефоне, для их использования придется потрудиться, также эти способы могут привести к потере гарантии, если все вскроется.
В первом случае потребуется установить на телефон рут. Это даст права, которые позволят делать все что угодно. С ними не будет проблем с тем, чтобы удалить приложение. Рут получается разными способами, здесь все зависит от того, какой телефон и какая модель находятся в руках у пользователя. Лучше поискать подробную инструкцию.
Во втором случае потребуется компьютер и установленные на нем программы для разработки. Рут получать не придется, но не скажешь, что этот способ сколько-то проще, чем первый. Придется делать много шагов, но цель будет достигнута.
Удаление Google Speech Services может сказаться на работе некоторых важных приложений, так что подумайте, перед тем как это сделать.
Что такое голосовой помощник?
Голосовые помощники, использующие службу «Речь», позволяют разработчикам создавать естественные и привычные для человека разговорные функции для своих приложений и возможностей.
Служба голосового помощника обеспечивает быстрое и надежное взаимодействие между устройством и реализованным решением помощника, которое использует либо (1) Direct Line Speech (через Службу Azure Bot) для расширения голосовых возможностей ботов, либо (2) Пользовательские голосовые команды для сценариев голосовых команд.
Выбор решения помощника
Первым этапом создания голоса помощника является принятие решения о том, что он должен делать. Служба «Речь» предоставляет несколько дополнительных решений для создания взаимодействий с помощником. Вы можете добавить возможности входящего и исходящего голосового взаимодействия для гибких и универсальных ботов, созданных с помощью Службы Azure Bot и канала Direct Line Speech, или разработать приложение Пользовательские голосовые команды для простых сценариев голосовых команд.
Если вы еще не определились с типом помощника мы рекомендуем использовать решение Direct Line Speech в качестве оптимального. Оно обеспечивает интеграцию с широким набором инструментов и средств разработки, таких как Виртуальный помощник, шаблон Enterprise и служба QnA Maker, для создания общих шаблонов и использования существующих источников знаний.
Пользовательские команды упрощают создание приложений с расширенными голосовыми командами, оптимизированных для голосового интерфейса. Они предоставляют единый интерфейс разработки, модель автоматического размещения и относительно низкую сложность, помогая вам сосредоточиться на создании оптимального решения для сценариев использования речевых команд.
по
Эталонная архитектура для создания голосового помощника с помощью пакета SDK службы «Речь»
помощника по голосовым помощникам
Основные возможности
Независимо от того, что вы выбрали для создания взаимодействий с помощником, Direct Line Speech или Пользовательские голосовые команды, вы можете использовать широкий набор возможностей для настройки помощника в соответствии со своим брендом, продуктом или личными потребностями.
Начало работы с голосовыми помощниками
Мы предлагаем краткие руководства, с помощью которых вы сможете получить рабочий код менее чем за 10 минут. В этой таблице представлен список кратких руководств по голосовым помощникам, упорядоченных по языку.
Пример кода и учебники
Пример кода для создания голосового помощника доступен на сайте GitHub. Эти примеры охватывают клиентское приложение для подключения к помощнику на нескольких популярных языках программирования.
Настройка
Голосовые помощники, созданные с помощью службы Azure «Речь», могут использовать полный спектр вариантов настройки.
Параметры настройки зависят от языка и языкового стандарта (см. раздел Поддерживаемые языки).
What is the Speech service?
The Speech service is the unification of speech-to-text, text-to-speech, and speech-translation into a single Azure subscription. It’s easy to speech enable your applications, tools, and devices with the Speech CLI, Speech SDK, Speech Studio, or REST APIs.
The Speech service has replaced Bing Speech API and Translator Speech. See the Migration section for migration instructions.
The following features are part of the Speech service. Use the links in this table to learn more about common use-cases for each feature, or browse the API reference.
Service | Feature | Description | SDK | REST |
---|---|---|---|---|
Speech-to-Text | Real-time Speech-to-text | Speech-to-text transcribes or translates audio streams or local files to text in real time that your applications, tools, or devices can consume or display. Use speech-to-text with Language Understanding (LUIS) to derive user intents from transcribed speech and act on voice commands. | Yes | Yes |
Batch Speech-to-Text | Batch Speech-to-text enables asynchronous speech-to-text transcription of large volumes of speech audio data stored in Azure Blob Storage. In addition to converting speech audio to text, Batch Speech-to-text also allows for diarization and sentiment-analysis. | No | Yes | |
Multi-device Conversation | Connect multiple devices or clients in a conversation to send speech- or text-based messages, with easy support for transcription and translation | Yes | No | |
Conversation Transcription | Enables real-time speech recognition, speaker identification, and diarization. It’s perfect for transcribing in-person meetings with the ability to distinguish speakers. | Yes | No | |
Create Custom Speech Models | If you are using speech-to-text for recognition and transcription in a unique environment, you can create and train custom acoustic, language, and pronunciation models to address ambient noise or industry-specific vocabulary. | No | Yes | |
Pronunciation Assessment | Pronunciation assessment evaluates speech pronunciation and gives speakers feedback on the accuracy and fluency of spoken audio. With pronunciation assessment, language learners can practice, get instant feedback, and improve their pronunciation so that they can speak and present with confidence. | Yes | Yes | |
Text-to-Speech | Prebuilt neural voices | Text-to-Speech converts input text into human-like synthesized speech using Speech Synthesis Markup Language (SSML). Use neural voices, which are human-like voices powered by deep neural networks. See Language support. | Yes | Yes |
Custom neural voices | Create custom neural voice fonts unique to your brand or product. | No | Yes | |
Speech Translation | Speech translation | Speech translation enables real-time, multi-language translation of speech to your applications, tools, and devices. Use this service for speech-to-speech and speech-to-text translation. | Yes | No |
Voice assistants | Voice assistants | Voice assistants using the Speech service empower developers to create natural, human-like conversational interfaces for their applications and experiences. The voice assistant service provides fast, reliable interaction between a device and an assistant implementation that uses the Bot Framework’s Direct Line Speech channel or the integrated Custom Commands service for task completion. | Yes | No |
Speaker Recognition | Speaker verification & identification | The Speaker Recognition service provides algorithms that verify and identify speakers by their unique voice characteristics. Speaker Recognition is used to answer the question “who is speaking?”. | Yes | Yes |
Try the Speech service for free
For the following steps, you need both a Microsoft account and an Azure account. If you do not have a Microsoft account, you can sign up for one free of charge at the Microsoft account portal. Select Sign in with Microsoft and then, when asked to sign in, select Create a Microsoft account. Follow the steps to create and verify your new Microsoft account.
Once you have a Microsoft account, go to the Azure sign-up page, select Start free, and create a new Azure account using a Microsoft account. Here is a video of how to sign up for Azure free account.
Create the Azure resource
To add a Speech service resource (free or paid tier) to your Azure account:
Sign in to the Azure portal using your Microsoft account.
Select Create a resource at the top left of the portal. If you do not see Create a resource, you can always find it by selecting the collapsed menu in the upper left corner of the screen.
In the New window, type «speech» in the search box and press ENTER.
In the search results, select Speech.
Select Create, then:
It takes a few moments to deploy your new Speech resource.
Find keys and location/region
To find the keys and location/region of a completed deployment, follow these steps:
Sign in to the Azure portal using your Microsoft account.
Select All resources, and select the name of your Cognitive Services resource.
On the left pane, under RESOURCE MANAGEMENT, select Keys and Endpoint.
Each subscription has two keys; you can use either key in your application. To copy/paste a key to your code editor or other location, select the copy button next to each key, switch windows to paste the clipboard contents to the desired location.
These subscription keys are used to access your Cognitive Service API. Do not share your keys. Store them securely– for example, using Azure Key Vault. We also recommend regenerating these keys regularly. Only one key is necessary to make an API call. When regenerating the first key, you can use the second key for continued access to the service.
Complete a quickstart
We offer quickstarts in most popular programming languages, each designed to teach you basic design patterns, and have you running code in less than 10 minutes. See the following list for the quickstart for each feature.
After you’ve had a chance to get started with the Speech service, try our tutorials that show you how to solve various scenarios.
Get sample code
Sample code is available on GitHub for the Speech service. These samples cover common scenarios like reading audio from a file or stream, continuous and at-start recognition, and working with custom models. Use these links to view SDK and REST samples:
Customize your speech experience
The Speech service works well with built-in models, however, you may want to further customize and tune the experience for your product or environment. Customization options range from acoustic model tuning to unique voice fonts for your brand.
Other products offer speech models tuned for specific purposes like healthcare or insurance, but are available to everyone equally. Customization in Azure Speech becomes part of your unique competitive advantage that is unavailable to any other user or customer. In other words, your models are private and custom-tuned for your use-case only.
Speech Service | Platform | Description |
---|---|---|
Speech-to-Text | Custom Speech | Customize speech recognition models to your needs and available data. Overcome speech recognition barriers such as speaking style, vocabulary and background noise. |
Text-to-Speech | Custom Voice | Build a recognizable, one-of-a-kind neural voice for your Text-to-Speech apps with your speaking data available. You can further fine-tune the neural voice outputs by adjusting a set of neural voice parameters. |
Deploy on premises using Docker containers
Use Speech service containers to deploy API features on-premises. These Docker containers enable you to bring the service closer to your data for compliance, security or other operational reasons. The Speech service offers the following containers:
Сведения о пакете SDK службы «Речь»
Пакет средств разработки речевых программ (SDK) предоставляет множество возможностей службы «Речь», которые позволяют разрабатывать приложения с поддержкой речи. Пакет SDK службы «Речь» также доступен на многих языках программирования и на всех платформах.
C не является поддерживаемым языком программирования для речевого пакета SDK. Несколько поддерживаемых языков программирования, например C++, включают заголовки C, которые являются частью интерфейса ABI. Эти заголовки ABI не предназначены для непосредственного использования и могут быть изменены в разных версиях.
Возможности сценариев
Пакет SDK службы «Речь» предоставляет множество функций службы распознавания речи, но не все из них. Возможности SDK службы «Речь» часто связаны с сценариями. Пакет SDK службы «Речь» идеально подходит как для сценариев не в режиме реального времени, так и в режиме реального времени, благодаря локальным устройствам, файлам, хранилищу BLOB-объектов Azure, а также входным и выходным потокам. Если сценарий недоступен для пакета SDK службы «Речь», поищите альтернативу REST API.
Преобразование речи в текст
Преобразование речи в текст (также называемое распознаванием речи) позволяет расшифровывать аудиопотоки в режиме реального времени и сохранять их в текстовом формате, который ваши приложения, инструменты или устройства могут использовать или отображать. Используйте преобразование речи в текст с помощью портала Распознавание речи (LUIS), чтобы получать намерения пользователя из расшифрованной речи и выполнять голосовые команды. Используйте функцию перевода речи для преобразования речевого ввода на другой язык одним запросом. Дополнительные сведения см. в статье Основы преобразования речи в текст.
Средства распознавания речи, список фраз, назначение, перевод и локальные контейнеры доступны на следующих платформах:
Преобразование текста в речь
Преобразование текста в речь (также известное как синтез речи) позволяет озвучивать тексты. Входной текст является либо строковым литералом, либо использует язык разметки синтеза речи (SSML). Дополнительные сведения о стандартном или нейронном воспроизведении голоса см. в разделе Поддержка языков и голоса.
Преобразование текста в речь (TTS) доступно на следующих платформах:
Голосовые помощники
Голосовые помощники, использующие SDK службы «Речь», позволяют создавать естественные и привычные для человека разговорные интерфейсы для приложений и возможностей. Пакет SDK службы «Речь» обеспечивает быстрое и надежное преобразование речи в текст, текста в речь и общение с помощью одного соединения. Ваша реализация может использовать канал Direct Line Speech в Bot Framework или интегрированную службу пользовательских голосовых команд для выполнения задач. Кроме того, речевые помощники могут работать с пользовательскими голосами, созданными на портале пользовательских голосов, обеспечить уникальный голос для вывода речи.
Поддержка речевого помощника доступна на следующих платформах:
Распознавание ключевых слов
Пакет SDK службы «Речь» поддерживает так называемое распознавания ключевых слов. Распознавание ключевых слов — это процесс определения ключевого слова в речи, за которым следует определенное действие. Например, фраза «Hey Cortana» (Эй, Кортана) активирует помощника Cortana.
Распознавание ключевых слов доступно на следующих платформах:
Сценарии совещания
Пакет SDK службы «Речь» идеально подходит для записи совещаний, будь то одно устройство или беседа с использованием нескольких устройств.
Транскрибирование бесед
Транскрибирование бесед обеспечивает распознавание речи в режиме реального времени (асинхронное), идентификацию докладчика и определение авторства реплик (также известного как диаризация). Идеально подходит для записи личных встреч с возможностью различать ораторов.
Запись разговора доступна на следующих платформах:
Ведение беседы с использованием нескольких устройств
Ведение беседы с использованием нескольких устройств позволяет соединять множество устройств или клиентов в одной беседе для отправки текстовых или голосовых сообщений с поддержкой транскрибирования и перевода.
Ведение беседы с использованием нескольких устройств доступно на следующих платформах:
Пользовательские/агентские сценарии
Пакет SDK службы «Речь» можно использовать для сценариев центра обработки вызовов, где создаются данные телефонии.
Транскрибирование вызовов в центр обработки
Транскрибирование вызовов в центр обработки часто применяется для транскрибирования больших объемов данных телефонии, которые могут поступать из различных систем, включая системы интерактивного речевого ответа. Последние модели распознавания речи из Службы «Речь» транскрибируют эти телефонные данные с высоким качеством даже в тех случаях, когда данные трудны для понимания человеком.
Транскрибирование вызовов в центр обработки доступно в службе пакетной обработки речи с помощью REST API и может использоваться в любой ситуации.
Сжатые звуковые форматы кодеков
Некоторые языки программирования пакета SDK службы «Речь» поддерживают звуковые потоки, сжатые с помощью кодеков. Дополнительные сведения см. в разделе Использование форматов сжатых входных звуковых данных.
Звуковые входные данные, сжатые кодеком, доступны на следующих платформах:
REST API
Хотя пакет SDK службы «Речь» охватывает множество возможностей службы «Речь», в некоторых сценариях может потребоваться использовать REST API.
Пакетное транскрибирование
Пакетное транскрибирование обеспечивает асинхронную расшифровку речи в текст для больших объемов данных. Пакетное транскрибирование доступно только из REST API. Помимо преобразования аудиоданных в текстовые данные эта функция также позволяет выполнять диаризацию и анализ тональности.
Настройка
Служба «Речь» предоставляет широкие возможности для работы с моделями преобразования речи в текст, текста в речь и перевода речи. Иногда может потребоваться повысить производительность базовых показателей, чтобы оптимизировать работу с уникальным вариантом использования. Служба «Речь» имеет разнообразные средства настройки без написания кода, которые упрощают работу и позволяют создать конкурентное преимущество с пользовательскими моделями на основе собственных данных. Эти модели будут доступны только вам и вашей организации.
пользовательское преобразование речи в текст;
Когда вы используете преобразование речи в текст для распознавания и расшифровки в уникальной среде, вы можете создавать и обучать пользовательские акустические, языковые модели и модели произношения для учета окружающих помех или отраслевого словаря. Создание и управление моделями распознавания речи без написания кода доступно на портале пользовательского распознавания речи. После публикации модели пользовательского распознавания речи ее можно использовать в пакете SDK службы «Речь».
Настраиваемое преобразование текста в речь
Пользовательское преобразование текста в речь, также известное как пользовательский голос — это набор интерактивных средств, позволяющих создать узнаваемый уникальный голос, олицетворяющий вашу торговую марку. Создание и управление моделями пользовательского голоса без написания кода доступно на портале пользовательского голоса. После публикации модели пользовательского голоса ее можно использовать в пакете SDK службы «Речь».
Получение пакета SDK для службы «Речь»
Пакет SDK для распознавания речи поддерживает Windows 10 и Windows Server 2016 или более поздние версии. Более ранние версии не поддерживаются официально. Можно использовать части пакета SDK для распознавания речи в более ранних версиях Windows, хотя это не рекомендуется.
Требования к системе
Для пакета SDK для службы «Речь» в Cognitive Services в системе должен быть установлен Распространяемый компонент Visual C++ для Visual Studio 2019.
Пакет C# NuGet
Дополнительные ресурсы
Для ввода с микрофона необходимо установить библиотеки Media Foundation. Эти библиотеки входят в Windows 10 и Windows Server 2016. Пакет SDK для службы «Речь» можно использовать без этих библиотек, если в качестве аудиоустройства ввода не используется микрофон.
Необходимые файлы пакета SDK для службы «Речь» можно развернуть в том же каталоге, что и приложение. Таким образом, приложение сможет получать прямой доступ к библиотекам. Убедитесь, что выбрана правильная версия (x86/x64), соответствующая приложению.
Имя | Функция |
---|---|
Microsoft.CognitiveServices.Speech.core.dll | Основной пакет SDK, необходимый для развертывания управляемого и машинного кода |
Microsoft.CognitiveServices.Speech.csharp.dll | Требуется для развертывания управляемого кода |
Начиная с выпуска 1.3.0 файл Microsoft.CognitiveServices.Speech.csharp.bindings.dll (отгружен в предыдущих выпусках) больше не требуется. Теперь функциональность интегрирована в пакет SDK для Core.
Пакет NuGet C++
пакет C++ для распознавания речи можно установить из диспетчер пакетов с помощью следующей команды.
Дополнительные ресурсы
Python
Если вы используете macOS, вам может потребоваться выполнить следующую команду, чтобы команда pip выше сработала:
Дополнительные ресурсы
Чтобы использовать этот пакет из проекта Android Studio, внесите следующие изменения:
Дополнительные ресурсы
пакет SDK для распознавания речи поддерживает только Ubuntu 16,04 (до сентября 2021), Ubuntu 18.04/20.04, Debian 9/10, Red Hat Enterprise Linux (RHEL) 7/8и CentOS 7/8 в следующих целевых архитектурах при использовании с Linux:
Чтобы использовать пакет SDK для распознавания речи в Alpine Linux, создайте среду Debian chroot, как описано на вики-сайте Alpine Linux для запущенных программ glibc, а затем следуйте инструкциям Debian.
Требования к системе
Пакет C# NuGet
Дополнительные ресурсы
Пакет NuGet C++
пакет C++ для распознавания речи можно установить из диспетчер пакетов с помощью следующей команды.
Дополнительные ресурсы
Python
Если вы используете macOS, вам может потребоваться выполнить следующую команду, чтобы команда pip выше сработала:
Дополнительные ресурсы
Чтобы использовать этот пакет из проекта Android Studio, внесите следующие изменения:
Дополнительные ресурсы
Дополнительные сведения об использовании пакета пакет SDK Objective-C для службы «Речь» со Swift см. в разделе Импорт Objective-C в Swift.
Требования к системе
Пакет C# NuGet
Дополнительные ресурсы
Дополнительные ресурсы
При разработке для macOS доступны следующие пакеты SDK для распознавания речи.
Требования к системе
Пакет C# NuGet
Дополнительные ресурсы
Если вы используете macOS, вам может потребоваться выполнить следующую команду, чтобы команда pip выше сработала:
Дополнительные ресурсы
Дополнительные ресурсы
Чтобы использовать этот пакет из проекта Android Studio, внесите следующие изменения:
Дополнительные ресурсы
Пакет C# NuGet
Дополнительные ресурсы
Несмотря на то, что пакет SDK для распознавания речи для JavaScript доступен в виде пакета NPM, и следовательно Node.js и клиентские веб-браузеры могут его использовать, внимательно рассмотрите различные архитектурные аспекты каждой среды. Например, объектная модель документов (DOM) недоступна для приложений на стороне сервера, так как файловая система недоступна для клиентских приложений.
Диспетчер пакетов Node.js (NPM)
Несмотря на то, что пакет SDK для распознавания речи для JavaScript доступен в виде пакета npm, и следовательно Node.js и клиентские веб-браузеры могут его использовать, внимательно рассмотрите различные архитектурные аспекты каждой среды. Например, объектная модель документов (DOM) недоступна для приложений на стороне сервера, так как файловая система недоступна для клиентских приложений.
Диспетчер пакетов Node.js (NPM)
Тег HTML-скрипта
Кроме того, можно напрямую включить тег
Скачивая любой пакет SDK для службы «Речь» в Azure Cognitive Services, вы соглашаетесь на использование лицензии. Дополнительные сведения см. в разделе: