語音人工智慧

為對話式人工智慧應用程式提供語音介面。

什麼是語音人工智慧？

語音人工智慧讓人們能夠與裝置、機器和電腦透過語音交談，從此簡化溝通流程，進而改善生活。對話式人工智慧的子技術包含自動語音辨識 (ASR) 和文字轉語音 (TTS)，可將人類的聲音轉換成文字，並依據書面文字產生類似人類的聲音，因此讓虛擬助理、即時轉錄、語音搜尋和問答系統等強大的技術得以實現。

語音人工智慧的優勢

世界級準確度

透過語音人工智慧模型自訂達到一流的準確度，將客戶體驗提升至卓越境界。

多語言支援

提供消費者常用語言的語音應用程式，藉此擴大客戶群。

高效能且可擴充

以低延遲、高輸送量的應用程式為更多客戶提供服務，這些應用程式可立即於任何基礎架構上擴充，包含本機、雲端、邊緣端或嵌入式。

為品牌打造的獨特自然語音

透過品牌獨特的語音，以快速且富含意義的互動，大幅提升客戶服務品質。

免費電子書：打造語音人工智慧應用程式

瞭解如何為對話式人工智慧應用程式建立和部署即時語音人工智慧流程。

下載電子書

語音人工智慧的使用方式

多位講者同時轉譯

現代的語音轉文字演算法可轉譯會議、課程和日常對話，同時辨識說話者並標示其分享內容。透過 NVIDIA 語音人工智慧技術和 SDK，您可以為客服中心對話和視訊會議建立精準的轉譯，抑或是在醫師與病患互動時，自動記錄臨床資訊。

NVIDIA Riva：打造自己的語音人工智慧應用程式

讓助理虛擬化。

虛擬助理透過語音介面與使用者溝通，並協助處理各種工作，包括解決客服中心的客戶問題、作為智慧家庭助理協助打開電視、以車內智慧助理身分導航到最近的加油站等。利用 NVIDIA Omniverse 虛擬角色雲端引擎 (ACE)，將 NVIDIA 語音人工智慧技術整合至互動式虛擬角色應用程式，以提供準確、快速且自然的互動。

使用 Omniverse ACE 開發和部署互動式虛擬角色

創造語音品牌特色

企業可以透過知名的品牌語音，打造能與客戶建立關係的應用程式，無論是否缺乏語音或是語言的客戶，皆全面支援。透過語音人工智慧其中一部分的 NVIDIA 自訂語音，您可以在數小時內為品牌輕鬆建立獨特、高品質的語音特質，且不需花費數週的時間，只需 30 分鐘即可錄製語音資料。

與 Tokkio 專案的 NVIDIA Omniverse ACE 進行專業、自然的問答

開發可自訂的語音人工智慧介面

使用預先訓練的模型縮短訓練時間

現代語音人工智慧系統使用在大型資料集上訓練的深度神經網路 (DNN) 模型。隨著時間推移，語音人工智慧模型的規模大幅增加，因此即使在高效能 GPU 上使用 PyTorch、TensorFlow 和 MXNet 等深度學習架構，訓練這些模型也可能需要數週密集的運算時間。

NVIDIA 語音人工智慧在 NVIDIA NGC™ 目錄中提供預先訓練的生產品質模型，這些模型在多個公開和專屬的資料集上接受訓練，在 NVIDIA DGX™ 系統上的訓練時數超過數十萬小時。

深入瞭解 NVIDIA 預先訓練模型

圖 1：高度準確的預先訓練模型

圖 2：TAO 端對端工作流程

自訂模型以獲得更高的準確度

許多企業必須自訂語音人工智慧模型，才能達到特定對話式應用程式所需的準確度。然而，從零開始自訂語音人工智慧模型，通常需要大量的訓練資料集和人工智慧專業知識。

若要加速開發並高度自訂語音模型，而無需先前的人工智慧體驗，可使用低程式碼人工智慧模型開發 NVIDIA TAO 工具套件。該工具套件將經過驗證的遷移學習方法應用在預先訓練的模型上，並針對您的使用案例微調語音人工智慧模型。NVIDIA 也提供 NeMo 這個開放原始碼工具組，讓研究人員能夠打造最先進的 (SOTA) 語音人工智慧模型。使用 NeMo 和 TAO 工具套件的最佳化模型皆可輕鬆匯出，並部署於本機或雲端的 NVIDIA® Riva 作為語音服務之用。

下載此電子書，開始使用可自訂的語音人工智慧