為對話式人工智慧應用程式提供語音介面。
語音人工智慧讓人們能夠與裝置、機器和電腦透過語音交談,從此簡化溝通流程,進而改善生活。對話式人工智慧的子技術包含自動語音辨識 (ASR) 和文字轉語音 (TTS),可將人類的聲音轉換成文字,並依據書面文字產生類似人類的聲音,因此讓虛擬助理、即時轉錄、語音搜尋和問答系統等強大的技術得以實現。
透過語音人工智慧模型自訂達到一流的準確度,將客戶體驗提升至卓越境界。
提供消費者常用語言的語音應用程式,藉此擴大客戶群。
以低延遲、高輸送量的應用程式為更多客戶提供服務,這些應用程式可立即於任何基礎架構上擴充,包含本機、雲端、邊緣端或嵌入式。
透過品牌獨特的語音,以快速且富含意義的互動,大幅提升客戶服務品質。
瞭解如何為對話式人工智慧應用程式建立和部署即時語音人工智慧流程。
現代語音人工智慧系統使用在大型資料集上訓練的深度神經網路 (DNN) 模型。隨著時間推移,語音人工智慧模型的規模大幅增加,因此即使在高效能 GPU 上使用 PyTorch、TensorFlow 和 MXNet 等深度學習架構,訓練這些模型也可能需要數週密集的運算時間。
NVIDIA 語音人工智慧在 NVIDIA NGC™ 目錄中提供預先訓練的生產品質模型,這些模型在多個公開和專屬的資料集上接受訓練,在 NVIDIA DGX™ 系統上的訓練時數超過數十萬小時。
圖 1:高度準確的預先訓練模型
圖 2:TAO 端對端工作流程
許多企業必須自訂語音人工智慧模型,才能達到特定對話式應用程式所需的準確度。然而,從零開始自訂語音人工智慧模型,通常需要大量的訓練資料集和人工智慧專業知識。
若要加速開發並高度自訂語音模型,而無需先前的人工智慧體驗,可使用低程式碼人工智慧模型開發 NVIDIA TAO 工具套件。該工具套件將經過驗證的遷移學習方法應用在預先訓練的模型上,並針對您的使用案例微調語音人工智慧模型。NVIDIA 也提供 NeMo 這個開放原始碼工具組,讓研究人員能夠打造最先進的 (SOTA) 語音人工智慧模型。使用 NeMo 和 TAO 工具套件的最佳化模型皆可輕鬆匯出,並部署於本機或雲端的 NVIDIA® Riva 作為語音服務之用。
在語音人工智慧技術方面,公司總是必須在準確度和即時效能之間做出選擇。舉例來說,他們無法在提出問題後等待數秒才得到回應。此外,他們也不希望對話式人工智慧應用程式曲解語意或產生無意義的內容。
有了 NVIDIA Riva 語音人工智慧 SDK,公司就能達到世界級的準確度,並在幾毫秒內即時執行語音人工智慧流程。Riva 語音人工智慧SDK 在 NGC 上提供 SOTA 預先訓練的模型,以及適用於微調的 TAO 工具套件等低程式碼工具,可達到世界級的準確度,並透過最佳化技術提供即時效能。
圖 3:NVIDIA Riva 語音人工智慧技術功能
訂閱以接收 NVIDIA 的語音人工智慧最新消息。