Realtime API:OpenAI 的最新對話式技術

Realtime API:OpenAI 的最新對話式技術

Realtime API:OpenAI 的最新對話式技術

隨著人工智慧技術的不斷進步,OpenAI 最近推出了一個令人矚目的新功能,即 Realtime API。這篇文章將詳細介紹 Realtime API 的特色、應用場景及其背後的技術創新,讓讀者更好地理解這項技術如何為開發者和各行業帶來顛覆性的變革。

什麼是 Realtime API?

Realtime API 是 OpenAI 新推出的一項低延遲、多模態對話式 API,專門用來支援語音和文本的輸入與輸出。不同於傳統的語音 AI 模型,Realtime API 支援語音到語音的直接交互,這意味著開發者可以構建更加自然和即時的語音對話體驗,而不需要經過繁瑣的語音轉文字、再從文字轉回語音的過程。

在這個 API 中,開發者可以利用 WebSocket 連接 持續地與模型交換訊息,達到快速且有效的雙向通信。而且這個 API 還支援呼叫外部函數的能力,例如語音助手可以根據使用者的請求觸發某些操作,甚至拉取新的上下文來提供更精確的服務。

主要特色與應用場景

  1. 低延遲語音對話
  • Realtime API 對於那些需要即時語音回應的應用場景非常合適,例如 語音助手客服聊天機器人。這些應用透過低延遲的語音處理,可以提供類似人類互動的體驗,不僅僅是轉換語音為文字再做分析,而是從語音到語音的全流程處理,讓使用者感受到更流暢的交互。
  1. 多模態輸出
  • 此 API 不僅支持文字和語音的交互,還允許輸出 多模態結果。例如在語音助手場景中,它可以根據對話情境自動調整音調,甚至模擬笑聲和耳語等細膩的語音細節,使得回應更具表情和互動性。
  1. 應用於多種產業
  • 一些早期合作的應用包括健康管理應用 Healthify,它使用 Realtime API 來實現與 AI 健康教練的對話,並在需要時加入人類營養師的支持。而語言學習應用 Speak 則使用此 API 來驅動角色扮演功能,鼓勵使用者練習不同語言的對話。
  1. 與其他 API 集成
  • OpenAI 在最近的開發者大會上展示了 Realtime API 與 Twilio API 的集成,透過電話進行訂購。例如,AI 助手可以幫助用戶向虛擬的糖果店訂購巧克力草莓,並由 Twilio 統一處理訂單內容,包括送貨地點和備餐時間等細節。

價格和可用性

Realtime API 最初於 2024 年 10 月 1 日發布,並且在昨天(2024 年 11 月 1 日)進行了降價和新功能的推出。最初的價格如下:

  • 文本輸入 token 每百萬個 10 美元,輸出 token 每百萬個 40 美元。
  • 音頻的輸入和輸出則相對較高,每百萬 token 分別為 150 美元和 300 美元。

在新的價格計劃中,Realtime API 的費用顯著降低:

  • 文本輸入 token 每百萬個 5 美元,輸出 token 每百萬個 20 美元。
  • 音頻的輸入和輸出則降至每百萬 token 分別為 100 美元和 200 美元,這大約相當於每分鐘音頻輸入 0.06 美元,輸出 0.24 美元。

除了基本功能外,OpenAI 也在計劃增加一些新功能,例如視覺模態支援官方 SDK 集成。這些功能將逐步加入,以進一步豐富 Realtime API 的應用場景。

緩存 Prompt 功能的引入

OpenAI 在開發者大會上還推出了 緩存 Prompt 的功能,這讓開發者可以快取最近的請求,並對相同上下文的請求提供高達 50% 的價格優惠。這對於那些需要頻繁呼叫相同上下文的應用來說,無疑是一個巨大的成本節省,尤其是在語音助手和客服系統等需要快速響應的場景中非常有用。

小結

Realtime API 是 OpenAI 在多模態和低延遲對話技術上的一次重大創新,特別適合語音助手、語言學習和即時客服等應用場景。它不僅使得對話更加自然流暢,也通過多模態的輸出能力帶來更豐富的用戶體驗。隨著更多新功能的加入,相信它將在更多領域中發揮作用。

如果你有興趣了解更多關於 Realtime API 的內容或是如何將它應用到你的產品中,歡迎查看 OpenAI 的官方文件 以獲取更詳細的技術說明和操作指南!