人工智慧進入桌面操作:Claude 3.5 Sonnet 與它的競品對決

在人工智慧(AI)技術日新月異的今天,Anthropic 推出的 Claude 3.5 Sonnet 正逐漸改變我們與電腦互動的方式,特別是它最新的 “電腦使用”(Computer Use)功能。這一技術讓 AI 可以像人類一樣操作電腦,從看螢幕、移動游標、點擊按鈕到輸入文字。這個功能使 Claude 成為目前少數能夠以幾乎完全自主的方式控制電腦的前沿 AI 模型之一。但是,Claude 3.5 Sonnet 的競品又是如何呢?本文將探討 Claude 與其他主要競品在這方面的差異與優勢。

Claude 3.5 Sonnet 的電腦使用功能

Claude 3.5 Sonnet 的電腦使用功能讓它能夠進行一些相當複雜的操作。這不僅是簡單的任務自動化,例如填寫表單或進行網頁搜尋,還能跨應用程式協同工作,完成多步驟的流程。例如,Replit 使用 Claude 進行應用的自動測試,而 Canva 則運用 Claude 來協助設計流程,從而減少人工操作的重複性工作【29】。

Claude 的這項功能是通過截取螢幕截圖並計算游標位置來實現的。儘管目前這項技術仍處於公開測試階段,但它已經顯示出巨大的潛力。不少公司例如 GitLab 和 Asana,已經開始使用 Claude 來協助自動化任務並進行開發運營,從而提高整體效率。

Claude 3.5 的競品有哪些?

1. OpenAI 的 GPT-4

OpenAI 的 GPT-4 是一個功能強大的語言模型,但它在「電腦控制」方面仍然有一定的差距。GPT-4 主要依賴於 API 的集成,來在特定的應用中完成自動化任務。然而,相較之下,Claude 3.5 Sonnet 能夠直接通過截圖來控制操作系統。在 OSWorld 測試中,Claude 的正確率達到了 14.9%,大幅超越 GPT-4 的 7.8%,顯示出在電腦控制的應用場景中,Claude 的實力更為突出。

2. IBM 的 Granite 3.0

IBM 最近推出的 Granite 3.0 也正在探索與人類界面互動的能力。這款模型強調開源並且主要針對企業環境進行優化,雖然功能全面,但在直接控制電腦方面仍然不如 Claude 那麼成熟。Granite 3.0 主要在於提升企業運作中的流程自動化,而在直接操作系統的部分仍有待加強。

3. 微軟和 Salesforce 的 AI 系統

微軟與 Salesforce 等公司也在大力投資代理型 AI(agentic AI)技術。這些 AI 系統雖然不像 Claude 一樣可以直接控制電腦,但它們可以在企業中扮演重要角色,用於自動化 IT 支援或客戶服務的流程。例如,微軟和 Salesforce 的 AI 代理被用於處理常見問題、提供建議,並在不需要人類介入的情況下執行任務。這些技術的發展方向與 Claude 類似,都是希望能讓 AI 成為數位團隊中的一部分,處理繁瑣且重複的任務。

Claude 的優勢與挑戰

Claude 3.5 Sonnet 的電腦控制功能具有幾個顯著的優勢:

  1. 高效率:透過 AI 的操作來自動化完成多步驟任務,不僅能節省時間,還能減少人力成本。例如,開發者可以利用 Claude 進行代碼自動生成和測試,讓人員專注於更具創意的工作。
  2. 靈活的多任務處理:Claude 不需要針對每個特定任務使用專門的軟體,它可以在標準使用者界面內處理多種工作流程,這使得它在跨部門應用中極具彈性。
  3. 成本降低:通過自動化日常任務,企業可以減少人工參與,降低相關的人力成本,並集中精力在戰略層面的工作上。

然而,Claude 也面臨一些挑戰。其主要問題在於操作的準確度和可靠性,目前它在真實環境中操作系統的準確率僅有 14.9%,雖然相比其他 AI 已經是領先地位,但離人類操作的精度還有很大差距。此外,安全性也是一個關鍵問題,由於 Claude 需要截取螢幕並進行操作,可能存在被濫用的風險,例如「提示注入攻擊」,可能使得 AI 訪問惡意網站或進行未經授權的操作。

競爭前景與未來展望

隨著 AI 技術的發展,像 Claude 這樣具備「電腦使用」功能的代理型 AI 正逐漸成為企業軟體的重要組成部分。與 AI 協同工具不同,這些代理型 AI 可以自主執行任務,進而提升生產力和工作效率。未來,我們或許會看到更多公司將這類 AI 系統整合到日常工作中,讓 AI 成為真正的數位同事,幫助我們處理繁瑣和重複性的任務。

儘管目前 Claude 的技術還不完美,但它所開啟的這條道路無疑為我們展示了 AI 在自動化和效率提升方面的巨大潛力。隨著技術的進步和不斷的改進,Claude 及其競品們將在我們的日常生活和工作中扮演越來越重要的角色。