2025 年 Google I/O 大會:將前瞻研究付諸實現
從 Project Astra 到 Gemini Live
另一項同樣在 I/O 大會上亮相,且也令人感到興奮的研究計畫是 Project Astra,目標是探索一個能夠理解你周遭真實環境的通用 AI 助理。Gemini Live 現在整合了 Project Astra 的相機與螢幕分享功能。人們正以各種有趣的方式使用它,像是幫助準備面試,甚至規劃馬拉松訓練等。這項功能已經開放給所有 Android 使用者體驗,並將從今天開始,陸續向 iOS 的使用者推送更新。
我們也正將類似功能導入 Google 搜尋等產品中。
從 Project Mariner 到 AI 代理模式(Agent Mode)
我們將 AI 代理(agent)視為一種結合先進 AI 模型智慧以及具有存取工具能力的系統,因此它能夠在你的掌控下,代表你執行各種任務。
我們的早期研究原型 Project Mariner,初步展現了具備電腦操作能力,並與網路互動來為你完成任務的代理能力。從去年 12 月我們以早期研究原型的形式發布 Project Mariner 以來,我們在新的多工處理能力上取得了長足的進展,並透過一種我們稱為「教學與重複」(teach and repeat)的機制,讓你只需示範一次任務,它就能從中學習並為未來類似的任務進行規劃。目前,我們正透過 Gemini API 將 Project Mariner 的電腦操作能力提供給開發者社群。像是 Automation Anywhere 和 UiPath 等信任測試夥伴已經開始運用這些功能進行開發,我們預計在今年夏天會更廣泛地開放給更多開發者使用。
電腦操作能力只是我們建構一個蓬勃發展的代理生態系統時,所需具備的工具之一。例如,我們的開放式 Agent2Agent(A2A)協定,讓不同的 AI 代理能夠彼此互相溝通協作;或是由 Anthropic 推出的模型脈絡協定(Model Context Protocol, MCP),讓代理能夠存取其他服務。今天,我們很高興地宣布,我們的 Gemini API 和 SDK 現已支援並相容於 MCP 工具。
我們也開始將 AI 代理功能逐步導入 Chrome、Google 搜尋以及 Gemini 應用程式中。舉例來說,Gemini 應用程式中全新的「代理模式」(Agent Mode)可以協助你更有效率地完成更多事情。如果你正在尋找新的租屋處,它會幫你在像是 Zillow 這樣的房產網站找到符合條件的房源、調整篩選條件,並使用 MCP 存取房源的詳細資訊,甚至為你預約看房時間。在 Gemini 應用程式中的實驗性版本代理模式,將會陸續向訂閱者推出。這個功能也將為像 Zillow 這樣的企業帶來新客源並提高轉換率。
這是一個嶄新而且快速發展的領域,我們很期待能進一步探索,如何把 AI 代理的便利性更廣泛地帶給所有使用者以及整個生態系。