從 Google I/O 到全球開放,解析 Veo 3 技術特色、應用潛力與產業衝擊
Google I/O 2025 的 AI 重磅佈局
2025 年 5 月 20 日,Google 在年度開發者大會 Google I/O 上揭示了一場 AI 革命,核心主題圍繞著 “AI First Everything”。CEO Sundar Pichai 宣示,AI 將成為 Google 全產品線的基礎架構。整場大會中,多項旗艦級技術同步亮相:
Veo 3 正式登場:作為 AI 創作生態的核心影片引擎,融合影像與音訊生成,成為全場矚目焦點。
Gemini 2.5 Pro 與 Flash:具備更快推理與語境記憶能力,強化 AI 生產力。
Gemini Live(前稱 Project Astra):整合視覺、語音與網頁互動的即時對話助理。
Agent Mode(Project Mariner):讓 AI 理解使用者目標,自主搜尋與執行任務。
Imagen 4 圖像生成器:提供更高解析度與細節掌控的圖像創作能力。
Flow 影片創作工具:支援分鏡、敘事節奏與電影級風格設計。
Veo 3:AI 影片創作的技術驚豔特點
Veo 最初由 DeepMind 團隊主導開發,是 Google 旗下的文字轉影片(Text-to-Video)AI 模型,歷經三代發展。Veo 3 於 I/O 大會中隆重亮相,被定位為 “創作者的虛擬導演”。技術上,它具備下列創新特點:
- 支援 1080p/60fps 的高畫質影片輸出。
- AI 同步音訊生成:能為場景自動生成環境音與配樂。
- 多鏡頭場景控制:可依據文字提示產出具有連續敘事邏輯的段落。
- 風格模擬能力:支援動畫、寫實、黏土、漫畫等風格切換。
- 角色一致性維持:讓角色在多個鏡頭中外觀與動作更連貫(目前仍是業界難題)。
- 多模態輸入理解:可搭配照片、影片片段、草稿分鏡進行生成。
Flow 是一款“AI 劇本導演”
專為創作者打造:Flow 讓使用者像操作積木一樣,透過拖曳分鏡元件(SceneBuilder)、輸入文字提示與上下文,來決定場景走向與鏡頭轉場方式。
對接 Veo 3 與 Imagen 4:Flow 運作時會同時串接 Veo 3(負責影片動態與音訊生成)與 Imagen 4(負責影像細節與品質),全方位打造高畫質、有節奏感的短片
攝影機控制 (Camera Controls):演講中示範如何設定鏡頭運鏡方式,包括移動軌跡、推拉鏡頭(dolly)、平移(pan)、及變焦(zoom),讓影片具備「電影級」運鏡感 。
連續鏡頭擴展 (Scenebuilder):可以讓場景不中斷接續,比如從一本書的近拍轉到角色翻頁。使用者可依語意控制鏡位與切換,Flow 自動生成每段鏡頭與敘事節奏
Flow TV 展示 (Flow TV):演講中提及可瀏覽由社群創作的範例影片,並查看使用的 prompt 與鏡頭設定,強調 Flow 具學習借鑒功能 。
同步聲音 (Synchronized Audio):與 Veo 3 合作,Flow 可以產生對白、環境音與背景音樂,且聲音會自動配合嘴型、動作與氛圍,如雨聲、風聲、腳步聲等 。
情境語調調整:可在每段鏡頭中設定聲音情緒,例如悲傷、興奮或平緩,Flow 自動調整配樂與語調節奏,讓短片具備情緒張力 。
素材管理 (Asset Management):Flow 提供管理文字提示、圖像參考與素材片段的功能,讓創作者更系統化地編排專案內容 。
VEO3與Flow 時間軸:1:28:00-1:37:30
全球推廣與台灣開放時間
雖然 Veo 3 在 5 月 I/O 大會亮相後即備受關注,但正式開放使用則分階段進行。Google 採取與 Gemini App 整合的策略,僅開放給 AI Pro 或 AI Ultra 訂閱用戶使用,並率先於北美、歐洲 150 多國推出。
在台灣,Google 官方於宣布於 2025 年 7 月 3 日 開放生成,Veo 3 透過 Gemini App 提供給付費用戶試用,使用者只需開啟 Gemini App,進入「照片轉影片」功能頁面,即可輸入描述文字或上傳靜態圖,生成一段約 8 秒、具備背景音效的影片。

