Sep 2024 晚夏的黑部源流4泊5日山旅 PART ①【溪流登攀&溫泉三昧】赤木沢~五郎沢~祖父沢遡行&雲ノ平~高天原~裏銀座縱走(旅途的開始)

Google 今天正式推出內部代號為「奈米香蕉」(nano-banana)的圖像生成模型 Gemini 2.5 Flash Image,標誌著其在圖像生成與編輯領域的強勢回歸。
Gemini 2.5 Flash Image 模型有4個主要特色,包括能讓同一人物或產品在不同場景中保持外觀一致的角色一致性;讓用戶以自然語言指令精準修改圖像,例如模糊背景、去除污漬,甚至是改變姿勢;多圖融合能力允許開發者可將多張圖像合成,輕鬆將物件放入新場景;還能整合世界知識,理解手繪圖表及教育應用,處理複雜的編輯需求。
新模型可透過 Gemini API 與 Google AI Studio 使用,定價為每百萬輸出 Token 收費 30 美元,由於每張圖像約需要 1,290 個 Token,平均每張圖像約 0.039 美元。
這使得 Gemini 2.5 Flash Image 成為那些將 AI 圖像能力整合到自身產品或服務中的企業的理想選擇,其低成本優勢能夠支撐大規模的商業應用,而不必擔心高昂的 API 費用。同時,所有生成與編輯的圖像都將附帶 SynthID 數位浮水印,確保了內容的透明度與可追溯性。
在市場策略上,Google 並未試圖與 Midjourney 或 DALL-E 3 等既有強敵直接在消費者社群層面競爭 。相反,該公司採取了以 API 為導向、深度整合的策略,將 Gemini 2.5 Flash Image 的能力嵌入主流專業應用程式,如 Adobe Firefly、Adobe Express 和 Figma 等 。
稍早在 Vertex AI Console 上面玩了一下,文生圖的速度挺快的,跟早期用 Stable Difussion 來生成圖片的速度相較之下,算是很快了(最慢10秒內都能生成圖片)。而它生成的圖片品質,跟早期使用 DALL·E 產生的圖片效果相比,已經明顯成熟許多。
但有時送出prompt後會無法生成圖片,且頻率不低。有時也會有部分背景沒有修改到的狀況,頻率也不低。總體來說,Gemini 2.5 Flash Image 的文生圖效果,還不到完美,但也算堪用了。