試玩一下 Google 推出的 Gemini 2.5 Flash Image 圖像生成模型

試玩一下 Google 推出的 Gemini 2.5 Flash Image 圖像生成模型｜一鍵生成超擬真3D公仔

8月 27, 2025

Google 今天正式推出內部代號為「Nano Banana」（奈米屌?）的圖像生成模型 Gemini 2.5 Flash Image，標誌著其在圖像生成與編輯領域的強勢回歸。

Gemini 2.5 Flash Image 模型有4個主要特色，包括能讓同一人物或產品在不同場景中保持外觀一致的角色一致性；讓用戶以自然語言指令精準修改圖像，例如模糊背景、去除污漬，甚至是改變姿勢；多圖融合能力允許開發者可將多張圖像合成，輕鬆將物件放入新場景；還能整合世界知識，理解手繪圖表及教育應用，處理複雜的編輯需求。

新模型可透過 Gemini API 與 Google AI Studio 使用，定價為每百萬輸出 Token 收費 30 美元，由於每張圖像約需要 1,290 個 Token，平均每張圖像約 0.039 美元。

這使得 Gemini 2.5 Flash Image 成為那些將 AI 圖像能力整合到自身產品或服務中的企業的理想選擇，其低成本優勢能夠支撐大規模的商業應用，而不必擔心高昂的 API 費用。同時，所有生成與編輯的圖像都將附帶 SynthID 數位浮水印，確保了內容的透明度與可追溯性。

在市場策略上，Google 並未試圖與 Midjourney 或 DALL-E 3 等既有強敵直接在消費者社群層面競爭。相反，該公司採取了以 API 為導向、深度整合的策略，將 Gemini 2.5 Flash Image 的能力嵌入主流專業應用程式，如 Adobe Firefly、Adobe Express 和 Figma 等。

稍早在 Vertex AI Console 上面玩了一下，文生圖的速度挺快的，跟早期用 Stable Difussion 來生成圖片的速度相較之下，算是很快了（最慢10秒內都能生成圖片）。而它生成的圖片品質，跟早期使用 DALL·E 產生的圖片效果相比，已經明顯成熟許多。

但有時送出prompt後會無法生成圖片，且頻率不低。有時也會有部分背景沒有修改到的狀況，頻率也不低。總體來說，Gemini 2.5 Flash Image 的文生圖效果，還不到完美，但也算堪用了。

要產生模型公仔的照片，可以使用以下提示詞範例：

請用我提供的原圖，把圖片內主體變成電腦桌前的立體公仔。場景為一張電腦書桌，上面擺放著一個 1/7 比例的 PVC 公仔，角色以站立姿態呈現，並固定在透明圓形底座上，呈現出細緻逼真的動漫風格收藏品質感。在公仔的背後是一台電腦螢幕，螢幕上顯示該角色的 3D 設計圖，就像有人正在進行設計過程。桌面上另外放置了鍵盤、滑鼠、咖啡杯，以及其模型盒，設計為市售收藏品風格，正面印有該角色的彩色動漫插圖，呈現完整的周邊商品氛圍。整體場景需營造出真實的書桌環境，具有自然光線與景深效果，就像用相機拍攝的實景照片。