Oct 21~24, 2023【晚秋の贅沢な山旅 PART②】黒部峽谷♡下之廊下|日本北阿爾卑斯山秘境健行+野營+秘湯溫泉 DAY 1(黒部水壩〜下之廊下〜阿曾原溫泉)

Google 今天正式推出內部代號為「Nano Banana」(奈米屌?)的圖像生成模型 Gemini 2.5 Flash Image,標誌著其在圖像生成與編輯領域的強勢回歸。
Gemini 2.5 Flash Image 模型有4個主要特色,包括能讓同一人物或產品在不同場景中保持外觀一致的角色一致性;讓用戶以自然語言指令精準修改圖像,例如模糊背景、去除污漬,甚至是改變姿勢;多圖融合能力允許開發者可將多張圖像合成,輕鬆將物件放入新場景;還能整合世界知識,理解手繪圖表及教育應用,處理複雜的編輯需求。
新模型可透過 Gemini API 與 Google AI Studio 使用,定價為每百萬輸出 Token 收費 30 美元,由於每張圖像約需要 1,290 個 Token,平均每張圖像約 0.039 美元。
這使得 Gemini 2.5 Flash Image 成為那些將 AI 圖像能力整合到自身產品或服務中的企業的理想選擇,其低成本優勢能夠支撐大規模的商業應用,而不必擔心高昂的 API 費用。同時,所有生成與編輯的圖像都將附帶 SynthID 數位浮水印,確保了內容的透明度與可追溯性。
在市場策略上,Google 並未試圖與 Midjourney 或 DALL-E 3 等既有強敵直接在消費者社群層面競爭 。相反,該公司採取了以 API 為導向、深度整合的策略,將 Gemini 2.5 Flash Image 的能力嵌入主流專業應用程式,如 Adobe Firefly、Adobe Express 和 Figma 等 。
稍早在 Vertex AI Console 上面玩了一下,文生圖的速度挺快的,跟早期用 Stable Difussion 來生成圖片的速度相較之下,算是很快了(最慢10秒內都能生成圖片)。而它生成的圖片品質,跟早期使用 DALL·E 產生的圖片效果相比,已經明顯成熟許多。
但有時送出prompt後會無法生成圖片,且頻率不低。有時也會有部分背景沒有修改到的狀況,頻率也不低。總體來說,Gemini 2.5 Flash Image 的文生圖效果,還不到完美,但也算堪用了。
要產生模型公仔的照片,可以使用以下提示詞範例:
請用我提供的原圖,把圖片內主體變成電腦桌前的立體公仔。 場景為一張電腦書桌,上面擺放著一個 1/7 比例的 PVC 公仔,角色以站立姿態呈現,並固定在透明圓形底座上,呈現出細緻逼真的動漫風格收藏品質感。 在公仔的背後是一台電腦螢幕,螢幕上顯示該角色的 3D 設計圖,就像有人正在進行設計過程。 桌面上另外放置了鍵盤、滑鼠、咖啡杯,以及其模型盒,設計為市售收藏品風格,正面印有該角色的彩色動漫插圖,呈現完整的周邊商品氛圍。 整體場景需營造出真實的書桌環境,具有自然光線與景深效果,就像用相機拍攝的實景照片。