Google 在去年 12 月發布過一段 Gemini 技術演示影片,但後來被開發者質疑影片中該模型的能力是虛構、經過剪輯的,使它看起來比實際更快、更即時且更有能力。
後來 Google 坦承該影片並非真實呈現,而是進行過一些微調,比如降低延遲,並且操作的過程也不是即時或語音進行,而是靠靜態圖像與提示操作。
但 Google 也稱影片中的所有使用者提示和輸出都是真實的,只是簡潔起見而進行了剪輯,該影片是作為展示使用 Gemini 構建的多模態用戶體驗是什麼樣子,這樣做是為了激勵開發人員。
官方展示 Gemini 強大的多模態功能:
The potential of Gemini:這一系列影片展示了 Gemini multimodal AI 在科學、推理、音頻、程式、數學與物理方面的能力。例如在沒有光學字元辨識(OCR)協助下,用戶只要給它一張手寫的數學試卷,Gemini 就能立即批改指出錯誤,還能進一步回答錯誤思維在何處,除了能逐步詳細解題,還能進一步產出相似題型提供練習。
開發人員可以從 Google 的 Github 上面找到各種程式語言的 Gemini AI SDK,裡面都有 sample code 可以參考,像我想自己寫一個 Android 應用程式,來看看 GenAI 對於圖像推理的表現,以及在手機 APP 上的使用體驗如何,那我就可以從這裡下載 Google AI SDK for Android,並執行裡面的 sample code 看我們要如何使用它。
也有人用 Python 寫了可以在電腦上執行的腳本,透過電腦的攝像頭和麥克風來將使用者的語音提示和相機拍攝的畫面,作為輸入讓 Gemini Pro 進行推論,並透過 Text to Speech 將結果讀出來,有興趣的可以參考下面文章。
目前 Android Studio 最新預覽版已經有提供 Gemini API Starter 項目模板,供開發者開始使用適用於 Android 的 Google AI SDK。此外,Google AI Studio 也為開發者提供了一種簡化的方式來集成 Gemini Pro 模型、製作提示、創建 API 金鑰,以及輕鬆將想法轉化為 AI 應用。
Gemini Pro API有下面幾種常見的使用例:
根據純文本輸入生成文本
從文本和圖片輸入生成文本(多模態)
構建多輪對話(聊天)
使用streaming方式傳輸加快互動速度
除了上面第2項以外,其他都是使用 gemini-pro 模型,使用多模態生成文本,必須選擇 gemini-pro-vision 模型,可以同時輸入文本和圖片,送出提示的圖片格式要求,可參考提示資料和設計裡面的內容。在 Google 提供的 sample code 裡面,將圖片大小縮減為 768 像素,用以加快 Gemini AI 推論和生成內容的速度。
發送給 Gemini AI 模型的每個提示都包含用於控制模型如何生成回答的參數值,不同的參數值設定,會使模型生成不同的回答。詳細請參閱模型參數的內容。
以下是一些可以透過 Gemini Pro Vision 提供幫助的視覺回答 (VQA)任務類型應用場景:
擷取影像並要求 Gemini Pro Vision 建立與影像相關的內容,例如針對設計的產品提供文案,或者是根據一些食材照片,提供料理建議,甚至是食譜和做法。
擷取報章雜誌的文章畫面,要求 Gemini Pro Vision 總結其中的重點內容。
要求 Gemini Pro Vision 分析視覺化資料(如線圖、圓餅圖),並根據視覺化提供關鍵見解。
擷取外文的菜單目錄,要求 Gemini Pro Vision 將菜單上的品項名稱翻譯為母語。
過年前,我花了一兩天實作了一個 Android 應用程式,用來測試 Gemini AI 在智慧型手機上的使用體驗。由於我要在同一個 UI 畫面中,同時可以看見相機畫面,並呈現 AI 模型推論後的文字結果,所以我將 Camera View 做成懸浮視窗,並使用 Android 內建的 Speech to Text 來用語音輸入提示(支援多國語言的語音輸入),同時也使用 Text to Speech 來使推論結果除了文字呈現外也能用語音讀出來。
我將模型的 Temperature 設置為 0.9,並且由於是直接拿兩年多前開發的 Android 相機應用來添加 Gemini Pro API,所以實作中並沒有用到 Gemini API Starter 項目模板,而是在現有的 Android 專案進行開發。
現在透過 VertexAI API 的 ChatSession,我們可以實作具有前後文記憶功能的 AI 聊天機器人(這個 OpenAI 的 API 也能做到),下面是幾張 Multi-turn Conversation 的測試對話。其前後文記憶功能,也能夠與包含照片或影片的 Multimodal 多模態提示一起使用,例如我拍了一棟建築物,然後進行了幾次對話後,再問它說稍早拍的建築物外牆是什麼顏色的,AI 也能記得稍早的照片,並給出正確的回答。
初始提問
AI 的初始回答
AI 知道日式定食在對話中的前後文關係
AI 記得我在林口,以及我需要的是餐廳的訊息
AI 記得上次的對話,所以它知道第三家店指的是什麼
AI 的回答
AI 有對話的前後文記憶,所以我說的開車到那邊,它知道指的是哪裡
AI 的回答是正確的
最後我再故意問一次那家店,AI 也知道我指的是哪一家店
AI 給的回答正確
最後是對於多模態 AI 模型的感想
簡單用過 Gemini Pro 之後,我認為雖然目前多模態 AI 可能還不算非常成熟、聰明、即時,但是隨著軟體、硬體技術的發展,不久後的將來,AI 就會完全進入人類生活的各領域,一切都會變得理所當然,甚至讓你感受不到 AI 技術的存在。正如 N 年前我看過推特創辦人說過的一句話:最厲害的技術,就是讓使用者完全察覺不到技術的存在。
作者約翰·D·洛克菲勒 John D. Rockefeller(1839—1937年) 美國實業家、超級資本家,美孚石油公司(標準石油)創辦人。出生於紐約州裏奇福德鎮,父親威廉·埃弗裏·洛克菲勒是一個無牌遊醫,母親伊萊紮·戴維森是一個虔誠的浸理會教徒。由於其父缺乏責任心,長年在外以藥販身份流浪,導致家庭生活艱難。母親伊萊紮肩負起養家糊口的繁重任務,獨自撫養五個子女。幼年時,曾將自己捉到的小火雞精心餵養,挑好的在集市上出售。12歲時積蓄了50美元,他把錢借給鄰居,收取本息。 1855年,由於其父的原因不能繼續上學,離7月16日高中畢業典禮只差兩個月。約翰聽從父親建議,花了40塊錢在福爾索姆商業學院克裏夫蘭分校讀了一個為期三個月的課程。16歲的洛克菲勒在美國俄亥俄州的一家幹貨店當職員,每星期賺5美元。19歲,他下海經商,倒賣谷物和肉類。從這時起,洛克菲勒將每一筆收支記錄在冊,甚至不漏掉一個便士的慈善捐款。經過三年積累,22歲的洛克菲勒進入石油業,並於1870年創建標準石油公司。洛克菲勒成了蜚聲海內外的“石油大王”。 1897年,從標準石油公司退休後,洛克菲勒專註於慈善事業。中國在洛克菲勒基金會的其海外投資中獨占鰲頭。眾所周知的是,北京協和醫院及醫學院是洛克菲勒基金會在中國最大、最著名的一項事業;鮮為人知的是,周口店“北京人”的挖掘和考古工作,洛克菲勒基金會從一開始就參與其中。 對於中國人來說,“富不過3代”似乎是鐵一樣的定律,然而洛克菲勒家族從發跡至今已經綿延6代,仍未現頹廢和沒落的跡象。這與他們的財富觀念和從小對子女的教育息息相關。他們的家族崇尚節儉並熱衷創造財富。這兩點從洛克菲勒家族的中興之主勞倫斯·洛克菲勒的一生中體現得尤其充分。 2004年7月11日,坐擁億萬家財、在美國叱咤風雲的勞倫斯·洛克菲勒在睡夢中與世長辭,享年94歲。這位洛克菲勒家族的第3代傳人,盡管含著金鑰匙出生,卻絕不是一位紈絝子弟,他在有生之年不僅開了風險投資的先河,還為美國的環保及慈善事業作出了不朽的貢獻。 老約翰·D·洛克菲勒惟一的兒子和繼承人是小約翰·D·洛克菲勒。小約翰·D·洛克菲勒共有6個子女,姐姐芭布斯最大,其他都是男孩,從大到小分別是約翰、納爾遜、勞倫斯、溫斯羅普和大衛。勞倫斯·洛克菲勒1910年5月26日生於紐約。童年時期,勞倫斯與年長他兩歲的納爾遜關系最親密,他們曾一