☰

以圖生圖「混」出新畫面！Google新工具玩創意免輸入文字

Google推出新的AI生成圖片工具Whisk。（示意圖：shutterstock／達志）

萬能的Google（谷歌）再推新的人工智慧好幫手！美國有線電視新聞網週二（17日）報導，谷歌推出圖片生成工具Whisk，這個新的工具拋棄了傳統的文字描述輸入模式，只要上傳圖片或照片就能揉合出新的圖像，有如「以圖生圖」。不過目前這個新功能僅開放美國用戶測試。

谷歌在部落格文章說明，Whisk是能迅速激發靈感的創意工具，而非「傳統的圖像編輯程式」，從本質而言， Whisk是以有趣的AI功能爲主要訴求，而非細緻的專業美術作業。

使用Whisk時，用戶經由上傳多張不同元素的圖片、同時混合類別，藉此生成新的圖片，例如同時上傳絨毛玩具、別針與貼紙的圖片，谷歌的介紹文字以音樂產業常見的「混音」（remix）形容這種過程。如果用戶想要描述細節，可以輸入文字，但文字描述並非Whisk生成圖片的必要元素。

谷歌實驗室產品管理主任伊吉克（Thomas Iljic）說明，Whisk設計目的在於讓用戶以新奇、有創意的方式重新混和圖片的主題、場景、風格，爲用戶提供了快速的視覺探索過程，而非像素精美的圖片編輯功能。這項新的工具仍處於開發初期階段，暫時僅限美國用戶使用。

Whisk是由谷歌2014年併購的人工智慧（AI）公司DeepMind開發的生成式人工智慧爲基礎研發而成，使用以谷歌去年12月首度問世的核心Gemini系統，並與DeepMind最新推出的文本轉圖像生成器Imagen 3配對。使用者上傳圖片到Whisk時，Gemini會產生標題並輸入Imagen 3，上傳圖片並非精確複製，而是重新揉合成爲最終的圖片結果。

最終畫面有可能偏離最初上傳的圖片提示，例如生成的人物圖案有可能在身高、髮型、膚色等環節出現與上傳圖片不同的結果。需要細微調整時，可利用文字描述輔助。

以圖生圖「混」出新畫面！Google新工具玩創意免輸入文字

相關資訊