OpenAI ChatGPT-4o 新增 Image Generation 圖片生成功能, 免費用戶也能體驗強大的圖像創作

OpenAI 宣布推出「4o Image Generation」功能,讓 ChatGPT 不僅能生成文字,也能創作精美且實用的圖片,還能進行更細膩的圖片調整與後製,甚至在圖片上加入文字。最重要的是即使是免費版使用者,也能體驗這項升級的圖像生成技術。

ChatGPT 加入影像生成能力大提升 在最新的直播活動中,OpenAI 執行長 Sam Altman 宣布 ChatGPT 的影像生成能力迎來一年多來的首次重大升級。現在,ChatGPT 能夠利用最新的 GPT-4o 模型原生生成與修改圖片和照片。

過去,GPT-4o 僅支援文字生成,但隨著這次更新,它不僅能創作全新的圖像,還能編輯現有圖片,甚至處理包含人物的照片,進行如前景與背景物件的「修補(inpainting)」等細節調整。

為什麼 4o Image Generation 如此特別?

更精準的圖像生成

GPT-4o 的影像生成能力較過去的 DALL·E 3 更加精確與細緻。這歸功於 OpenAI 針對龐大的線上圖片與文字資料進行聯合訓練,讓模型不僅理解圖像與語言的關聯性,更掌握圖像彼此之間的連結。這項能力讓 ChatGPT 的圖像生成更具一致性與情境感知能力。

文字渲染與多輪生成

GPT-4o 現在能夠在圖像中準確呈現文字,使圖像成為視覺溝通的工具。

此外,因為圖像生成已與 ChatGPT 原生整合,用戶能透過自然的對話反覆調整圖片,確保角色設計、場景設定等元素在多次修改後依然保持一致性。

強大的指令遵循與即時學習

無論是生成包含多達 10 至 20 種物件的複雜場景,還是依據用戶上傳的圖片進行即時學習並生成新圖,GPT-4o 都能精確掌握指令細節,展現圖像生成控制能力。

影像生成背後的故事:訓練資料與安全性 為了打造這項強大的影像生成技術,OpenAI 表示 GPT-4o 是基於「公開可取得的資料」,以及與像是 Shutterstock 等企業合作取得的專有資料進行訓練。面對訓練數據可能引發的智慧財產權爭議,OpenAI 也強調尊重藝術家權利,並實施政策以避免生成直接模仿在世藝術家作品的圖片。

此外,OpenAI 提供創作者填寫「退出表單」,請求 OpenAI 移除其作品,避免被用於模型訓練。若網站不希望 OpenAI 的網路爬蟲收集圖片作為訓練數據,也能提出相關要求。

OpenAI 圖像生成技術支援 C2PA  ChatGPT 的這次升級,緊跟著 Google 推出的 Gemini 2.0 Flash 原生影像生成功能。然而,Gemini 2.0 Flash 推出被發現缺乏防護功能,讓使用者可以移除浮水印、版權保護的圖像等,引發爭議

為此,OpenAI 在安全性上更加謹慎,除了使用 C2PA 元數據標示所有生成圖片來提升透明度外,也持續強化對於裸露、暴力等內容的管控。

免費用戶也能體驗的強大功能 自即日起,GPT-4o 的影像生成功能已全面開放給 ChatGPT 的 Plus、Pro、Team 與免費用戶,企業版與教育版也將在近期推出。就連開發者也很快能透過 API 使用這項功能。

使用這項功能非常簡單,只需在 ChatGPT 中描述你想要的圖像,包括如長寬比、色碼、透明背景等細節,GPT-4o 就能將你的構想變成精美圖片。由於新模型生成的圖像更加細緻,渲染時間稍長,通常需花費約一分鐘。

隨著 OpenAI 持續突破技術極限,這次的 4o Image Generation 不僅讓 ChatGPT 變得更聰明、更實用,也進一步拉高了圖像生成技術的標準。

原文網址:三嘻行動哇

圖片及資料來源:OpenAI、TechCrunch

▶▶▶看更多三嘻行動哇文章
AirTAG 改裝十年續航力套件及實測 Find My 功能中的的AR 尋找是否實用?
意念控制裝置將成真!Mouser Electronics 探討神經思維與指令,發展腦機介面