Meta二代「SAM 2」來了!AI一鍵分割影片中物件,還免費讓外界開源,祖克柏有何野心?

去年Meta推出能夠分割圖像的Segment Anything模型大受外界好評,相隔一年後的現在,Meta帶來了第二代Segment Anything模型(後稱SAM 2),加入了辨識影像中各個物體的技術,並且免費開放所有人使用。

Meta提到的「分割」指的是,AI模型辨別圖像中的各個要素,並將其獨立出來,好比說一段運球的影片中,AI能夠知道籃球是籃球,球員是球員,籃球並不是球員身體的一部分,並將各個物體分割出來。這項技術能夠用於科學研究或編輯照片,依照Meta透露的資訊,目前SAM已應用在分析珊瑚礁、救災圖像、檢測癌症等眾多面向上。

用最大資料集煉成,靠「單幀」分割影片物體

而現在最新發表的SAM 2,主要更新是將這些功能拓展到了影像裡。Meta強調,影像中分割遠比圖像困難,因為物體的位置會隨時間快速變化、過程中可能被遮擋或形狀改變,這都加劇了分割的難度。

不過Meta在部落格中提到,一張圖像可以被視為僅具有單幀(frame)的極短影片,他們便是從這個角度切入來開發新模型。在影片中分割的唯一差別在於,模型需要依靠記憶體回憶起該影片之前處理過的資訊,好在當下時間準備分割物體。

且要實現影像中分割自然需要經過大量訓練,在發表SAM 2的同時,Meta也開放了有著超
過5萬部影片的標注資料集SA-V,並包含超過60萬個時空遮罩(Masklet)。時空遮罩會標注物體的時間及位置,是現有最大影像分割資料集的53倍大。

且根據《TechCrunch》報導,Meta還在論文中提到訓練材料包括一個著10萬部影片的內部資料集並推測可能來自Instagram和Facebook上的公開資料。

近日廣受矚目的祖克柏與輝達執行長黃仁勳在SIGGRAPH 2024活動上對談,就提到了新推出的SAM 2。「科學家利用這項技術來研究珊瑚礁、自然棲息地之類的東西,不過能將這項技術應用到影片,並且在沒有樣本提示的情況下告訴它你想要的,這真的非常酷。」祖克柏表示。

黃仁勳 祖克柏 01.jpg 圖/輝達YouTube頻道
黃仁勳 祖克柏 01.jpg 圖/輝達YouTube頻道

《TechCrunch》指出,雖然處理影片需要更龐大的運算能力,使得SAM 2有更高的硬體要求,但在Meta推出這系列模型前,想要如此迅速、靈活的分割影像中的物體根本不可能辦得到。

不過Meta表示,SAM 2仍有一些缺憾,在較為複雜的場景中很難持續鎖定要分割的物體,例如多隻馬一齊狂奔的影片中,SAM 2會在中途失去鎖定,需要人為手動校正;又或者同時分割多個物體時效率會大大降低,未來還有改進的空間。

SAM 2仍免費開源使用,祖克柏目的打造更完備模型

不過如此具有突破的模型,Meta仍然免費開放所有人使用,在Apache 2.0授權條款下發布這款新模型。

Meta強調,他們鼓勵AI社群嘗試使用這次的新模型、使用他們的資料集並希望透過分享這個研究,為圖像分割及相關領域的發展做出貢獻,並期待這次分享能激發社群產生新的見解、帶來有幫助的經驗。

meta SAM 2 02.jpg 圖/Meta
meta SAM 2 02.jpg 圖/Meta

Meta近年在AI領域的發展,一直堅定擁護開源開放的路線。祖克柏也提到,雖然Meta的開放並不是全然是出於做功德的心態,但不代表他們別有居心,「你需要圍繞它的生態系統,如果我們不開源這些功能就不會這麼好用,沒錯吧?我們選擇開源並不是因為我們大公無私,而是認為這麼做可以讓我們打造的東西變得最棒。」

就在發表SAM 2的前一週,祖克柏撰寫了一封公開信,透露他們正努力使開源成為AI領域的產業標準,強調這項技術比其他任何技術都有潛力提昇人類的生產力、創造力及生活品質,為社會及科學的革新帶來貢獻。Meta聲稱去年推出SAM後在AI社群帶來的迴響令他們印象深刻,預計SAM 2將帶來更為令人興奮的可能性。

延伸閱讀:首批iPhone 16恐不含AI功能!蘋果擬推遲Apple Intelligence上線,問題出在哪?
詐騙靠Deepfake語音假扮CEO!法拉利高管險遭設局,他如何靠「1句反問」化解危機?

資料來源:TechCrunchMeta(1)Meta(2)

責任編輯:蘇柔瑋

更多報導
黃仁勳、祖克柏首度公開對談,意外勾出對蘋果的愛恨情仇!兩大巨頭說了什麼?
科技公司Avaya裁員!180人受波及「占員工總數3%」,為何美國電信老牌搖搖欲墜?