NVIDIA 據報未獲許可由 YouTube、Netflix 搜刮影片供 AI 訓練

NVIDIA 稱其「完全符合版權法」,而 YouTube 則是堅稱這違反了其條款。

NVIDIA

AI 業界一個愈來愈讓人擔憂的趨勢,就是科技公司開始無視著作權(或以自己的方式去解譯著作權),取用大量受版權保護的內容來訓練 AI。據 404 Media 的 Samantha Cole 報導,NVIDIA 是最新一個捲入此類爭端的公司,要求員工下載 YouTube、Netflix 等平台的影片,用於開發其 Omniverse 3D 世界生成器、自動駕駛車系統等模型。在競爭激烈的 AI 領域,以「快速行動,打破常規」為名,實則不擇手段的風氣,似乎 NVIDIA 也是無法避免了。

NVIDIA 在回覆 Engadget 的電子郵件中為其做法進行辯護,稱其研究「完全符合版權法的文字與精神」,並聲稱 IP 法保護的是「特定的表現方式」,而不是「事實、想法、資料或資訊」。用另一種方法來解釋,就是NVIDIA 將自已的做法等同於人類「從其他來源學習事實、想法、資料或資訊後,再用自己的方式表達出來」,而這重新表達的產物,就不受著作權法的限制。舉例來說,有個人看過了梵谷的星夜與蒙娜麗莎的微笑後,再以星夜的風格重繪了蒙娜麗莎,這樣是否有侵犯兩人的著作權?不過,這個理論適用於人類,是否適用於機器還是兩說。

YouTube 則不同意這種說法。發言人 Jack Malon 引用執行長 Neal Mohan 在四月的一篇彭博社訪問中的話語,表示使用 YouTube 訓練 AI 模型是「明顯違反」其條款的行為。當時 Mohan 是回應有關 OpenAI 在未經許可的情況下使用 YouTube 影片訓練其 Sora 影片生成器,而 YouTube 政策溝通經理在回覆 Engadget 時表示:「我們之前的評論仍然有效。」

據報,NVIDIA 自己的員工對這種做法也提出了倫理和法律方面的擔憂,但他們的主管告訴他們,這已經獲得到了公司最高層的批准。NVIDIA 研究副總裁劉洺堉表示:「這是高層的決定,我們對所有資料收集都一概給予批准。」公司內部其他人則將其抓取行為描述為「一個開放的法律問題」,是否真的犯法,以後再說。

除了 YouTube 和 Netflix 的影片,NVIDIA 據稱還使用了電影預告片資料庫 MovieNet、內部遊戲影片庫、 Github 的影片集 WebVid(這個影片集在收到禁止令後已下架)和 InternVid-10M 等各種來源來訓練其 AI,後者是一個包含 1000 萬個 YouTube 影片 ID 的資料集。

NVIDIA 訓練的部分資料,據傳甚至明確標記為僅可供學術(或其他非商業)用途使用。HD-VG-130M 就是一個包含 1.3 億個 YouTube 影片的資料庫,其使用許可明確規定僅供學術研究使用。NVIDIA 據稱無視了關於其僅限學術用途的擔憂,堅持認為他們可以公平地將其用於其商業 AI 產品。

不幸的是,科技界向來都是這種「只要沒被明文禁止,那就先用到被禁止再說」的態度,當中以 Meta(之前 Facebook)尤為出名,也造成了多起隱私洩露事件。訓練 AI 的使用雖然與 Meta 的隱私問題屬性不盡相同,但都突顯了監管和法律無法跟上最前沿的技術時,就容易有大公司游走在灰色地帶了。

相關文章: