歐洲的數據隱私方法對GPT和DALL-E意味著什么?
全球人工智能的爆炸式增長加劇了對處理數據隱私和所有權的常識、以人為本的方法的需求。引領潮流的是歐洲的通用數據保護條例(GDPR),但在現代市場中,不僅僅是個人身份信息(PII)受到威脅。
我們生成的內容和藝術數據呢?復制別人的作品然后作為自己的作品呈現當然是不合法的。但是有些人工智能系統試圖從網絡上盡可能多地抓取人工生成的內容,以生成相似的內容。
GDPR或任何其他以歐盟為中心的政策能否保護此類內容?事實證明,就像機器學習世界中的大多數事情一樣,它取決于數據。
隱私與所有權
GDPR的主要目的是保護歐洲公民免受與濫用、濫用或利用其私人信息有關的有害行為和后果。在保護知識產權(IP)方面,它對公民(或組織)沒有多大用處。
不幸的是,據我們所知,為保護知識產權而制定的政策和法規無法涵蓋數據抓取和匿名化。這使得在抓取網絡內容時很難準確理解法規的適用范圍。
這些技術以及他們獲得的數據用于創建海量數據庫,用于訓練大型AI模型,例如OpenAI的GPT-3和DALL-E2系統。
教人工智能模仿人類的唯一方法是將其暴露于人類生成的數據中。你在AI系統中推送的數據越多,它的輸出就越穩健。
它的工作原理是這樣的:想象你畫了一朵花,然后把它貼到藝術家的在線論壇上。使用抓取技術,一家科技公司可以將您的圖像與數十億其他圖像一起吸收,這樣它就可以創建一個龐大的藝術品數據集。下次有人要求AI生成“花”的圖像時,您的作品將出現在AI對提示的解釋中的可能性大于零。
至于這種使用是否合乎道德,仍然是一個懸而未決的問題。
公共數據與PII
雖然在保護私人信息和賦予歐洲人刪除權方面,GDPR的監管可以說是影響深遠的,但它似乎對保護內容不被竊取幾乎無能為力。然而,這并不意味著GDPR和其他歐盟法規在這方面是完全無效的。
個人和組織必須遵循非常具體的規則來抓取PII,以免觸犯法律——這可能會變得非常昂貴。
例如,ClearviewAI(一家通過抓取社交媒體數據為政府使用建立面部識別數據庫的公司)在歐洲開展業務幾乎是不可能的。來自至少七個國家的歐盟監管機構已經對公司拒絕遵守GDPR和類似法規開出巨額罰款或建議罰款。
在光譜的另一端,谷歌、OpenAI和Meta等公司直接或通過為許多AI模型購買或使用抓取的數據集來采用類似的數據抓取做法,而不會產生任何影響。而且,雖然大型科技公司在歐洲面臨相當多的罰款,但很少有違規行為涉及數據抓取。
為什么不禁止刮痧?
從表面上看,刮擦似乎是一種很有可能被濫用而不是徹底禁止的做法。但是,對于許多依賴抓取的組織而言,獲取的數據不一定是“內容”或“PII”,而是可以為公眾服務的信息。
我們聯系了英國負責處理數據隱私的機構信息專員辦公室(ICO),以了解他們如何監管抓取技術和互聯網規模的數據集,并了解為什么不要過度監管如此重要。
ICO的一位發言人告訴TNW:
使用公開信息可以帶來許多好處,從研究到開發新產品、服務和創新——包括在人工智能領域。但是,如果此信息是個人數據,請務必了解適用數據保護法。無論用于收集數據的技術是否涉及抓取或其他任何東西,情況都是如此。
換句話說,它更多的是關于正在使用的數據類型,而不是它是如何收集的。
無論您是從Facebook個人資料中復制粘貼圖像,還是使用機器學習在網絡上抓取已標記的圖像,如果您在未經人臉參與的人同意的情況下構建面部識別引擎,您都可能違反GDPR和其他歐洲隱私法規它的數據庫。
但是,只要您將其匿名或確保數據集中沒有PII,從互聯網上抓取大量數據通常是可以接受的。
更多灰色地帶
然而,即使在允許的用例中,仍然存在一些涉及私人信息的灰色區域。
例如,眾所周知,GPT-2和GPT-3偶爾會以地址、電話號碼和其他信息的形式輸出PII,這些信息顯然是通過大規模訓練數據集嵌入到其語料庫中的。
在這里,很明顯GPT-2和GPT-3背后的公司正在采取措施緩解這種情況,而GDPR和類似法規正在發揮作用。
簡而言之,我們可以選擇不訓練大型AI模型,也可以讓訓練它們的公司有機會探索邊緣案例并嘗試減輕擔憂。
可能需要的是GDUR,即通用數據使用法規,它可以為如何在大型數據集中合法使用人工生成的內容提供明確的指導方針。
至少,似乎值得討論一下歐洲公民是否應該有權將他們創建的內容從數據集中刪除,就像他們的自拍和個人資料照片一樣。
目前,在英國和整個歐洲其他地區,刪除權似乎只適用于我們的PII。我們放在網上的任何東西都可能最終出現在某些AI的訓練數據集中。