驅動主要生成式 AI 的龐大資料管線,從設計之初就建立在大規模侵犯隱私的基礎上

國際特赦組織(Amnesty International)在 5 月 28 日發布的報告中指出,許多企業正透過不法網頁爬蟲(unlawful web scraping)擷取巨量網路資料來構建其生成式人工智慧(AI)產品。這種做法導致大規模的隱私侵犯,使得這些系統打從設計之初就缺乏法律正當性。

《不法始於設計:揭露生成式 AI 的人權代價》(Unlawful by Design: Exposing the Human Rights Costs of Generative AI)這份報告,記錄了在建構與訓練這些系統時,大規模資料抓取與處理所帶來的嚴重風險;其中包括在設計之初即對隱私權造成的侵害,以及對環境與歷史邊緣化群體所產生的負面衝擊。

國際特赦組織演算法問責實驗室(Algorithmic Accountability Lab)負責人 Likhita Banerji 表示「全球各地的企業在『高效』與『先進』的包裝下提供生成式 AI 產品。但實際上,這些系統透過不法網頁爬蟲,持續大規模地侵犯隱私。這是一種用來從網站擷取資料自動化的程式,包含圖片和社群媒體活動等個人資料,來訓練 AI 模型。」

「為了打造生成式 AI 系統,從掠奪式資料管線、科技公司的設計抉擇到剝削性供應鏈,共同形塑了一種科技發展模式,並帶來大規模侵害人權的風險。 」 

國際特赦組織研究了目前幾款最受歡迎、且已公開發布的獨立生成式 AI 工具,並對其背後的技術模型進行了調查,對象包括 OpenAI 的 GPT-3、Google 的 Gemini、Meta 的 Llama、DeepSeek,以及 Midjourney 和 Stable Diffusion 等工具。

這些系統仰賴從數十億則公開的網路貼文和照片中擷取資訊,而往往沒有取得畫面中人物或創作者的明確同意。這不僅在設計上就侵犯了隱私,且隨著驅動 AI 模型的資料集規模擴大,其生成內容中包含的仇恨與歧視性內容也會被同步放大,連同負面刻板印象與偏見也一併加劇,特別是在種族和性別方面。 

種族、性別和文化偏見是生成式 AI 系統的普遍特徵,這是因為訓練資料大量擷取自網路,因而被現實世界的偏見所污染,進而傷害了歷史上被邊緣化的群體。此外,生成式 AI 系統還對思想自由權構成風險,因為它們有能力透過預測性建議來影響用戶的思想並塑造其個人信仰。對於依賴龐大訓練資料的大型模型而言尤其如此。


這些選擇並非不可避免。既然那些開發生成式 AI 的企業,背後是仰賴鋪天蓋地掠奪而來、且未經當事人同意的訓練資料與個資,我們就必須對這些公司做出的設計抉擇提出嚴厲質疑。
國際特赦組織演算法問責實驗室負責人 Likhita Banerji


「這是那些漠視人權的 AI 公司最惡劣的行徑之一,必須立刻著手解決。只要政府機關現在緊急出手匡正,科技發展完全有機會走向一條截然不同的道路。」

沉重的環境成本

隨著生成式 AI 企業的發展規模和速度加快,其基礎設施的需求以及相關的環境成本也隨之暴增。

模型規模愈大,運算需求就愈高,這不僅需要高耗能的晶片與更大型的資料中心,運作時更會消耗大量的能源與水資源。生成式 AI 的生產往往對歷史上被邊緣化的群體造成負面衝擊,因為屬於這些群體的土地與資源可能將遭到剝削,用以建造資料中心並滿足運算需求。

Google 在其 2024 年的永續發展報告指出,自 2019 年以來,該公司的溫室氣體排放量大幅增長了 48 %,這主要歸因於資料中心和供應鏈的排放量。同樣地,微軟在 2020 年至 2024 年之間的排放量增長了 29 %,這也歸因於執行 AI 支援運算的資料中心。

生成式 AI 生產對資源的密集消耗,已導致從智利的塞里略斯(Cerrillos)、墨西哥的克雷塔羅(Querétaro)到美國的亞利桑那州等地的社區,群起反對在已經遭受嚴重旱災和電力短缺的地區建造資料中心。

作為研究流程的一環,國際特赦組織曾致函 Google、OpenAI、Meta、Stability AI、Midjourney 和 DeepSeek,讓他們有機會對該研究報告的發現做出回應(報告指出他們的模型依賴非法網頁爬蟲,並涉及許多其他相關的人權疑慮)。

國際特赦組織亦特別針對歧視風險致函英特爾(Intel)和 VMware,並就生成式 AI 系統及相關基礎設施所造成的環境傷害,致函給 Google、微軟(Microsoft)和亞馬遜(Amazon)。在本報告發布前,僅有微軟、亞馬遜、英特爾、OpenAI 和 Meta 做出回應,其回應摘要已收錄於本報告中。

國際特赦組織呼籲各國政府,應禁止那些使用不法網頁爬蟲所構建的獨立生成式 AI 系統,此處是指透過網路大規模爬取訓練資料的行為。企業必須立即停止為了 AI 訓練目的,而未經同意就爬取個人資料的行徑;各國政府也必須針對企業在設計與商業抉擇中所涉及的任何人權侵害,嚴加追究其責任。

背景資料

本報告對驅動生成式 AI 產品的「資料管線(data pipeline)」進行了人權分析,包括對這些系統整體運作至關重要的資料擷取、分析和處理階段。具體而言,報告聚深入檢視 AI 模型訓練資料的設計抉擇與影響,並聚焦於資料的收集源頭與方法、處理流程、模型規模化及最終的資料輸出。

國際特赦組織將「獨立生成式 AI 工具(standalone generative AI tools)」定義為:僅專門為了其生成式 AI 功能而開發、部署和行銷的產品,例如 AI 聊天機器人,以及影像、影片、音訊和文字生成器等。這並不包含將生成式 AI 作為大型產品組合中附加功能的產品,例如附帶生成式 AI 功能的文書處理軟體。

因為你 我們有改變世界的力量

鼓舞人們 挺身關切不義 驅動人性 心存同情同理 攜手人群 讓世界更親近 致力人權 全球普世共享