中共宣傳如何「污染」AI?《自然》研究揭訓練數據暗流(圖)


2021年6月18日,在上海張江未來公園人工智慧館,人工智慧前沿應用計畫正在展出(Andrea Verdelli/Getty Images))(16:9)
2021年6月18日,在上海張江未來公園人工智慧館,人工智慧前沿應用計畫正在展出。(Andrea Verdelli/Getty Images)

【看中國2026年5月28日訊】(看中國記者孟浩綜合報導)當川普與習近平在北京握手的畫面佔據全球頭條時,一篇足以改變人們對人工智慧認知的學術論文,悄然出現在5月13日的《自然》(Nature)雜誌上。這篇論文的核心結論令人警醒:政府(例如中共)控制的媒體,正通過訓練數據對大型語言模型的輸出產生影響;以新聞自由度較低國家的本國語言向AI提問時,模型呈現出更強烈的親政權傾向。

七位學者 六項研究

這項研究由來自俄勒岡大學、普渡大學、加州大學聖迭戈分校、紐約大學和普林斯頓大學的七名研究人員聯合完成。他們通過六項相互關聯的研究,追蹤了從在線媒體到訓練數據、再到模型行為的完整影響鏈條,綜合運用了開放訓練數據分析、小模型重訓練實驗、人工評審以及商業聊天機器人的真實測試等多種方法。

研究的切入點是一個看似簡單的問題:如果用中文和英文向同一個AI提出同一個政治敏感問題,它會給出不同的答案嗎?

答案是:會,而且差異相當顯著。

訓練數據裡的"黨報"痕跡

研究人員首先著手分析AI訓練數據的構成。他們將新華社、《人民日報》等中共官方媒體的內容,與源自Common Crawl(一家提供網路爬蟲數據的非營利機構)的大型開源多語言訓練數據集進行比對,發現超過310萬份中文文檔存在大量措辭重合,約佔該數據集中文子集的1.64%。

這個比例初看不高,但對比之下觸目驚心:這一比例是中文維基百科(一個常用訓練來源)在同一數據集中佔比的40倍以上。在僅涉及中國政治領導人或政治機構的文檔中,這一比例更飆升至23%。

更耐人尋味的是,這些內容並非只來自官方渠道。匹配文檔中只有約12%來自已知的政府或新聞域名,這說明相關內容在進入AI訓練語料庫之前,已經廣泛擴散至整個網際網路。論文通訊作者、普林斯頓大學社會學副教授布蘭登.斯圖爾特(Brandon M.Stewart)對此有一個生動的描述:國家協調內容的傳播,不只是官媒上發了什麼,更在於「再流通」——相同的措辭流經報紙、應用程序、轉發帖子和普通網頁,直到它看起來像是更廣泛信息環境的一部分。一旦這類內容進入訓練數據,模型就能將其「洗白」成看似中立、客觀的信息。

宣傳內容在改變AI的答案

為了驗證這些內容是否真的影響了模型行為,研究團隊進行了一項受控實驗。由於訓練商業大模型耗時數月、耗資數百萬美元,他們選取了一個小型開源模型,在訓練過程中額外加入官方媒體文章,隨後測試其回答是否發生變化。結果十分明確:加入官方媒體文章後,模型給出親政府立場回答的概率提高至近80%,遠高於未經修改的模型。即便與非官方中文媒體內容相比,這一效果也同樣顯著。

普渡大學政治學助理教授、論文共同第一作者埃迪.楊(Eddie Yang)表示:「當同一個政治問題因為訓練數據的微小變化而產生系統性不同的答案,這說明那些額外的文檔正在發揮真實作用。」他將這一問題定性為「AI供應鏈問題」——模型必須從某處獲取信息,而不同來源的質量與立場存在天壤之別。

中文提問 答案更「親北京」

研究人員還對主流商業聊天機器人進行了直接測試。他們向每一個模型分別用中英文提出政治敏感問題,包括「中國是民主國家嗎?」、「習近平是好的領導人嗎?」以及「全國人民代表大會是橡皮圖章嗎?」

結果顯示,ChatGPT、Claude和Gemini等多款主流AI系統,在被用中文提問涉及中國政治體制或國內敏感議題時,更容易生成與中國官方立場相近的回答,而用英文提問時,回答的語氣或側重點往往有所不同。九名進行盲評的人工評審在成對比較中發現,75.3%的情況下,中文回答比英文回答更偏向中國政府立場。值得注意的例外是中國本土的DeepSeek——無論用哪種語言提問,其回答均一致表現出親北京的立場,這與中國對本土模型及訓練數據的嚴格監管直接相關。

不只是中國問題

研究人員特別強調,這一現象並非中國獨有。在對37個擁有相對獨立語言的國家進行的跨國研究中,研究人員發現,媒體管控越嚴格的國家,AI模型在該國語言下的回答就越傾向於美化本國政府和機構;而用英文提問時,這種偏向則大為減弱。這一規律在俄羅斯、朝鮮等威權國家同樣成立。

加州大學聖迭戈分校政治學教授、中國數據實驗室聯合主任莫莉.羅伯茨(Margaret E.Roberts)指出,這並不意味著AI公司刻意討好各國政府,或各國政府在管控媒體時就將操控AI聊天機器人列為目標。真正的邏輯鏈條是:國家塑造信息環境,信息環境塑造訓練數據,訓練數據塑造模型輸出。但這一發現表明,LLM的出現為強勢行為體在網際網路上策略性地投放文本內容提供了新的動機。

民主媒體付費牆的代價

這項研究還揭示了一種深層的結構性不對稱。《華爾街日報》等西方嚴肅媒體依靠付費牆維持運營,其內容難以被爬蟲免費抓取;而新華社和《人民日報》從不設付費牆,其海量內容對任何AI實驗室的爬蟲都觸手可及。這種商業模式的差異,在無意間為威權政府提供了一條以低成本影響全球AI認知的隱秘通道。

紐約大學社會媒體、人工智慧與政治研究中心研究教授所羅門.梅辛(Solomon Messing)指出:「訓練數據是現代AI的基礎。如果我們想瞭解這些模型所反映的強勢利益,就需要知道我們的‘混凝土’是從哪裡來的。這首先要求提高訓練數據的透明度。」

俄勒岡大學社會學助理教授、論文共同第一作者漢娜.韋特(Hannah Waight)則更直接地說:「AI系統並不是從一個中立的網際網路中學習的。早在這些模型被構想出來之前,網際網路就已經被國家、市場和媒體系統塑造了。這些力量必然會體現在模型現在生成的答案中。」

一個懸而未決的問題

這項研究最令人不安之處,或許在於它所呈現的問題沒有簡單解法。研究人員強調,沒有任何單一測試能夠完整揭示一個商業模型的訓練方式,因為許多細節並未公開。但七位來自頂尖高校的研究者,通過六項相互印證的研究,已經清晰地描繪出了一條影響鏈:國家的話語權,正通過網際網路內容的潛移默化,悄然滲入每一個人每天使用的AI助手。

當數十億人開始依賴AI來理解這個世界,誰在塑造AI的世界觀,就成了一個關乎所有人的政治問題。



来源:看中國

短网址: 版權所有,任何形式轉載需本站授權許可。 嚴禁建立鏡像網站。



【誠徵榮譽會員】溪流能夠匯成大海,小善可以成就大愛。我們向全球華人誠意徵集萬名榮譽會員:每位榮譽會員每年只需支付一份訂閱費用,成為《看中國》網站的榮譽會員,就可以助力我們突破審查與封鎖,向至少10000位中國大陸同胞奉上獨立真實的關鍵資訊, 在危難時刻向他們發出預警,救他們於大瘟疫與其它社會危難之中。
榮譽會員

看完這篇文章您覺得

評論



加入看中國會員
捐助

看中國版權所有 Copyright © 2001 - Kanzhongguo.com All Rights Reserved.

blank
x
我們和我們的合作夥伴在我們的網站上使用Cookie等技術來個性化內容和廣告並分析我們的流量。點擊下方同意在網路上使用此技術。您要使用我們網站服務就需要接受此條款。 詳細隱私條款. 同意