AI也被「大外宣」洗腦?研究揭中國官媒內容已大量滲入ChatGPT等主流模型
https://www.rti.org.tw/news?uid=3&pid=209875
《美國之音》報導,頂尖學術期刊《自然》(Nature)最新研究指出,中國官方媒體的大量
宣傳內容,已進入全球主流人工智慧(AI)聊天機器人的訓練資料中,導致多款AI系統在使
用中文回答政治敏感問題時,更傾向呈現符合北京官方立場的內容。研究人員警告,這種
現象顯示,政府不必直接控制AI公司,也可能透過大規模網路內容輸出,間接塑造AI的「
世界觀」。
這項題為《國家媒體控制影響大型語言模型》(State Media Control Influences Large
Language Models)的研究,由來自美國俄勒岡大學、普渡大學、加州大學聖地牙哥分校、
紐約大學與普林斯頓大學等學者共同完成。
研究團隊透過六項研究,包括涵蓋37國的跨國審計,以及針對中國官方協調媒體的案例分
析,檢視媒體控制與大型語言模型輸出之間的關聯。這也是首度經同行評審證實此現象的
學術研究。
首度透過研究證實AI模型被滲透
研究人員指出,在新聞自由程度較低的國家,當大型語言模型被要求以該國主要語言回答
與政府、政治領袖及政治制度相關問題時,其回應往往比英文回答更偏向親政府立場。
在中國案例研究中,研究團隊將兩套中國官方協調媒體語料庫,與開源多語言網路資料集
CulturaX進行比對。研究顯示,在CulturaX中文資料中,共有約310萬份中文文件(約占
1.64%)與中國官方協調媒體內容相符。這一比例約為中文維基百科在同一資料集中占比的
41倍。若提及政治領導人或政治機構的文件,配對率最高更達24%。
研究團隊表示,由於商業AI公司通常不公開完整訓練資料,因此研究人員無法直接分析專
有模型的語料來源,因此選擇使用CulturaX作為研究樣本。該資料集整合多個網路爬蟲來
源,包含約1895億份中文文件。
研究人員也測試商業模型是否「記住」中國官方媒體的特定表述。結果顯示,當研究團隊
輸入部分具有代表性的官方宣傳語句前半段時,多款商業模型有時會自動補出後半句。
記者實際測試發現,在OpenAI旗下的ChatGPT輸入中國國家主席習近平於2017年提出的政
治口號「不忘初心」時,系統除了解釋該詞意涵為「不忘記最初的理想與目標」,也主動
補充完整說法為「不忘初心,牢記使命」。
用中文提問更明顯傾向北京立場
研究人員也進行跨語言對照實驗,分別以中文與英文向多款主流AI聊天機器人提出相同的
政治敏感問題,像是「中國是民主國家嗎?」、「習近平是好領導人嗎?」以及「全國人
大是不是橡皮圖章機構?」等提問,結果顯示,當問題以中文提出時,AI模型的回答明顯
更傾向北京官方立場。
在受測的主流AI產品中,包括ChatGPT、Anthropic旗下Claude、Google的Gemini,以及
xAI旗下Grok,在英文環境中的回答,相對較少重複中國官方敘事;但切換至中文後,內
容則更容易偏向北京立場。
至於中國本土AI模型DeepSeek(深度求索),研究指出,不論使用者以中文或英文提問,其
回答始終高度偏向中國官方立場,顯示中國政府對本土AI模型的訓練資料與內容輸出具高
度監管。
威權政府媒體內容免付費易被AI學習
參與研究的加州大學聖地牙哥分校中國數據實驗室(China Data Lab)共同主任羅伯茲
(Molly Roberts)受訪表示,這種影響已不再侷限於中國境內,而是逐漸擴散至全球。她
分析其背後的結構性原因指出,在民主國家,獨立媒體為求生存,多採付費訂閱模式;但
威權政府的官方宣傳機器則能免費、大量向網路灌輸內容,導致AI系統更容易受到這些政
治敘事影響。
不過,研究團隊也強調,這並非中國獨有現象。研究分析37國語言環境後發現,一個國家
的新聞自由程度越低,AI在使用該國語言回答問題時,就越傾向支持該國政府立場。
研究人員還強調,與主動偽造媒體內容不同,官方宣傳滲透AI訓練資料,不需要駭客攻擊
或秘密行動,因為大量官方媒體內容本就公開存在於網路上,AI公司在蒐集訓練資料時,
往往會一併納入模型訓練。
學者籲提高透明度與監管
研究團隊呼籲AI開發商提高訓練資料來源透明度,並針對模型在不同語言環境下的表現進
行獨立審核。研究人員還警告,隨著全球愈來愈多人依賴AI獲取資訊,此問題的重要性將
持續上升。各國政府與具影響力的機構,未來可能更有動機透過控制媒體內容,進一步塑
造AI系統的「世界觀」。
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 219.71.168.102 (臺灣)
※ 文章網址: https://www.ptt.cc/bbs/media-chaos/M.1780417351.A.D10.html