前 Meta 新闻主管调查:几乎所有 AI 模型政治左倾,Gemini 曾援引中共官媒

前 Meta 新闻负责人 Campbell Brown 创立了 Forum AI,用17个月系统性评估主流AI模型的资讯品质,发现 Gemini 曾在处理非中国相关报道时引用中共官方网页资讯,而且几乎所有测试模型都存在偏左的政治倾向。
(前情提要:AI 破坏了133年来普林斯顿大学的传统:当“作弊”逐渐成为常识)
(背景补充:97,895条地下论坛对话告诉你:黑客社区其实也恨AI)

本文目录

切换

  • 没有人在测的那个问题
  • 流畅的错误,比沉默更难被发现
  • 法规倒逼,不是道德自觉

Brown 是记者出身,曾在 CNN 担任主播,后来转任 Meta 新闻负责人,直接管理 Facebook 在全球30亿用户面前如何呈现新闻的政策。

这个位置让她近距离看到了“平台如何塑造信息流通”的全貌。她在17个月前离开 Meta,在纽约创立了 Forum AI,专门做一件基础模型公司普遍跳过的事:系统性评估AI给出的资讯是否准确、是否公正、是否具有多元视角。

没有人在测的那个问题

Forum AI 的核心产品是一套“地缘政治事件基准架构”。

运作方式是:Forum AI邀请一批具有不同政治光谱与专业背景的顶尖顾问:Niall Ferguson、Fareed Zakaria、前美国国务卿 Tony Blinken、前众议院少数党领袖 Kevin McCarthy、前美国国家安全副顾问 Anne Neuberger……针对同一复杂的地缘政治事件,为主流AI模型的回答逐一评分。

目前,Forum AI 已达到与人类专家约90%的共识阈值,使得Forum AI的评估结果具有可辩护的基准,而不只是一个人的观点。

Brown 发现的问题分三个层次,每一层都比上一层更难从技术角度修复。

第一层是来源选择逻辑的漏洞。 Gemini 在处理某些与中国无关的报道时,引用了来自中共官方网站的内容。这不是一般意义上的事实错误,而是模型在抓取来源时的筛选逻辑问题:AI 只判断“这是真实的文字,这是真实的链接”,不判断“这个来源的立场是什么、可信度如何、是否带有明确的政治目的”。

来源本身的政治性,在AI的输出流程中是不可见的。

**第二层是结构性的政治偏向。**Brown 测试的几乎所有主流模型都表现出偏左的政治倾向。这不是阴谋论,而是训练语料分布的自然结果。AI 从什么文本学习,就倾向复制那些文本的语气和立场框架。

英语互联网的主流内容——主流媒体报道、学术论文、社交媒体贴文——整体上带有特定的政治倾向,训练出来的模型就会继承这个倾向,而且不会意识到它正在这样做。

更棘手的是,这种偏向不是一个可以找出来修补的bug,而是嵌入在模型的每一次输出逻辑里。

**第三层是缺乏脉络与多视角。**Brown 表示现有模型普遍缺乏“背景脉络、多视角与论证透明度”。AI 给出的答案是陈述句,不是“这件事在A派看来代表的是这个,在B派看来代表的是那个,二者的根本分歧在于……”的结构。

它给你一个答案,但不告诉你这个答案是从哪个角度出发的。

流畅的错误,比沉默更难被发现

Brown 指出一个结构性盲点:基础模型公司在评估和排名模型时,优先考量的是数学、编码与逻辑推理能力,资讯准确性和政治多元性几乎从未出现在主流基准测试清单上。

原因不难理解。代码有对错,跑测试就知道。数学题有标准答案,准确率可以计算。但“什么是一篇地缘政治新闻的准确且公正的报道”,需要谁来判断?需要多少个具有不同立场的人形成共识才算数?这个问题没有工程解法。

在工程师主导、以基准测试排名决定市场定位的产品开发流程里,它就被系统性地跳过了。结果是,资讯准确性在AI的能力评估体系中几乎是隐形的指标。

被跳过的代价,可以从一个具体案例看出来。纽约市去年对AI招聘系统进行了一轮合规审计,目的是检查雇主使用的AI筛选工具是否违反现行的反歧视雇佣法规。根据审计结果,超过一半的案例没有检测到违规行为。

这个数字的问题不在于“违规率低”,而在于它可能代表的是:执行审计的AI工具其准确性本身就不够,以至于它看不出问题所在,而不是问题真的不存在。

这就是Brown论点的核心:**AI的问题,不只是给出错误的事实,更是让人带着信任去接受错误的事实。**一个人知道自己不知道某件事,至少还有机会去查。但当AI用流畅、自信、没有犹豫的语气给出一个错误答案,大多数用户根本没有理由怀疑它。

流畅的错误,比沉默更难被发现,也更难被纠正。

法规倒逼,不是道德自觉

Brown的判断直截了当:驱动改变的不会是道德压力或公众舆论,而是企业合规风险带来的商业压力。

Brown的论点背后有一个现实主义的基础:在AI产业的现有激励结构下,没有人有足够强烈的理由主动解决这个问题,直到它的代价变得无法忽视。信贷审批、保险核保、招聘筛选,这些场景里的AI决策都受现行法规约束。

一旦AI输出有歧视性或不准确的结果,使用AI的企业要承担法律责任。这个压力最终会向上传导到模型供应商,要求他们提供可审计、可验证、准确性有保障的输出。不是因为他们觉得这样做在道德上是正确的,而是因为企业客户的合同里开始写进了这个要求。

Lerer Hippeau去年领投了Forum AI的300万美元种子轮。这一数字在AI领域是小钱,但它代表的是一种判断:“AI评估”是一门生意,而且这门生意的需求,可能比目前可见的更快速增长。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论