摘 要:AI大模型以概率方式生产“事实”,挑战了事实核查赖以成立的前提。以往对事实核查的理解经历了“声明可验证”的专业实践与“应对信息失序的生态转向”两个阶段,均以输出文本为审查终点,遮蔽了事实背后的概率性生产机制。本文认为,在AI大模型的生产逻辑下,事实并非被发现与查验的,而是被数据、模型与社会反馈机制操作化生产的;核查对象需要从“虚假新闻”这一结果,转向“生产虚假新闻的系统”及参与生态。受人机交互研究“拆解AI”视角启发,本文提出“概率事实的核查”框架,将核查视野追溯至输出、数据与生态系统三个维度,并以三个经验案例揭示各维度的实践张力与权力不对等。概率事实的核查,不仅是理解人机共生时代“何为可信事实”的一个关键命题,也为数字新闻业的媒介韧性建设提供了可操作的方法路径、可探索的经验议题。
关键词:事实核查;AI大模型;人机交互;拆解AI;新闻生产
一、问题的提出
事实核查是新闻业为捍卫公共知识可信度,抵抗并适应信息挑战而开展的策略实践。从信息员的核实惯例到独立核查运动兴起、国际事实核查网络(IFCN)建立,随着实践边界拓展,其功能已远不止于甄别与纠正错误声明,逐渐演变为抵御虚假信息操纵、赢得公共信任的媒介韧性机制。然而,生成式人工智能(GAI)的规模化应用使韧性机制陷入紧张。内容生产体量呈指数扩张,与此相对的是信源归属、生成主体愈发难以识别。
这场危机最集中地爆发在AI大模型的幻觉输出与训练数据“投毒”问题上。2023年美国科技媒体CNET的AI写作项目在流畅专业的语体中夹杂了大量事实谬误,成功绕过传统编辑审核流程,误导了公众。2026年中央广播电视总台“3·15”晚会曝光了AI大模型被“投毒”的黑色产业链,即一些GEO服务商通过系统性“投喂”虚假信息生成数以万计的看似合理的虚构新闻报道。这些案例凸显了一个事实,即便我们明确地知道错误可能在内容生成之际便已造就,传统的核查方法却只能望“模型黑箱”而却步,滞留在事后补救的被动局面。
新闻业的回应迅速而直接,形成了两条“以AI之道还治AI”的路径:第一种是透明标签法,披露人工智能系统参与了内容的制作或传播,编辑会在文章下方添加免责声明;第二种则是针对大模型内容特征的自动化核查,利用AI来分析潜在的错误信息、检索证据,让人类参与决策过程。然而,这两种路径都将AI的输出文本作为审查的终点,忽略了文本背后那个生产“真伪”的概率性机制。
这就引出了一个被遮蔽的问题:当我们讨论事实核查时,我们默认真实是可被验证的。但在GAI语境下,又是什么在生产“真实”?这些症结并非没有先见之明者。批判AI研究者卢克·芒恩(Luke Munn)等人在新近研究中做出诊断,真实不是被发现与查验的,而是被数据采集、模型架构、话语社会反馈机制所操作化生产的。如果接受这一论断,我们或许可以拥有新的理论视野:事实核查的对象必须从“虚假新闻”这一结果转向“生产虚假新闻的系统”及其参与生态。
为此,本文借鉴人机交互(HCI)研究中“拆解”(Unmaking)视角,提出一种面向AI大模型事实生产机制的系统性核查框架,以期为人机共生时代建立可信、韧性的信息生产秩序探寻可行之道。这一框架的适用边界以AI大模型参与内容生产或传播为前提,试图弥补既有核查认识及方法的不足,进而将核查的视野从输出与分发向前追溯至塑造AI“真实观”的三个层面——社会生态、训练数据以及生成输出。
二、事实核查的认识转向
事实核查的认识论经历了两次关键转向。它最初旨在抵御政治意识形态、维护新闻业自主性,但随着GAI带来信息生态的剧变,其实践范畴与理论认识再度构成一个值得反思的议题。
(一)作为“声明可验证”的实践:专业准则的默会前提
事实核查的传统根植于一个默会前提:存在一种可供验证的客观真实,核查工作便是将人类言说者的“声明”(claim)与客观证据进行比对。这一专业准则预设源于20世纪中叶《纽约客》 《明镜》等杂志内部纠错程序,目的是消除不真实的信息,而非引起人们的注意。进入21世纪,以FactCheck.org、PolitiFact和Fact Checker三家精英核查机构为代表的政治事实核查运动兴起,将内部程序转为公开问责实践。一套稳固的认识框架逐渐确立:核查对象是明确的声明,真相藏于可查证的事实中,证据与声明遵循可比对、可客观检验等裁决原则。
然而,当事实核查从一种技术性工序走向广阔的社会政治场域时,上述看似稳固的前提开始出现裂缝。格雷夫斯在其里程碑式研究《谁在判定真相》(Deciding What’s True, 2016)中揭示了事实核查的实践认识论(practical epistemology)本质。通过对核查员群体的长期民族志追踪,他指出“事实可能是主观的”,核查结论的可信度来自核查者在专家网络中的位置、对证据标准的情境性判断以及对新闻叙事惯例的熟练运用。围绕“什么算是可核查的声明”,学界早先已展开类似争论。批评者如约瑟夫·乌辛斯基(Joseph E. Uscinski)与赖登·巴特勒(Ryden W. Butler)认为,核查本身的选择性、复杂因果的判断隐含价值倾向,“当白纸黑字的事实与政客说法发生冲突时,事实核查者只能看到‘谎言’”。支持者米歇尔·阿玛津(Michelle Amazeen)以跨机构核查结论具有高度一致性作为反证,论证事实核查者之间存在可操作的方法共识。这展现出“声明可被验证”的脆弱性。上述争论共同揭示出,在GAI出现前,事实生产的“人为可操作性”,即核查标准与过程的社会建构性早已被学界所关注。
(二)应对信息失序的生态转向:自动化、算法审计与社会技术协同
面对社交平台汹涌而来的信息洪流,传统新闻业缓慢、审慎的核查流程不堪重负,此前的认识论反思在近十年中让位于一次务实的“生态转向”。其核心关切从“核查什么”转向以社会技术和解决问题为导向的“如何有效核查”,致力于拓展核查的工具、基础设施与参与网络,并发展出数字行动网络、自动化核查与算法问责三条路径。简言之,前两者是向外构建生态,后者则是向内审查机制。
将事实核查视为一种社会技术生态系统,得益于其日益呈现出的数字行动网络特征。由软件开发者、数字取证专家、OSINT情报员与社交媒体平台等多方形成的协作网络,揭示了人类与技术行动者间的相互塑造关系,平台方为核查行动提供了必要的合法性、社会技术资源(如识别潜在错误信息的策略)与权威程序(分发事实核查新闻的算法系统)。
自动化事实核查的兴起是生态转型中最具代表性的项目,但也揭示了不同学科间的认知分歧。拉沙·卡夫塔拉泽(Lasha Kavtaradze)的系统性综述揭示了来自计算立场与新闻立场的认知竞争:计算机科学倾向于将自动核查理解为声明检测、证据检索、立场分类等可模块化处理的工程问题,新闻学则坚持核查是以人为本,并涉及认知权威、专业判断和社会语境的实践,不应被简化为算法流程。这两种理解始终未能真正整合,使得自动化核查的实践落地远比理论设想困难。格雷夫斯的观察至今有效,最成熟的自动化系统不过是将新声明与既有核查数据库进行语义匹配,其真正自动化的程度极为有限,更多是为人类核查者赋能的技术手段。
在核查实践的生态扩张过程中,算法问责这条相对独立的研究脉络也在平行发展。以尼古拉斯·迪亚科普洛斯(Nicholas Diakopoulos)为代表的学者主张,平台算法也应成为新闻业监督的对象,这种核查行动可以通过逆向工程法实现。其可行性已得到实证研究的支持,例如,卢卡斯·格雷夫斯(Lucas Graves)与C·W·安德森(C. W. Anderson)的研究便指出,借助结构化新闻的数据工具、新的数据标准以及建立通用标签系统,专业事实核查机构同样能参与到对搜索引擎与推荐系统的算法审计中。尽管算法问责与事实核查鲜有交集,但它为后者带来了一次重要的认识进步,算法系统作为认知基础设施也可以通过筛选来源、分配知识权重来生产事实,核查对象应从人类生产者扩展至塑造信息呈现方式的算法本身。
至此,科学技术研究与批判新闻研究传统对于“核查实践的社会建构性”已有充分积累。但既有研究的关切重点,始终是核查实践本身的人类主观性与争议性,即谁来核查、如何判断、谁的标准被采信,而非事实生产机制本身。AI大模型让问题前置,当“事实”在被任何人核查之前,就已经在模型训练数据的概率分布中被统计性地塑造,那么,核查实践的认识论转向已然不够,必须同时引入对生产机制的“技术认识论”审查。
三、当传统核查遭遇“概率事实”
GAI的出现让事实生产的主体从人类行动者变为人机混合系统。尽管人机传播理论早已预示了人类会将机器视为拟人化的社会行动者,或因交互性将机器视为信息来源。但停留在外部会将AI的运作机制简化为机械的刺激-反应序列,使机器和人类在认识论上都变得机械化。本文主张,真正的挑战在于,AI大模型以一种前所未有的方式生产“事实”,人为验证或干预AI大模型每一项决策本质上是增加了记者的任务负累。核查须深入AI大模型的技术内核及概率生产机制,以审视其系统性偏差、不确定性校准以及模型解释风格。
在AI开发中,“真实”被操作化为可供测量的基准,即“真实值”(ground truth)。它被定义为一组源于客观观察、未经中介的事实,模型的准确性便取决于输出与该基准的吻合度。然而,即便是AI领域内部也承认,这种泾渭分明的关系具有欺骗性,不存在原始数据,数据处理本身就是一种定义现实、界定问题并构想解决方案的过程。将现实中的事实转化为数据点的过程,充满了人为选择与偏见。数据选择、人工标注等环节的微小差异都会造成巨大的下游影响。从这个意义上讲,“系统的设计者拥有决定训练集所定义的世界真相的权力”。
这种权力结构给事实核查带来一系列棘手的问题。
其一,模型会复制常见的误解,即“常见词元偏差”(common token bias),当一个说法在数据集里出现的频率更高时,其被重复的可能性就越大,这可能导致流行的小道消息比罕见的真相更被模型采信。其二,它系统性地复制并固化了训练数据中内嵌的文化价值偏见。这些问题无法通过简单增加数据量解决,更大规模的模型可能反而最不真实,这也印证了大型语言模型本质上是“随机鹦鹉”的判断。
本文采用“概率事实”(Probabilistic Fact)说法定义这类由AI大模型生成的特殊陈述。其内容表面上流畅连贯,本质上却是庞大训练数据统计规律的再现,既缺乏可验证的信源,也不携带任何明确的生产意图。“概率”具有双重隐喻。技术层面,它指向大语言模型通过计算词元排序概率来生成文本的机制;认识论层面,则指向其生成内容的可靠性因技术机制而无法担保。简单来说,技术层面的概率性,是认识层面不稳定的结构根源。
需要澄清的边界是,“概率事实”与人类生产的不确定信息存在本质差异。第一,不可归因性。人类信息生产的错误原则上可追溯至具体的判断者与情境,存在可问责的主体;AI的概率性输出则混合、重组了信源,无法精准还原为某条数据,问责链在技术上断裂。第二,系统规模性。人类的失误是个体的、偶发的;AI的概率偏差是嵌入模型权重的系统性偏向,会随着用户交互被大规模复制放大。第三,技术不透明性。即便面对同一错误,人类可被追问动机,而模型的开发者自身也无法完整解释为何在某次生成中输出了某个特定词元。这三点差异,使概率事实构成一个需要被独立分析的认识论对象。
概率事实的出现,使AI大模型成为一个“不稳定传播主体”。其概率机制决定了它必然是一个系统性的、不可靠的信息生产者;但其成功且拟人的语言模仿,又诱使用户将其误认为可靠信源。这导致此前研究所积累的两大方法论路径在各自展开时陷入失灵。在以逆向工程为核心的算法问责路径中,基于提示词的输入-输出不稳定,记者无法通过重复提问、控制实验来理解生产机制。在自动化核查路径中,传统将声明检测拆分成模块化任务来处理的做法,也因概率事实并非离散声明而失效。其中,事实性内容与修辞性表达相互交织,难以被现有技术有效切割。
当“核查什么”与“如何核查”的问题无法脱离AI的生产逻辑独立回答时,两个曾经平行发展的研究传统,如今不得不面临历史性的对话时刻。事实核查转向对事实生产系统的过程审计。这一新议程要求我们将视野投向两个被传统核查忽视的关键领域,其一是溯源核查,即审计构成模型“真实”基础的训练数据来源;其二是“商业与监管生态的价值嵌入审查”,即审视何种价值判断与商业逻辑在开发中被编码进概率机制,从而系统性地影响其事实的生成与呈现。这些问题超越了传统内容核查范畴,要求新闻记者主动成为“系统审计师”,这也是新闻业在人工智能时代继续履行社会责任的必然选择。
四、拆解AI:“概率事实”的系统核查框架
为有效应对人工智能的挑战,新闻业的分析视野需要从“AI辅助报道”的应用层面,拓展至大模型开发、训练的全生命周期及其嵌入的复杂社会技术生态。AI大模型并非中立的技术工具,而是由数据管理、训练范式、开发者文化与商业模式共同塑造的产物,是特定利益与决策汇集的结果。然而,当前新闻业对其底层档案、逻辑和局限性的理解仍然有限。这一认知困境主要源于模型的固有不透明性,无论是闭源模型的数据、模型参数“黑箱”,还是开源模型被开发公司严格保密的投资结构或因技术晦涩难以理解的对齐流程。
尽管批判AI的研究已致力于打开黑箱,但其工作多聚焦于特定偏见,其技术审计路径(如参数调整、模型卡)未能为事实核查者提供一套与新闻知识体系融贯的认识方法论。为此,本研究从人机交互(HCI)领域引入一个新兴视角——“拆解”(Unmaking)。该视角倡导一种启发式路径,能将对AI大模型生成内容的事实核查,置于其所处的更广阔社会文化背景中。
借鉴芒恩等人的框架,我们将“拆解”分为三个相互关联的层次:“拆解输出”聚焦于模型生成结果,通过提示、反思和迭代揭示其逻辑;“拆解数据”审视模型所使用的信息来源(图像和文本);“拆解生态系统”则分析支持模型生产的价值观与组织结构。接下来,我们将在新闻事实核查领域发展这一框架,其适用边界以AI大模型参与内容生产或传播为前提。
(一)输出核查:识别不确定性地带
输出核查最为直接与普遍,但面临新的困惑。如何有效识别AI大模型生成文本中真实与虚构无缝交织的“不确定性地带”?AI大模型随意编织训练数据中的冲突知识,并以高度自信的语态输出,形成一种修辞流畅性与事实可靠性脱节的“合成真实”(synthetic truth)。这使得核查问题从判断 “对不对”转变为诘问“哪些论述有据可循,哪些没有”。
这要求记者从裁判的角色,转变为不确定性的诠释者。这与“以谦逊姿态约束真实声明”这一认识规范不谋而合。核查报道需在真与假之外容纳第三个范畴,即认识上不可判断、来源上无法确认的内容。标注这种不确定性并非降低标准,而是一种更诚实的知识实践。
这项任务的复杂性还源于AI大模型在核查流程中扮演的双重角色,它既是被审视对象,也是辅助核查的助手。这引出一个普遍质疑:
借助不稳定的概率事实生产者进行核查,是否会陷入“以错检错”的循环?答案在于对AI大模型两种功能的区分。当批评AI大模型时,我们指的是它不可靠的知识声明功能;当使用AI大模型辅助核查时,我们借助的是它高效的计算操作功能(如海量筛选证据、语义检索)。换言之,这种做法并不是把AI大模型当作可信的裁判,而是将其作为扩展记者认知能力的计算工具,其输出结论必须经由人类的批判性诠释才可作为判断依据。这正是“人在回路”(human-in-the-loop)框架的意义所在——“机器完成计算,人类保留判别权威”。这就要求记者对AI辅助工具保持批判距离,清醒地认识到工具的结论只是判断的起点。来自密西西比大学的一项实验为记者们提供了警示,当AI辅助工具的检测结果与他们的初始判断一致时,记者容易陷入认知陷阱,下意识地依赖工具从而放弃对其他验证路径的探索。经过重塑的核查认知,最终需要落实到一套具体的操作路径上。
首要的便是将提示词设计本身视为一种核查行为。这种“提示词即探究”(prompting as inquiry)的思路,目的是通过与模型的反复互动来揭示其知识边界、内在偏见。对核查者而言,意味着需要对同一问题从不同角度进行多轮追问,来观察输出的一致性;设计对抗性提示,主动试探并触发模型的知识盲区。输出越不稳定,文本的不确定性区间就越大。
自动化核查在此阶段依然适用,但必须在“人在回路”(human-in-the-loop)框架下,构建人机协作的多智能交叉验证流程。自动化工具可以高效处理命题筛查、初步信息检索等大规模、重复性任务,从而将记者的宝贵认知资源解放出来,使他们能专注于情境化理解、批判性审视与综合判断等更高层次的工作。尤其当工具的结论与其他核查路径(如专家访谈、原始文档比对)产生矛盾时,矛盾点本身往往就是最有价值的调查线索。
(二)数据核查:批判信息来源
超越输出层面的表象,数据核查旨在深入模型肌理,对其训练数据进行“拆解”。训练数据从根本上塑造了模型的认知倾向与局限,其内在偏见是AI幻觉的主要根源。正如莉萨·吉特尔曼(Lisa Gitelman)提出的开创性观点,“没有原始数据这种东西”,训练数据是经过筛选、策划与清洗的语料集合。这一洞见引导我们必须追问:这些数据经历了怎样的处理流程?谁在塑造、策划或审查它们?这些行动者的动机是什么?当我们将这些因素纳入考量,事实核查者便需要具备系统设计师的思维。为此,信息来源批判(source criticism)提供了一套行之有效的框架。斯蒂恩·斯滕森(Steen Steensen)等人区分了来源(生产材料的行动者,如个人或机构)与来源材料(其产物,如文件、陈述)。AI大模型的训练数据集就是“来源材料”,而生产这些材料的人类写作者、发布平台与各类机构则是“来源”。更进一步,那些决定数据取舍与过滤规则的模型开发者,我们称之为 “元来源”(meta-source)。
记者的核心任务是核查预训练数据(pre-training data)的来源构成。记者无需审查模型权重,可通过分析公开证据(如技术报告、数据卡)追溯数据来源的结构性特征。例如,当报告披露了数据总量但未详述各语料来源的构成比例时,记者便可追问:语料覆盖了哪些历史时段?多语言语料是否均衡代表了不同社群?
数据维度的核查观要求记者承认并揭示来源的倾向性。斯滕森认为,所有来源及来源材料都内嵌着倾向,包括来源者的认知视野、材料的生成情境、更广泛的社会文化语境,以及技术本身的可供性。记者的溯源不能止步于“这段内容从何处复制”,必须深入知识传统与文化语境的层面。例如,在分析有关国际冲突的伤亡数据时,需辨别其主要信源是倾向于官方叙事的新华社,还是代表不同立场与视角的当地媒体。
还有一种常见的反面案例是,记者在报道中简单陈述“经AI检测,该内容可能由AI生成”,却不说明使用了何种检测工具、该工具的已知误判率,以及是否进行了二次人工验证,这种做法恰恰剥夺了读者评估结论可靠性的能力,因此,诠释透明度(interpretive transparency)构成了另一项核心规范。核查记者不仅要评估来源倾向,更有责任在最终的核查报道中向公众清晰地展示自己的分析过程与判断依据。其具体操作路径包括:
一是追踪训练数据的关系网络。来源与来源材料并非孤立存在,它们总是嵌入于一个由其他来源构成的复杂网络中。记者需要追问的不仅是“语料包含哪些来源”,更是“这些来源之间存在何种关联”。例如,美联社与OpenAI签署的语料授权协议,意味着其新闻框架与写作风格将以一种有别于未授权媒体的方式影响模型。值得注意的是,数字原始资料通常包含嵌入在链接中的直接关联,这就需借鉴斯托勒·格鲁特(Ståle Grut)提出的“网络阅读”概念,并将其从跨网站阅读延伸为一种跨文本的制度性调查,通过整合技术文档、法庭记录、商业协议与劳工证词等多元信息,将这些节点连接起来,才能看清一批训练数据的真实来源图谱。
二是识别数据中的沉默部分。并非所有掌握相关信息的行动者都能成为模型的“来源”,某些群体或机构可能因技术或经济因素等无法或不愿发声。这种“缺席”在数据层面表现为特定知识权重的分布偏低。例如,当记者发现“气候变化对特定小岛屿国家的影响”这类议题在多个模型中均呈现信息缺失或失真时,其任务便是调查导致这类数据被遗漏或边缘化的结构性原因。
核查报道作为新一轮来源批判的对象,其自身就是带有特定倾向与局限的来源材料。这一提醒对容易陷入误区的AI核查报道尤为必要。一是因技术门槛而过度依赖开发机构的自述,使报道实际上成为企业公关的传声筒;二是因问责冲动而将“训练数据存在偏向”的发现,简化为“该模型不可信”的结论。自我审视能以坦诚的认知边界替代虚假的客观性。
(三)生态系统核查:记者作为系统分析者
生态系统核查将视野扩展至塑造模型的商业力量、监管框架以及利益相关者社群。如同理解传统记者的专业实践需考查商业主义的逻辑,或理解新闻机构的数字创新需分析国家政策的激励一样,理解AI模型也必须将其置于所嵌入的社会生态中。在用户输入第一个提示词之前,生态系统就可以通过施加各种利益相关者认为可取的特定目标,强有力地塑造模型的技术形态与内容产出,从而预先完成对“什么是可信事实”的筛选与塑造。
因此,记者的角色演变为系统分析者,需要具备一种批判性的模型素养(model literacy),即能对模型的生产机制提出问题。例如,谁的数据训练了这个模型?谁的劳动(如数据标注员)定义了何为“有用”或“无害”的输出?模型的对齐过程优先考虑了谁的价值观?
具体实践中,记者需将模型与商业、监管的结构性关联作为核心分析对象。首先,审视模型的商业激励与其输出倾向的关联。正如商业主义话语将媒体机构实现商业价值的一切行为定义为“明智的”,催生了服务企业的舆情调查机构、涨粉吸流量的编辑原则,AI的商业模式同样会通过“定义何为有价值的生产方式”来影响其对齐机制,让新闻生产的导向从告知变为服务、从公共价值变为用户黏性。例如,以用户订阅为主要收入来源的模型,其输出可能更倾向于维持用户的正向情感体验,而非呈现争议性或令人不悦的真相。当记者凭借经验识别出某段内容带有特定模型的风格时(如“这段话有很强的DeepSeek风格”),需要进一步探究的是,这种风格倾向究竟是展现当前技术局限,还是被商业激励所固化的设计。
其次,国家监管与产业政策的塑造作用同样不容忽视。尤其在国内,大模型的迭代周期与监管政策的出台往往紧密相连。例如,追踪分析每次新规发布后,特定模型在敏感议题上的输出边界是否发生了整体变化,这些变化是否与当时的重大社会事件存在时间强相关性。
此外,新闻业自身也需要将长期形成的核查范式与问责机制纳入“自我核查”的范畴。一个来自核查者的反身性悖论是,记者往往将自己视为“跟随者而非创新的发起者”,导致在面对技术变革时常采取“表面顺从而非自下而上的创造性应对”。当前新闻机构引入AI的模式便是一个例证。AI常被定位为提升效率的工具,记者则成为其输出的“审核员”,但审核的标准、深度与责任归属往往模糊不清。新闻编辑室在拥抱AI技术的同时,必须进行深刻的内部反思与核查机制建设。
面向生态系统的核查周期更长,方法上更接近深度调查和机构报道。
第一步,开发机构与商业调查。审查模型开发机构的资本结构与商业合作方、追踪对齐标准的制定文件(如公开的标注指令、安全政策)。由于企业透明度有限,这项工作常需要综合分析新闻稿、财报、创始人访谈、技术论坛帖子乃至在线社群讨论等多种信息源,进行类似数字民族志的探查。
第二步,叙事来源的网络追踪。针对AIGC虚假信息,从孤立声明转向对整个叙事网络的分析,关注其协调性、背后账号网络的联动模式。
第三步,使用者动机与影响分析。调查谁在积极传播特定的AIGC,他们在何种语境下传播,以及这些传播行为旨在达成何种政治或商业目的。这一环节将核查的闭环从内容生产延伸至其社会影响,完整地呈现了AIGC在当代信息生态中的角色与作用。
五、实践中的“拆解”
为将理论框架付诸实践,核查过程需被细致地“拆解”。鉴于尚无任何单一案例能完整覆盖输出、数据与生态系统这三个维度,本研究将采用分层剖析的方法,以澎湃明查的实践探讨输出核查,以《华盛顿邮报》的调查审视数据核查,并以斯坦福互联网观察站的报告分析生态核查,最终构建一个多层次的核查行动图景。
(一)澎湃明查“以AI辨AI”的输出核查实践
输出核查面临的挑战,是如何在AI流畅、自信的文本表面之下,识别那些来源无法确认、真实值无法标注的不确定性地带。澎湃明查·AI实验室进行了两轮探索。第一阶段的探索始于2023年末,早期测试对象BingChat、文心一言与Perplexity AI均出现幻觉与误判。在一个特定测试中,它们对ChatGPT现场生成的且被检测器判定为人类书写的虚假推文进行核查,合计得分仅为14分,未能及格。这揭示了AI作为核查工具与新的不确定性风险源的双重角色。
到了2025年,第二阶段测试的对象更新为Claude Sonnet 4、ChatGPT-5、豆包与DeepSeek,结果呈现出显著飞跃,模型平均分高达19.125/20。明查转向探究模型“如何作答”的推理方式。如豆包倾向于引用权威来源并补充传播动机分析,ChatGPT-5能识别并保留虚假陈述中的真实元素,而DeepSeek则直接援引包括明查自身在内的专业核查报告,并提供识别此类信息的通用建议。这一转变标志着明查方法论的成熟,开始深入理解“模型如何思考”。
与文本测试并行,明查针对AI生成图像建立了一套包含四个观察点(手部细节、配饰一致性、图中文字、背景失真)的检查框架,结合EXIF元数据分析、反向图像搜索构建了多层交叉核验体系。对于深度伪造视频,则采用Deepware等工具分析与人工判读结合的方式。这些实践背后贯穿着“以AI辨AI”的对抗性思路:通过“变着法子提问”触发模型的不稳定性,才能找到幻觉的边界。例如,在“大模型读图”实验中,Grok对“桦加沙台风前被‘五花大绑’的雕塑” AI图片给出截然相反的结论,ChatGPT在改变提问方式后撤回判断。这些不稳定性正是识别合成真实的裂缝所在。
基于以上探索,明查创新性引入“0.5分”评分,专门用于标记模型在无法确定时“提示用户自行甄别”的回答。这一设计体现出可信度源于解释过程的透明度,而非结论的绝对确定性。有研究指出,这种透明度在新闻实践中具有双重性,核查工具与证据链的公开属于规范性透明,而选题决策等内部流程则遵循已有的策略性透明。二者共存揭示了“诠释透明度”在实践中存在的特殊张力,而非二元对立。这也成为推动明查将其方法制度化的原因。
(二)《华盛顿邮报》对谷歌C4数据集元来源的核查实践
若说输出核查揭示的是概率事实的症状,数据核查则试图追溯其病因。到底是什么样的训练数据结构,使得特定内容以较高概率被模型生成为“事实”?《华盛顿邮报》对谷歌C4数据集的核查,是迄今最具代表性的尝试,它展示了记者如何以系统设计师的思维,进入训练数据的来源关系网络,揭示概率事实的数据生成机制。该项目首次拆解了谷歌的C4数据集(Colossal Clean Crawled Corpus),而C4作为Common Crawl网络爬取数据的关键快照,被广泛用于训练如Google T5和Meta LLaMA等主流模型。这项核查的价值在于,它展示了核查记者如何用系统设计师的思维来追溯海量数据集的来源。
核查的第一项工作是识别关于训练数据的数据来源。C4数据集的内容构成由两套权力关系共同决定,其一是Common Crawl的爬取机制,它优先抓取最重要、最权威的网站,但并不回避受版权保护的内容;其二是谷歌在此基础上施加的过滤层,用以定义什么是干净的语料。正是这第二层机制使谷歌成为所有训练语料的“元来源”,它不生产任何内容,却通过制定过滤规则,对所有下游来源材料拥有底层塑造权。
紧接着,核查团队对来源关系网络进行全局追踪。团队最初获得的只是排名前1000的域名,但这些域名仅占词元总量的8%。发现这一局限后,报道团队进一步协商,从Allen Institute for AI获取了全部1570万个域名,随后与网络分析公司Similarweb合作,将约1000万个可识别域名归类为新闻、科技、医疗等行业类别。这种跨越技术文档与商业工具的核查逻辑意味着,记者需要将多个异质来源连接起来,才能看清一批训练数据的真实图谱。此外,这张图谱中最值得关注的,是那些沉默的结构。谷歌的过滤机制在清除色情内容的同时,系统性地过滤了非性相关的LGBTQ+内容。
核查团队还披露了一种利益共生关系。Common Crawl由亚马逊赞助,而《华盛顿邮报》的所有者正是亚马逊创始人贝佐斯。这一自我审视,是对“核查报道本身也是来源材料”这一反身性命题的实践,代表着记者没有回避这个结构性关联,而是将其写入报道,以坦诚的认知边界替代了虚假的客观。
(三)斯坦福互联网观察站(SIO)的生态核查与自我消逝
生态系统核查的操作对象是制度力量与行为网络,它们塑造着AIGC以何种轨迹被传播与被接受的。然而,当前还没有任何核查机构完整地针对某一AI大模型的生态链条开展过系统报道。本文将斯坦福互联网观察站(SIO)的案例作为“方法论参照”,虽然SIO“追踪叙事网络中的非协调行为”这一核查思路诞生于大模型普及之前,但在AIGC时代具有直接的延伸价值。当AI能够以极低成本炮制高度拟真的内容时,真正难以应对的不只是单条概率事实,而是那些被有组织部署与放大的整个叙事传播网络。
为此,SIO在2019年至2024年间的实践正是生态核查可行的操作路径。但遗憾的是,其自身遭受政治反噬而解体,这一命运揭露出生态核查所面临的权力结构风险。在SIO于2022年与Graphika联合发布的报告《沉默的声音》(Unheard Voice)中,其通过分析Twitter和Meta等平台移除账号后提供的数据集,识别出了一个跨平台、持续近五年推广亲西方叙事的操作网络。分析的关键证据包括集中的账号注册时间、异常的内容发布节奏、一致的跨平台叙事等行为指标。这在AIGC时代尤为关键,尽管AI生成的内容在事实上难以直接证伪,但其背后协调一致的传播行为痕迹依然可以被追踪和识别。
同时,SIO对平台私有数据的依赖构成生态系统核查的关键门槛。其研究能力高度依赖于平台在完成内容封禁后,授权其访问相关数据集。这种“先处置、后研究”的合作模式,构成了个体记者或小型机构难以复制的优势。尽管如此,记者仍可以参照SIO在个体层面做简化版本,比如追踪一个关键词或叙事框架,而非全量数据。
最具反思意义的是,SIO自身的终结成为生态系统压力最深刻的反身性案例。自2023年起,SIO因其在选举虚假信息方面的研究,遭受了来自保守派议员和法律团体的持续政治攻击,被指控为“政府审查的共谋”,斯坦福大学最终选择退却。随着核心研究人员离职和研究方向的终止,SIO实质解体。这一遗憾的结局揭示了生态系统核查背后的风险——旨在揭示政权虚假言论的核查机构,其自身也无法脱离于同一套权力生态的博弈与反噬,而那些本应被核查的政治、法律与资本力量,最终也直接作用于核查者自身。SIO案例提示,对AI大模型的生态核查,从一开始就不只是技术问题或方法论问题,而是一场在现实权力与资本结构博弈中开展的新闻行动;核查者面对被核查对象显得脆弱且力量羸弱,这种不对等的约束是实践中必须提前纳入考量的条件。
六、结论与讨论
本文关注人工智能新闻生产中的“概率事实”问题及其对传统核查路径的挑战。为此,研究主张将AI大模型开发与数据训练的全生命周期,乃至所嵌入的广阔社会文化生态纳入核查范畴。受“拆解AI”视角启发,本文提出“概率事实的核查”这一面向AI大模型情境的系统性框架,以剖析新闻生产中由模型引发的偏差、危害和风险,从输出、数据与生态系统三个维度为核查实践提供新的认识与操作路径(表1)。在此基础上,本文就框架内部的张力与权力不对等问题,提出两点看法。
首先,三个核查维度在优先级、资源投入上存在实践张力。输出核查最为直接,是当前主要路径。但这意味着记者常处在信息链末端。引入数据与生态系统核查,旨在形成完整的认识框架:训练数据决定了何种知识被概率性地塑造成“事实与真相”;而商业与制度生态,则决定了何种与新闻专业性冲突的“有用性”(比如流量新闻导向、娱乐化新闻导向)被设为模型对齐的目标。新闻业在核查机制建设上需充分考虑这些关联。
其次,三个核查维度不具有同等的权力效应,其深度与难度与记者能力、技术可及性及权力关系高度相关。输出核查是记者“一人配备多个AI”就可以独立开展的工作。数据核查的可及性取决于开发者是否披露训练集信息,并受制于商业激励与监管压力。生态系统核查则需要记者具备制度调查的能力,其可行性受制于数据获取权限、信源关系以及机构支持。这种权力上的不对等让后两种核查路径在现实中相互掣肘。
当我们接受概率事实的核查思路时,它将为数字新闻业抛出一系列新的思考方向。以往研究对“事实核查作为媒介体制韧性”持有共识,并将AI核查视为建立人机信任、迈向系统信任新闻业的途径。倘若以此为指引,AI大模型时代的核查韧性与信任建立至少还需要回答——当核查对象的真实来源无处追溯时,韧性何处生长?面对概率事实,只有新闻生态系统中的专业媒体、平台媒体、自媒体与社群媒体四类新闻行动者参与的核查韧性机制真的足够吗?当涉及核查议题时,模型开发者(包括算法开发者、产品、数据运营者在内)是否应被纳入新闻行动者的范畴?如果是的话,又将如何与专业核查记者分配代理权?因此,未来还可以在实证层面继续发展以下议题,比如核查机构如何在实践层面应对来自输出、数据与生态的资源约束;当事实核查者进入模型系统内部与开发者展开协作时,在对大模型核查之前,如何让人类核查者在理念上做出价值对齐等。
最后,我们还必须正视全球化与本土特殊性。当前以澎湃明查为代表的本土化探索尚在起步,虽已开启AI辅助核查的实验,但在其他方面仍有较大发展空间。相比之下,西方对人工智能训练数据的揭秘展现出纵深探索趋势,也为本土实践提供了重要参照。比较不仅有助于揭示文化制度偏向,也为理解AI时代事实核查的全球多样性,提供一条富有价值的研究路径。
作者:白红义,复旦大学新闻学院教授,复旦大学全球传播全媒体研究院研究员,上海200433;万旭琪,复旦大学新闻学院博士研究生,上海200433
原文刊载于《新闻界》杂志2026年第5期