张耀军郑韶武：人工智能时代数字中文建设面临的挑战及应对

张耀军，北京第二外国语学院英语学院教授。主要研究方向为中国海外利益保护面临的语言文化风险。

郑韶武，人民日报社《国家治理》杂志社副总编辑，研究方向为信息传播与社会治理、媒介治理与舆论引导。

【摘要】数字中文建设是人工智能时代维护国家文化安全和运筹全球数字治理的战略要地。当前随着数智化浪潮加速来临，数字中文建设面临新的挑战。从人工智能三大基础要素，即数据、算法和算力的视角看，数字中文建设面临如下主要风险：高质量中文数据匮乏造成信息孤岛，威胁我国数字文化主权；西方算法霸权挤压中文叙事空间，造成我国国际话语边缘化风险；数字算力不足制约我国自主知识体系构建，导致知识脱域现象。数字中文建设要从总体国家安全观出发，赋能国家数字化发展的文化安全需要，并不断从几个方面优化实践路径：加快高质量中文数据集开发利用，夯实中华语言文化数字主权根基；创新数字中文传播矩阵，以数智技术赋能中华语言文化全球化触达；加强数字中文知识体系建设，推动中华语言文化深度嵌入全球知识链、价值链。

【关键词】文化数字化；数字中文建设；国家文化安全；全球数字治理；数字文明秩序

当前，人工智能作为新一轮科技革命和产业变革的重要驱动力量，已经进入以大语言模型为代表的通用技术发展阶段，并以前所未有的速度同经济社会文化各领域相融合，日益成为大国竞争战略制高点。语言是人工智能时代的算法符号，作为一种重要的战略资源，已不再局限于传统的“静态文化载体”，而日益向“动态数据要素”转型，其技术形态与传播效能直接关乎国家文化软实力与数字安全。

数字中文从本体性技术上看是指中文语言系统在数字技术生态中演化形成的复合语言形态，依托字符集标准及多模态语言信息标准在数字化媒介中实现编码、传输、呈现，以及依托语义计算框架形成中文支撑人工智能技术的新型符号系统。2025年1月，我国教育部、国家语委、中央网信办联合印发《关于加强数字中文建设推进语言文字信息化发展的意见》，提出数字中文建设的重要意义、发展目标、总体要求、政策举措和工作机制，强调数字中文建设要服务国家文化数字化战略，服务数字中国建设，服务国家外交，维护国家安全。

一、数字中文建设研究述评

近年来，学界对数字中文建设的研究体现出由“语言信息化”向“语言智能化”再到“语义主权化”的演进趋势。总体看，现有研究可分为三类路径：一是语言信息化与技术体系研究，聚焦中文在字符编码、语料资源建设、语义标注与知识图谱等层面的数字化表达及智能演化；二是中文教育传播与应用场景研究，以国际中文教育数字化转型为核心议题，探讨数字教材体系、智能教学平台、跨文化交互传播模式等方面的创新路径，凸显数字中文在全球传播生态中的应用价值；三是文化安全与国际话语权研究，从国家文化软实力与数字主权的战略视角出发，关注数字中文在全球语言技术竞争格局中的地位与作用，揭示语言安全、算法治理与国际语义权力之间的互动机制。

第一，语言信息化与技术体系研究方面。数字中文以技术赋能为核心特征，旨在通过标准化、资源化与智能化构建完备的语言基础设施，实现中文语言系统在数字生态中的结构化表达与智能演化。近年来，随着语言大模型与人工智能算法的迅速发展，数字中文的技术体系正从“资源构建”向“语义生成”拓展，形成以语义理解、知识生产与智能推理为核心的多层演进格局。语料数据的多模态融合与算法模型的自适应优化，使中文语言处理能力实现了跨语域、跨平台的动态扩展。同时，语义计算技术的深化推动了数字中文从符号编码向语义网络的跃升，语言基础设施的建设由静态标准走向智能生态。中文语言体系的数字转型与知识重构，为语言智能化发展奠定了基础。

第二，中文教育传播与应用场景研究方面。数字中文不仅是一种技术成果，更是文化传播与教育生态转型的重要力量。数字教材体系建设、智能教学平台开发与语义交互传播模式优化等方面，呈现出教育资源智能化、传播模式多样化、跨文化语境融合化的趋势。随着人工智能、大数据与语言识别技术的融合，数字中文的教学模式正由传统的线性传播向多向互动与个性化学习转变。智能化平台的应用推动了教学内容、学习路径与文化交流方式的重构，使中文传播在全球范围内展现出更强的可达性与文化适配性。数字中文从“教育技术应用”迈向“智能传播生态”阶段，彰显了语言智能在国际传播中的现实潜能。

第三，文化安全与国际话语权研究方面。数字中文不仅是一种语言信息化成果，更是国家文化软实力与数字治理能力的集中体现，也是国家文化安全与数字主权的重要载体。数据资源的自主掌控、语义框架的本土化构建以及算法治理的伦理化发展，构成了数字中文强化语义主权的重要路径。同时，语言智能技术的普及也引发了语义偏差、数据垄断和文化隐形化等风险。人工智能语境下的语义权力日益成为新的文化软实力形式，数字中文建设直接关乎文化表达的自主性与全球语义秩序的重塑。随着语言模型与语义算法的全球化扩张，数字空间中的语言已成为文化竞争与技术博弈的核心变量，而数字中文建设与治理正是应对算法霸权、重塑全球语义格局的重要途径。

综合来看，现有研究从技术体系、教育传播和文化安全等多个层面对数字中文建设进行了多维探讨，为数字中文的系统化建构奠定了基础。但面对全球数字空间日益成为各语言文明竞逐影响力的新疆域，以及人工智能时代语言权力格局的深刻调整，如何将数字中文建设置于全球人工智能治理和人类数字文明发展的整体框架之中，针对全球数字空间语言权力失衡、中文数字空间影响力缺位等问题，将语言技术、文化安全、国际话语权和数据主权等要素纳入一体框架进行系统性分析，仍需深入研究。基于此，本文从人工智能三大基础要素，即数据、算法和算力的视角出发，聚焦中文在数字媒体、社交平台和大语言模型等虚拟空间的使用、传播等方面面临的挑战，构建以中文数字技术为根基、话语传播为纽带、知识生产为突破的动态协同运行体系。期待有关研究能够助力中文成为全球数字文明的基础性语言，维护中华语言文明数字生存权、发展权，同时推动中华语言文明赋能全球人工智能安全发展，助力形成数字空间多语言文明交流互鉴新格局。

二、数字中文建设取得积极进展

数字中文建设是提升我国文化软实力和国际话语权的重要驱动力量。当前，数字中文建设在推动中华语言文化传承、数字中国发展、人工智能技术创新、国际人文交流等方面取得良好成效。

第一，数字中文建设推动中华语言文化传承发展。通过数字化手段提升中文生命力、传播力和竞争力，使中文在人工智能时代保持生机活力，是数字中文建设推动我国从语言资源大国向语言能力强国战略性转变的目标所在。目前，我国已建成世界上规模最大的语言资源库和中国语言资源知识图谱，涵盖了海量的文本、语音、词汇等语言数据，为语言文字的信息化分析、处理和应用提供了坚实支撑；发布了《信息技术中文编码字符集》等100多项国家通用语言文字和民族语言文字信息化规范标准，为语言文字的数字化处理提供了统一的规范和依据，为自然语言处理技术在人工智能、数字产品和信息产业领域的应用创新奠定了规范基础；建成国家语委媒体语言语料库、冬奥会多语言术语库等，上线国家语言资源服务平台、中国语言文字数字博物馆、中国语言资源博物馆数字展区等，支持联合开展古文字数字化研究，开通甲骨文数据平台，持续推动语言文化资源共建共享。

第二，数字中文建设赋能数字中国可持续发展。数字中文建设是语言文字现代化与国家数字化战略的重要结合点。其作为经济社会信息化的重要组成部分，日益成为教育强国、科技强国和文化强国建设的基础性工作。以加强数字中文建设为重点全面推进语言文字信息化发展，以数字化赋能语言文字更好服务全面建设社会主义现代化国家，将有力推动数字中国建设。《关于加强数字中文建设推进语言文字信息化发展的意见》提出以集成化、智能化、国际化为导向，着力提升语言文字服务数字教育、数字科技、数字文化、数字经济、数字社会建设的实际能力，着力推进中文数字化与数据中文化、创新应用与规范安全、新型中文服务体系构建与语言文字治理体系完善，全方位释放语言文字在经济社会发展中的数据要素价值。

第三，数字中文建设促进全球人工智能技术创新发展。大语言模型是生成式人工智能的重要组成部分，是使用大量文本数据训练的深度学习模型，展现出突破性的语义理解与文本生成能力。据统计，截至2025年8月，我国共有490多款大模型在国家网信办完成备案，语言文字、语言资源和语言数据日益成为推动大语言模型技术创新应用的核心竞争力变量。大语言模型技术对大规模高质量语料提出前所未有的需求，赋予了数字中文建设新的历史内涵和使命任务。中国自主研发的DeepSeek大语言模型推行开源策略，打破全球人工智能大模型封闭发展和过分倚重数据、算力的传统范式，有可能带动全行业在未来形成以开源为主流的发展路线，推动人工智能应用的大众化和普惠化。其架构设计融合了中文语义理解与多模态交互创新，推动中文语料标注标准（CLAS—2023）成为ISO/IEC国际标准候选方案。这种“开放创新＋本土标准输出”的模式，有助于对多语种与非英语数据集的深度优化，巩固我国与广大全球南方国家在数字时代的文化表达与传播能力，在形成对西方单极数字霸权反制的同时，为发展中国家参与全球技术治理提供全新范式。

第四，数字中文建设助力国际人文交流良性发展。中文是联合国六种工作语言之一，全球有190多个国家和地区开展中文教学，86个国家将中文纳入国民教育体系。当前世界语言格局快速演变，中文在全球治理中的参与度和贡献率不断提升，数字中文应用场景不断拓展。我国建设的全球中文学习平台，覆盖190多个国家和地区，利用先进的智能语音识别、语义分析等技术，为全球中文学习者提供个性化、智能化的语言学习服务。2020年3月“中文联盟”正式上线，这是我国与中外院校、机构、企业等合作共建的数字化云服务平台，主要为从事国际中文教育的学校、机构、教师和中文学习者提供线上教学及辅助服务。网络孔子学院、网络中文课堂、中文智慧教室、数字中国文化客户端等线上系统提供了海量共享的优质数字中文资源，有力推动了全球语言文明交流互鉴，提升了中华语言文化在全球数字空间的话语权，使中文在全球虚拟空间影响力持续扩大。

三、数字中文建设面临风险挑战

当前，数字空间日益成为大国语言、信息、知识和认知域争夺的新疆域。在此背景下，数字中文建设也面临一定挑战，突出的是全球数字空间“中文缺位”问题，即中文在数据、算法和算力等人工智能基础要素中未能形成体系化影响力。这种缺失衍生出如下多重安全风险。

（一）数据方面，高质量中文数据匮乏造成信息孤岛，威胁我国数字文化主权

大数据是人工智能技术赖以发展演进的核心资源，是数字时代重要的战略和安全资源。人工智能大模型是通过深度学习技术在海量数据上训练而来、拥有大规模参数和复杂计算结构的机器学习模型，是推动新一代人工智能发展的关键技术载体和新型基础设施。通常来说，大模型在初始阶段训练数据量较小，训练出的模型效果一般。但如果训练数据量提高千倍或者更多，大模型的生成效果将实现爆发式提升。也就是说，在同等条件下，喂给机器的数据越多，人工智能就越强。基于庞大数据和超高算力的“暴力美学”便是当前以OpenAI为代表的西方生成式人工智能发展的核心打法。掌握数据就掌握了包括人工智能等众多未来产业的发展主导权，对海量优质数据的争夺由此也成为国家之间科技竞逐的新战场。当前全球主流大语言模型训练数据中，英语语料占据结构性支配地位，如OpenAI等主流人工智能应用平台约90%的训练数据由英文文本构成。大模型主要依托的是互联网数据库。据网络技术调查网站W3techs实时更新的网站内容语言使用情况统计，全球最热门网站在2025年3月所用语言前五位分别是英语、西班牙语、德语、日语和俄语，占比分别为49.1%、6.0%、5.8%、5.1%和4.4%，中文占比为1.1%，仅排第13位。除互联网数据外，全球目前最具科学性和经过验证的语料来自学术资料库，包括期刊和出版物，在这些载体上发表的文章目前绝大多数以英文书写。

当前，相较于英语类数据资源，中文数字资源特别是语料数据的开发利用，在数据规模和质量上存在明显差距。在全球数字空间中，具有文化内涵、专业深度和规范价值的高质量中文语料存在“分布散、数量少、获取难”的困境。同时，目前国际市场上的人工智能语言工具基本上由西方国家开发，多数大模型最初是基于英文语料数据训练而来，缺少能够准确反映中国文化特点和中国语言特色的充足语料，在处理中文内容时容易出现词义和语境理解不到位、翻译生硬、缺乏对本土文化的深度认知等问题。由于缺乏高质量中文语料，国内许多从事大模型开发的研究机构和企业在进行模型训练时，不得不依赖外文标注数据集、开源数据集或爬取网络数据。此外，中文学术期刊和数据库还承载着中国自主知识体系建设任务，而目前以英语书写的国际学术期刊掌控全球学术评价体系，全球科技文献数据库均由少数西方国家科技出版企业垄断，中文学术期刊和数据库话语权受到挤压，大量本土研究成果被迫“借船出海”，造成知识价值评判权旁落。数字空间中文短缺难以支撑数字中文算法模型的持续迭代和优化，限制了大模型深度学习的训练规模和多样性，削弱了中文在全球数字生态系统中的竞争力，造成中文在人工智能时代的信息孤岛问题。其后果是，中文数字内容生成常出现文化失真，遭遇文化误读，数字空间中的中华文化表达被压缩在浅层符号化传播阶段。而英语主导的数据和算法规则则把持全球信息生产秩序，持续强化西方信息输出优势，通过语料驯化等手段重构中文的意义生产机制，加剧中文数字内容在国际传播中“二次编码”的扭曲风险，导致数字时空跨语言传播的“文化折扣”现象。

（二）算法方面，西方算法霸权挤压中文叙事空间，造成我国国际话语边缘化风险

算法是人工智能的核心引擎，是决定人工智能功能和表现的关键要素，直接关系人工智能技术能否真正创造出赋能应用的实际价值。作为一种信息遴选和决策生成机制，算法不仅具有工具形态的赋能作用，同时也承载社会结构中的权力关系，关涉国家话语安全利益。人工智能大模型本质上是一个庞大的语言概率预测和生成模型，这种概率内生机制主要关注大模型训练数据中频繁出现的信息模式，处理文本时会通过计算词与词之间的关联动态分配“注意力权重”，生成内容过程中会倾向于选择训练数据中出现频率较高的表达方式，而不够普遍或统计上不够强大的数据往往会被忽视和排除，从而无法得到算法的充分理解和适当响应。人工智能算法的底层运行逻辑并非客观中立，而是不可避免地带有源语言的价值观念和认知取向，反映出大模型内部的道德观和文化理念，其提供的信息有着明显的立场预设。如果算法训练机制的这种内生偏差缺乏外在控制或纠正，易于输出源话语者的认知局限和主观刻板印象，固化意识形态偏见，造成价值偏误和错位。中国信息通信研究院发布的《全球数字经济白皮书（2024年）》显示，当前美国人工智能大模型数量位居全球第一，占比44%，位居第二的中国大模型数量占比为36%。同时，美国高度警惕我国的技术产业追赶，频繁出台大量封锁和制裁性措施，如限制人工智能模型和技术以及芯片对我国出口。当国际主流数字媒体、社交平台和大语言模型以英语霸权构建算法推荐机制，就会被植入隐性价值参数。这种西方中心主义的算法权力不可避免地造成西方国家意识形态话语的跨国再生产，受影响国家的语言文化认知框架一定程度上受制于西方技术寡头的意识形态偏好。

当前，美西方“算法利维坦”构筑的“算法黑箱”和“信息茧房”将中文信息标签化为区域性内容，中文数字内容被压缩在次生传播圈层而遭到抑制。西方语言大模型呈现的中国形象偏向中国古代历史和传统人文风貌，中国的自然科学和近现代发展成就存在“数据空洞”和“断代”现象。ChatGPT在进行人机互动时倾向于将中国价值观与“文化孤立”和“民族中心主义”等消极理念相联系，中国国际形象遭到污名化。好莱坞电影近年来加大通过流媒体平台输出西方价值观的力度，谷歌在数字化展示世界文明时长期忽略东方文化，这些都在强化文化单一化趋势，导致思想观念同质化，本土文化边缘化。国际数字技术标准制定、数据治理规则协商等场域的“中文失语”导致中华文明当代叙事难以突破西方构建的话语藩篱，国际舆论场域中被选择、被阐释乃至被构建的传播异化现象不时发生，中文话语体系面临结构性的边缘化风险。随着西方罗织的“算法茧房”加剧数字传播赤字和话语逆差，数字生态中的中华语言文化认同建构受阻，中国在全球人工智能治理领域的国际影响力和文化软实力受损，中文在数字时代的文化适应力与文明对话能力受到抑制。而且，在未来的人工智能内容生产中，相关中文语料素材如不进入算法，相当于当事方“不存在”。国外人工智能软件能否接收到来自中国的语料“投喂”，中国算法能否有相关优质资料进行训练，将是未来中文信息能否生存、中国话语能否唱响的关键所系。

（三）算力方面，数字算力不足制约我国自主知识体系构建，导致知识脱域现象

计算能力（简称“算力”）是指包括超级计算机和云计算等在内的各种计算机综合在一起、在单位时间内达到的计算峰值能力，是计算速度、计算方法、数据存储能力、数据传输能力等多方面能力的集合。算力是驱动人工智能训练和推理的核心资源，是人工智能技术落地的基础条件。以人工智能大语言模型为例，其训练用到大规模并行技术、高速网络技术、可靠性技术、绿色能耗技术、液冷技术等。一般来说，算力越大，处理语料的能力和据此建立的大语言模型性能越强。全球语言数字资源分布不均，形成数据使用能力、使用效率及最终效果上的能力差距，直接影响智能知识生产。以英语语料为核心支撑的数字技术通过人工智能系统中的数据选择、算法架构和算力分配等，在知识生产链顶端形成结构性权力，并将技术优势转化为认知武器。在此过程中，非优势语言的知识生产遭到降权处理。此外，随着人工智能所创造的虚拟知识主体不断消解人机生产边界，深度伪造、机器幻觉、数据投毒等催生大量失实失真信息，不断污染全球知识生态系统。据估计，现在互联网上的消息中至少已有超过10%的内容是由人工智能生成的，而有研究发现，只需要0.006%的恶意样本，就可以让大模型有50%的概率生成虚假或者有害信息。当前，人工智能生成的虚构内容、错误信息或偏见性观点正在不断进入训练下一代人工智能的内容池，如果放任大模型自动生成的内容大量进入搜索引擎的文档库，就会逐渐形成一个“沉默螺旋”过程，并最终导致内容多样性的丧失和质量下降的严重后果。由于人工智能技术应用加速向各个行业普及，数据投毒或恶意输出可能还会进一步影响依赖大模型输出的下游应用程序或决策过程。近年来，一些人工智能大模型还出现了“欺骗性对齐”“讨好式篡改”等现象，进一步加大了对信息和知识真伪的甄别难度。

当前，中文数字资源开发利用不足，中文数字服务场景适配性偏弱，中文算力与数字内容生产能力不足，导致中文模型难以支撑大模型预训练对语境、情感、语言结构和语义关系深入理解及深度处理的要求，无法满足网络空间对中文内容生成的多模态和跨领域应用需求。中文知识在跨语言、跨文化、跨时空的传播中频繁脱离原生语境，优秀传统文化精髓在机器翻译中因失真而丧失完整性与解释力，经典典籍智慧转化为数字时代的知识资产面临困难。如让人工智能大模型生成一段讲述中国历史文化题材的视频时，得到的内容里却出现其他国家的古代景观、传统服饰、纹样设计等。当要求人工智能大模型生成反映古诗《琵琶行》意境的视频时，生成结果出现的是古人手抱吉他而非琵琶的场景。在数智化的知识生产时代，面向全球的中文知识服务可以占据多大比重，决定了未来知识服务中可以体现多少中文世界的事实、观点、立场、态度和情感。我国知识体系与全球数字生态系统尚未深度互嵌，数字时空的中文知识生产与全球知识进程脱域，导致我国一定程度上被排斥在发达国家及其科技巨头构筑的信息和知识壁垒之外，中文无法深度参与全球知识生产，在全球知识治理体系中面临丧失议程设置权和规则制定权的挑战，知识传承和国际传播在数字时代出现断层风险，中文知识的数字价值遭到弱化。因而，筑牢数字空间中文知识生产链、价值链、传播链防线，防止中华语言文明在数字时代陷入“文化流散”境地，是构建中国自主知识体系面临的重大紧迫任务。

四、数字中文建设的实践路径

现阶段，人工智能发展正从感知向认知、从单模态向多模态、从分析判断向自动生成转变，日益成为主导国家战略竞争力的重要支撑和推动科技革命的重要力量。数字中文建设要紧密聚焦国家数字化安全发展需求，实现语言有限赋能向语言赋能全局转变。要以总体国家安全观为引领，立足数字中国建设全局，加大对数字中文建设的重视和投入，将数字中文建设深度融入全球人工智能治理框架和进程，筑牢中文数字空间安全屏障，增强维护国家语言文化安全的数字能力。

（一）加快高质量中文数据集开发利用，夯实中华语言文化数字主权根基

一是明确中文数据建设的重要方向。英语全球使用率的不断提升与西方国家不断加快的技术创新保持同步，语言与技术协同发展的这一模式表明，数字中文建设必须依托自主技术创新和突破，加速构建以中文为核心的数据资源体系、数据标准和算法框架等。以中文为载体的大规模高质量语料库的建设将直接决定中文在数字时代的国际语言生态位。建议优先在大语言模型、人机协同、计算机视觉、自主无人系统等前沿领域布局中文数据，促进中文数据的规模生产、优质集成、融合创新、规范治理和复用增效。

二是推进高质量中文数据集建设。构建支持大模型训练的高质量中文数据集，在助推我国大语言模型发展的同时，提升中文优质语料在全球数据库中的增长与流通效率，提升中文数据在全球大语言模型技术中的场景应用。同时，在努力推动中文成为全球人工智能基础语言的进程中，循序渐进推动构建人工智能“大汉字模型”或“中文大模型”，为数字世界运行提供更好的中文智能支撑。

三是完善语言基础设施体系。开展战略性语言资源和语料基础设施建设，面向全球建设国家战略语言资源信息库，重点建设支撑国家安全与发展、服务共建“一带一路”等语言资源。发挥优质语言数据、前沿语言技术在数字中国建设和数字世界建设中的支撑能力，加快建设包括文本、图片、语音、视频等多模态语言数据的中文语料库，建设基础型、应用型、特色型的中文数据集。

四是强化数据可用性。针对当前大模型训练数据主要来自互联网公开和可采集到的低质量数据，一方面尝试建立数据信息来源标注机制，采用去偏技术去重降噪，加大错误信息和虚假内容清理；另一方面加快对源自专业书籍和出版物等高质量数据的开发利用，打造人工智能友好型高质量数据集。

（二）创新数字中文传播矩阵，以数智技术赋能中华语言文化全球化触达

一是构建数字中文价值传播体系。人工智能不仅是赋能技术，更是构建意义和创造价值的工具。要重视人工智能大模型对价值认知的重塑，依托人工智能技术保障数字空间文化主体性，防范国家意识形态风险。可依托具有强大数据处理能力和时效能力的人工智能工具和平台，建立以中华文化为内核的中文数字化立体传播体系，根据对外话语需求进行多模态可视化呈现，以数字技术赋能中华语言文化全球传播，为中文国际化提供智能化叙事支持。

二是推动中文数字化表达创新。利用新技术和新平台打造中文数字化形象，从语言作为人类思维工具、民族文化象征、现代知识载体、时代精神表达等方面规划设计中文形象，打造亲和包容、多元开放的数字中文语言形象，推动中文在数字时代的新表达，向世界传播更真实、鲜活、亲切的中华语言文化形象，使中文成为国家制度、中华文化在数字时代的象征和代言。

三是强化数字中文全球触达力。积极参与全球数字语言治理，建议在我国提出的《全球人工智能治理倡议》和中国人工智能发展的主张和倡议中，适当纳入数字中文建设内容；加强与有关国家、国际组织的双边、多边语言文化交流，多语言、多渠道、多形式地实现知识获取全球化、话语表达多元化，在丰富对世界思想和语言的数字认知理解基础上，逐步构建系统多样的数字中国国际话语传播体系。

四是夯实国际话语安全理论根基。推进人工智能与语言安全、文化安全、话语安全和信息情报安全等领域的融合发展，深入研究人工智能安全、智能体、具身智能、科学智能、人工智能开源等重要议题，构建多部门协调、多学科融合、多主体协同推进的人工智能时代中国国际话语安全体系。

（三）加强数字中文知识体系建设，推动中华语言文化深度嵌入全球知识链、价值链

一是明确数字中文知识体系建设的时代意义。数字知识主权即语言文化主权的数字化延伸。数字中文知识体系建设既为中华文化国际传播提供语言知识依托，也为发展中国家提供规避西方数字文化陷阱的中文方案，为打破西方在智识生产、技术标准与数字文明解释权上的长期垄断提供战略支点。

二是强化自主可控的技术体系构建。大力提升语言文字的科技支撑力，建立推进高价值语言资源转化为高赋能语言数据的有效机制，推进中文数字化和数据中文化，重点推动大语言模型、自然语言处理、多模态信息处理、知识图谱、语料加工、语义理解与内容生成、跨语言跨模态翻译等方面的语言智能技术创新，推动语言文字与人工智能、大数据、云计算等数字技术的深度融合。

三是实施数字中文赋能文化传承行动。设立语言智能化科技创新中心和人工智能中文实验室，攻关古籍文献数字化处理、多模态文化符号生成等技术，充分发挥中文稳定性、高信息密度、形音义一体规整性等优势，使传统文化资源转化为可编程、可交互的现代数字资产，实现数字域与物理域的深度交互。推进古文字与中华文明传承发展工程、中华思想文化术语传播工程的数字化应用，通过“数字敦煌”“汉字元宇宙”“数字故宫”“云游长城”“数字中轴”等项目树立中华数字文化新范式，将文化根脉转化为数字时代的核心人文竞争力。

四是完善数字中文国际化布局。以数字中文知识基础设施建设为核心，统筹优化知识生产、存储、共享与应用的数字化全链条，通过跨境电商数据互通、智慧城市知识共享、在线教育平台共建等多种场景，将中文深度嵌入全球数字知识生产链、价值链，并努力实现从语言文化资源输出向数字规则供给的战略升级。探索国际科研合作机制，共建“数字中文”联盟，依托世界互联网大会、“数字丝绸之路”合作机制、国际标准化组织及联合国教科文组织等多边机制和平台，协同制定中文数字知识分类标准，推动中华典籍、中文学术成果等的数字化转化与多语种开源共享，构建覆盖文史哲、科技、经贸等多领域的全球性中文数据知识库。

[原文刊于《华中师范大学学报（人文社会科学版）》2026年第1期，注释从略]

张耀军郑韶武：人工智能时代数字中文建设面临的挑战及应对

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏

张耀军 郑韶武：人工智能时代数字中文建设面临的挑战及应对

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏

张耀军郑韶武：人工智能时代数字中文建设面临的挑战及应对