孙伟平：数据、算法歧视及其治理方略

【摘要】大数据、算法作为智能科技的关键组成部分，本身并不是天然“价值中立”的，而是不同程度地内蕴着一定的主体价值观。在借助深度学习等算法对各类数据进行采集、存储、分析与应用，并据此实施自动化评价和决策时，往往产生多种形式的偏见和歧视，有时甚至以数据、算法为中介加剧既有的社会偏见和歧视现象。与农业、工业时代流行的社会歧视现象相比较，数据、算法歧视因具有鲜明的高新技术色彩而更具革命性和颠覆性，对被歧视对象的影响更加深入，危害更大。当务之急应在充分利用大数据技术、算法技术造福人类的同时，采取具有前瞻性的、系统务实的治理方略，逐步消除各种数据、算法歧视现象，促进社会公平正义。

【关键词】人工智能数据歧视算法歧视社会公正

【中图分类号】B82-057/TP18 【文献标识码】A

【作者简介】孙伟平，上海大学智能哲学与文化研究院院长，马克思主义学院教授，博士生导师。研究方向为价值哲学、智能哲学，主要著作有《事实与价值：休谟问题及其解决尝试（修订本）》《大变革时代的哲学》《信息时代的社会历史观》《价值差异与社会和谐——全球化与东亚价值观》等。

习近平总书记在二十届中央政治局第二十次集体学习时强调，全面推进人工智能科技创新、产业发展和赋能应用，完善人工智能监管体制机制，牢牢掌握人工智能发展和治理主动权。[1]迈入数字智能时代，随着以大数据驱动和深度学习算法为代表的新兴技术快速发展和广泛应用，社会公正这一古老而常新的价值诉求，面临着一系列全新的问题和挑战。大数据、算法作为智能科技的关键组成部分，本身并不是天然“价值中立”的，而是不同程度地内蕴着一定的主体价值观。在借助深度学习等算法对各类数据进行采集、存储、分析与应用，并据此实施自动化评价和决策时，往往产生多种形式的偏见和歧视，有时甚至以数据、算法为中介加剧既有的社会偏见和歧视现象。勒普瑞等人指出：“喂养算法的数据中存在的歧视、算法设计者和参与者的个人偏见，使算法决策继承并再现了已有的社会歧视模式，从而加深了流行的不平等现象。”[2]对此，我们需立足大数据与算法技术的基本特征、形成机理和发展趋势，运用价值哲学的理论和方法进行深入分析，有针对性地探索祛除数据和算法歧视、实现数据和算法公正的适当路径。

数据的“非价值中立性”与数据歧视

“大数据”（big data）通常指规模巨大到无法在短时间内分析、撷取、加工和处理，却能从中提取出巨大价值的数据。维克托·迈尔-舍恩伯格、肯尼思·库克耶指出：“大数据是人们获得新的认知、创造新的价值的源泉；大数据还是改变市场、组织机构，以及政府与公民关系的方法。”[3]随着数字智能时代的到来，“大数据”（包括“信息”“知识”等）不仅成为最为常见且关键的经济和社会资源，而且成为人工智能算法产生和发展的基本支撑。无论是算法的设计、编写和完善，还是生成式人工智能的预训练、训练和应用，大数据都具有不可或缺的基础性意义。

某些科学主义者的头脑中一直盘踞着一个“坚定的”信念，即“事实与数据不会说谎”。他们常常凭直觉认为，大数据是客观事实的数字化表达，是“价值中立”或“与价值无涉”的，是没有“被价值污染”的可靠资料。然而，这却是一种过于乐观、自欺欺人的“想当然”，是一种未经理性反省和逻辑追问的粗糙的信念。

实际上，大数据涉及的对象十分丰富、复杂。从类型方面看，大数据包括符号、文本、图片、音频、视频等，及其混合表达。从内容方面看，大数据不仅包括事实与对事实的认知与判断，而且包括价值与对价值的评价与判断，譬如“为富者必不仁”“饥寒起盗心”之类主观性的价值判断。诚然，没有人会认为价值与价值判断是“价值中立”或“与价值无涉”的；而断言事实与事实判断是客观的，是“价值中立”或“与价值无涉”的，实际上也站不住脚。因为世界上根本就不存在“与人无关”的“纯客观”的“事实”，甚至不存在一种单纯的仅仅表达事实的语言；事实认知和判断作为一项“人为的”和“为人的”目的性活动，往往渗透着一定的价值和价值判断，并且总体上服务于主体的价值目的、利益与需要。[4]

除了大数据的内容本身，大数据的采集、存储、加工、应用过程更加复杂，更难做到“价值中立”或“与价值无涉”。从价值哲学的视角看，我们生活的世界既是一个事实世界，更是一个价值世界。人们采集、存储、加工、应用的大数据，本质上都是秉持某种价值观的人的活动的产物，都或隐或显地内蕴着一定主体的价值观。而且，任何人在任何情况下都不可能摆脱“价值”，即使有人想纯粹客观地把握一个事物或事件，原原本本地“占有”其全部数据，也几乎是不可能的，难免发生信息或数据“渗漏”“冗余”“扭曲”等情况。在价值因素如影随形的情况下，哪些数据可能进入人们的视野，哪些数据可能被采集、存储，哪些数据可能受到特别的关注，哪些数据可能被人用来支撑自己的主观判断，等等，往往与特定的价值主体和主体因素相关。而由于文化传统、经济状况、社会地位、利益与需要、素质与能力不尽相同，不同的价值主体往往具有不同的立场，存在不同的“价值尺度”和价值倾向性，且其价值立场、“价值尺度”和价值倾向性必然在数据的选择、提取、加工、应用等过程中表现出来。

在社会生活特别是社会交往中，受社会历史因素的影响，特别是受主体状况的影响，不同价值主体活动的数据“呈现力度”不可能完全一致，甚至可能存在明显的差异性。从目前大数据采集、存储的具体情况来看，与强势主体相关的数据往往比较容易受到关注，易被智能系统采集，而这些数据则表现出与之相应的价值倾向性。基于历史与现实原因，如历史传承的连续性、经济和技术条件，以及数字鸿沟之类因素的影响，目前各种数据库采集、存储的大多是发达国家和地区、大城市、成功群体等的数据，而部分发展中国家以及欠发达地区、偏远乡村、弱势群体等方面的数据，则受限于其经济条件和社会地位，加之数据采集难度比较大，常常会被选择性地忽略，相关的数据缺失、数据不完整、数据错漏、数据更新不及时等情况较为严重。由于事实上缺乏部分数据，或者由于大数据本身的“非价值中立性”和“失真”，在分析、加工处理过程中，难免造成对部分群体不同程度的漠视、排斥、偏见和歧视。例如，早期的一些机器学习算法在进行人脸识别时，用于算法设计、编写、训练的照片大多是西方白人，导致算法存在明显地偏向白人的“审美偏好”，有时这些算法很难准确识别其他人种面孔的特征。

值得警惕的是，与特定主体相关的一些社会性因素可能人为地“污染”数据，有意无意地制造和加剧数据歧视。例如，从政治意识形态的视角看，以美国为首的部分西方发达国家自觉或不自觉地将他们的价值观包装成所谓“普适价值”，通过“价值观渗透”“价值观外交”“价值观结盟”“为价值观而战”等方式，强行在全世界推广。这些国家利用自身在经济、政治、军事、技术等领域的强势地位和话语权优势，往往将附带自身价值观的数据标榜为客观的、具有说服力的数据，令相应的数据被过分关注、人为强化、优先对待，而与他们的价值观不尽相同，甚至相悖的数据则可能被人为忽视、恶意篡改，或者被选择性地进行加工。又如，在资本主导的经济和社会结构中，大数据的“非价值中立性”更易受到资本和市场的严重干扰。资本的本性和逻辑是赚取超额利润，受资本控制的数字企业、数字平台对大数据的采集、存储、加工和使用，必然服从并服务于资本家的利益和资本增殖的逻辑。其总是尽可能多地关注、挖掘有利于资本增殖的数据资源，千方百计地发掘、拓展其商业价值。“资本家利用数据资源非现实性、分享增值性、非稀缺性、非排他性和共享性的特性，创造全新的资源提取和垄断机制”[5]，不断生产、完善其数字产品和服务，赚取历史上闻所未闻的超额利润。例如，他们利用数字平台的优势，以提供服务需要为借口，甚至以平台、产品和服务的使用权相威胁，无偿“掠夺”用户的数据资源，包括各种涉及个人隐私的数据。资本通过对大数据资源的支配与占有，以平台垄断、大数据杀熟、业务拓展等手段使资本增值，无偿占有数据生产者的剩余价值，形成一种独特的数据剥削机制。

总之，迈入数字智能时代，大数据的“非价值中立性”与无处不在的隐私泄露、数据歧视现象，已成为社会大众难以规避的挑战。特别是在经济、政治、技术等方面处于相对弱势地位的普通民众，更是忧心忡忡。相较于农业时代与工业时代，普通民众的忧虑具体集中在以下四方面：一是担心相关部门、企业等在自己不知情的情况下过度采集个人数据，敏感信息或隐私被偷窥，损害自己的人格、尊严和社会形象；二是担心在关乎自身权益的问题上“被代表”，使用他人的或者附带他人价值观的数据，或者虚假的、不完整、过时的数据“代表”自己，并据此形成不利于自身的评价和决策；三是担心相关部门、企业等非法存储、买卖个人数据，或者超授权使用个人数据，造成隐私数据的泄露，或者被人用于电信骚扰、网络敲诈等违法活动；四是担心相关部门、企业等运用日益强大的大数据技术，分析个人数据并进行精准“画像”，人为地影响、操控自己的思想、心理和行为，甚至以“大数据杀熟”之类的手段定向损害自身合法权益。广大民众虽然心存紧张、焦虑，却难以摆脱已成潮流的数字化生存，故而在前所未有的表面上丰富多彩的“新生活”中，常常陷入矛盾、无奈和无助的尴尬境地。

算法的“非价值中立性”与算法歧视

算法是以大数据为基础资源、以任务为目标导向的计算机运行程序。在科学主义者乃至普通社会大众的心目中，算法作为当代高新科技的典型形式，理应是客观的、“价值中立”的、值得信赖的。然而，如果我们深入算法形成的机理和各种各样的算法进行考察，就会发现情况并非如此简单，算法中内蕴的包括欺诈、霸凌、歧视之类的问题并不鲜见。波尔格休斯认为：“尽管算法决策看似理性、中立和无偏私，但也可能导致不公平和非法歧视。”[6]凯西·奥尼尔指出：“目前，公共和私人部门运用算法模型作出的决策正在导致对社会弱势群体的结构性排斥和歧视，许多设计糟糕的算法模型正在加剧、恶化弱势群体的生存境遇。”[7]

近年来，虽然计算机辅助编程技术不断取得突破，生成式人工智能的自主学习、自主升级能力不断增强，但目前算法仍然主要由一定的价值主体设计、编写和训练，是相应主体活动的产物和主体意志的体现。“工程师是技术的立法者，他们会根据不同的价值判断设计出不同的算法，或者选择不同的算法来解决问题。”[8]无论算法的设计创意、算法代码的编写，还是训练算法的数据的甄选和标注、算法的预训练和训练，以及具体的应用与基于反馈（包括用户、监管部门等的反馈）的修改完善，都必须对标工程师等价值主体的“主体尺度”，如相应主体所应遵守的国际、国内和地方规则（包括宗教戒律、政策法规、道德规范、文化习俗、乡规民约等），至少做到不突破底线的基本的“价值观对齐”。这决定我们不可能撇开相应的价值主体及其文化价值观，讨论算法歧视与社会公正问题。

由于算法的主体依附性，一定主体的价值立场及其所秉持的价值观——包括内蕴信仰、信念、理想、原则、标准和具体规范的政策、法律、道德、风俗习惯等——是否先进和合理，其具体的历史价值评价、选择与决策活动是否恰当，直接影响算法的设计、编写、训练和调适过程，影响算法是否公正以及公正的程度，影响算法中是否可能有意或无意地“输入”一些歧视性内容。这正如杰米·萨斯坎德指出：“隐藏在所有技术背后的大多数算法不公正，实际上可以追溯到人的行为和决定——从软件工程师到使用谷歌搜索的用户，都可能是其中的一分子。”[9]

问题的关键是，在历史与现实中，人们的价值观是复杂、多元和动态的，存在着不可胜数的差异、矛盾和冲突。不同的价值主体因为历史文化传统、物质生活环境、经济发展水平的差异，加之自身的立场、利益、需要与能力不尽相同，所以主张、接受和认同的文化价值观也难以一致。相关价值主体在设计、编写一定的算法解决问题时，其文化传统、知识结构、价值观念、思维方式、风俗习惯等主体性因素可能有意或无意地输入算法，导致算法中存在或隐或显的价值观倾向，其中就可能隐藏各种各样的歧视性后果。比较常见的情况是，相关的价值主体将自身笃信、认同的价值观理解为所有人都信奉、认同的普适性的价值观，想当然地将其作为一定算法的价值原则、价值规范和价值标准。更令人忧心的情况是，居心不良的组织或个人可能在算法中输入违背人类基本价值观和“底线伦理”的内容，可能导致智能系统的评价、决策与行为出现反人类、反社会的恶劣倾向，最终对人的人格、尊严、根本利益乃至生命安全产生严重后果。

当今世界存在不同的宗教、民族、国家、组织、群体，也存在阵营对立、阶层分化和利益冲突，这一切正在深刻地影响算法的价值观对齐。盘点目前的各种算法，其对一些强势主体（如发达国家、跨国企业、富裕阶层、精英群体等）的考量，远远高于对一些相对弱势的主体（如发展中国家、小微企业、贫困阶层、弱势群体等）的关注，其中内蕴的“算法偏见”“算法歧视”司空见惯。例如，有些国际机构、地区组织和企业研发的经济发展指标、社会发展指数、国民幸福指数等，明显体现西方发达国家的立场，及其倡导的基于自身利益的价值观。又如，一些职位招聘算法系统存在不加掩饰的倾向性——刻意规避向特定弱势人群推送高薪岗位招聘信息，这些群体包括残疾人、精神障碍者、教育程度较低者、刑满释放人员及其他各类边缘群体等。这种算法层面的筛选与排斥，本质上人为剥夺这类群体获取劳动权益、争取晋升机会的平等权利，加剧了社会资源分配的失衡。

特别是，迈入数字智能时代，比工业资本更加强势的数字资本为了实现快速增值，也会处心积虑地在算法上“做文章”，从而以隐蔽的方式窥探用户，以“巧妙”的方式操纵用户，让算法成为“实现利润最大化的工具”[10]。数字平台公司可能基于唯利是图的“资本逻辑”，利用从各种渠道收集、购买的消费者大数据，动态分析用户的个体偏好、消费习惯、支付能力、信用状况等，对不同的用户进行“画像”。基于精准、动态的“用户画像”，平台可能按照宗教信仰、民族特性、阶层差异、文化程度、年龄结构、性别特征、经济实力、消费习惯等对用户进行分类，进而编制包含歧视性内容的算法，有针对性地开展“算法推送”，干预、影响用户的知情权、选择权和决策权。有些企业打着“以消费者为中心”“满足消费者的个性化需要”的旗号，刻意实施“差异化定价”“大数据杀熟”之类的有针对性的市场营销。例如，为特定人群或相对富裕的消费者精心设计奢侈的“定制型服务”，刻意规避那些维权意识较强的消费者，却故意损害不喜欢斤斤计较的“老好人”消费者的权益，处心积虑地诱骗老年人等容易上当受骗的群体。资本对技术（数据和算法）、市场的精心操控所导致的各种歧视，已经成为社会公众最为愤怒的社会乱象。

随着智能科技的发展，算法越来越复杂，而且日渐具有自主学习、自主升级的能力，这令算法是否可能“自以为是”“自作主张”的问题逐渐凸显，大模型造假、欺骗人类，以及寻求权力的行为令人们深为担忧。这是因为，即使人们最初设计、编写的算法是公正、友善的，但由于算法是一个深不可测的“黑箱”，具有普通大众难以理解和掌握的非透明性、不可解释性、人机隔阂等高新科技属性，相关算法中暗藏的不确定性和风险，以及可能出现的潜在的、难以预料的后果，普通大众很难弄清其中的基本原理、运行逻辑和具体危害。这些算法如此复杂，而且仍在不断迭代，花样翻新，普通大众易落入特定算法精心设计的“圈套”，或者在被算法“自以为是”的引导中完成某些行为，有时即使忽略、损害自身权益，可能也浑然不知。算法决策的这种非透明、“非人性”，难以理解和预测的特性，令普通大众的权益和行为模式日益偏离自我掌控的轨道。特别是，一旦智能系统取得实质性突破，通过了著名的“图灵测试”，在经济、政治、社会、文化等领域获得越来越多的管理、决策权力，那么并不一定认同我们的价值观、却越来越强大的智能系统如何决策，如何行动，如何歧视或歧视哪些特定个体、群体或者组织的评价和决策，又可能造成哪些新的社会歧视和不公——此类风险和挑战，正在成为智能社会建设中的新隐患。

总之，在社会信息化、智能化进程中，算法的主体依附性、“非价值中立性”和“黑箱”所导致的风险和挑战，包括算法霸凌、算法操控、算法偏见、算法歧视等，令普通大众处于越来越弱势、越来越无助的地位，基本的权益可能在不同程度上受到忽视和侵害。而且由于“人机隔阂”等原因导致的算法相对人而言的非透明性、不可解释性等，导致各种算法问题很难被及时发现，这些问题的解决面临重重挑战。在这场颠覆性的科技、经济、政治、社会和文化变革中，普通大众很难跟上算法的创新迭代速度，从而难免心生不安，产生一种前所未有的无力感、无奈感，甚至产生前所未有的恐惧感、绝望感。

数据、算法歧视的特点与治理方略

大数据技术与算法技术是数字智能科技的两个主要组成部分。正如大数据与算法是相互关联、相互影响的，数据歧视与算法歧视也存在或隐或显、或浅或深的关联、互动关系。大数据本身的“非价值中立性”和相伴而生的各种歧视性问题，不仅可能影响算法的设计、编写、预训练和训练过程，而且可能不同程度地影响算法的应用和基于反馈的完善过程。杰米·萨斯坎德指出：“不良数据的问题对机器学习算法来说尤其突出，因为机器只能依据其面对的数据来学习。”[11]波尔格休斯指出：“如果一个算法系统是基于有偏见的数据进行训练的，那么该系统就有重现这种偏见的风险。”[12]也就是说，如果缺少相应价值主体的必要的数据，或者数据不完整、不准确和没有及时更新，甚至出现数据混淆、篡改、伪造的情况，那么，无论是算法的设计和编写，还是算法的应用和检验，乃至于算法的“训练”和提升都可能受其影响，产生或加剧形形色色的不可靠、不公正，甚至不可控的歧视性结果。与此同时，大数据的规模越来越庞大，结构越来越复杂，其挖掘、采集、存储和加工已经远超单纯的人类工作的承担能力，必须开发强大的专业化的算法工具。而算法的主体立场、主体尺度和存在的各种问题，特别是“非价值中立性”和算法歧视，又可能反过来影响数据的采集、筛选、存储和加工过程，导致新的数据歧视，或者加剧原有的数据歧视。数据歧视与算法歧视或隐或显地相互影响，甚至相互强化的关系，令数字智能时代社会歧视的祛除、社会公正的维系变得更加复杂。

与农业、工业时代流行的社会歧视现象相比，数据、算法歧视因为具有鲜明的高新技术色彩，而更具革命性和颠覆性。首先，数据、算法歧视无所不在，形式越来越丰富多样。农业、工业时代的社会歧视通常依据的是宗教、种族、性别、学历、职位、财富等显形特征，类型相对单一；而由于大数据、算法技术功能强大，应用广泛，它可以全面地，也可以有选择地采集人的几乎一切活动信息，如家庭背景、成长经历、医疗记录、社交记录、金融信息、消费记录、网络活动、出行轨迹、娱乐活动记录等，通过深度“挖掘”一个人全面的、深层次的特征设计算法，从而令数据歧视与算法歧视几乎无孔不入，渗透到越来越广泛的领域，表现形式也越来越多样化，令人防不胜防。其次，数据、算法歧视的针对性越来越强，甚至能够实现针对单一个体。依据大数据中丰富的背景资料和详尽的个人信息，基于算法技术的人工智能体变得“比一个人自己更加了解自己”。如果为人利用，那么很容易使特定对象遭受威胁。例如，利用一个人的敏感信息实施恐吓和敲诈。又如，通过“大数据杀熟”之类的方式开展市场营销。一旦被人用大数据和算法技术锁定，在技术上处于相对弱势的普通用户很难逃避，也很难维护自己的合法权益。再次，数据与算法歧视相较于传统社会歧视，更具隐蔽性，也更难被察觉与甄别。以往基于显性特征的歧视，已被各类政策法规明确禁止，且公众对此类歧视较为熟悉、敏感度高，具备较强的防范意识。但数据与算法歧视却隐藏在技术壁垒森严、不透明的高新技术背后，往往刻意规避政策法规明令禁止的行为，转而巧妙隐匿于看似无明显恶意的复杂程序之中，或是利用政策法规尚未明确规制的“监管空白”。这种隐蔽性使得普通大众难以及时发现自身遭受歧视，即便歧视行为被偶然察觉，相关责任主体也常能凭借技术复杂性高、证据获取难度大等特征逃避社会谴责与法律制裁。最后，随着数字技术的持续迭代，数据与算法歧视不断花样翻新，且各类歧视行为相互关联、彼此强化，对被歧视对象的影响愈发深入，可能造成的权益损害也日趋严重。其中，处于社会底层、缺乏话语权与维权能力的弱势群体，面临的歧视风险更高，可能遭受的侵害程度也更为深重。

进入数字智能时代，面对表现形式复杂多变、社会影响更为恶劣的数据、算法歧视，直面社会大众的紧张、焦虑情绪，我们必须在充分利用大数据技术、算法技术造福人类的同时，采取具有前瞻性的务实的系统治理方略，维护社会公平正义。

第一，确立国民的价值主体地位，通过普遍交往和对话协商逐步形成有关公正、歧视的价值共识。什么是公正？公正的判断是否存在不同的标准？什么是歧视？怎样判断是否存在歧视以及歧视的程度？诸如此类问题是聚讼不断的哲学难题。在历史与现实中，分属不同的宗教或种族、文化谱系、意识形态、经济阶层、学历背景等的群体，对于公正或者歧视可能存在不尽相同的理解，有时观点甚至可能针锋相对，这是大数据和算法中存在社会不公、歧视问题的根源。只有确立国民的价值主体地位，而且各价值主体秉持宽容和合作理念，通过普遍交往确认各自的地位、利益和需要，通过对话、协商不断消除分歧，求同存异，才能在尊重差异的基础上达成共识，逐步形成基本的公正、歧视共识，为大数据技术和算法技术的公正价值观对齐奠定坚实的基础，为消除数据歧视和算法歧视提供必要的前提。

第二，建立健全数据采集、存储、加工、应用的政策和法规，促进大数据技术的公正、合规使用。“偏见和公平问题是数据正义的关键。”[13]大数据事关每一个人的切身权益，事关算法设计、编写、训练和应用的效果，事关整个社会的信息化、智能化进程，必须坚持智能向善的原则，在依法保护个人隐私和数据安全的前提下，强化大数据技术的公正、合规应用。算法歧视在相当程度上来自支撑大模型设计和加工的数据，消除算法歧视也需要通过对大模型的修正、数据的校对来实现，这就要求“喂养”“训练”算法的数据没有被不良价值观“污染”、经得起严格的价值观审查。因此，政府、企业和相关组织等必须依法采集、存储、加工和使用数据，采集的数据应该完整，数据分类必须科学，数据的标注和应用必须不断提高质量；同时，不得侵犯公共安全、个人隐私和知情同意权，不得非法地、歧视性地采集、存储、加工、分析和使用（垄断、误用、滥用等）数据。当然，每个价值主体都应该强化自己的数据权利、义务和隐私意识，及时更新、完善自己的个人数据，善于运用各种数据库提升自己的工作和生活质量；而当个人数据权利和隐私受到威胁和侵害时，应该及时采取措施维护个人权益，为公正而有效率地推进大数据建设贡献自己的力量。

第三，实施系统的算法“价值观对齐”工程，确保智能系统拥有一颗“良芯”，遵守全人类共同价值观特别是公正价值观。在算法设计、编写时，应该立足价值哲学对公正价值观进行专业化、多维度分解，将相关的价值原则和规范尽可能“传导”“内嵌”到算法之中；并且，通过不断的预训练和训练，特别是不断的应用反馈，令算法持续地自主改进，甚至通过自主学习而不断提升。需要注意的是，目前“有多少智能，往往就有多少人工”。特别是在早期人工智能算法的发展过程中，人的因素就显得更加重要。因此，在算法规制或者“价值观对齐”过程中，应重点关注设计、编写、训练、规制人员，有的放矢地强化其价值自觉和公正意识，不断清理、排除突破底线的数据、算法歧视行为，从而实现事半功倍的治理效果。同时，算法的产生、应用和规制是一个复杂的过程，必须对可能影响算法设计、编写、应用的宗教和政治势力、“资本”及其代言人、特权阶层和各种精英群体等，从技术、政治、经济、道德和法律层面加以约束，防止他们通过或明或暗的技术手段，将特定的价值立场、自私的利益诉求，特别是对普通大众的歧视性内容嵌入各种算法程序。

第四，建立动态的价值观审查机制和技术评价、检测、监督机制，通过不断纠偏、纠错和完善来端平“公正砝码”。大数据、算法的公正性目前在很大程度上取决于人们的价值意识、价值观，以及价值观对齐的专业认知和技术能力。然而，相关的算法关注的往往只是具体任务的完成、具体目标的实现以及相应的系统安全，既缺少价值观方面的专业性支持和业务审查，更由于算法本身的高科技特性（如非透明的“黑箱”现状）而缺乏必要的监督、检测手段和有效的纠错机制。因此，一方面，应要求算法公开、透明、可解释和应用后果可预测，要求算法“内嵌”人类的基本价值共识，确保不突破政策、法律和伦理底线；另一方面，应动态审核和评估各种数据库和算法模型，及时清除大数据和算法中存在的社会歧视现象，并对严重违背基本价值共识和相关政策法规的行为依法进行惩处。

结语

数智时代，大数据与算法技术以前所未有的深度和广度融入社会运行的肌理，成为重塑生产生活方式、驱动社会发展的核心力量。然而，技术的跃进并非全然伴随着公平正义的自然实现，数据与算法的“非价值中立性”催生的歧视现象，如同智能文明进程中的暗礁，不仅侵蚀着个体的合法权益，更冲击着社会公正的根基。从数据采集环节的结构性缺失，到算法设计中潜藏的价值偏向；从资本逻辑主导下的“用户画像”，到技术壁垒造成的“算法黑箱”，这些歧视形式愈发隐蔽、影响愈发深远，给社会治理带来了全新挑战。

面对技术发展中的这一必然阶段，我们既要保持理性包容的态度，认识到新兴技术的完善本就是一个循序渐进的过程，不应因阶段性的负效应而否定其巨大的进步价值，更不能苛求绝对的公正。数字智能科技作为人类文明发展的重要成果，其初衷是提升社会效率、增进人类福祉。同时，社会公正作为人类永恒的价值理想，是衡量智能文明成色的核心标尺。而数据与算法歧视本质上是技术外衣下的价值失衡，若放任其蔓延，必将加剧社会分化，侵蚀信任基础，最终阻碍数字智能社会的健康发展。

治理数据与算法歧视，注定是一场历史性、过程性的系统工程，需要社会各方凝聚共识、协同发力。在价值层面，应确立全体人民的价值主体地位，通过普遍交往与对话协商，在尊重差异的基础上形成关于公正与歧视的基本共识，为技术发展划定价值边界。在制度层面，需健全数据全生命周期管理的法律法规，规范数据采集、存储、加工、应用的各个环节，确保数据来源完整、分类科学、使用合规，从源头遏制数据歧视的滋生。在技术层面，要推进算法“价值观对齐”工程，将全人类共同的公正价值观内嵌于算法设计之中，强化技术人员的价值自觉与公正意识，同时建立动态的算法审查、检测与监督机制，打破“算法黑箱”，实现算法的透明化、可解释性。

数字智能文明的构建，既是技术创新的过程，也是价值重塑的过程。消除数据与算法歧视，不仅是对技术缺陷的修正，更是对社会公正的守护。当每一个群体的声音都能被倾听，每一个个体的权益都能被保障，大数据与算法才能真正成为促进社会公平正义的有力工具。为此，应以价值引领技术，以协同破解难题，在数字智能科技发展的道路上持续深耕，逐步构建起公平正义、普惠共享的新型智能系统，塑造高度发达、公正和谐的新型智能文明，让技术进步真正服务于人的全面发展与社会的共同繁荣。这既是时代赋予我们的使命，也是智能文明永续发展的必由之路。

（本文系国家社会科学基金重大项目“生成式人工智能的价值观对齐研究”的阶段性成果，项目编号：25&ZD025）

注释

[1]《习近平在中共中央政治局第二十次集体学习时强调坚持自立自强突出应用导向推动人工智能健康有序发展》，2025年4月26日，https://www.gov.cn/yaowen/liebiao/202504/content_7021072.htm。

[2]B. Lepri et al., "Fair, Transparent, and Accountable Algorithmic Decision-making Processe," Philosophy & Technology, 2018(31).

[3]维克托·迈尔-舍恩伯格、肯尼思·库克耶：《大数据时代》，盛杨燕、周涛译，杭州：浙江人民出版社，2013年，第9页。

[4]孙伟平：《事实与价值——休谟问题及其解决尝试（修订本）》，北京：社会科学文献出版社，2016年，第147～170页。

[5]孟飞、程榕：《如何理解数字劳动、数字剥削、数字资本？——当代数字资本主义的马克思主义政治经济学批判》，《教学与研究》，2021年第10期。

[6][12]Frederik and J. Z. Borgesius, "Strengthening Legal Protection Against Discrimination by Algorithms and Artificial Intelligence," The International Journal of Human Rights, 2020, 24(10).

[7]凯西·奥尼尔：《算法霸权：数学杀伤性武器的威胁》，马青玲译，北京：中信出版社，2018年，第113页。

[8]K. Felicitas; K. V. Overveld and M. Peterson, "Is There an Ethics of Algorithms?" Philosophy & Technology, 2011(13).

[9][11]杰米·萨斯坎德：《算法的力量：人类如何共同生存》，李大白译，北京日报出版社，2022年，第232、233页。

[10]阿里尔·扎拉奇、莫里斯·E. 斯图克：《算法的陷阱：超级平台、算法垄断与场景欺骗》，余潇译，北京：中信出版社，2018年，第100页。

[13]A. L. Hoffmann, "Where Fairness Fails: Data, Algorithms, and the Limits of Antidiscrimination Discourse," Information, Communication & Society, 2019(7).

Data, Algorithmic Discrimination and Its Governance Strategies

Sun Weiping

Abstract: As key components of intelligent technology, big data and algorithms are not inherently "value-neutral". Instead, they are permeated with and embody specific subjective values to varying degrees. When collecting, storing, analyzing and applying various kinds of data through algorithms such as deep learning, and then making corresponding automatic evaluation and decision, it often produces various forms of prejudice and discrimination, and sometimes even aggravates the existing social prejudice and discrimination through data and algorithms. Compared to the social discrimination prevalent in the agricultural and industrial eras, data and algorithmic discrimination possess distinct high-tech characteristics. This makes them more revolutionary and disruptive, and consequently, they exert a deeper impact and cause greater harm to the targeted subjects. As a matter of urgency, while fully leveraging big data and algorithmic technologies to benefit humanity, we must adopt forward-looking, systematic, and pragmatic governance strategies to gradually eliminate various forms of data and algorithmic discrimination, striving to realize basic social justice.

Keywords: artificial intelligence, data discrimination, algorithmic discrimination, social justice

孙伟平：数据、算法歧视及其治理方略

APP | 公众号 | 微博 | 手机版

相同作者阅读

相同主题阅读

热门专栏