张耀铭:人工智能驱动的人文社会科学研究转型

选择字号:   本文共阅读 2185 次 更新时间:2020-07-30 15:46:29

进入专题: 人工智能   人文社会科学研究  

张耀铭 (进入专栏)  
大数据为研究范式转换创设了基础条件:“它以‘总体’数据提供了认知宏观社会的数据基础;它为社会现象的‘异质性假设’检验提供了较为全面的数据;它以实时记录的特点排除了获取数据时的人为干扰;它也为恩格斯的‘结果稳定假设’提供了检验所用的充分的经验材料;它超越抽样调查的小数据,将小数据中被视为极端值并且往往被删节的个案或变量重新纳入统计分析。”(16)大数据能够捕捉并挖掘人际传播路径与传播过程,由此打破了传统媒体自上而下的传播方式,并直接影响新闻传播领域的生态结构与运作方式。近年来数据新闻已成为新闻报道的核心,通过对大量数据的挖掘、分析和发现,可以将故事以可视化的形式呈现给观众,这无疑改变了原有新闻传播学的实践图景。

   第三,由重视因果关系到更加重视相关关系。

   因果关系是西方哲学史上最具魅力的问题之一,从18世纪休谟至今研究者名家辈出影响深远。爱因斯坦就曾说过:“在近代,西方科学的发展是以两个伟大的成就为基础的,那就是希腊哲学家发明的形式逻辑体系以及通过系统的实验有可能找出因果关系。”(17)尽管因果关系是现代科学建立的基石,但大数据时代用于因果关系的传统的设立假设、实验验证反复尝试的方法就变得异常笨拙和落伍。

   随着人工智能科学的发展,社会科学研究由重视因果关系转化为更加重视相关关系。1998年《哈佛商业评论》发表沃尔玛“啤酒与尿布”典型案例,据此美国学者提出通过分析购物篮中的商品结合,从而找出商品之间相关关系的相关算法,并根据商品之间的关系,找出购买行为模式并发现商机。2009年谷歌公司从相关关系入手,通过每天来自全球超过30亿条诸如“哪些药物治疗发热和咳嗽效果好”的搜索记录,成功预测出了冬季流感的传播源头、爆发时间、传播路径等,其预测结果与官方公布数据的一致性高达97%(18)。受这一研究的启发,英国沃里克大学在《美国国家科学院院刊》发表报告指出:2004-2012年间,美国网民在谷歌搜索上输入关键词的变化与“标准普尔500指数”的波动呈相关关系,美国网民搜索商业类和政治类关键词的频率同时上升,“标准普尔500指数”往往会下跌。如果根据大数据研究来制定投资策略,则收益率可高达297%,而同期采取简单的买入持有策略只能获得3%的收益(19)。由此可见,大数据的相关关系分析法更准确、更快,而且不易受偏见的影响。

   第四,由传统文献资料分析到“数字人文”研究。

   传统文献的载体主要是甲骨、青铜、缣帛、简牍、纸张,电子文献是以数字代码形式存在的通过计算机技术存取的文献。随着大数据技术的飞速发展,“数字人文”研究在人文学科领域中的地位突显。如哈佛大学包弼德教授带领的“中国历代人物传记数据库”(CBDB)项目组通过扫描等光学输入方式将传统纸质文献的文字转化为图像信息,再利用文字识别技术将图像信息转化为文本,共收录427000人的传记资料,大大提升了研究者挖掘史料信息的能力。CBDB数据库不仅能导出数据绘制社会关系网络,而且可以通过可视化技术绘制历史人物地理分布图等功能。香港科技大学人文与社会科学院李中清教授与康文林教授研究团队,依靠以档案登记为主的史料,围绕中国近代以来的土地财产、大学生、职业技术人员和官员群体建立四个个人层面的历史数据库,数据跨度超越200年(1800-2000),包含超过200万人次的个人生命历程。“这四个主题数据库,可以进一步帮助学界从多维度和长时间两方面推进代际遗传问题研究;从过去以追求财富遗传为主扩张到理解教育和职业的代际传递;从过去强调血缘、宗族对后代的影响,到更直接地探讨官职(职位)的代际传递。”(20)大数据、“数字人文”等新技术,确实为传统的历史学研究带来极大便利。在概念史研究中,过去往往偏重引述传统文献资料进行语义分析与考辨,关注的问题既包括哪些体验与实情被带入到概念中,又包括这些体验或实情是如何被概念化的。现在则借助“数字人文”方法,通过词频分析研究概念的作者鉴定、概念的风格特点,通过用法和语境分析研究概念含义的形成和流变。有学者认为,“数字人文”方法发挥了验证、修正与创新的三重功能:一是透过数字技术,从巨量数据中,借由计算与分析,量化地验证过去史学研究者曾提出过的研究结论;二是透过巨量资料的计算分析,对过去史学研究结论进行补充修正工作;三是从巨观与复杂计算视野出发,数字史学工作者得以尝试提问与解答过去难以研究的巨观历史问题(21)。

   2010年以来,在国家和省部级重大科研项目中,“专题数据库”建设成为重点支持的方向,如“汉译文学编年考录及数据库建设(1896-1949)”“中国新诗传播接受文献集成、研究及数据库建设(1917-1949)”“抗战大后方文学史料数据库建设”“延安时期未刊文献资料收集、整理与数据库建设”“中国文学史著作整理、研究及数据库建设”“中国近现代文学期刊全文数据库建设与研究(1872-1949)”等等。大数据方法和“数字人文”大大拓展了文学研究的领域,比如利用数据库、互联网从事现代文学版本与图像史料的研究、作家生平传记研究、文学社团思潮流派的谱系研究、文学思想史观念史研究、文学文本的风格学语言学研究等等。上海博物馆根据明代著名书画家董其昌“年谱、著述等文本资料和他遗留的作品,逐步梳理出对他的书画生涯产生影响的鉴藏、交游、教育、传承等多个人文脉络,从而首次以可视化的形态为董其昌的研究设计了一个‘主体—表达—时代’的综合维度,进而可以进一步探索董其昌的各种身份和相关表达,以及这些身份和表达与时代问题之间是如何彼此展开、相互作用的等等。”(22)这是利用“数字人文”技术做的一次积极探索。为纪念莎士比亚逝世400周年,有学者从数字人文的视角出发,运用文献计量与信息可视化的方法,对莎士比亚学术传播的时空分布、时间演化、内容热点和区域特色进行了分析研究,提供了新的视角和参考价值(23)。

   在中国,大数据方法、“数字人文”虽然得到人文社会科学领域的快速响应,已经有了不少成熟的研究案例。但大数据存在着的若干悖论,也不得不引起我们重视:一是总体与样本的悖论:大数据的采集与测量中,“一切皆可量化”的理想与数据获取现实之间存在较大差距;二是混杂与精确的悖论:大数据追求质量,但数据的混杂性与精确性却不可调和;三是相关与因果的悖论:大数据的分析与研究范式,相关性的探索不能替代推断的价值(24)。尤其重要的是,采用大数据方法研究还没有产生震动学界的成果。即使目前热门的“数字人文”,许多研究也仅止步于“可视化”,以展示信息“图表”“网络”和“图示”为成果。“这样的展示,对于大众普及类的知识传播而言无疑是十分高效、简明的方式,但对于学术研究,却削弱甚至消解了研究者的主体性。”(25)

   三、“学科融合”引领人文社会科学研究新探索

   人文社会科学是研究人的精神、文化、价值和各种社会现象及其发展规律的科学,由于分支和派别的日益庞大,“在社会科学的发展过程中导致了其内外部的对立:社会科学与自然科学、人文学科的对立,社会科学内部各分支的对立,实证研究、诠释研究和批判研究范式的对立,方法论个体主义和整体主义的对立,定性研究和定量研究的对立。”(26)但是从20世纪后半叶开始,又出现了学科融合的趋势:一是自然科学与社会科学的互相融合,产生了一些新兴学科。如数学、电子计算机应用于经济领域,出现了技术经济学、计量经济学等。二是数字技术与人文学科的有机结合,推动了多种意义上的对话。包括跨越既有学科界限的对话,跨越纯理论与应用、定性与定量及理论与实际界限的对话等。对于传统人文学术而言,数字人文“借助新媒介所拥有的多样性和可扩展性,通过设计、计算、分析、可视化等手段重塑和改造人文知识,为学者提供更多差异化、规律性、宏观性、趋势性研究的可能和线索,从而扩展学术疆域和潜力,使学术领域实现‘轮廓重绘’。”(27)比如大数据正从内外两个维度对新闻传播学科范式进行着重构,内部学科的定位正从人文学科路径转向社会科学,实证研究逐渐占据上风,并朝向更加精确化的方向发展;外部与其他学科的融合程度更高,使对话和交流变得频繁,学科边界变得模糊(28)。大数据方法改变了传统心理学研究通常采用的观察法、访谈法、问卷法等手段,而将实验室移植到互联网来获取多样化、多维化的海量信息,包括网络文本、音频、视频、生理数据等,以研究用户接受不同信息时的情绪反应,进而探索心理学研究。“大数据的产生、发展与研究还催生了心理学相关研究领域的拓展,如心理健康系统的建立、网络心理学、认知诊断评估系统的建立、消费者心理预测、交通心理学、环境心理学、通过社交网络分析人格等。”(29)

   人工智能的兴起和近年的普遍性运用潮流为科研人员的跨学科研究开启了新的机遇和空间。很多自然科学家开始关注人文社会科学中的问题,很多人文社会科学家更加注重不同研究取向和方式的结合,如数据驱动与模型驱动相结合、演绎逻辑与归纳逻辑相结合、相关分析与因果分析相结合、空间分布与时间序列分析相结合、部分探索与整体研究相结合、人工分析与工具应用相结合。(30)即使传统的人文学科,学者们也不再只是“看热闹”,大数据研究魅力已初试啼声。金观涛、刘青峰在香港中文大学做研究,从观念史的视角整合思想史,借助“中国近现代思想史全文检索数据库(1.2亿字)”和福柯的知识考古方法,追寻20世纪中国政治思想史的关键词涵义、词频统计、语义分析等,解构传统历史观的统一性,力图寻求历史的真实性、复杂性与观念史变化之原因。他们认为,“一种以关键词为核心分析对象的数据库研究方法正在形成,在思想史研究中将占据越来越重要的位置。”(31)他们构建的跨越100年(1830-1930)的中国近现代思想史全文检索数据库,确实在解决近代观念史研究的诸多重大问题上展现了强大功能。历史研究也正经历与大数据应用结合的转型,出现了不少研究新成果,如詹荃亦《“主义”的数字人文研究》、夏明方《大数据与生态史:中国灾害史料整理与数据库建设》、陈志武等《清初至二十世纪前期中国利率史初探——基于中国利率史数据库(1660-2000)的考察》、金观涛等《统计偏离值分析于人文研究上的应用——以〈新青年〉为例》、龚为纲等《大数据分析下主要社会思潮的总体态势:以民粹主义为例》等。在古代文学研究领域,有人通过大数据,研究唐代诗人之间的社交网络与关系图谱;有人用名人出生地和死亡地的大数据,研究文化艺术中心的历史迁移问题;有人运用计算机人工智能中的支持向量机技术、以44个文言虚字频率为特征向量,对《红楼梦》120回进行了分类研究。结果证明,从第81回开始的后40回和前80回在写作风格上存在明显差别,从技术的角度确认了《红楼梦》前80回和后40回为两人所作,运用信息技术手段有效地证明了红学界多年来的推断(32)。语言学科的跨学科研究被越来越多的研究者所关注,心理学、认知科学、生物学、计算机科学社会学及人类学等与语言学之间的关系日益密切。语言学的跨学科研究“拓宽了语言学的研究视野,充实了语言学的研究内容,为语言学的理论建构提供了心理—生理上的佐证,同时也提供了新的研究思路和方法。”(33)近年来,通过艺术学、人类学、民俗学、文化学、自然科学视角的音乐图像研究取得了一定成果,能够做到图文互证、图与音乐实践互证,言之有据,以提高研究结论的科学性。“开展跨学科的音乐图像研究学术意义重大,它能够开阔音乐图像学研究视野,为中国音乐史论研究提供具体的、更有说服力的音乐图像史料,对于我们从整体上、深层次把握音乐事物、音乐现象具有重要作用。”(34)

   四、“人机协作”创造人文社会科学研究新场景

法国哲学家帕斯卡尔说:“人只不过是一根芦苇,是自然界最脆弱的东西;但他是一根会思想的芦苇。”人类因为思考变得无比强大,因为文字而传承文明。随着人工智能技术的飞速发展,人的思考能力这个最后堡垒正不断被侵扰。早在20世纪60年代,(点击此处阅读下一页)

进入 张耀铭 的专栏     进入专题: 人工智能   人文社会科学研究  

本文责编:陈冬冬
发信站:爱思想(http://www.aisixiang.com),栏目:天益综合 > 学界动态
本文链接:http://www.aisixiang.com/data/122307.html

44 推荐

在方框中输入电子邮件地址,多个邮件之间用半角逗号(,)分隔。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2021 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统