张耀铭:人工智能驱动的人文社会科学研究转型

选择字号:   本文共阅读 2184 次 更新时间:2020-07-30 15:46:29

进入专题: 人工智能   人文社会科学研究  

张耀铭 (进入专栏)  
美国贝尔实验室就已尝试机器人写稿。进入新世纪,随着人工智能从运算阶段、感知阶段过渡到认知阶段,这一雄心勃勃的探索在美国已成燎原之势。华尔街邮报、纽约时报、美联社、洛杉矶时报都开发了自己的写稿机器人,内容多为财经和体育方面资讯。2005年,麻省理工学院的计算机科学与人工智能实验室的三位研究生杰里米·斯特里布林、马克斯·克伦和达纳·阿瓜约联合编写了一个叫做SCIgen的计算机程序,能够自动生成英文科技“论文”,包含摘要、引言、文献综述、实验结果、结论、图片和参考文献等。此后几年用这个神器生成的论文,堂而皇之地出现在世界各地的科技学术会议,有的甚至通过了同行评审,被CSSE杂志录用。2010年,法国约瑟夫·傅立叶大学的计算机科学家西里尔·拉贝出于好玩或恶作剧,虚拟了一个叫做IkeAntkare的机器人作者,制造了102篇机器生成论文来测试“谷歌学术”是否收录。结果这位机器人成功了,甚至IkeAntkare还成为世界上第21位被引用次数最高的“科学家”。

   近年来,中国的机器人写稿实践发展迅猛。2015年9月,腾讯财经发表机器人Dreamwriter写的《8月CPI同比上涨2.0%创12个月新高》文章,由此拉开了国内机器人写稿的序幕。此后,阿里巴巴联合第一财经推出“DT稿王”、今日头条推出“Xiaomingbot”。尤其是IBM中国研究院专家基于深度学习技术,开发的写诗机器人“偶得”一夜爆红。读者只要输入四个字,它就能生成一首符合平仄、对仗及韵律的七言藏头诗。如宋代秦观有诗:西津江口月初弦,水气昏昏上接天。清渚白沙茫不辨,只应灯火是渔船。“偶得”迅速生成:西窗楼角听潮声,水上征帆一点轻。清秋暮时烟雨远,只身醉梦白云生。这令许多专业人士也一时难辨真假。继商业媒体尤其是互联网公司率先发力之后,传统主流媒体也加大技术投入寻求突破,因此各种写稿机器人纷纷涌现。新华社的“快笔小新”、人民日报的“小融”、南方报业的“小南”等等,以“DT稿王”为例,目前能写出三大逻辑类别稿件:第一类是基于数字进行事实陈述,并进行简单逻辑分析的文章,比如二级市场的监控、体育赛事的简讯;第二类是对信息源进行针对性的信息提取,把非结构化的文本转为结构化及半结构化的数据,再根据不同的规则把信息要点组合写成单点内容;第三类是单点内容的关联生成,及时关联专家对基本数据的解读及评论,生成更有深度、更立体、更综合的稿件(35)。机器人写稿背后的核心技术是自然语言处理(简称NLP),同时涉及搜索引擎、数据挖掘、机器学习、知识图谱、内容聚合等多项人工智能技术。现有的机器人写稿主要有两种技术方式,一种是模板式,一种是摘录式。模板式是“人工模板”+“自动化数据”填充的套路,去组合生成原创的稿件。“具体的实现过程包括:基于输入的知识点与模板库进行候选模板检索;利用优化算法进行智能模板筛选,确定最终真正使用的模板;基于筛选得到的模板进行新闻文本生成。”(36)摘录式是采用自动摘要技术,从已有的海量数据(文本)中摘录核心内容与关键词,通过计算分析方法进行二次创作,改写或重组为新的稿件。

   2018年6月30日,中国智能写作产业联盟在北京成立。中国声谷、科大讯飞和金山软件等17家人工智能领域产业基地及企业成为首批理事单位,其目标是抢占计算机自然语言处理发展的制高点,推动构建智能写作产业生态体系,加速助推智能写作科技成果转化落地。未来机器人写稿或将成为常态,人文社会科学研究也将面临人工智能的野蛮敲门。一是通过语音识别输入法等技术完成语音和文字的转换,实现低效率和手工化的方式向高效率与机器化的方式转变。腾讯写稿机器人Dreamwriter推出的中文纠错算法,已能识别多种类型,包括同音字、近义字、易错字及上下文语境搭配错误,准确率达90%以上。二是通过智能学术引擎高效完成海量阅读,通过评估论文内容的相关度来实现搜索结果的快速排序,通过输入字段或论文摘要提取包含语义背景的关键概念,并以此来找到相关度较高的话题及其他论文资料。如借助Iris.AI的技术,用户在输入论文链接后,便能够在短时间内获取Iris.AI所构建的知识图谱。所以综述性、归纳性和程式化的论文写作,将大量由机器人所替代。三是目前用于机器人写稿的开发仍然处在初级阶段,还无法提供事实背后的真相,无法提供针对现实的深度解释,更无法提供高度创造性研究。因此,“人机协作”将成为未来人文社会科学研究的新趋势。人机协作就是由人给定写稿的题目、关键词、架构、段落等要素,充分利用机器收集和处理大数据的能力,根据模板嵌入不同数据、聚合内容和扩充文字。在此基础上,发挥人的思维模式和价值观,剔除模式化、同质化弊病,挖掘数据背后深层的思想,进行创意性加工。四是“机器人写稿”带来的黑洞。当下自媒体、通俗文学的写手,已经半机器化了。数据库里的细节、情节、台词、角色、环境描写等各种“零部件”是由人预先输入储备的,机器不过是根据指令自动完成筛选、组合、推演、语法检测、随机润色一类事务。这些作品,“其作者可能是人,也可能是机器,也可能是配比不同的人(HI)机(AI)组合——其中低俗版的组合,如淘宝网十五元一个的‘写作软件’,差不多就是最廉价的抄袭助手,已成为时下某些网络作家的另一半甚至另大一半”,这被批评为“一种基于数据库和样本量的寄生性繁殖”(37)。2008-2013年,有120多篇由计算机自动生成的“论文”被提交给国际学术会议并得以出版。法国计算机科学家拉贝在德国学术出版机构施普林格的数据库中检测发现,尽管这些论文格式规范、图文并茂,但只不过是词汇和句子无意义组合的虚假论文。更打脸的是,这些论文的署名作者大多来自中国大陆(38)。由此看来,“机器人论文”现象在中国早已存在,“代写代发论文”的买卖也已不是什么新闻,只不过学术不端行为的触角已然伸至国外,中介活动如此猖獗,还是令人有些吃惊。

   五、结束语:面对未来接受变革

   总之,由人工智能引领的新一轮科技革命和产业变革方兴未艾。人工智能技术正在快速进入人文社会科学领域,对传统人文社会科学研究构成了挑战。但这一切都还刚刚开始,人工智能杀手的本质还远远没有展现。在不久的未来,或许它能突破人类的“阿喀琉斯之踵”?也未可知。人工智能充满了张力,机遇与风险并存。“中国作为人工智能大国,既要积极布局抢占产业发展制高点,又要未雨绸缪及早做出人工智能发展的社会治理预案。”(39)面对未来,如果不想成为恐龙,我们必须变得极其开放,拥抱转型,接受变革,深度融合。但愿我们能像村上春树在《海边的卡夫卡》结尾所言:“不久,你睡了。一觉醒来时,你将成为新世界的一部分”(40)。

   注释:

   ①车品觉:《数据的本质》,北京:北京联合出版公司,2017年版,第63页。

   ②沈浩,黄晓兰:《大数据助力社会科学研究:挑战与创新》,《现代传播》,2013年第8期。

   ③黄水清:《人文计算与数字人文:概念、问题、范式及关键环节》,《图书馆建设》,2019年第2期。

   ④G.King,“Restructuring the Social Sciences:Reflections from Harvard’s Institute for Quantitative Social Science”,in PS:Political Science & Politics,No.1,Vol.47(2014),p.165.

   ⑤胡玮:《中文学术搜索引擎比较研究》,《情报探索》,2018年第1期。

   ⑥李剑鸣:《“网络史学”的神话与实际》,《史学理论与研究》,2011年第4期。

   ⑦刘银娣:《学术出版领域的人工智能应用:现状、挑战与应对》,《科技与出版》,2019年第1期。

   ⑧王新才,谢宇君:《知识发现系统与通用学术搜索引擎文献资源比较研究》,《福建论坛》,2018年第4期。

   ⑨董春雨,薛永红:《数据密集型、大数据与“第四范式”》,《自然辩证法研究》,2017年第5期。

   ⑩米加宁,章昌平等:《第四研究范式:大数据驱动的社会科学研究转型》,《学海》,2018年第2期。

   (11)[英]维克托·迈尔-舍恩伯格,肯尼斯·库克耶:《大数据时代》,盛杨燕、周涛译,杭州:浙江人民出版社,2013年版,第94页。

   (12)唐文方:《大数据与小数据:社会科学研究方法的探讨》,《中山大学学报》,2015年第6期。

   (13)俞立平:《大数据经济学的概念、框架与学科定位研究》,《统计与信息论坛》,2015年第6期。

   (14)崔俊富,邹一南等:《大数据时代的经济学研究:数据驱动范式》,《广东财经大学学报》,2016年第1期。

   (15)刘涛雄,尹德才:《大数据时代与社会科学研究范式变革》,《理论探索》,2017年第6期。

   (16)刘林平,蒋和超等:《规律与因果:大数据对社会科学研究冲击之反思——以社会学为例》,《社会科学》,2016年第9期。

   (17)爱因斯坦:《爱因斯坦文集》(第1卷),许良英、范岱年译,北京:商务印书馆,1976年版,第574页。

   (18)雷丽娟,李润珍:《大数据背景下的因果关系与相关关系》,《河南理工大学学报》,2017年第1期。

   (19)陈云松,吴青熹等:《大数据何以重构社会科学》,《***师范大学学报》,2015年第3期。

   (20)梁晨:《用大规模量化历史数据库检验中国的长期代际遗传》,《南京大学学报》,2019年第2期。

   (21)邱伟云:《验证、修正、创新:数字史学方法的三重功能》,《南京大学学报》,2019年第2期。

   (22)童莹,张彬:《董其昌数字人文项目的探索与实践》,《中国博物馆》,2018年第4期。

   (23)冉从敬,赵洋等:《数字人文视角下的莎士比亚学术传播研究》,《图书馆杂志》,2018年第3期。

   (24)倪万,唐锡光:《大数据应用于社会科学研究的价值与悖论》,《东南学术》,2017年第4期。

   (25)严程:《现代文学研究的“数字人文”方法刍议》,《现代中文学刊》,2019年第1期。

   (26)米加宁,章昌平等:《第四研究范式:大数据驱动的社会科学研究转型》,《学海》,2018年第2期。

   (27)冯惠玲:《〈数字人文:改变知识创新与分享的游戏规则〉序》,北京:中国人民大学出版社,2018年版。

   (28)吴小坤:《大数据时代新闻传播学研究的重构与进路》,《南京社会科学》,2016年第11期。

   (29)李雨秦:《大数据为心理学研究带来机遇和挑战》,《中国社会科学报》,2017年6月16日。

   (30)马费成:《推进大数据、人工智能等信息技术与人文社会科学研究深度融合》,《评价与管理》,2018年第2期。

   (31)金观涛,刘青峰:《中国近现代观念起源研究和数据库方法》,《史学月刊》,2005年第5期。

   (32)施建军:《基于支持向量机技术的〈红楼梦〉作者研究》,《红楼梦学刊》,2011年第5期。

   (33)李姝雯,李曼丽:《语言学跨学科研究的新范型——基于2000-2016年PNAS研究进展评述》,《语言教学与研究》,2019年第1期。

   (34)高兴:《跨学科的音乐图像研究》,《艺术探索》,2019年第1期。

   (35)宿思,樊成琼:《写稿机器人与媒体智能时代》,《贵阳日报》,2016年9月19日。

   (36)申屠晓明,甘恬:《机器人写稿的技术原理及实现方法》,《传媒评论》,2017年第9期。

   (37)韩少功:《当机器人成立作家协会》,《读书》,2016年第7期。

   (38)《科学家检出120多篇机器人论文几乎全来自中国》,http://news.sohu.com/20140410/n398017521.shtml.

   (39)张耀铭,张路曦:《人工智能:人类命运的天使抑或魔鬼——兼论新技术与青年发展》,《中国青年社会科学》,2019年第1期。

   (40)[日]村上春树:《海边的卡夫卡》,林少华译,上海:上海译文出版社,2003年版,第514页。

  

  

进入 张耀铭 的专栏     进入专题: 人工智能   人文社会科学研究  

本文责编:陈冬冬
发信站:爱思想(http://www.aisixiang.com),栏目:天益综合 > 学界动态
本文链接:http://www.aisixiang.com/data/122307.html

44 推荐

在方框中输入电子邮件地址,多个邮件之间用半角逗号(,)分隔。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2021 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统