沈坤荣 林剑威:链“岛”成“陆”:公共数据开放的技术创新效应研究

选择字号:   本文共阅读 802 次 更新时间:2025-06-08 16:06

进入专题: 公共数据开放   数据要素   数字技术  

沈坤荣   林剑威  

摘要:随着链接各部门数据的政府数据开放平台陆续上线,原本封闭在政府各部门内的“数据孤岛”,有望形成推动经济高质量发展的“新大陆”。本文以地方政府数据开放平台上线作为公共数据开放的外生政策冲击,基于2009~2020年中国专利全量数据集构造的多维数据结构,实证检验公共数据开放对技术创新的作用。研究发现,公共数据开放显著促进了技术创新,并且由于数据要素与数字技术创新的内在关联,公共数据开放对于数字技术创新的促进作用相对其他技术领域更强。进一步分析发现,公共数据开放一方面通过降低企业外部环境的不确定性而促进技术创新;另一方面,公共数据资源的增加既满足了技术创新对公共数据资源的需求,也通过创设数据应用场景而促进了技术创新,这使得更多专利内嵌入数字技术,推动了数字技术向各技术领域的渗透融合。本文量化评估了公共数据开放的技术创新效应,为数字时代背景下政府优化新型公共服务供给,以加快培育新质生产力、推动经济高质量发展的相关实践提供了经验启示。

关键词:公共数据开放; 数据要素; 创新; 数字技术; 不确定性

 

一、引言

科技创新在新质生产力当中起主导作用,是发展新质生产力的核心。在数字经济时代,包括公共数据在内的各类数据已经日益成为支撑企业技术创新及相关决策的重要资源。与此同时,随着创新不确定性的增加,技术创新的私人投资变得愈发“昂贵”,企业的技术创新正愈发依赖于公共资源。因此,公共数据资源对于推动企业技术创新、发展新质生产力具有日益重要的独特意义和价值。但是,海量的公共数据资源沉淀在政府各部门内部,形成了一个个“数据孤岛”,严重制约了数据要素的价值释放。党的二十届三中全会审议通过的《中共中央关于进一步全面深化改革推进中国式现代化的决定》强调要“促进各类先进生产要素向发展新质生产力集聚”。《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》明确提出,要加强公共数据的汇聚共享和开放开发,推进互联互通,打破“数据孤岛”。近年来,各地政府陆续建立了汇聚经济、交通、教育和环保等各部门数据的政府数据开放平台,在链接“数据孤岛”、推动公共数据的开放共享和开发利用上迈出了重要一步。由此引出的一个问题是:各地公共数据开放所带来的丰富公共数据资源,如何在推动企业技术创新上发挥作用?

正如耶策克等所指出,数据在企业技术创新等方面发挥着重要作用,但公共数据开放是否能产生价值以及如何产生价值,尚未得到充分探索。已有文献关于数据要素与技术创新关系的研究大多集中于理论分析层面,并且也未进一步区分数据类型,对于公共数据与技术创新关系的相关研究仍较少。从这些文献来看,公共数据的作用与其他数据类型一样,企业可以从公共数据中提炼更多有效信息,加速形成对内外部环境的洞察。因此,公共数据开放使得企业可以低成本乃至零成本获取相应的公共数据资源,其带来的有效信息能够降低技术创新过程中的不确定性,这有利于激励企业增加创新投入,从而促进技术创新。

但是另一些文献则认为,如果考虑数据的异质性,公共数据开放并不一定能促进技术创新。数据不是同质的,不同类型的数据对于技术创新在内的企业行为可能存在不同影响。根据数据生成场景的不同,可以将数据分为个人数据、企业数据和公共数据。一般而言,个人数据和企业数据由企业根据自身需要收集而得,并且企业需要为占有个人数据和企业数据支付相应的数据收集、记录和存储等成本,这使得个人数据和企业数据具有独占性和专有性。公共数据由政府在履行公共职责时采集、制作和获取,具有天然的公共属性,公共数据开放意味着公共数据资源对于企业而言不再是独有的。一些学者认为,由于竞争对手同样可以获得公共数据并创造类似的技术和产品,这可能限制了企业从创新中可获取的租金,企业会犹豫是否要进行相应的技术创新投资。

可见,公共数据开放对技术创新的影响并不是一个确定性的答案,公共数据开放能否促进技术创新、发挥数据要素对技术创新的赋能作用,既需要进一步的理论分析,也需要经验证据的检验。从当前关于公共数据开放的相关研究来看,已有文献主要讨论了公共数据开放对于某个特定领域的科学研究的作用,或者对于企业效率、区域协调发展、城市创业环境的影响,还鲜有文献从技术创新的角度分析和检验公共数据开放的价值。一些文献如陈艳利和蒋琪虽然也讨论了公共数据开放与企业创新的关系,但主要是从资源可获取性的角度,实证检验了省级层面的公共数据开放对上市公司研发支出的影响及作用机制。而正如已有诸多研究所强调的,数据在生产中发挥作用的核心就是其承载的有价值信息,并且因为虚拟性等技术—经济特征而与其他生产要素产生区别。鲜有文献从数据所承载的信息价值及数据要素本身的特性出发,讨论公共数据开放对技术创新的作用。

综上表明,基于公共数据本身的信息价值与要素特性,公共数据开放如何影响企业技术创新,仍有待深入分析和检验。并且,在当前数字经济蓬勃发展的背景下,公共数据开放对于数字技术创新的作用也有待研究。基于此,本文首先从公共信息载体以及公共数据资源增加两方面,在理论上分析了公共数据开放对于技术创新的影响。基于2009~2020年中国专利全量数据集,本文构建了城市—技术领域—年份层面的多维数据结构,以地方政府数据开放平台上线作为公共数据开放的外生政策冲击,利用多时点双重差分法,实证检验了公共数据开放对技术创新的影响。实证研究发现,政府数据开放平台的上线促进了专利数量的显著上升,意味着公共数据开放显著促进了技术创新。然后,基于数据要素的虚拟性特征,本文将视角进一步深入到数字技术创新,进一步识别了公共数据开放与数字技术创新的关系。研究结果表明,公共数据开放促进了数字技术领域专利相对其他领域更快地增长,即公共数据开放对数字技术创新的促进作用更强。最后,基于对公共数据开放的影响机制的理论分析,本文从应对经济政策不确定性、吸引风险投资以及提升创业活力3个角度,实证检验了公共数据开放在降低不确定性上的作用。同时,基于对专利“数字化”特征的界定,本文研究还发现,公共数据开放使得更多专利内嵌入数字技术,推动了数字技术向各技术领域的渗透融合。

本文的边际贡献主要体现在3个方面。第一,在研究主题上,本文为公共数据开放对于技术创新的作用提供了理论分析和经验证据,揭示了公共数据开放的技术创新效应。已有文献不仅缺乏对于公共数据与技术创新关系的探讨,对于公共数据能否促进企业技术创新也存在一定争议。本文借助地方政府公共数据开放的政策实验,确认了公共数据开放推动技术创新的作用,进一步补充了关于公共数据开放后果的相关研究。第二,在研究视角上,本文将研究维度进一步深入到数字技术创新,分析并检验了公共数据开放对数字技术创新的作用,拓展和深化了公共数据与技术创新关系的研究。本文首次分析和实证检验了公共数据开放对于促进数字技术创新、推动数字技术向各技术领域渗透融合的作用,这既突出展示了公共数据开放在新时代的重要现实意义,也有利于进一步深化对公共数据开放与技术创新关系的理论理解。第三,在理论视角和影响机制上,本文进一步拓展和丰富了关于公共数据开放如何产生价值的研究视域。不同于已有研究大多从优化营商环境或者破除资源垄断的角度分析公共数据开放的作用,本文从公共数据本身的信息内容与要素特性出发,分析并论证了公共数据开放除了通过提供信息价值以降低不确定性以外,还可以通过满足技术创新需求、创设数据应用场景的直接渠道发挥作用。这拓展了公共数据开放的可研究视角,有利于进一步理解公共数据开放的价值产生渠道。此外,公共数据开放作为政府提供的一种新型公共服务,本文的研究结论也为政府如何更好地在数字时代的经济增长中发挥作用提供了重要启示。

后文结构安排如下:第二部分为理论分析,阐述公共数据开放影响技术创新的理论机制,并提出相应的研究假说;第三部分为研究设计,说明本文的数据、模型及识别策略;第四部分为基准实证结果及分析,包括相关的各类检验;第五部分为进一步检验,实证检验公共数据开放对于数字技术创新的影响,并进一步对因果效应进行识别;第六部分为相应的机制检验,并进行拓展分析;第七部分为结论与政策启示。

二、理论分析与研究假说

本节讨论公共数据开放影响技术创新的理论机制。本节首先从作为信息载体的角度,分析了公共数据开放通过降低不确定性从而促进技术创新的作用。其中,还简要讨论了企业数据和个人数据,从而既突出公共数据开放在降低不确定性方面的独特作用,也相对完整地分析数据要素对于技术创新的影响。然后,从公共数据资源增加的角度,分析公共数据开放对企业技术创新的影响。最后,从数据要素的技术—经济特征出发,阐述了公共数据开放促进数字技术创新的内在逻辑。

首先,公共数据开放为企业提供了丰富的公共信息,能够降低技术创新过程的不确定性,从而促进企业技术创新。熊彼特认为创新的本质特征之一就是创新过程存在不确定性,新熊彼特学派进一步强调,组织学习是企业应对创新中的不确定性的重要手段。在组织学习理论中,信息是组织学习的基础,企业需要通过获取、整合和处理信息来获得新的见解以建立相应能力。因此,组织学习理论认为,对信息的探索和使用是企业创新能力的基础之一。与此相对应的,数据要素实现效率提升的源泉,正是在于数据要素内在有效信息的提取和利用可以降低企业运行的不确定性。公共数据及其开放,使得企业能够快速获得更多关于外部环境的信息,降低了企业搜寻和获取信息的成本;基于政府数据的权威性和准确性,还降低了企业对数据的甄别和验证成本。这不仅使得企业可以腾出更多资源投向技术创新,更为重要的是,借助关于人口、就业、消费和财政状况等多维度的公共数据,企业可以更好地掌握外部宏观环境变化,了解市场整体需求和竞争状况。在技术创新的过程中,企业一方面可以从中捕捉和发现市场机会,从而更好地进行创新布局,降低技术创新的市场风险;另一方面,企业可以更好地识别和规避外部环境波动带来的冲击,及时优化调整创新目标,从而减少企业技术创新决策的不确定性。

公共数据具有数据要素的一般特征,但是在包含的信息内容上又不同于企业数据和个人数据,这使得公共数据、企业数据和个人数据三者在降低不确定性方面既有共性也有特性。在技术创新的全过程中,个人数据主要帮助企业识别消费者的行为特征,形成对于消费者需求及其变化趋势的刻画和预测,通过使产品更加满足个性化和柔性化需求,减少新产品与用户的摩擦,从而降低从技术创新投入到市场成功之间的不确定性。通过研发、生产、销售和管理等与企业经营运行全过程相关的企业数据,企业可以加速形成“数据驱动的决策”,更快获得指导其最优化决策的有用信息。在技术创新过程中,企业数据将有利于企业快速完成相应调整,推动技术创新过程的柔性化和智能化,不仅有利于加快研发流程、提高技术创新效率,还有助于保障技术创新过程的稳定性。可见,个人数据主要降低技术创新成果在市场需求方面的不确定性,企业数据主要降低企业自身在研发和生产过程中的不确定性,而公共数据主要是提供了关于市场状况和公共政策等方面的信息,减少了企业与整体市场环境及公共制度的信息摩擦,主要降低了外部环境方面的不确定性。

其次,公共数据开放带来的公共数据资源的增加,也将直接促进企业的技术创新。一方面,公共数据本身可能就是企业某项技术所需的必要投入。公共数据开放提供了丰富的公共数据资源,满足了某些技术对于公共数据资源的需求,从而直接推动了技术创新。一些公共数据涉及城市地理、社会经济、民生服务等各个领域,数据规模大、覆盖广,依靠企业自身力量收集不仅成本大、难度高,在数据安全层面,还面临诸多法律限制。而公共数据开放为企业的技术创新提供了“原材料”,企业可以直接利用公共数据开发相关应用或技术,降低了企业相关技术创新的成本和门槛。比如,汽车公司需要政府的城市交通和地理状况等公共数据来支持自动驾驶汽车的开发;某无人机企业利用政府公布的限制飞行区域、海拔、天气等数据,开发了“针对限飞区域的开放平台”等技术专利。因此,公共数据资源的供给增加直接促进了企业的技术创新。

另一方面,公共数据开放带来的数据资源将创设出更多基于公共数据的应用场景,从而产生相关的技术需求,进而推动技术创新。比如,政府开放的关于地理、道路及公共交通运营等方面的数据,使得基于大数据分析和优化用户的出行规划成为可能,形成了智能交通规划的应用场景和相应的技术需求,从而推动产生了导航、打车拼车、停车、人车流拥堵预测与规避和交通事故规避等一系列技术创新与应用方案,产生了接入政府公共数据的“一种停车场数据开放共享系统及其处理方法”“一种基于大数据的智慧城市数据共享方法及系统”等一系列技术专利。可见,伴随着公共数据资源的增加,更丰富的数据应用场景将被创设出来,这直接拓展了企业技术创新的空间,促使企业通过技术创新以满足公共数据应用场景所带来的技术需求。综合上述分析,本文提出如下假说。

研究假说H1:公共数据开放显著促进了技术创新。

研究假说H2:公共数据开放通过降低不确定性、增加数据资源供给和创设数据应用场景促进了技术创新。

进一步地,由于数据要素的虚拟性特征,公共数据开放将促进数字技术领域的专利相对更快地增长,即公共数据开放对数字技术创新的促进作用可能更强。一方面,作为数据要素的核心特征之一,数据要素的虚拟性决定了数据必须依靠其他载体才能发挥作用。除了数据资源外,配套的ICT基础设施、数据技术等是数据发挥生产要素作用的必要条件。换言之,数字技术是企业开发利用公共数据等数据要素进行技术创新的必要“工具”。企业首先需要创新和掌握相应的数据存储、传输、分析和安全监管等数字技术,才能更好地发挥公共数据开放带来的降低不确定性、增加数据资源的作用。同时,当公共数据开放创设出相应的数据应用场景时,企业在技术创新过程中往往也需要相应的数字技术作为底层支撑以迎合场景中的数据使用需求。因此,在公共数据开放促进技术创新的过程中,公共数据开放将首先增加企业对于数据使用和分析等相关的数字技术的需求,而根据“需求引致创新理论”,这意味着公共数据开放将首先促进数字技术领域的创新。

另一方面,数据要素的虚拟性使得数据依赖于数字技术以发挥生产力价值,这也意味着数字技术和数据天然具有更强的内在关联,相对于非数字技术领域,数字技术创新对于公共数据开放带来的影响可能更为敏感。具体而言,数字技术创新对数据资源的依赖性和需求性更强,当公共数据开放带来数据资源增加时,更需要公共数据作为某种投入的数字技术(比如前文的汽车自动驾驶技术)将首先得到满足和支持。同时,在公共数据开放而创设出更多的数据应用场景的过程当中,首先会吸引企业围绕具体的公共数据应用场景进行相应的创新,从而引致企业的技术创新也更多是以数据开发应用为基础的数字技术(比如前文的城市智能停车方案)。因此,数字技术领域的创新对于公共数据开放带来的冲击可能产生更强的反应。综合上述两方面分析(见图1),本文进一步提出如下研究假说。

研究假说H3:相比于其他技术领域,公共数据开放对数字技术创新的促进作用更强。

三、研究设计

(一)模型设定与变量定义

本文借助各城市政府数据开放平台上线带来的外生冲击,采用双重差分模型研究公共数据开放对技术创新的影响。政府数据开放平台汇集了商务局、交通局、市场监管局等政府各部门的数据,涵盖当地的经济、文化、交通和环保等诸多领域。在政府数据开放平台上,既开放了该城市的人口、就业、消费、财政和企业基本状况等关于城市状况的数据,也包括政府政策文件、司法、社保和信用服务等政务服务相关数据。重要的是,无论是从数据的信息内容上看,还是从目前基于公共数据推出的各类产品上看,各地政府数据开放平台的一个特点是基本上仅与该城市相关,具有非常典型的本地效应特征。从平台上线的具体实践来看,政府数据开放平台上线的时间顺序并不一定与当地的经济发展程度等因素相关。比如,科创资源相对丰富的南京市政府数据开放平台上线的时间就远晚于同省的扬州市。可见,地方政府数据开放平台上线相对具有较强的外生性和随机性。本文的回归模型设定如下:

其中,下标c表示城市,p表示技术领域,t表示年份。

因变量innovcpt表示城市c的技术领域p在t年的专利数量。本文以专利的国际专利分类(简称IPC)作为技术领域的划分,考虑到IPC号在大组及以上层面所用的知识信息才有显著差异,因此将IPC号每一个大组视为一个技术领域。具体而言,本文首先根据每份专利的主分类号,归纳统计该大组的专利申请数量;然后根据专利文本中的申请人地址识别每份专利所属的城市;最终统计得到城市c第t年在技术领域p的专利申请数量,取对数后进入模型。

核心解释变量GDatact是表示政府数据开放平台上线的虚拟变量,政府数据开放平台上线之后取1,否则取0。uc为城市固定效应,用以控制城市层面不随时间变化的特征变量,λt为年份固定效应,用以控制样本期内对所有样本产生共同影响的混淆因素。此外,本文还控制了技术领域固定效应ϕp,以控制技术领域本身不随时间变化的特征。εct为随机扰动项。

除了固定效应外,本文还控制了一些城市层面的特征变量Controlsct以缓解内生性问题可能引起的模型估计偏误。一些城市特征变量可能既与政府数据开放平台上线有关,又会影响城市的创新水平,这类遗漏变量问题可能会导致模型(1)中的估计系数α1有偏。借鉴已有相关研究,具体包括:(1)人口密度(pop_density),采用每平方公里人口数(万人/平方公里)衡量;(2)产业结构(indus_structure),采用第二产业产值占地区生产总值比重衡量;(3)对外开放程度(open),采用城市实际使用外资金额的对数值表示;(4)财政自主程度(fiscal),采用预算内收入与支出的比值表示;(5)城市区域范围(land),采用行政区域土地面积的对数值表示;(6)科教资源(education),采用城市普通高等学校数量的对数值表示;(7)对外交流基础设施,基础设施带来企业信息可得性的提高,可能影响企业的创新决策,包括公路(road,以公路客运量的对数值为代理变量)、高铁(railway,以城市是否有高铁站表示)、机场(airport,以城市是否有机场表示)、网络基础设施(network,以电信业务收入的对数值为代理变量)。各控制变量以一阶滞后项进入模型,以缓解这些特征变量本身的内生性问题。考虑到样本在城市内部可能存在的相关性,本文将标准误聚类在城市层面。

另外需要说明的是,本文构建了城市—技术领域—年份层面的数据结构作为实证分析的基础,而不是使用上市公司等数据或者仅使用城市—年份层面的面板数据,原因在于其具有以下两点优势。其一,对企业技术创新活动的捕捉更为完整全面。已有研究表明,相比于传统数据要素存在的高获取门槛、大企业垄断等问题,公共数据开放具有普惠性,公共数据开放对于新进入者和初创企业的帮助作用更为明。特别是考虑企业的数字技术创新活动时,数字技术创新本身对于资本的需求远远低于传统技术创新活动。基于我国数据的实证研究也已经表明,数字技术创新在企业规模上没有表现出非常明显的不平衡性。因此,使用上市公司等数据展开研究将忽略公共数据开放的普惠性特征,遗漏中小企业的技术创新活动,从而低估公共数据开放的作用。本文基于专利全量数据构造的数据结构,可以相对更完整地捕捉公共数据开放对城市内各企业,尤其是中小企业的技术创新活动的影响。其二,拓展本文的研究空间。本文不仅仅使用城市—年份层面的数据结构,而是进一步引入技术领域这一维度,这不仅在方法上有助于强化本文的因果识别,同时也将极大地拓展本文的研究空间,进一步丰富本文的研究结论。

(二)数据来源及说明

本文使用的数据主要分为三大类。(1)专利数据。专利数据来源于国家知识产权局中国专利数据库。本文识别整理了2009~2020年全国数千万条专利申请全量数据,得到了每一份专利的专利名称、申请人地址、主IPC号、IPC号等信息。考虑到本文的分析对象主要为企业技术创新,本文仅保留了企业为申请人的专利,删去了申请人为高校、科研机构和个人等的专利。(2)各城市政府数据开放平台上线的时间。该数据主要来源于复旦大学数字与移动治理实验室发布的历年《中国地方政府数据开放报告》。其中,个别城市的上线时间在报告中前后不一致,本文借助百度等网络搜索引擎进行手动确认和校正,并与华中师范大学信息管理学院发布的《中国政府开放数据利用研究报告》进行交叉验证。(3)城市层面的变量数据。各城市经济状况的数据指标主要来自历年《中国城市统计年鉴》;城市高铁站信息来自CSMAR数据库;各城市的创新创业指数、风险投资得分来自北京大学企业大数据研究中心编制的《中国区域创新创业指数》;各城市各行业的新注册企业数量来自爱企查数据库。此外还需要说明的是,考虑到控制变量的数据可得性以及样本之间的可比性,本文剔除了非城市(地区、自治州、盟)的地级行政单元样本。主要变量的描述性统计结果参见《管理世界》网络发行版附录一。

四、基准回归结果及分析

(一)基准回归结果

表1报告了公共数据开放对技术创新影响的实证检验结果。其中,第(1)列未添加控制变量和固定效应;第(2)列增加了城市和年份固定效应;第(3)列除了城市和年份固定效应外又控制了技术领域固定效应,以控制技术领域本身的非时变特征的影响;第(4)列又进一步控制了城市时变特征变量。有趣的是,在进一步加入技术领域固定效应后,第(3)列的估计系数明显变大。一个可能的原因是,一些技术领域的非时变特征与公共数据开放正相关,而与技术创新负相关。比如,不同领域的技术创新对于公共数据资源具有不同的需求和依赖性,这些特征可能阻碍了该领域的技术创新,但随着数据成为驱动企业技术创新及相关决策的重要资源,这些特征又可能成为政府进行公共数据开放的考量之一而推动了公共数据的开放(7)。总之,从表1的回归结果看,核心解释变量GData的估计系数在1%的显著性水平下均显著为正,说明公共数据开放显著促进了技术创新。本文的假说H1得到了实证结果的初步支持。下文则进一步对本文因果识别结果的干扰因素进行详细讨论和分析。

(二)平行趋势检验

使用双重差分模型之前需要检验该方法的识别条件,即处理组与控制组在政策冲击发生之前存在相同的时间变化趋势。尽管在基准回归中控制了固定效应及一些时变的城市特征变量,本文担心仍然有一些影响城市技术创新水平的不可观测的时变特征可能与公共数据开放相关,从而导致内生性问题。如果模型通过平行趋势检验,则说明在政府数据开放平台上线前,未上线和上线城市的技术创新水平变化没有显著差异,本文的实证结果是由政府数据开放平台上线这一冲击所驱动,而非其他的城市特征。本文借助事件研究法检验处理组与控制组的平行趋势假设,具体模型如下:

其中,GDatan是以数据开放平台上线当年为参照而生成的相对年份虚拟变量。具体的,在政府数据开放平台上线当年赋值为0,上线后第1年赋值为1,上线后第2年赋值为2,上线前1年赋值为-1,上线前2年赋值为-2,以此类推。为保持政策相对时间前后的样本量平衡,本文选取了政策前后5期为时间窗口,并以政策前1期为基期进行平行趋势检验。

《管理世界》网络发行版附录二图A1展示了平行趋势检验的结果。在平台上线之前,GDatan的估计系数均不显著且都在0值附近。这表明在公共数据开放之前,处理组与控制组的技术创新水平变化没有系统性的显著差异,符合平行趋势假定的要求。在平台上线之后,GDatan的估计系数显著为正,表明处理组城市的技术创新水平显著高于控制组,即公共数据开放带来了技术创新水平的显著提高。此外,《管理世界》网络发行版附录二图A1的结果也表明,在公共数据开放的政策冲击当年,处理组的技术创新水平就显著高于控制组,这表明公共数据开放没有明显的时滞效应。从政策实施后的效果看,公共数据开放对技术创新的促进效应在递增。这也符合直觉,因为数据开放平台上线后,各地政府在平台上公开提供的数据量和数据质量都在逐渐提高。

(三)安慰剂检验

为排除其他不可观测因素对估计结果的影响,本文进一步进行安慰剂检验。如果存在着与政府数据平台上线和企业技术创新同时相关的混淆因素,并且这些混淆因素随着时间的推移具有持久性,这将在没有实际政策冲击的情况下就推动了企业技术创新的增加。因此,如果在随机设定处理组的情况下,还能观察到技术创新的显著增长,那么意味着本文的回归结果可能是由这些混淆因素所驱动。本文通过随机设定政府数据开放平台上线的城市和年份,重复随机抽样500次并按基准模型回归进行安慰剂检验。《管理世界》网络发行版附录二图A2展示了安慰剂检验的结果。图A2展示了核心解释变量估计系数及P值的核密度分布图。可以看到,估计系数的核密度分布与均值为0的正态分布近似,绝大多数估计系数的P值大于10%的统计显著性水平,且所有估计系数均未超过基准回归系数0.061。这表明公共数据开放对企业技术创新的促进作用并非由随机因素驱动,模型通过了安慰剂检验。

(四)异质性处理效应

最新的计量经济学研究进展发现,如果处理效应在组别和时间维度上存在异质性,那么模型即使满足平行趋势假设,也会导致估计结果产生偏误。本文通过偏误诊断以及采用异质性稳健估计方法,排除模型估计本身对本文结论可靠性的威胁。

首先,考虑到异质性处理效应问题的来源是“负权重”问题导致所计算的平均处理效应不是各处理效应的凸加权平均和,本文根据德谢兹马丹和达奥尔特弗耶提出的诊断思路,对“负权重”问题可能导致的偏误程度进行诊断。结果表明,负权重占比仅为3.78%,表明异质性处理效应对本文模型估计结果造成的偏误干扰并不严重。其次,出于稳健性考虑,本文基于德谢兹马丹和达奥尔特弗耶提出的动态效应估计量重新估计了本文的政策转换平均处理效应,根据每一期的处理效应得到动态处理效应图。《管理世界》网络发行版附录三图A3展示了动态效应估计量的估计结果。从图A3可以看到,和前文基准回归中的动态效应趋势基本一致,在政府数据开放平台上线之前,其政策效应并不显著,而在平台上线之后,对企业技术创新的促进效应逐渐显现。最后,本文还分别从两个角度计算了异质性稳健估计量。一是使用卡拉韦和圣特安娜提出的方法计算了组别—时期平均处理效应,此时相当于将每个城市—技术领域视为个体;二是加德纳提出的插补估计量。《管理世界》网络发行版附录三表A2展示了异质性稳健估计量的结果。与基准结果一致,核心解释变量的估计系数仍然显著为正。综上表明,即使在考虑了异质性处理效应后,实证结果仍表明,公共数据开放显著促进了技术创新。

(五)其他稳健性检验

前文的检验说明了利用双重差分模型得到的结果是可靠的,确立了本文主要结论,但是模型估计结果仍然可能会受到回归方法、变量计算方式、样本选择以及潜在的遗漏变量问题的干扰。本文从4个方面进一步讨论结果的稳健性。第一,替换模型估计方法,使用离散模型进行估计以表明结果不受回归方法的干扰。第二,使用反双曲正弦变换方法计算被解释变量后重新回归,以排除变量计算方式对结果的干扰。第三,分别使用倾向得分匹配方法以及剔除可能的非随机样本,然后对模型重新进行回归,以排除样本选择问题可能造成的结果偏误。第四,进一步控制省份—年份交互固定效应,排除省份层面的遗漏变量问题对结论的干扰。稳健性检验的具体说明和估计结果参见《管理世界》网络发行版附录四。

(六)排除竞争性假说

前文主要从模型估计和识别的角度探讨了回归结果的可靠性,验证了公共数据开放对技术创新的促进作用。但本文担心,仍有一些竞争性假说可能会混淆公共数据开放与技术创新之间的因果关系,本文对此进行进一步讨论。

1. 虹吸效应带来的创新资源转移

一个仍然需要考虑的问题是,城市技术创新水平的增长是源于公共数据开放带来的创新赋能效应,还是源于邻近城市的创新资源转移?如前所述,政府数据开放平台具有典型的本地效应特征,理论上仅会对该城市内的企业产生影响。但是,由于本文所使用的数据结构无法捕捉并固定企业的位置,如果公共数据开放导致控制组城市内的企业(特别是相对容易转移的中小企业)向处理组城市迁移,那么前文观察到的处理组的技术创新增长就可能是来自于控制组的创新资源的转移,而不是来自于公共数据开放带来的技术创新赋能。这一方面会导致公共数据开放对技术创新的总体影响不明确,另一方面,从模型估计的角度看,也使得控制组和处理组间存在溢出,威胁模型估计的假设前提。因此,本文进一步考察公共数据开放对邻近城市技术创新水平的影响,构建如下模型:

其中,GData Nearct表示城市c在t年时其相邻城市中是否有公共数据开放的城市,如果有则赋值为1,否则为0。若某个城市的相邻城市始终未曾上线政府数据开放平台,则赋值一直为0。模型其他变量与参数同模型(1)。若α1显著为负,表明周边城市的公共数据开放减少了该城市的技术创新,即产生了虹吸效应,吸引了该城市创新资源的转移。

表2报告了模型(3)的估计结果。第(1)列和第(2)列考虑了其相邻的同省内城市中是否有公共数据开放城市,第(3)列和第(4)列则进一步跨越省界,考虑了其相邻的所有城市(无论是否属于同一个省份)是否有公共数据开放的城市。表2显示估计系数均不显著,意味着公共数据开放对周边城市既不存在明显的辐射效应,也不存在明显的虹吸效应。因此,公共数据开放推动的技术创新增长主要来源于其本身的技术创新赋能效应。此外,估计系数值均接近于0,表明政府数据开放平台对其他城市的影响较小,这也佐证了前文的地方政府公共数据开放具有典型的本地效应的论断。

2. 创新潜力或前期技术积累的驱动

平行趋势检验说明了仅仅在公共数据开放之后,处理组的技术创新水平才相对于控制组出现了显著提高,这可以在很大程度上排除一些混淆因素对结果的干扰。但是,仍然存在的一个担忧是:技术创新可能是一个需要较长时间的过程,企业对于技术创新的相关投资只是在前期没有产生明显效果,如果其创新潜力或者说前期的技术积累在公共数据开放时恰好表现出来,那么公共数据开放所体现的技术创新效应可能只是这些城市本身所具有的创新潜力的爆发。本文通过在模型中控制城市创新潜力、剔除高创新水平城市样本以及控制技术趋势,进一步排除这一竞争性假说。

首先,借鉴贝拉贾等的做法,本文分别选取城市在样本期之前(即2008年)的GDP增长率以及专利总数来代表城市的创新潜力,并分别控制其时变效应。表3第(1)列是在模型中控制样本期之前的城市GDP增长率和时间固定效应的交互项的估计结果,第(2)列是控制样本期之前的城市专利总数和时间固定效应的交互项的估计结果,第(3)列为同时控制这两类交互项的结果。从结果可以看到,尽管估计系数值有所下降,但仍然在5%的显著性水平下显著为正,这说明在控制了城市创新潜力的可能影响之后,公共数据开放仍然显著促进了技术创新水平的提升。

其次,借鉴马特雷的做法,本文在样本组中剔除了一些综合创新实力比较高的城市。如果某些城市的创新能力很高,而且这些高创新水平的城市又恰好在合适的时间选择了公共数据开放,那么前文基准结果估计出的技术创新效应也可能仅仅只是反映了某些城市的特殊性。在剔除这部分城市后,模型估计出的技术创新效应就不太可能来自于这些城市本身的创新积累或创新能力的作用。本文依照中国区域创新创业指数,剔除了指数排名前25%分位数的城市,然后重新估计模型。表3第(4)列报告了估计结果,估计系数仍然在1%的显著性水平下显著为正,表明前文的结果不是受某些城市创新实力或技术积累的驱动。

最后,由于引入了技术领域这一维度,本文可以进一步考虑技术趋势的影响。如果由于技术专业化,某些城市的技术创新本身就集中在某一类技术领域,而这类技术领域由于技术发展规律、前期技术积累、市场需求或政策支持等原因(如光伏技术),恰好正处在不断增长当中,那么基准结果所反映的也可能只是这些不断增长的技术领域所带来的专利数量的增长。为了排除这一因素,本文在模型中进一步控制了技术领域本身的变化趋势,即控制了技术领域和时间固定效应的交互项。表3第(5)列报告了这一估计结果,可以看到估计系数仍然在1%的显著性水平下显著为正,表明实证结果不是由一些具体的技术趋势所驱动,再次说明公共数据开放显著促进了技术创新水平的提升。

3. 同时期其他政策的影响

在本文样本期内,除了政府数据开放平台上线外,政府还出台了一些其他相似的政策,这些政策或者可能产生和政府数据开放平台上线相类似的影响,或者可能推动了政府数据的开放,从而影响本文结论的可靠性。本文在模型中进一步控制了这些政策以排除同时期其他政策的干扰,包括:(1)互联网+政务服务试点;(2)信息惠民国家试点;(3)智慧城市建设试点。排除同时期其他政策影响的具体说明和估计结果参见《管理世界》网络发行版附录五。

上述政策与本文所讨论的政府数据开放平台都属于数字政府建设的重要内容,存在一定的相关性,但是从这些政策的具体文本内容和相应政策执行来看,这些政策实际上更偏向于利用信息化手段深化简政放权、优化政府服务,其作用更接近于优化营商环境、节约企业的制度性交易成本,这与本文所论证的政府数据开放平台的作用及影响渠道有较大不同。不可否认的是,公共数据开放是同样可能带来营商环境优化的,降低企业创新不确定性实际上也可以看成营商环境优化的表现之一。但是,本文在控制了上述直接影响城市营商环境的政策后,核心解释变量的估计系数仍然在1%的显著性水平下显著为正,这意味着营商环境优化并不能完全解释公共数据开放带来的作用,即公共数据开放对技术创新的影响存在其他的作用渠道。这一实证结果实际上是在一定程度上侧面佐证了本文所提出的满足企业数据需求和创设数据应用场景的直接作用渠道。

五、公共数据开放与数字技术创新

如果进一步将视角深入到技术创新的异质性,如前文理论分析所述,公共数据开放对数字技术创新的影响相比于其他领域可能更强(即假说H3)。本节对此进行具体分析和检验。

在讨论之前,有必要先说明本文数字技术创新的概念界定和测度方法。对于数字技术创新,目前尚缺乏明确且统一的定义,从已有文献来看,大多指的是以数字技术为底层基础或者由数字技术所支持的新技术、新产品或新的组织和商业模型。基于本文的研究主题,本文所讨论的数字技术创新是相对狭义的,不包括产品、服务和商业模式等这些无法由专利数据所捕捉的创新,而是由专利所表征的数字技术相关领域的创新。更准确地说,本文的数字技术创新指的是“数字技术相关领域的技术创新”,在内容上与胡增玺和马述忠较为相近,既包括无形的软件技术、算法、数字化解决方案,也包括数字和物理部件组合赋予物理部件数字特征的技术(如智能机器人技术等),还包括数字部件本身的技术(如通讯技术、数据存储技术等)。

本文基于上述对数字技术创新的界定,对属于数字技术相关领域的专利进行识别。国家统计局发布的《数字经济及其核心产业统计分类》对数字技术创新的成果进行了非常全面的描述,涵盖数字产品制造与服务、数字技术应用和数字要素驱动等内容,并进一步发布了《数字经济核心产业分类与国际专利分类参照关系表(2023)》,对属于数字经济领域的技术类别进行了较为准确的划分。已有文献已经基于上述文件对数字技术创新进行了一些识别和测度。与已有文献一致,本文以此表为基础对属于数字技术领域的专利进行识别。除此之外,本文还纳入了《关键数字技术专利分类体系(2023)》,以及《战略性新兴产业分类与国际专利分类参照关系表(2021)》中的新一代信息技术产业、高端装备制造产业中的智能制造装备产业、数字创意产业所对应的IPC号。本文取三者的并集(9),从而得到属于数字技术领域的IPC号列表。进而,以专利IPC号的主分类号为锚,识别每一份专利是否属于数字技术领域。

(一)特征事实:基于技术领域—年份层面的估计

本文先从一个更为宏观的角度,对政府数据开放平台上线前后的数字技术创新变化进行检验。本文将城市—技术领域—年份层面的数据汇总到全国层面,构造技术领域—年份层面的面板数据。注意到,政府数据开放平台上线有两个重要的时间点:一是2012年,开始公共数据开放试点;二是2015年,自国务院印发《国务院关于印发促进大数据发展行动纲要的通知》将公共数据开放正式上升为国家战略后,政府数据开放平台上线的数量明显增多、增长明显加快。因此,借鉴纳恩和钱、坎托尼和尤赫特曼,本文利用两个维度的差异:一是时间维度的差异,由政府数据开放平台上线带来的时间维度变化;二是横截面维度的差异,由数据要素和数字技术领域(相比于其他技术领域)的更强关联所引起。通过构造二者的交互项,其识别的是,与数据要素关联更强的数字技术领域的技术创新是否在公共数据开放带来的冲击下将增长得更快。本文构建如下模型:

其中,Digitalp表示是否属于数字技术领域的虚拟变量,如果该技术领域属于数字技术领域则取1,否则为0。Post2012,2015表示是否在2012年(或2015年)以后的虚拟变量,2012年(2015年)及以后为1,其他为0。其余变量与基准模型(1)相同。估计系数α1的含义是,与数据要素关联相对更强的数字技术领域,在公共数据开放后,相比于其他领域所产生的额外的技术创新的增加。如果估计系数显著为正,表明在公共数据开放后,数字技术领域的技术创新增长更快,即公共数据开放带来了数字技术创新相对更高的增长。

表4报告了模型的估计结果,其中第(1)列为以2012年为冲击节点的估计结果,第(2)列为以2015年为冲击节点的估计结果。估计结果显示,模型估计系数均显著为正,意味着在公共数据开始开放(2012年)及加速开放(2015年)以后,数字技术创新相比其他技术领域的创新增长得更快。从结果对比来看,以2015年为时间节点的估计系数的大小和显著性均比以2012年为节点更高,说明在2015年以后,公共数据开放的效果相比2012年更为明显。这符合直觉和逻辑:从全国范围来看,在2015年以后,公共数据开放的数量和力度均相对更强,因而其影响更为明显。

进一步地,为了排除对时间节点的选择偏误和其他因素的干扰,借鉴纳恩和钱的做法,本文同样采用了一种灵活估计(Flexible Estimate)策略。在模型(4)中,Digitalp不再与Post2012,2015虚拟变量交互,而是与年份固定效应交互。如果数字技术创新相对增长得更快这一现象仅出现在政府数据开放平台上线的年份之后,那么在2012年以前,模型的估计系数应不显著,而在2012年及以后的年份,公共数据开放的效果随着时间的推移而逐渐显现,估计系数才开始显著。以2011年为基期,图2直观展示了模型的估计结果。从图2可以看到,估计系数仅在2012年及以后显著,尤其是2015年以后,公共数据开放的效果较为明显,这与预期相符,也与表4的估计结果相互印证。

总之,基于技术领域—年份层面数据的估计结果表明,在政府数据开放平台上线以后,数字技术创新出现了显著更高的增长,这为本文假说H3提供了初步的证据。

此外,采用技术领域—年份层面的数据结构还有一个重要意义:可以进一步考虑数据要素的技术—经济特征。尽管政府数据开放平台具有非常典型的本地效应(从平台上的数据内容以及前文相关的实证检验均验证了这一点),可以假设其影响仅限于当地城市,但这可能仍然是一个需要担心的假设。政府数据开放平台是面向全国公开的,依托数据要素的虚拟性、零复制成本(低复制成本)等特征和互联网的连接,几乎任何个体都可以便捷获取和使用该数据,因此理论上来说,无法完全严格地排除对其他城市的企业的影响。而技术领域—年份层面的数据结构是基于全国层面的,从而实际上包含了某城市的公共数据开放对全国所有城市的企业的影响。因此,即使进一步放松假设,考虑数据面向全国的开放获取问题,上述结果也表明了,公共数据开放仍然促进了技术创新,至少是促进了数字技术创新,这进一步佐证了本文的基本结论。本文基于全国层面而从其他维度入手构造数据结构的做法,或许也可以为解决由于数据要素的泛在、互联特性而带来的实证研究困难提供一定的有益启发。

(二)进一步识别

基于技术领域—年份层面数据的检验初步表明了公共数据开放与数字技术创新增长的关联,提供了一些启示性证据,本小节则进行更为严谨的检验与分析。

为了检验公共数据开放是否对数字技术创新的促进作用更强,本文在模型(1)中引入核心解释变量GData和是否属于数字技术领域的虚拟变量Digital的交互项,通过交互项GData×Digital考察公共数据开放对于数字技术与其他技术领域的创新的作用差异。表5第(1)列报告了在基准模型中引入交互项的估计结果,交互项估计系数在1%的显著性水平下显著为正,表明公共数据开放对于数字技术创新的促进作用更强,验证了本文的假说H3。

除了检验对于数字技术创新的影响外,通过引入是否属于数字技术领域这一维度的差异,可以进一步对本文基准回归的内生性问题进行讨论,进一步识别处理效应。本文因果识别策略的潜在威胁是,一些城市特征可能会推动地方政府选择进行公共数据开放并且影响技术创新。如果这些特征不随时间变化,那么通过控制城市固定效应可以控制这些混淆因素,但是对于一些动态的城市特征,尽管本文在模型当中已经控制了一些城市时变特征变量,但很难将所有混淆因素纳入模型中,尤其是一些不可观测的时变特征。因而,如果遗漏了这些既可能影响政府数据开放平台上线又影响城市技术创新水平的特征变量,这类遗漏变量问题会导致估计系数不是因果效应的一致估计。在前文,除了控制固定效应外,本文已经通过平行趋势检验、安慰剂检验以及相关的稳健性检验在一定程度上排除了遗漏变量问题对实证结果造成的威胁。在此,借鉴陈等的做法,本文引入是否属于数字技术领域这一维度的差异,通过控制一系列交互固定效应进一步解决这一问题。具体而言,本文构建如下模型:

其中,uct为城市—年份交互固定效应,该向量控制了所有时变和非时变的城市特征,例如地方政策、基础设施水平、对外开放程度等;ϕpt为技术领域—年份交互固定效应,该向量控制了所有时变和非时变的技术领域特征,例如技术领域特定的技术趋势、政府特定的技术政策等。此外,本文还纳入了城市—技术领域交互固定效应λcp,以允许不同城市的技术领域存在不同。标准误双向聚类在城市和技术领域层面。表5第(2)列报告了模型(5)的估计结果,估计系数在1%显著性水平下显著为正,与引入交互项的基准模型的结果一致。

进一步地,如果公共数据开放对数字技术创新的促进作用更强这一理论逻辑成立,那么从创业的角度来看,同样应该可以观察到,公共数据开放对新注册企业数量的影响在与数字技术创新密切相关的信息传输、软件和信息技术服务业当中更强。因此,本文基于城市—行业—年份层面的数据,以城市各行业的新注册企业数量的对数值(New Firm)为被解释变量,同时将模型(5)当中的Digital替换为Net Industry,即进一步构造公共数据开放GData与是否是信息传输、软件和信息技术服务业的虚拟变量(Net Industry)的交互项GData×Net Indus。模型同样控制了城市—年份交互固定效应、行业—年份交互固定效应以及城市—行业交互固定效应,以排除混淆因素对估计结果的干扰。表5第(3)列报告的估计结果显示,交互项的估计系数显著为正,表明公共数据开放对提升信息传输、软件和信息技术服务业创业活力的作用更强。这与前述公共数据开放与数字技术创新关系的分析相一致,二者相互佐证。

此外,考虑到近年来数字经济的快速发展,为避免模型估计出的数字技术创新的增长来源于数字经济本身快速发展的浪潮而非公共数据开放,本文同样借鉴马特雷的做法,也删除了数字经济发展程度较高的城市样本。具体而言,分别以信息传输、计算机服务和软件业从业人员占比、城市数字经济发展指数作为城市数字经济发展水平的代理变量,删除了数字经济发展程度位于前25%分位数的城市样本。表5第(4)列和第(5)列分别报告了模型的估计结果,可以看到估计系数仍然显著为正,这表明模型的估计结果不太可能由于数字经济本身的快速发展所驱动。

综上,在进一步排除了遗漏变量可能导致的内生性问题后,实证结果再次表明,公共数据开放显著促进了技术创新(数字技术创新)的增长。

六、进一步分析

(一)降低不确定性

理论分析表明,公共数据开放带来的公共信息可以降低企业面临的不确定性,从而促进技术创新,本小节将从3个方面对此影响渠道进行讨论。方锦程等从交通便捷程度、行政分割程度、文化分割程度3个方面实证检验了公共数据开放对于破除区域信息壁垒的作用,实际上已经佐证了本文理论部分所分析的,公共数据开放使得企业获取更多外部信息(从而降低创新不确定性)的作用,本文对此不再进行重复检验。在此基础上,本文主要从降低外部环境不确定性的角度进行拓展讨论和检验,以期贡献于相关研究。

如前文理论分析所述,相比于个人数据和企业数据,公共数据的特性和重要作用就是降低了企业与公共制度的信息摩擦,降低了外部经济环境的不确定性。其一,如果该机制假说成立,那么可以观察到,公共数据促进技术创新的作用应该在政策不确定性程度较高的情景下较强。利用俞等编制并公开的中国省级层面经济政策不确定性指数,根据政策冲击前一年(即2011年)的政策不确定性指数,本文按照中位数将处理组样本划分为高经济政策不确定性组和低经济政策不确定性组,分别与对照组进行回归,表6第(1)列和第(2)列分别报告了估计结果。可以看到,高经济政策不确定性组的估计系数和显著性均高于低经济政策不确定性组,且经验P值表明组间系数差异在统计上显著。这表明,在经济政策不确定性较高的情况下,公共数据开放对技术创新的促进作用相对更强,证实了机制假说。

其二,风险投资资本对于风险或不确定性最为敏感,如果公共数据开放降低了不确定性,那么同样也应该观察到,公共数据开放将相应地带动风险投资的增加。本文以中国区域创新创业指数中各城市的吸引风险投资得分(Vcpe Score)为被解释变量,表6第(3)列的估计结果表明,公共数据开放显著提高了城市的风险投资得分。并且,进一步以吸引风险投资得分为解释变量,表6第(4)列的估计结果显示,风险投资的增加显著促进了技术创新。综合表6第(3)列和第(4)列的实证结果,说明了公共数据开放带动了风险投资的增加,从而促进了技术创新的增长,进一步佐证了公共数据开放降低外部环境不确定的机制作用。

其三,与风险投资类似,初创企业对于外部风险和不确定性同样相对于在位企业更为敏感,如果公共数据开放降低了整体环境的不确定性,那么这将有利于提升城市的创新创业活力,表现为促进新注册企业数量的增加。以城市各行业的新注册企业数量的对数值(New Firm)为被解释变量,表6第(5)列基于城市—行业—年份层面数据的估计结果表明,与预期相符,公共数据开放显著促进了各行业新注册企业数量的增加。

总之,从应对政策不确定性、吸引风险投资以及提升创业活力3个角度,本文进一步实证检验了公共数据开放在降低不确定性上的作用,验证了理论分析中的这一影响渠道。

(二)推动数字技术渗透融合

公共数据开放带来的数据资源增加,既满足了技术创新对公共数据资源的需求,也通过创设数据应用场景、产生技术需求而直接促进了技术创新。从作用过程上看,这一机制在逻辑上是较为直接的;并且局限于已有研究数据,实际上也很难直接观察、捕捉和刻画这一过程。尽管如此,本文仍然从两方面对研究假说H2进行讨论分析,尽可能验证这一作用渠道。

其一,如前文理论分析所述,由于数据要素和数字技术创新的内在关联,如果公共数据开放通过公共数据资源供给直接满足了一些技术领域的创新需求,或者通过创设数据应用场景直接引致了技术创新,那也应该主要集中在那些对公共数据依赖性或关联性更强的数字技术领域。换言之,从异质性的角度看,如果这个机制成立的话,那么应该可以观察到数字技术领域的技术创新相对其他领域增长得更快。本文第五节已经验证了公共数据开放对于数字技术创新的作用相比于其他技术领域更强,即佐证了这一机制。

其二,公共数据开放所形成的数据应用场景,会引导企业所发明的技术内嵌入数字技术,或者说越来越具有“数字化”特征。由于数据要素的虚拟性,公共数据的使用需要以数字技术为载体,当公共数据开放创设出相应的数据应用场景时,企业出于迎合场景中数据使用需求而创新出的技术,往往也需要相应的数字技术作为底层支撑。从而,如果数据应用场景创设这一机制成立的话,那么应该可以观察到数字技术正渗透入企业的技术创新当中,或者说,企业的技术创新与数字技术正在逐渐融合,越来越具有“数字化”特征。

为了检验这一机制,本文先说明如何识别数字技术的渗透或者专利的“数字化”特征。具体而言,一份具有多个IPC号的专利,其IPC号可以分为主IPC号和其他IPC号,主IPC号反映了能最充分代表该专利的信息,其他IPC号代表了该专利的附加信息。从专利的角度看,如果一份具有多个IPC号的专利,其主IPC号不属于数字技术领域,但是其他IPC号却属于数字技术领域,本文认为该专利内嵌了数字技术或者说具备了“数字化”特征。从技术领域的角度看,如果某个技术领域本身不属于数字技术领域,但是在归属于该技术领域的那些专利中,越来越多的专利具备了“数字化”特征,即说明该技术领域有更多数字技术内嵌,或者说,数字技术向该技术领域的渗透融合更深入。

举一个例子进行说明。比如,专利“燃气管道穿越施工可视化指导系统”,其主IPC号为F16L1“铺设或回收管子;在水上或水下检修或连接管子”,不属于数字技术领域,但该专利技术可以连接“政府数据库,包括水流河道分布图、水管和下水道分布图、电缆分布图、道路建筑分布图、地形土质图和实时政策信息”,从而可以便利施工人员快速了解相关技术资料,减轻户外工作难度,提高工作效率,而该专利的其他IPC号G06Q10属于数字技术领域。可见,为了连接公共数据开放所带来的数据资源和应用场景,该专利内嵌了数字技术,具备了“数字化”特征。对于非数字技术领域的技术领域F16L1,如果在该技术领域下具备“数字化”特征的专利越多,则表明数字技术向该领域渗透融合越深。

基于以上定义和说明,本文通过对每一份专利的其他IPC号是否属于数字技术领域进行逐一识别,然后汇总至技术领域层面,得到每一个技术领域对应的具有“数字化”特征的专利的数量。基于此,本文检验公共数据开放是否使得企业的技术创新越来越“数字化”。

表7报告了相关的估计结果。首先,以技术领域是否有“数字化”特征专利的0-1变量(Digit Patent01)为被解释变量,检验公共数据开放是否会使得技术领域在公共数据开放以后变得“数字化”,即该技术领域由从来没有“数字化”特征专利变为有“数字化”特征专利。表7第(1)列为Logit模型的估计结果,第(2)列为OLS回归的估计结果,估计系数均显著为正,表明公共数据开放显著提高了其他技术领域的“数字化倾向”。其次,直接以“数字化”特征专利的数量(Digit Patent)为被解释变量,表7第(3)列的估计结果表明,公共数据开放显著提高了各技术领域的“数字化”特征专利的数量。

综合表7的估计结果可见,公共数据开放使得技术领域走向了“数字化”,推动了数字技术渗透入企业的技术创新当中,这与前文通过数据场景创设以引致技术创新的机制分析相一致,即为此提供了验证。重要的是,这一估计结果直接显示了公共数据开放在推动“数实融合”、促进数字技术向各领域渗透应用的作用,进一步凸显出了公共数据开放的重要价值。

(三)公共数据开放的质量

前文的分析更多讨论的是公共数据开放的“量”,本小节尝试进一步讨论公共数据开放的“质”,以丰富本文的政策价值。

1. 整体质量的差异

从各地政府数据开放平台的具体内容上看,各平台在数据更新速度、数据供给量级和精细度、数据使用便利程度等方面都参差不齐,各地公共数据开放的整体质量存在差异。复旦大学数字与移动治理实验室发布的历年《中国地方政府数据开放报告》构建了中国开放数林指数,该指数从数据层、平台层、准备度等方面对各地政府数据开放平台进行了较为全面的客观评价。借鉴彭怀远,本文以该指数作为衡量公共数据开放整体质量的代理变量,按照样本期内的中国开放数林指数的平均得分,将排名前50的处理组划分为公共数据开放高质量组,其余处理组为低质量组,分别与对照组进行回归。从表8第(1)列和第(2)列报告的实证结果可以看到,高质量组的估计系数和显著性均高于低质量组,且经验P值表明组间系数差异显著。这意味着,在公共数据开放整体质量较高的城市,公共数据开放对技术创新的促进作用更强。这符合直觉和逻辑,而其背后的政策含义是,不仅要关注公共数据是否开放,更要关注公共数据开放的质量。通过进一步建设和优化政府数据开放平台,提高公共数据开放的整体质量,可以更好地发挥公共数据开放的价值创造效果。

2. 数据质量的差异

本文借助人工智能技术创新对于高质量数据流的依赖性,对公共数据开放的数据质量进行讨论和检验。人工智能技术的发展需要使用大量的数据作为机器学习的训练集,而公共数据开放则能够提供丰富的数据资源,因此在理论上,公共数据开放可以促进人工智能技术的创新。已有研究也发现,政府(某一类型的)数据促进了人脸识别这一人工智能技术的创新和发展。但是,人工智能技术对于数据质量的要求远高于其他领域,正如拉默等指出,数据可用性和数据质量是人工智能技术发展的主要障碍,人工智能技术创新需要的是在数据格式、完整性和一致性等方面较为完善的高质量的动态数据流。因此,如果公共数据开放促进了人工智能技术创新,可以侧面表明公共数据开放提供了具有较高质量的数据。

为了检验公共数据开放是否能为人工智能技术创新提供数据资源支持,本文将模型(5)的核心解释变量替换为公共数据开放GData与是否是人工智能技术领域的虚拟变量AIfield的交互项GData×AIfield,并同样控制一系列交互固定效应,以排除混淆因素对估计结果的干扰。其中,对于人工智能技术领域的划分参考杨的研究。如果公共数据开放有助于人工智能技术创新,即推动人工智能技术创新相对于其他技术领域更快地增长,那么交互项的估计系数应该显著为正。表8第(3)列的估计结果显示,交互项的估计系数并不显著,表明公共数据开放并没有对人工智能领域的技术创新产生特别的作用。这一实证结果意味着,公共数据开放带来的公共数据资源仍然不足以成为促进人工智能技术发展的高质量数据流。从这个角度看,当前公共数据开放的数据质量仍然有较大的提升空间。

七、结论与启示

公共数据的开放共享和开发利用是构建数据基础制度的重要内容,在数据要素开发利用中具有基础性、引领性和示范性作用。充分释放公共数据的价值,对于发挥我国在数据资源上的大国优势、推动数字时代的经济高质量发展具有重要意义。政府数据开放平台的上线,推动了全社会对于公共数据资源的开发和利用,是促进公共数据价值释放的重要一步。

本文从技术创新的角度,展示了公共数据开放对于培育和发展新质生产力的重要价值。本文以地方政府数据开放平台上线作为公共数据开放的外生政策冲击,实证检验了公共数据开放对技术创新的作用。本文研究发现,公共数据开放显著促进了各领域的技术创新增长,这一结论在考虑了各种因素的干扰后依然成立。并且,公共数据开放对于数字技术创新的促进作用相对其他领域更强,即显著促进了数字技术创新。进一步分析发现,公共数据开放能够降低外部环境的不确定性,表现为有利于企业应对经济政策不确定,有利于吸引风险投资和提升城市的创业活力;同时,公共数据开放能够通过满足技术创新对公共数据资源的需求以及创设数据应用场景而促进技术创新,在这个过程当中,推动了数字技术向各技术领域的渗透融合。此外,本文研究也发现,当前的公共数据开放仍然有较大的质量提升空间。

本文的研究结论回应了已有文献关于公共数据开放能否激励企业技术创新的争议,探索发现了公共数据开放的技术创新效应,为公共数据开放如何促进技术创新提供了理论分析和经验证据的支撑。同时,不同于已有文献,本文从公共数据本身的信息内容与要素特性出发探讨了公共数据开放的价值产生机制,并且将研究视角进一步深入到数字技术创新,首次分析和实证检验了公共数据开放对促进数字技术创新、推动数字技术向各技术领域的渗透融合作用。这在已有文献基础上进一步拓展和丰富了关于公共数据开放的研究视域,有利于深化对公共数据开放与技术创新关系的理论理解。进一步地,本文相关研究结论也为更好发挥公共数据开放的价值、助力经济高质量发展的相关实践提供了如下几点有益启示。

第一,要加快形成促进公共数据开放共享的推动力,扩大公共数据开放在技术创新等方面的赋能效应。一方面,要尽快制定切实可行的开放行动计划时间表,明确公共数据开放的内容、范围和要求,加快推进公共数据的分类分层开放,扩大公共数据资源供给的广度和深度。另一方面,要尽快建立统一的公共数据开放质量评估标准和评估机制,建立公共数据开放质量保障机制,进一步提高数据开放的质量。特别是要意识到“数据孤岛”不仅只有物理性的,还有逻辑性的。要提高各部门、各类数据在数据格式和使用方式等方面的统一性,提高公共数据的时效性和动态性,形成多源头、多维度、及时完整的高质量可用数据集,进一步打破逻辑上的“数据孤岛”。总之,要通过公共数据开放制度与准则的构建,“质”“量”并举,更好发挥出公共数据的价值。

第二,要注重防范公共数据开放带来的负面效应,妥善化解公共数据开放的阻力。公共数据开放在创造价值的同时,也可能带来相应的安全风险。一些政府部门会出于对数据安全责任的担忧,“不愿”“不敢”进行数据开放,或者对于所有数据“一刀切”地选择不开放。因此,一方面要在技术层面加快发展隐私计算、区块链等数据安全技术,形成“原始数据不出域、数据可用不可见”的技术条件;另一方面要加快建立数据开放的合规政策体系和权责体系,明确公共数据开放的责任主体,划分数据安全责任范围,加快解决一些政府部门加入数据开放的“后顾之忧”,鼓励不涉及国家秘密、商业机密和个人隐私的公共数据加快开放。要在平衡数据安全与数据应用需求的基础上,确保公共数据开放在各城市各部门有序推进。

第三,对于企业而言,要不断提高对公共数据的应用与转化能力,充分把握和利用公共数据开放带来的机会。公共数据开放为企业带来了丰富的数据资源,但是也要注意到,理论上所有企业从公共数据开放当中获得的数据内容都是相同的,因此也可能加剧企业间的同质化竞争;同时,公共数据开放降低不确定性也可能反而减少企业原本可以利用不确定性的创新机会(13)。因此,企业一方面要主动发现和挖掘公共数据资源,合规获取、合法使用;另一方面要加快提高数据处理、分析、挖掘与应用的能力,通过将公共数据与自身拥有的数据相融合、将公共数据与细分市场场景需求相融合,在对公共数据的灵活应用当中挖掘出更多的创新机会、发现差异化竞争的赛道,不断提高企业核心竞争力。

此外,就本文的主题而言,仍存在几个可以继续深入研究的话题。其一,关于数据要素的经济价值衡量。由于数据要素的虚拟性特征,对于数据的定价、数据要素经济价值的评估一直是相关研究的重点和难点。数据要素是虚拟的,但专利的经济价值却是相对可衡量的,或许可以通过专利的经济价值间接评估数据要素的经济价值。以本文所研究话题为例,未来或许可以进一步研究公共数据开放所带来的专利的经济效益,从而间接衡量出数据的经济价值。其二,对于公共数据开放所产生的价值进行进一步区分研究。本文从技术创新的角度探讨了公共数据开放的影响,重点是公共数据开放是否产生价值以及如何产生价值,而在数字经济时代,数据的作用体现在人类活动当中的诸多方面,公共数据开放产生的价值可以体现在商业经济、社会民生等诸多层面。未来可以对公共数据开放产生的商业价值、社会价值进行进一步的区分,更为全面、细致地探讨公共数据开放的价值创造。特别是,除了本文所讨论的直接、免费的对外开放之外,公共数据的授权运营、有偿使用也是当前公共数据开发利用的重要探索方向,而在公共数据开放的“潜在的”价值和公共数据授权运营的“看得见的”经济收益之间,地方政府仍然面临着权衡问题。在公共数据开放与公共数据授权运营之间,仍未形成一致的制度性安排,公共数据授权运营的相关实践更是争议不断。从商业价值和社会价值的区分讨论出发,进而对公共数据开放和公共数据授权运营进行对比研究,探索公共数据开发利用的更优模式,是未来值得深入研究的重要话题。

 

文章来源:《管理世界》2025年第2期

    进入专题: 公共数据开放   数据要素   数字技术  

本文责编:chendongdong
发信站:爱思想(https://www.aisixiang.com)
栏目: 学术 > 政治学 > 公共政策与治理
本文链接:https://www.aisixiang.com/data/163571.html

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。

评论(0)

Powered by aisixiang.com Copyright © 2024 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号-1 京公网安备11010602120014号.
工业和信息化部备案管理系统