胡小明:大数据应用十点反省

选择字号:   本文共阅读 174 次 更新时间:2018-09-03 15:53:07

进入专题: 大数据  

胡小明 (进入专栏)  

  


   一、大数据概念

  

   新概念是新时代的产物,都被打上时代的烙印。

  

   信息、相关关系是数据集的属性,不是具体数据的属性。单独的数据包含的信息是很有限的,大量信息体现为数据间的关系,关系是数据间的网络,信息是数据集的属性。

  

   思维升级是在更高层次上忽略细节的不确定性凸显宏观上的确定性。

  

   1.1 从海量数据到大数据

  

   大数据热已经席卷全国,所有的城市发展规划都要提到大数据应用,但究竟什么是大数据一直没有一致的解释,大数据概念的核心并不在于“大”,大数据概念出现前二十多年就有“海量数据”的提法,为什么不能沿用以前的名称而一定要发明个新词“大数据”来描述大规模数据呢?

  

   仅仅是数据量大确实用不着发明新名词,新名词的出现是遇到了新环境,大数据之所以得名是因互联网的结果,在互联网、云计算、移动通信、物联网环境下的大数据其应用空间非同小可,大数据描述的不仅是数据量,更是广泛应用机会,新名词的作用是提醒人们重视新机会。

  

   1.2 大数据的互联网背景

  

   任何新名词能够流行都是因为对当时的环境有着特殊的适应性,我们不能望文生义地理解流行名词,而要将之视为一个成语,要从其时代烙印来理解该名词的含义。大数据是互联网的产物,如果没有互联网,数据量再大也不过仍是海量数据,与互联网相结合的大规模数据才成为“大数据”。

  

   大数据概念是由互联网公司推动的,以互联网为核心的新技术给大数据应用创造了广泛的应用发展空间,三十年前的海量数据只存储在大型机里,除了做些分析之外,无法形成广泛的社会化应用,而今天的大数据则不一样了,大数据与云计算、移动互联、人工智能结合起来不仅仅是大规模的数据挖掘,更有全社会智能应用,从移动支付、定位导航、互联网搜索到大范围的社会公共服务都离不开互联网的背景。

  

   1.3 小数据与大数据的区别

  

   在讨论大数据应用之时,不能忽略传统的数据应用,搞清楚大数据与传统数据(不妨称之为“小数据”)的区别有助于深入理解不同的数据应用模式的特点以便发挥各种应用方式所长。

  

   常规数据主要来自统计调查和业务数据处理,统计调查经常使用的方式是抽样调查,抽样调查的数据分析与大数据的数据挖掘有很大不同,大数据的全样本可以做到更详尽的分类,可以发现更多的相关关系,而抽样调查受样本数目的限制很多分类是无法进行的。大数据分析另一项优点是对数据的精确度要求不高,大数据分析能够更有效地剔除异常值的影响。

  

   在数据来源上,大数据经常来自自动化数据收集系统,如互联网与各类传感器,大数据经常是某些大规模业务的副产品,如运营商汇集的用户与基站连接的纪录、用户互联网搜索的纪录、电子商务积累的商品价格、互联网企业收集的用户移动轨迹等等,使用大规模业务数据的副产品可大大降低数据收集的成本,而传统统计调查是根据信息需求来设计的,其数据获取渠道看自行设计,这是必大数据方便的地方。

  

   政府的业务数据处理所积累的数据由于用法不同与大数据应用差别较大,很难统一比较,但很多政府部门把部门数据整合结果都视为大数据,这将造成大数据理解上的混乱,是处理时需要注意的。

  

   1.4 被变通的大数据概念

  

   什么是大数据并没有严谨的定义,不同人有不同的解释,有人定义为现有的处理技术不能处理规模的数据才是大数据,这种定义的问题是什么是现有技术?技术是不断发展的,那么大数据的定义也在跟着发展?互联网企业、运营商认为自己的数据就是大数据,也有一定的道理,因为它们的数据规模确实很大。现在的问题是政府部门将自己的数据都定义为大数据,对大数据概念的变通就太大了。

  

   政府部门为什么都称自己的数据为大数据呢?这是因为国家要发展大数据应用,如果将自己的数据定义为大数据显然能得到政策上的优惠,因此大数据的概念在政府部门就大幅度地变通了,大数据中的“大”就成了“全面”的含义,所谓大数据局就成为“全部数据局”。对大数据的概念做这样大的修改究竟好不好?显然是有利有弊,好处是借大数据的光,政府会重视全部数据,包括小数据,而不利处在于大数据的应用特点反而被抹杀了,公务员脑子里想到的只是规模大一点的小数据应用。当企业与政府讨论时要清楚政府的大数据概念经常是小数据的概念。

  

   二、数据意识

  

   效益来自精确的控制,没有精确的数据便没有现代化。

  

   数据与信息是不同层次的概念,数据是具体的,而信息是抽象的,数据解决的是精确性问题,信息解决的是正确性问题。

  

   数据解决的是具体问题,是特殊性问题,信息解决的是普遍性问题,普遍性是看不见的,它是抽象思维的结果。

  

   2.1 什么是数据意识

  

   数据意识首先是树立精准意识,精准是科技发展的基础,精准是能够有效地控制结果的偏差,控制质量,任何工作没有精准的要求就会处于失控状态,无法保证工作的有效性。

  

   第二点是重视数据的连接,现实社会是多维的,只有通过多层次的数据连接才能表述社会的复杂关系,借助于高速通信、编码、数据整合共享、数据挖掘可以更好地发现数据中的规律,改进工作。

  

   第三是重视数据的积累与再使用,数据已经成为未来社会发展的重要资源,在生产力已经充分发达的时代,掌握了数据就掌握了未来,数据将成为未来市场竞争的制高点。

  

   2.2 信息技术推动数据应用

  

   信息技术促进了数据的存储、通信与连接,将数据连接成一个整体,从而充分发挥了数据的作用。连接是最重要的贡献,虚拟空间是靠连接才能构成的空间。编码与位置是最基本的连接方式,数据本身是一种相互关系(是两种物理量间的测量,是一维坐标),但是世界是复杂的,多维的,只有信息技术能够将多维的关系保存下来,让虚拟空间更能够反映真实的世界。

  

   数据库就是反映多维世界的重要方式,数据库的出现为数据的使用提供了多维视角,从而大大提高了人类对数据的利用能力。

  

   2.3 管理与服务的精细化

  

   信息化大大推动了数据的精细化管理,为政府服务与治理的精细化创造了条件,政府服务与治理的精细化建设成为电子政务与智慧城市建设的重要内容。这种变化体现在政府工作的诸多方面,如“精准扶贫”、“一号一窗一网”的要求、城市管理系统、城市网格化管理、“织网工程”等等。为了适应人口流动的现代化需求,社保、医疗、出入境、交通违章管理都在向跨地区管理方向发展,信息技术成为全国范围的精细化服务的重要支柱。

  

   2.4 大数据宣传提升数据意识

  

   虽然对于大数据的定义并没有完全统一,但是大数据的宣传对于提高社会的数据意识有很大的作用,国家文件正式要求各地政府重视大数据的应用、推动大数据产业的发展无疑起到了非常重要的作用,无论是电子政务还是智慧城市建设都将数据化建设摆在重要的位置上,建立大数据中心(不分大数据小数据)、成立大数据局,推动数据的应用,对于一个严重缺乏数据意识的国家,这将是一个伟大的数据意识启蒙,对于中国的现代化发展有着重要意义。

  

   三、应用是经济学问题

  

   效益是经济学的概念,有效益的应用才可持续。

  

   技术应用是具体执行的层次,效益是在技术之上的评价层次,执行层次的思维是形式逻辑可表达的,处于确定性层次。评价层次是抽象的层次,评价是从经济学的视角看问题,经济学主要研究的是不确定性问题。

  

   3.1 应用的本质是效益

  

   工程建设与应用不是一回事,工程建设是一个确定性问题,只要目标是明确的、技术上是合理的、投资又有保证,建设成功是没有问题的。但是应用却完全不同,应用经常是由不同的用户决定的,应用的成败是一个不确定性问题,设计者认为最完美、最先进的产品未必能得到用户的满意,未必能获得市场的青睐,用户的价值观不是设计者所能控制的。

  

   应用是由使用者决定的,用户追求的是效益,但什么是用户的效益?不同的用户有不同的价值观,而且用户的价值观经常是变化的,应用的复杂性与建设的复杂性处于两个不同的层次,建设复杂性是确定性问题的复杂性,而应用复杂性是不确定问题的复杂性,因此应用服务的设计必须要认真研究用户的价值观,研究其价值观变化的规律,更重要的是要设计能够自适应用户需求变化发展的产品,这样才能保证应用的成功。

  

   3.2 应用的机会成本更重要

  

   用户使用数据服务是要追求效益,什么是效益?收益大于成本的部分才能算是效益,对于智慧城市建设而言,收益包括社会效益,对社会效益的判断虽然带有一定的主观性,但还是能够通过比较而能够感受效益的大小的,现在的问题是如何计算成本,这才是最容易出错的地方。

  

设计人员很容易将常规的会计成本视为应用成本,(点击此处阅读下一页)

进入 胡小明 的专栏     进入专题: 大数据  

本文责编:川先生
发信站:爱思想(http://www.aisixiang.com),栏目:天益笔会 > 科学精神 > 科学评论
本文链接:http://www.aisixiang.com/data/112086.html
文章来源:作者授权爱思想发布,转载请注明出处(http://www.aisixiang.com)。

0 推荐

在方框中输入电子邮件地址,多个邮件之间用半角逗号(,)分隔。

爱思想(aisixiang.com)网站为公益纯学术网站,旨在推动学术繁荣、塑造社会精神。
凡本网首发及经作者授权但非首发的所有作品,版权归作者本人所有。网络转载请注明作者、出处并保持完整,纸媒转载请经本网或作者本人书面授权。
凡本网注明“来源:XXX(非爱思想网)”的作品,均转载自其它媒体,转载目的在于分享信息、助推思想传播,并不代表本网赞同其观点和对其真实性负责。若作者或版权人不愿被使用,请来函指出,本网即予改正。
Powered by aisixiang.com Copyright © 2018 by aisixiang.com All Rights Reserved 爱思想 京ICP备12007865号 京公网安备11010602120014号.
易康网