大数据痛点

2016-03-22 10:36:00

3月5日,国务院总理李克强在十二届全国人大四次会议上作2016年政府工作报告时提到,当前中国发展正处于这样一个关键时期,必须培育壮大新动能,加快发展新经济。

这是政府工作报告中首次出现“新经济”概念。报告进一步说明,要推动新技术、新产业、新业态加快成长。其中,在“十三五”时期主要目标任务和重大举措中,李克强提出,促进大数据、云计算、物联网广泛应用。

去年9月国务院印发《促进大数据发展行动纲要》称,国家政府数据统一开放平台将在2018年底前建成,率先在气象、环境、信用、交通、医疗、卫生等20余项重要领域,实现公共数据资源合理适度向社会开放。今年的政府工作报告亦指出,加强政府自身建设,提高施政能力和服务水平。重任千钧惟担当。

不仅中国,大数据被各国政府都提到了前所未有的高度,公共数据开放也纷纷提上日程。

在政府和市场的双重催动下,那些原本封存在服务器里的陈年数据,成为一座座蕴藏丰富的“金矿”,兴奋的企业和研究人员一边着手搜寻数据,一边将有价值数据按需筛选出来重构。然而,能真正做深度挖掘的企业并不多,这一领域正在等待着“杀手级”应用的出现,助推金融、医疗健康、零售业、制造业等各行业产生根本性的变革。

——编者按

国务院总理李克强在作2016年政府工作报告时提到,促进大数据、云计算、物联网广泛应用。其实自去年“两会”起关注大数据的提案就不少,今年“两会”的代表和委员们又开始提交新一轮为大数据鼓劲的提案。

全国政协委员刘慧、荣建勋、刘汉元等分别建议,构建大数据平台,遏制互联网金融乱象、发展科技保险、让农业更有规划。全国人大代表邵志清则提出议案,呼吁制定“大数据法”,规范政务数据的共享开放和市场数据的交易流通。

广东人大常委会已经建立了一个代表履职支撑平台,运用大数据为代表履职提供支撑。人大代表可通过“人大百科、履职资讯定制、议案建议、履职活动、履职沟通交流、联系群众辅助”等六个前台服务子系统,获取和发布信息。

你,每一秒都可能产生或者使用一个不起眼的数据:打车的路线、网上的交易、计步的APP、去医院挂号、一张交通罚单、一次饭局等,这些痕迹都被有心的公司收集起来,再通过计算、重构,变成一个得心应手的应用,出售给你,或者让你免费使用,同时提供新的数据作为回馈。

大数据不仅是一种海量的数据状态和相应的数据处理技术,也是一种思维方式、一项重要的基础设施。2011年以来,大数据概念在中国火热,传道者和求学者涌现,穿梭于众多的大数据会议和论坛,以创新为己任的科技公司,都在踅摸着跟大数据产生关联。

在刚刚结束的人机围棋巅峰对决中,谷歌人工智能围棋程序AlphaGo以4:1击败了人类选手李世石。人工智能界一片欢呼,这是深度学习+大数据的胜利。细想大数据被行业关注已5年了,实际能投入实用的大数据应用并不多,让人惊叹的“杀手级”的应用更是寥寥,反倒是深度学习,通过与大数据的结合,获得迅速发展。

国内大数据领域的一些学者和业界人士抱怨:政府所掌握的公共大数据存在重重壁垒,难以共享,从源头上有碍于创新。这一观点有其合理之处,但并不全面。因为它难以解释,为何已经手握海量数据的BAT(百度、阿里巴巴和腾讯)等国内互联网巨头,也尚未用大数据技术挖掘出扛鼎之作。

事实上,这个令人兴奋的新事物,仍处于摸索研究阶段,大数据产业有必要重新审视自身的痛点,寻找解决之道。

实战低于预期

在高德信息技术有限公司(下称高德)北京办公室里,星罗棋布的办公桌间竖立着一面LED显示屏,上面是密密麻麻的红点与曲线。

一名技术人员选定了城市与时间参数,并选取长安街上一段长约300米的路段,屏幕上立即显示出该路段实时通过的车辆,这些车辆的实时位置一目了然,系统还给出未来几分钟,甚至几个小时内的车流量预判。

这是高德智能出行业务的一部分,也是大数据应用的一个实景。大数据,或称巨量资料,不仅描述了大量的数据,还涵盖了处理数据的速度。

大数据应用已带来可见的果实。高德公司估算,使用高德地图躲避拥堵功能,平均每月为全部用户节省时间达700年,节油高达1840万升、价值1.3亿元。

谷歌的AlphaGo也是一个突出的例子。一般来说,大数据的应用场景是通过大数据分析获得洞察,并基于这些洞察进行预测,根据预测结果做出行动。而深度学习擅长传统大数据分析中难以使用的语音、图像等,它可以教授计算机逐级往下处理数据,并能根据不同层级的数据做出修正,思考过程逐渐从简单到复杂。这种接近人脑的学习方式,可以通过训练之后自行掌握概念,而且输出结果会随着数据处理量的增大而更加准确。包括谷歌、IBM、微软、Facebook等在内的科技巨头,在深度学习和大数据结合方面的投入越来越高。

虽然数据还没有被列入企业的资产负债表,但大数据领袖、牛津大学教授维克托·舍恩伯格预测,这只是时间问题。数据资源将和土地、劳动力、资本等生产要素一样,成为政府管理与企业盈利的战略资源。

精准营销、医疗和金融这三大领域,目前被视为大数据最具前景的应用领域。在大数据概念提出前,大型电商、医疗行业和金融企业,基本应用随机抽样分析。理论上,大数据分析的结果更精准,因为它将原来的小样本变成全样本。按维克托·舍恩伯格的说法,所谓大数据分析方法,就是不用抽样调查这样的捷径,而采用所有数据的分析方法。

在分析自家电子商务平台的客户信用及行为数据后,阿里巴巴创生了蚂蚁小贷、花呗、借呗等产品;腾讯数据,则充分、完整记录了人们在互联网上的行为轨迹和社会属性,可以从中挖掘、分辨出用户的行为模式、兴趣偏好等;由于搜索功能的精准性,百度掌握了更多用户的真实需求。

全球在大数据研究的投入已不少,2016年会更多。美国信息技术研究和分析公司Gartner预测,2016年全球在大数据方面的总花费将达到2320亿美元。

这一庞大的投入与实际产出,目前并不匹配。现有的数据搜集和处理能力,常使电商看上去很不着调,当客户从一个电商平台购买一部手机后,下次再登录时,电商可能简单粗暴地又推送手机广告;微信朋友圈的广告推送,一直是网民取笑的槽点。

很多企业还是坚持用传统的随机抽样方法,这样可以较低的成本、较少的数据,进行一定精确度的分析,比大数据分析要经济实惠。

聚合数据云计算事业部总监商渭清在一次业内论坛上表示,线上广告投放,一般命中率是1.0%,做得好的能到1.3%。精准营销的命中率,应该在3%或5%以上。

美国加州大学伯克利分校计算机科学和统计系教授迈克·乔丹(Michael Jordan)认为,目前的大数据给出的结果可靠性太低,如果急于应用到实际中,就好比是土木工程还没学好就开始造桥,结果可想而知。

窘境源自技术层面的缺失。一是业界对于大数据分析的价值逻辑缺乏足够深刻的洞察,以致搭建的模型偏差较大;二是大数据分析中的某些重大要件或技术还不成熟。

美国对医疗大数据情有独钟,基础建设整得不错,相关研究开展也早,但是,“要形成好的应用效果,美国估计还要等5年至10年”。清华大学统计学研究中心主任、哈佛大学统计系教授刘军对《财经》记者分析。

尽管在过去的五年里,全球大数据计算性能实现了超过20倍的增长,100TB数据排序时间由8274秒缩短到377秒。而实际上,很多业内人士对大数据,仍缺乏深刻的认识。

信息技术研究和分析公司Gartner在2013年做的一项调查显示,64%的企业表示正在投资或计划投资大数据。然而,当问及企业面临的“大数据的挑战”时,约56%的企业声称是“确定如何从大数据获得价值”,41%是要“定义我们的大数据战略”,另有23%的企业是为了“了解什么是大数据”。

美国杜克大学行为经济学教授丹·艾瑞里(Dan Ariely)曾将大数据技术比作未成年人的性行为,“每个人都谈论它,但没人知道怎么做,每个人都以为其他人在做,所以每个人都宣称他们在做。”

科大讯飞股份有限公司(下称科大讯飞,002230.SZ)高级副总裁陈涛告诉《财经》记者,热炒大数据的背后,有IT行业在推动,为了出售服务器、存储、服务,过分渲染了大数据使用的急迫性。

谁握大数据

当把不同来源、不同维度的数据关联在一起,交叉挖掘分析,就有可能发生“化学反应”,大数据因共享而增值。

高德的交通数据来源主要有两个,一是众包数据,5亿高德用户在使用交通导航服务时,既是信息使用者,又是信息的分享者。高德副总裁、首席交通数据分析师董振宁告诉《财经》记者,“通过众包,每月从用户那里收到超过60亿公里检测(数据),高德再用这些完善地图数据。”

第二个来源,全国几十万辆出租车,及几百万辆物流车辆的数据,这些数据经交通后台汇总、处理后,可实时计算出路况信息,反馈在用户终端上。

据美国国际数据集团(IDC)的数字世界研究报告显示,2013年人类产生、复制和消费的数据量达到4.4ZB(1ZB等于10万亿亿字节)。而到2020年,数据量将增长10倍,达到44ZB。

国内除了高德这样以数据为生的企业,BAT通过网民的网购、理财、搜索,以及社交网络等,也坐拥海量数据。百度大数据,基于用户在百度上的所有行为、检索词;腾讯掌握了海量的社交数据;阿里巴巴拥有用户的交易数据。此外,一批提供数据权益服务的数据公司也应运而生。

这些数据公司利用爬虫技术,抓取海量网页上的数据,按类将这些数据进行整合梳理,再接入许多第三方数据。“像火车票购买数据和房屋买卖数据,数据量不大,但是价值很高。”Sensors Data的创始人兼CEO桑文锋告诉《财经》记者,几大电信运营商也掌握了较多的用户数据。

在移动互联时代,由于每台终端设备都“绑定”一个用户,一旦将数据分享,合作者也就长期拥有了这些用户,这导致整个业界的心态放不开,害怕用户流失。

其实,不像煤炭、石油等资源,用过之后不可再生,因而很难实现共享,数据资源可以重复使用,在共享中不断产生新的价值。

为获得更多资源,企业之间打破惯有忌讳,正在形成合作氛围,一个个数据生态圈逐渐生长。

阿里巴巴数据事业部产品经理王峰认为,单纯的数据交易和数据加工服务“很粗鲁”。1月20日,阿里云宣布开放其大数据能力,发布全球首个一站式大数据平台“数加”,如有数据开发能力的团队可入驻“数加”,借助上面的工具为各行各业提供数据服务。这是一个“普惠大数据”,即让全球任何一个企业、个人都能用上大数据。

王峰表示,“数加”尽管不是免费的,但是能够帮合作伙伴把蛋糕做大,赚到更多钱。

即便是BAT,也“觊觎”着一个重量级的数据拥有者——各级政府。多年来,各级政府通过行政手段和公共管理过程,依法获取了海量数据。绝大多数中央部委、省级政府部门的核心业务都有数据库支撑。如公安部有一个覆盖13亿人口的人口数据库,国家工商总局有企业法人数据库,金融、医疗、税务、质检、社保、教育等都有各自的信息库。

在陈涛看来,政府所拥有的公共数据,是盘活大数据资源的坐标系,这些资源是一个社会的基本信息,是核心数据。

公共数据围墙

政府部门不会轻易放开掌握的数据。

一位中外合资农业公司的市场总监就曾碰过钉子。他数次联系国家气象局,希望拿到一些农业大省历年的气象数据和实时的观测数据。通过数据分析,这家公司可以筛选出最适合当地的种子,进一步开发出手机APP,即时给农民推送农时建议。

全国政协委员、通威集团董事局主席刘汉元在今年“两会”的提案中提到,建设农业大数据平台,可以提前预测农业产量,使农业的生产更具计划性。类似的农业大数据服务,美国孟山都公司旗下的Climate Corporation早已推出。

然而,政府机构由于自身定位和责任机制,缺乏放开公共数据的动力。国家气象局就婉拒了上述农业公司市场总监的数据合作请求。

气象数据具有垄断因素,气象局如果不肯提供原始裸数据,商业机构是无计可施的。

商业类气象服务的推广则需要国家气象部门授权。

从知识产权保护角度看,只有原始裸数据,商业机构可以无偿抓取利用。如果被抓取的数据是经气象局二次加工的,那么这些数据就具有知识产权,因为这时的数据里面增加了人的智力、劳动成本,所以气象局向商业机构收费属于合理行为。

公开报道显示,天气服务类软件墨迹天气上线之初,是从网上抓取的天气数据,后来气象局找上门来要求付费,开价一年几十万元。这对初创的墨迹天气来说,也是一笔大开销,只好另想办法。

一位业内知情研究员介绍称,气象局有官员曾在一次论坛上表示,向抓取天气数据的软件公司收费,是政府定价行为,属于有偿服务。

即便用于研究,数据也并不易获取。作为中国科学技术协会副主席,同时在清华大学、北京航空航天大学兼任教授,张勤有丰富的与公共部门项目合作的经验,他在一次学术会议上抱怨道,“搞大数据的人,却时常感到没有数据可用。”

张勤与北京一家医院合作,运用数据分析眩晕疾病的一些规律。合作医院从多年积累的病例数据库中随机筛选出60多个案例。在统计学上看,这点数据量不够消除“噪音”——数据干扰因素,很难发现有价值的规律,可合作医院拒绝提供更多的案例。

张勤的遭遇,也是中国不少研究者和产业界的感受,公共数据资源太封闭。2015年4月,国际著名期刊《自然》刊文称,中国的研究者现在连获取普通信息都越来越困难,比如,机动车保有量的数据。原因是,大多数的公共领域数据都攥在官方机构手里,其中有些机构正在加强它们的垄断地位,这使信息更难以获取。

同样出于利益考量,一些政府部门担心,随着数据的开放,本部门履职的行动自由会受到束缚,原来不透明的部门行为被公开后,可能招致舆论批评甚至诉讼,因而没有意愿主动开放数据。

上海市市委书记韩正曾表示,当前政府掌握着相对齐全的数据,却一直存在着纵向和横向分割的问题,并没有真正打通和共享。

政府机构拥有公共数据无法适度开放,并不能使信息增值。挖掘政府大数据价值最好的办法是,适度允许私营部门和社会公众访问。例如,香港公共数据开放网站“资料一线通”的口号就是“公共资料,增值利用”。

天津市信息中心工程师刘叶婷分析,由于在国家层面尚未构建起完善的公共数据开放战略,因此难以形成从中央到地方的多级公共数据开放体系。

一些地方政府和部门希望把握本地区、本部门的公共数据,进行商业开发,做成辖区内“统一”数据系统。这样的系统开发,可能在建成后涌现出一个地方性的,或者部门性的信息垄断机构。

抛开主观意愿,官方机构能不能拿出高质量的数据资源,也是一个问题。

北京大学中国卫生经济研究中心主任刘国恩与美国斯坦福大学合作,聚焦于中国医院的管理水平,研究中要用到医院地址、电话号码、有多少床位,以及每年的死亡人数等数据。他以为这些医院的基本信息,地方政府和卫生计生部门手里肯定有,但两年时间里,大概只凑齐了六成数据。

复旦大学数字与移动治理实验室的研究表明,开放政府数据,首先应在地方层面探索。目前地方政府的数据开放量较低。

科大讯飞2013年与安徽省芜湖市合作开展社会管理服务项目。拿到地方政府提供的数据资源,科大讯飞的工作人员把数据清洗、比对后发现,很多数据合在一起后对不上,甚至存在矛盾。比如,对比民政部门的死亡数据与公安部门的户籍数据发现,存在几千人都去世了,还在发退休金的案例。

陈涛曾感慨,如果不是芜湖市政府党委书记与市长坚持,“不交数据、就交帽子”,科大讯飞也很难拿到各部门掌握的数据资源。在与地方政府的合作中他还发现,政府对数据的采样频度是比较低的,算不上严格意义的大数据。

工业和信息化部电子信息产业与信息化研究所所长李苑建议,政府的很多数据没有集中管理,还处于信息孤岛状态,这些都是开放数据需要解决的问题。

搭平台立规则

一方面政府部门对所掌握的大数据开发利用,最缺乏的是技术与发掘数据价值的能力,另一方面政府部门自身有越来越强烈的大数据应用需求。因此,如何放开和利用公共数据,需明确规则。

中关村大数据产业联盟副秘书长陈新河注意到大数据应用会议上的有趣变化,2014年,大家谈的都是精准营销,2015年谈的多是传统行业,现在聚焦于政府、金融和医疗等领域,“政府,是一个最大的应用软件支付方”。

比如,很多大城市的政府职能部门,都面临着如何让城市变得更加智慧这一庞大的课题。

某地虚报了工业产值,但用电量和能耗却没有达到相应的规模。这种异常很容易被大数据系统识别出来。发现异常后,相关部门展开复核,可以更有针对性地防止、打击数据造假。

政府对大数据、云计算的需求增长,于是,与企业“点对点”的战略合作协议增多。高德能够拿到交通部门的数据,是基于与交通部的合作框架,而这种合作又依赖于高德积累了十几年的导航技术与智能交通的探索,这与政府现在或者未来的政策相契合,能给双方带来互惠互利的正反馈。

“用移动互联网的创新思维,搭载大数据技术去改变政府的服务,流动的是数据,人不用再跑来跑去。”陈涛说。科大讯飞在人工智能方面的口碑,为其赢得安徽芜湖项目的订单。芜湖在全国率先以数据交换、共享方式,整合全市政务资源,户籍、人社、司法、卫计等部门,将统计数据交给市政府,科大讯飞开发软件,清洗这些数据后,统计汇总成一个个市民从出生到现在的所有证件、公开信息。

谈判、合作、协商、协议,这种政府开发大数据的方式,只适合针对个别企业的合作。能拿到公共大数据的企业,一类是技术在业内独具一格,或出身于事业单位、政府部门,另一类就是BAT这样的互联网巨头。

虽然这看上去似乎对其他企业不公平,但公共数据先行向这两类企业试水放行,有其合理之处:一方面这些公司的技术能力或者资源更强,另一方面在大数据隐私保护方面也更可控。董振宁告诉《财经》记者,“(与政府)合作有严格的规范制约,什么该做、什么不该做,双方都有约定。”

作为研究者,刘国恩去找地方统计局、医保局的领导,对方好不容易拿出数据后,都会小心翼翼地再三嘱咐千万不要把数据拿出去。刘国恩也害怕自己一不小心触碰红线。他呼吁,一定尽快把法律的红线划清楚,“哪怕划了以后,比以前的空间显得更窄一点,也要让业内知道这是红线”。

开放公共数据,也面临着泄密风险,这使政府部门也不得不谨小慎微。哪些数据可以公开,哪些数据需要脱敏,如何整合各个地方的数据,地方官员对这些未必清楚。

从这个角度,张勤明白合作医院的苦衷,“他们不愿意把数据拿出来,这涉及到隐私和知识产权两方面”。最简单的问题,病历属于电子数据,到底属于谁?法学界还存有很多争议。

因为病历的著作权属于医生,医生的著作权又属于医院的职务行为,所以病历属于职务作品,而其中的数据还涉及患者个人隐私,因此,商业机构如果想对医疗数据进行使用开发,就需事先征得医院、患者等多方面的授权同意。

科技部早已意识到对科学数据共享的立法和政策,并已立项多个研究课题,北京大学法学院教授张平多年来一直承担其中的课题,她向《财经》记者介绍,政府公共部门在披露公共数据、科学数据等信息数据时,应该注意避免披露涉及国家安全问题,或涉及个人隐私信息和商业秘密方面的数据,否则会有法律的风险。

因为用户隐私信息、商业秘密等都属于私权范围,业内常遵循“谁拥有谁控制”原则。

比如,美国就有“E-government Act”,俗称阳光法、《信息自由法》《隐私权法》等,对政府掌握的信息公开的范围有严格的规定。

同时在操作上,欧美国家的合同协议机制也相对完备。比如,去欧美国家大学实验室做研究员,刚进去时就会被要求签厚厚一摞合同协议,对所有涉及隐私数据等方面的使用和管理,都会提前约定好,一次性签完合约。刘军介绍,在美国,研究者和企业想拿到医疗数据,“要填好多表,过很多关”。

开发使用数据,较好的办法是通过合同协议机制来约定,规避敏感数据泄露风险,还可以采用数据脱敏技术,即通过技术手段对个人数据信息去识别化。其中姓名、性别、身高、身份证号码等都是需要重点进行脱敏处理的数据,尤其在医疗、金融、电信等领域,都包含大量这类数据信息。

但数据的知识产权问题,还需要法律界的研究。政府与企业合作数据开发项目,政府除了要处理可能涉及的个人隐私信息数据的泄露问题外,还应处理好怎样对开发后的数据定价的问题,因为这包括如何补偿开发企业的投入成本等。另外,如何避免数据被过度商业性开发利用也值得深思。

“毕竟很多公共数据都是用纳税人的钱采集的,政府不应该以此作为赚钱工具。”一位法律界人士对《财经》记者表示。

在科学数据方面,欧美国家建立了汇交、共享的开放平台和机制,同时还有科学数据的共享法律。中国还没有统一的数据中心,没有专门的管理法律,更没有建立起完备的合同协议机制,这就给个人隐私数据的后续使用、管理留下了隐患。

美国联邦政府在开放公共数据过程中,采取了阶段性逐步开放策略,根据数据被需求度、涉密度等多个因素的考虑,将数据划分为立即开放、短期内开放、计划开放、暂时无法开放四个类别。

业内专家分析称,每个国家在开放公共数据时,都受国家安全和国家利益驱动,会优先考虑所开放的数据是否会对国家政治、经济安全造成负面影响,美国也不例外。基于此,美国会将过去20年的公共数据开放,但如果涉及高精尖技术的数据,就不会开放。

北京理工大学网络法研究所研究员孟兆平认为,中国政府开放公共数据应基于开放式的数据平台,可供各种需求者使用。首先要搭建起数据中心的基本模型,再考虑如何创新与企业合作开发数据的模式,使数据平台能“自我供血”维持运营。

2015年9月,国务院印发的《促进大数据发展行动纲要》称,政府数据统一开放平台将在2018年底前建成,率先在气象、环境、信用、交通、医疗、卫生等20余项重要领域,实现公共数据资源合理适度向社会开放。

“各部委真正去执行纲要内容,最快也要到今年两会以后,纲要具体变为立法立规则还需要一定时间。”孟兆平说。

这不是一个容易完成的任务。科技部曾做过科学数据汇交的工作,仍无法做到将所有数据整理到统一的数据库中。现实中,很多数据都散落在承担不同项目的科研人员手里,只能按专业分类,分散在不同的数据中心和职能部门中。张平称,实际上对于有些公共数据,政府也无法全面掌握。

张平建议,国家应当通过投资和立法,加强对医院、大学以及国家投资的科研项目产生的数据进行管理。

另外,政府还应采取不歧视政策,鼓励全社会(包括私人部门)以工本费(不超过数据复制和传递过程中产生的费用)的价格使用数据。

迫于2018年数据开放的压力,国家气象局直属企业华风气象传媒集团有限责任公司(下称华风)开始寻找战略合作者,希望借此来增强自身的数据分析能力,保持在气象数据应用方面的领先地位。

华风的对手已经隐现。2016年1月20日,阿里云宣布与国家气象局达成合作,向公众开放气象服务数据,并共同深挖气象大数据的商业价值。

此举让华风的一位项目负责人颇感意外,此次开放了国内县级以上站点实况,包含温度、湿度、风、气压、降水量、天气现象等,都是核心数据。

开放公共数据,意味着数据资源在政府、社会间实现自由流动,这是政府行为的一项重大变革,涉及部门越多、范围越大,数据开放难度也就越大。

《财经》记者 贺涛 孙爱民 肖辉龙/文
痛点 数据