数据易得真是中国人工智能产业的优势吗

2017-12-18 18:48:37

文/李军

11月21日《金融时报》刊出李开复先生写的一篇文章《中国搞21世纪数字经济的条件比美国有利》,文中谈到,中国人已开始在智慧城市开展大数据收集工作,公民的隐私当然会受到损害,但算法也将因此变得更加丰富。中国政府善于——借用马克·扎克伯格的话来说——“快速行动,破除陈规”。巨大的消费市场,以及持续的增长潜力,将使中国有可能发展出一套颇具经济效益且独立于西方的数字生态系统……

此文令笔者惊诧莫名。李开复先生是IT与互联网行业的意见领袖,前Google公司中国区总经理,更是互联网创业投资行业的领军人物。对于数字化与人工智能的发展,李先生应该有比绝大部分IT与互联网人士更加深刻的洞察。但认为公民隐私数据滥用会推动人工智能和相关的算法演进,中国因此比美国更有利于发展数字经济,却是一种片面与短视的认识,必须加以澄清。

弱人工智能时代的数据污染

人工智能作为一种最新的信息技术手段,核心就是通过模仿人类的学习过程,以海量数据对于特定的复杂数学模型(如神经网络)进行训练,通过数学模型的逐步优化,建立包含智能化业务规则的系统并加以实用。

现阶段的人工智能是弱人工智能,其特点是:1.单一模型只能针对特定应用;2.需要海量的正确数据进行模型训练;3.产生的智能化业务规则可解释性极差。

换句话说,一个弱人工智能系统就是一个专用的无法打开的黑盒子,既没有高适应性,也无法拆解出具体的智能化业务规则,而且高度依赖于参与训练的海量数据。

从目前的业务实践来看,构建人工智能系统,绝大部分工作是数据准备,包括设计数据、获取数据、清洗数据和整合数据等步骤。这部分工作平均要花费60%-70%的时间。对于大型的人工智能系统,一般会安排专门的数据工程师按照数据科学家的要求进行数据准备。

在弱人工智能发展阶段,人工智能系统高度依赖于海量数据训练,并且算法本身对错误数据几乎没有甄别能力。

数据作为整个人工智能产业链的最上游,数据的任何问题都有可能影响到人工智能的产业链中下游甚至最终的全面应用。

试想一下,如果支撑人工智能的关键数据来源是灰色的甚至是黑色的,这就意味着从源头开始的数据采集、处理、传递和数据质量管理就处于失控状态。

数据使用者无法通过追溯的方式了解数据本身的采集要求,更不可能通过提高数据源数据质量的方式训练出更加高质量的模型。在很多场景下,来源不明的数据甚至无法手工剔除错误,以避免对模型训练的干扰。

如果非法数据的提供方出于某些目的对数据进行特定方向的加工处理,并提供给人工智能企业,那基于这些数据训练出的模型就可能受到特定方向的误导,造成模型畸形,未来的全面应用就有可能会面临极大风险。

尽管目前还没有这样的案例出现,但从理论上来分析,这是完全可能的,非法数据来源正在为人工智能应用埋下未知风险。

对于中小企业的人工智能应用,数据污染和算法畸形可能不会造成严重后果,毕竟应用范围有限。但对于涉及国计民生或者是对市场有重大影响的行业,严控训练数据来源、数据质量,是企业和政府必须考虑的问题。

2016年10月美国国家科技委员会公布的《美国国家人工智能研究和发展战略计划》中有七大战略计划,第五个就是开发用于人工智能培训及测试的公共数据集和环境。

这份战略计划中谈到,政府将开发满足多样化人工智能兴趣与应用的丰富数据集,并开放满足商业和公共利益的训练测试资源,以支持企业在丰富健康的大数据环境下加速人工智能技术发展,规避数据缺陷本身带来的潜在风险。

播洒跳蚤,收获的绝对不会是巨龙。不合法不健康缺乏管控的大数据基础,很难构建出有强大竞争力的人工智能产业环境。那些认为损害隐私会带来算法提升乃至获得数字经济竞争优势的想法是片面的、短视的。

隐私滥用动摇数据基础

盗版音乐从根本上动摇了音乐产业的价值链,对音乐产业的生产环节是毁灭性的打击,这个道理也适用于人工智能和数据生产的关系。

对于人工智能应用来说,数据绝不是俯首可得的,这需要一个健康的产业环境,从数据收集、数据清洗、数据匹配到数据集成。一个广泛应用的人工智能应用往往要牵涉到多个产业的数据合作,这也是数据服务提供商存在的基础。

数据服务商获取合法的数据,以脱敏操作为前提进行数据整合,并按照所服务企业的要求提供数据和分析,最终获得自身的良性发展。

所谓数据脱敏,是对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号等个人信息都需要进行数据脱敏。

低价劣质的私盐泛滥,正规的盐业市场一定会萎缩。如果隐私数据泛滥,数据服务行业就会受到沉重的打击。

有了近乎免费的数据资源,没有人再愿意为数据支付合理的价格。数据产业最前端的数据准备和整合环节不再能够得到合理的收益,费力却没有回报的数据基础性工作就始终无法健康发展,最终动摇整个数据产业良性发展的基础。

当真正需要使用数据的企业在市场上茫然四顾,发现数据准备和整合的工作必须要自己从头做起,我不知道这算是什么数字化的竞争优势!

整合善用才是关键

在IT和互联网专业人士眼中的大数据,尤其是推动整个数字化社会层面的大数据,有更加宽广的范畴。隐私数据只是大数据蓝图中的小小一块拼图。要让社会全面进入数字化发展阶段,跨行业、跨企业、政企融合后的数据才是构建数字化社会坚实的基础。

发达国家的数据收集工作开展得并不晚,恰恰相反,政府和企业内部的数据收集与管理工作开展得更早,管理模式也更加成熟。

以社会运行数据为例,在美国和加拿大,企业可以很容易地从政府数据库中获得特定的统计和运营数据。

笔者以数据科学家的身份在加拿大某零售企业工作时,经常会访问政府数据库提供的脱敏后的人口地理信息数据,涵盖了年龄、性别、收入、种族、家庭结构等各种信息,其细致程度令人惊叹。

因为数据管理科学有序,所以政府与企业在展开数据合作时障碍更少,更能够发挥数据整合的威力。

早在十几年前,加拿大就已经出现了采集大量客户数据对社会消费特征进行整体画像的企业。这些数据收集和分析企业根据广泛收集的跨行业客户信息,把全国居民细分为68个子类,并对每个子类进行画像,抽取其消费特征和潜在需求,为零售、金融、通信等各个面向消费者服务的企业所用。目前,中国广泛收集与分析数据的能力还非常缺乏。

从事人工智能研究的人都知道,模型训练优化时某一区域内局部的最优解,并不等于整体范围的最优解。一个好的模型会在全局范围内搜寻最优解,而不只局限于一时一地的范围进行搜寻。

数据获取和数据使用管控作为数字化的初始环节,应该纳入到对数字化社会发展的整体影响中去分析。

的确,隐私数据泛滥会让人工智能企业建立的门槛降低,算法的设计实现更加简单,短时间内似乎能让一切更加容易。但这些门槛的降低是以数据所有权的粗暴剥夺和算法滥用为代价的。长远来看,数据管理失控和算法滥用因为从源头上污染了数字化产业的生态环境,所以会拖累整个数字化与人工智能产业的发展。

通过吸毒能够获取比正常生活高几倍十几倍的快感,可一旦染上毒瘾,你还能回到正常的生活轨迹上吗?绝大多数人是不行的,对于企业也是一样。当企业通过非法途径获得隐私数据并取得超出预期的优化效果,它还能够回到正常的模型优化道路上来吗?难度和瘾君子戒毒一样。

如果没有科学的数据管理框架指导,也缺乏严格的法律保护体系支撑,人工智能技术的全面应用,带来的很有可能会是披着高科技外衣的数字化掠夺,而不是全体公民受益的数字化社会进步。

不忘初心,方得始终。在数字化和人工智能产业发展的初期,摆正姿态,警惕旁门左道,才是持续稳定健康的产业发展正途。

(作者为科技与互联网资深分析师,编辑:谢丽容)

李军/文
易得 人工智能 中国 优势 产业