中国工程院院士邬贺铨:引入可信数据空间解决可利用数据不足困境

来源:财经网 2024-12-14 08:57:53

由北京市通州区人民政府指导,《财经》杂志、财经网、《财经智库》主办的“《财经》年会2025:预测与战略暨2024全球财富管理论坛”12月13日至15日在北京举行。12月13日,中国工程院院士、中国工程院原副院长邬贺铨在会上做了以“构建可信数据空间  赋能经济发展引擎”为主题的主旨演讲。

微信图片_20241213233234

中国工程院院士、中国工程院原副院长邬贺铨

邬贺铨表示,在人工智能的发展过程中,数据是关键的影响因素,也是目前面临的重大挑战。

对此,邬贺铨解释称,中国工业门类齐全,拥有全世界最大的工业数据。但数据充足的大型企业出于对数据泄露等问题的担忧不愿对外分享数据,而中小企业本身就存在数据不足的问题。所以尽管理论上拥有很多工业数据,但实际上可利用的工业数据很少。

邬贺铨建议引入可信数据空间解决这一困境,并将其形容为“带围栏的沙箱”。

他介绍称,数据提供方将数据接入可信数据空间后,可对数据进行加密,使用方使用密钥对数据进行解密计算,计算后的结果将反馈给数据提供方。在可信数据空间里,数据不出域且数据可用不可见。同时,在可信数据空间内,有大量可以共享的基础零部件数据,相当于工业淘宝平台,提供方可以将自身标准零部件送上来,需求方可以进行选取,并进行优化设计,能够大大降低了设计成本,提升效率。

在数据出境过程中,可信数据空间也能够发挥重要作用。邬贺铨介绍,在数据出境过程中,境外的数据使用方需要遵守数据不得挪用等规则。构建可信数据空间可对境外数据使用方出现挪用数据等违规的行为时进行快速处理。原因在于可信数据空间具有加密特性,合作方遵守规则的时候可以使用密钥解密。一旦合作方违反规则,境内的数据提供方可以远距离遥控改变密钥,实现数据的长臂管辖,保证数据出境合规性。

“可信数据空间可以提供数据源的认证和接入身份认证,提供数据目录便于检索,对敏感数据过滤和匿名化,提供数据格式的转换,提供数据挖掘的工具,提供数据加密和解密的计算,提供数据安全的工具软件和合规检查,还可以提供数据清算结算的软件。既保证数据搞活又保证数据的安全,这是激活数据和发掘数据要素价值很有力的工具。” 邬贺铨总结道。

以下为部分发言实录:

邬贺铨:尊敬的白春礼院长,王坚院士,各位领导,各位专家,大家早上好,很高兴来参加财富论坛。我的发言题目是构建可信数据空间,赋能经济发展引擎。

现在人工智能很热,基础大模型经过一两年的发展已向场景大模型和行业大模型转变,而且是从单媒体到多媒体,从训练到推理。大模型真的要应用还要上云,以模型即服务(MaaS)的方式插入到云计算平台里头,降低使用大模型的门槛。企业会上云就能使用大模型,还可以把企业的数据加入进行微调。大模型还需要瘦身,轻量化装到终端上,让我们可以在终端上使用大模型。当然仅仅如此还没有智能化,我们需要通过智能体软件、小程序使大模型能够学习人的工作和思考的过程,初步形成思维链,提供我们处理问题的自动化。把智能体的软件装入物理实体上,加上感知功能成为具身智能。到此为止还不是通用大模型,通用人工智能是大模型加上多个智能体构成的群智。

从今年开始,一个重要的进展是智能体,大模型本身具有大脑的思维,但是它还不能分解任务。一般的基础大模型可处理单一的简单任务,你给它提个问题,一问一答,答的质量如何取决于你提问的水平如何。往往人们需要一个提问能够直接回答,把所有都讲清楚,大模型本身是做不到的。智能体强化了记忆,不仅有短期记忆,还有长期记忆,大模型相当于一本书,把全世界的书都读进去了,但是光读书并不一定能感悟,就像你读了很多教游泳的书,你不下水还是不会游泳。所以大模型本身到智能体阶段是提供一个感悟和实践的过程,有了这种闭环的反馈我们就可以有所感悟,有了知识图谱就可以理解你的任务,就可以分解任务即规划行动的能力,有了初步的思维链能力,同时智能体还具有掌握工具的能力,通过这个它就可以完成一些行动。可以说,智能体是一种可以接受自然语言命令,可以跟环境互动并且具有初步思维链的软件,可以将大模型的知识转化成感悟。通常智能体是跟场景一一对应的,如果大模型相当于智能手机的操作系统,那么智能体就相当于手机里头的APP Store,我们的手机仅有操作系统并不显示出它的功能,需要装载一个一个APP才能使它应用。我认为今年一年整个大模型的很重要进展就是智能体开发出来了。

比如终端在手机上拍一个实物,甚至可以在手机上直接控制这个实物,用在工业生产线就可以实现自动管理和控制。将智能体嵌入到眼镜上,我们看一个实物就可以透视这个实物,看到它里面的结构甚至调用它相关的参数,这叫空间计算。人是有空间计算能力的,我们看一本书看一篇文章尽管是白纸黑字,但是我们可以想象整个立体的空间,甚至可以想象运动场景。现在如果把智能体嵌入到终端,我们的终端就具有这样的能力,如果落到物理实体上,增加它的感知能力,听觉视觉触觉等等,就可以实现交互,并且可以通过交互中学习,这就是具身智能。人形机器人是一种具身智能,预编程序的人形机器人走得很好。但如果下一个命令让它走,可能反应没这么好,技术还有待成熟,但是去年一年人形机器人的关键成本下降了40%,所以马斯克预言未来1万美元就可以了,并且他认为只要价格下来成本下来,未来人形机器人的数量要超过全球的人口数。

人工智能的发展对于大数据算力算法提出要求,其中数据是个关键,现在数据成为一个很大的挑战,中国自然语言的数据相对来讲可存储的可开源利用的比较少,中国工业门类齐全,中国拥有全世界最多的工业数据。我们又看到很多大企业有很多工业数据,但是自己不会开发,不愿意跟别人分享,跟别人合作的时候担心数据泄露,很多中小企业没有数据,所以从那个角度看,尽管理论上拥有很多的工业数据,实际上可利用的工业数据很少。

怎么解决这个困境呢?引入一个可信数据空间,左边是数据提供方,拥有大量的数据,把自己的数据放到可信数据空间,这相当于有围栏的沙箱,这个数据放进去可以是加密的,然后邀请相关的互联网企业带着你们的大数据的开发技术进入到我们这个可信数据空间,既然是合作方,我把加密的密钥告诉你,你就可以在可信数据空间里对这些数据进行解密计算,计算的结果还给数据提供方。在可信数据空间里,数据不出域而且数据是可用不可见的,邀请进来的互联网企业也不可能带走这个数据。

另一种例子是数据提供方是一个产业链的链长,他需要把产业链上下游企业的数据都收集起来,可以很好地解决整个产业链零库存、少库存,甚至可以很好地准确地决定每个环节的资金需求。尽管你是链主,你也不能强制性的要求别人把数据都给你,这也不合适,所以也把数据放到可信数据空间,大家的数据都在这里进行加密和解密计算,既可以解密计算也可以采用加密计算,只要在加密的时候密钥的选择能保证加密数据的计算结果跟没加密的时候计算的结果是等效的,这叫同态加密。同样的通过整个产业链数据、供应链数据的优化,我们可以使整个供应链的所有企业都受益,但是各自的数据还是各自的,并没有带出去,也没有被人家掌控你的生产计划。

当然还有一点,例如我们行业的联盟拥有整个行业的一些数据,举个例子说,我们制造业有很多标准的零部件,当然也可以有些非标的零部件,很多时候产品的设计制造并不需要从零部件做起,可以把不同零部件的组合就可以了。在这个可信数据空间里,有大量的可以共享的基础的零部件数据,相当于是一个工业淘宝平台,很多单位可以把自身标准的零部件送上来,需求方可以选取,并且可以优化设计,大大降低了设计的成本,提升了效率。

第四个例子是政府拥有很多高质量的公共数据,但是政府的数据需要脱敏,国家机密、企业秘密、个人隐私这些数据不能放进去。即便政府把数据开放了,政府开放的数据真正被利用的还是很少,数据的挖掘还是有技术门槛的,政府公开的数据还是没有提供相应的工具,一般人还是用不了。可信数据空间相当于收集一些数据挖掘的工具,提供一些可以开放的数据,有利于我们产业得到很好的应用。

第五个例子是中国坚持改革开放,数据出境数据入境自然是要解决的问题,数据出境入境有些管理规定,怎么做到出境能符合管理规定?我们的数据出境规定有一条,即便数据出境到境外,境外的使用方仍然具有保护数据不得被挪用等等要遵守的规则,一旦发现对方挪用了怎么处理?可信数据空间有这个能力,即便数据进入境外,它也是加密数据,合作方遵守规则时可以使用密钥解密,一旦合作方违反规则,境内的数据提供方可以遥控远距离控制改变这个密钥,实现数据的长臂管辖,保证数据出境的合规。通过可信数据空间,我们提供数据源的认证和接入身份认证,提供数据目录便于检索,对敏感数据的过滤和匿名化,提供数据格式的转换,提供数据挖掘的工具,提供数据加密和解密的计算,提供数据安全的工具软件和合规检查,还可以提供数据清算结算的软件。既保证数据搞活又保证数据的安全,这是激活数据和发掘数据要素价值很有力的工具。

中文开源语料库不足,依赖国外语料库带来价值观对齐的风险,原生数据的获得成本高,在中国要获得大城市自动驾驶的数据,100辆车7×24小时要跑100年,这是不可能做的。自动驾驶的数据1%是开放道路测试的,9%是封闭道路测试的,90%都是人工智能造出来的,人工智能怎么造这个数据,白天汽车跑完的数据,把它改变成晚上,改变光线照明以及设计各种场景来生成数据,这种人工智能生成的数据可以大大降低成本,减少隐私的风险,但是如果没有原生数据,只有一点数据是原生的,其他都靠人工智能生成,有崩溃的风险,因为近亲繁殖不断迭代,越来越离谱了,即便用人工智能,训练数据中需10%-20%原始数据。一般的语言数据图象数据标注相对来讲,找一些训练过的专科生也可以了,但是工业的数据跟工业的流程、工业的知识是相关的,需要工业的专家,这样成本又太高了,所以现在要研究怎么利用人工智能的方法来标注数据。

刚才说到数据要脱敏,特别是政府掌握了大量的个人信息数据,包括电信运营商、金融企业都有大量的个人数据,这些数据可以应用但是需要进行脱敏,脱敏首先去标识化,在传输过程中你把它扰乱了,在传输中不可以解析出来,但在接收端可以还原出来,对于跨境数据,我们不希望接收端也能还原,所以真正的脱敏对跨境数据要匿名化,是不可能还原的。除此之外,计算要进行加密计算,企业A要用企业B的数据,企业B要用企业A的数据,实际上谁都不愿意把原始数据送出去,解决的办法是采用一个特定的密钥把数据加密了,以加密的数据来计算,计算的结果跟不加密是等效的,但是原始数据谁也拿不走。

能不能接入到数据可信空间还是要验证的,只有协议的双方才能共用这个可信数据空间,所以有身份的认证,这里用了互联网的IPv6协议,可以在开放地址空间定义用户的身份以及数据的意图,还有数据信道的质量要求,还可以插入一些染色比特,实现对信道质量的实时检测,并且可以跟踪路由,支持跨境数据的管理。传统的IPv4只有原地址和目的地地址,只知道从哪里到哪里,实际上路由是不确定的,不利于数据的跨境流动管理。现在数据既然重要,也要从多维度管理接入,除了刚才认证身份外,即便你是允许接入的,允许接入也有时间的限制、次数的限制和访问地址的限制,还要特别注意数据被恶意加密。 2016年美国一个黑客入侵美国洛杉矶长老会医院,把医院的电子病历偷出来了,本来想卖钱,后来发现病历是加密的打不开,一怒之下把加密的电子病历重新又加密一遍,要向医院收赎金,现在我们的数字化转型,企业很多生产线都是软件驱动的,现在很多信息安全的问题是生产线的软件被恶意加密了,导致无法生产,不得不交赎金。在这个问题上我们要强调对数据接入者的身份验证加上区块链等等各种安全方式来防护。

另外现在大量利用人工智能,既带来很好的创意,也提升效率,在这里显示的四个小动画不是真人,是画出来的,既然人工智能可以以假乱真,人工智能会被利用造假,需要特别防备人工智能被恶意利用。即便人工智能不被恶意利用,人工智能还不成熟,还会产生出意想不到的东西影响社会,所以需要有一些措施来应对。

在产业上,我们更希望形成产业共享的开放的平台,制造业需要使用各种各样的零部件,我们不但可以选择成熟的零部件,甚至可以有开放的设计软件,我们可以很好地利用来进行产品的设计。将来通过把这样的平台发展为提供工业数据资产的登记、评估、交易、入表和跨境等功能的平台,通过这些我们大大优化了研发生产设计的效率。

虽然行业大模型的生成还是有一定的挑战,但是基础大模型本身也是可以直接用在企业的智能客服、人工培训、智能风控,可以打通供应链的上下游,大模型如果要用到生产线上还需要加入很多产业的知识。这里举了几个例子,大企业可以自己开发模型,对于中小企业很多只能利用现有的模型,更多的是打造一些平台,更好的面向中小企业。比如广州致景云设计创意工具平台,珠三角有大批的服装企业没有什么技术手段,利用这个平台迅速提升了产品效率,深圳的云工科技,一头连接产品的供应商,一头连接产品的需求方,实现供需的对接。江苏的智云天工,了解到国内很多企业有产能没有订单,还有很多企业有订单没产能,提供相关信息实现这两者的对接。山东的橙色云,本来是研发软件工具平台,后来发现光提供工具,很多中小企业还是不会用,一方面征集了很多设计需求,同时分解需求并且发布招标,很多单位承接开发一些单元技术,将其集成起来提供给需求方,很好的打通了研发设计生产环节。广州的SheIn公司,本来是个女装公司,境外销售的女装公司,现在变成一个B2C快时尚公司,联合了珠三角大量的服装企业,提供服装设计、品牌、采购、销售、金融、税收、市场等服务,已经成为54个国家手机上边的移动购物首选APP,即将上市,估值超过千亿美元。三一重工是供应链龙头,把上下游的供应链企业关联起来,而且关联到相关企业的生产装备,做到整个供应链的生产自动化有序的管理,降低了库存。

我的发言就到这里,谢谢大家。