星云Clustar副总裁许振
6月9日,首届 CTIS 2021消费者科技及创新展览会在上海新国际博览中心正式开幕。在钛媒体联合CTiS共同打造的“AI·创新数字生活主题论坛”上,星云Clustar副总裁许振进行了以“隐私计算构建AI基础设施,释放数据价值”为主题的分享。
机器学习是人工智能的一个细分领域,它是在海量数据的基础上去挖掘数据的价值,如果我们抽象来看,它总结下来就是算法、算力和大数据共同工作的产物,它最革命性的东西就是能够用算法和机器去代替人,去总结数据中的洞察。
“可是当我们面对产业时,我们发现数据并不大,大部分都是小数据,孤岛,烟囱。我们在自己所拥有的这些数据上能够做的挖掘,基本上已经达到了极致,我们再用更多的算法、更强大的算力,也只能去提升一两个百分点,已经很难引起质变了。”许振说,“所以我们在许多场景中不得不需要引入外部新的数据,以对消费者进行画像,预测和洞察消费者行为”。
由此就产生了一个矛盾,企业要提高自己人工智能的水平,必须引入外部数据,但引入外部数据又会受到数据保护法的限制,这一矛盾该如何解决成为了一个重要的问题。
而隐私计算就是回答这一问题的答案。许振介绍说,通过隐私计算技术,两个机构进行联合建模为需求方提供服务,但数据都依旧保持在本地,不用出数据库。这就是隐私计算所解决的问题。
有机构曾预测,到2025年,有50%的企业都是隐私计算的用户,不仅限于金融行业,还包括医疗、生物、政务、零售等行业,都会是隐私计算的潜在客户。
“隐私计算这个赛道是刚刚起步,应用方兴未艾。”许振说,“星云Clustar会坚持在隐私计算领域贡献自己的科技力量。”
感谢主办方的邀请,我是来自星云Clustar的许振。今天我所讲的话题可能距离消费者端有点远,它更加贴近产业端。
我今天所演讲的话题,分享的内容主要是有两个关键词:一个是隐私计算,另一个则是基础设施。
机器学习是人工智能的一个细分领域,它是在海量数据的基础上去挖掘数据的价值,如果我们抽象来看,它总结下来就是算法、算力和大数据共同工作的产物,它最革命性的东西就是能够用算法和机器去代替人,去总结数据中的洞察,这是它最大的突破。
最近几年为什么机器学习这么火,也是因为五六年之前,谷歌的AlphaGo,还有李飞飞的猫,这两个事件推进了深度学习,还有其他比较高效的算法,这些算法使得我们可以将数据的挖掘交由机器,这才进一步导致了后面行业的爆发。包括自动语音识别,视觉识别技术,大部分也都是用机器学习和深度学习去实现。抽象来说,就是让机器在算法的驱动下,在数据中去寻找规律。
可是当我们面对产业时,我们发现数据并不大,大部分都是小数据,孤岛,烟囱。我们在自己所拥有的这些数据上能够做的挖掘,基本上已经达到了极致,我们再用更多的算法、更强大的算力,也只能去提升一两个百分点,已经很难引起质变了。所以我们在许多场景中不得不需要引入外部新的数据,以对消费者进行画像,预测和洞察消费者行为。
举个例子,在金融行业,我们要对消费者信用等级进行评估,这个评估仅仅依靠金融行业内部、银行内部的数据是不够的,因为银行内部可能只有消费者自己提交的家庭住址、学历、收入水平,并没有他的消费习惯、互联网记录。如果加入这些数据,银行对去申请贷款的消费者的洞察会更加全面,银行风控能力会更强。
但这涉及到了隐私问题,用消费者的数据去建立机器学习模型的过程中,是不是会侵犯隐私?
在欧洲和美国,对于隐私的保护是非常严厉的,比如CCPA和GDPR,他们很严苛,收集个人隐私数据的公司不能将这些数据共享出去,一旦发现隐私泄露,罚款额度是非常高的,大约占这个公司整体营业收入的2%,谷歌、Facebook都被罚过。
而在中国,个人隐私保护法也马上就要上线了,去年《民法典》也已经明确规定了:隐私数据,特别是消费者的隐私数据,是不能外泄的。
由此就产生了一个矛盾,企业要提高自己人工智能的水平,必须引入外部数据,但引入外部数据又会受到数据保护法的限制,这一矛盾该如何解决成为了一个重要的问题。
其实,隐私计算就是能让企业在引入外部数据时,保护消费者隐私的一种方法。
以前做法很简单。比如互联网机构和银行做联合建模,利用消费行为评估信用等级,互联网公司就把数据拷到数据中心,这会导致数据的泄露,这是一种踏过红线的、打擦边球的做法。
第二种是数据脱敏,把关键字符,比如身份证号、手机号、家庭住址等等,做一些分析,然后再去做机器学习的模型,去探寻规律,这种方法的最后结果是不保真的。
而隐私计算是一种数据不用出本地的解决方案。比如两个机构可以通过联合建模的方法,在数据保持在本地的前提下,建出一个模型来为需求方做服务。这就衍生了一个非常好的商业优势,就是它保护了数据的所有权,使数据的所有权和使用权相分离。
以前如果要做一个数据的模型,我们需要把数据拷出去,而随着数据拷贝,这个数据的所有权也就丧失了。隐私计算是数据不出域的,也就是说你可以使用数据,但见不到数据,所以它保证了数据的所有权和使用权的隔离,这使得我们可以去激发整个市场数据。
我们国家一直强调要让数据成为生产要素。既然是生产要素,就是商品,就要定价流通,所以隐私计算的衍生品就是让数据可以变成商品,成为可流通的、有价值、可定价的东西。所以这是隐私计算的副产品,也是它未来可能对这个行业带来的最大的创新源泉。
说到隐私计算,内部还有细分,有三大门派。“华山派”就是指的比较早的可信计算、安全屋,比较流行的像英特尔和阿里蚂蚁的TEE,这种技术可以保证安全可信的计算环境;第二个叫“少林派”,指的是多方安全计算,它的做法就是用秘密分享,不经意传输,混淆电路等算法,保证你的数据既能使用又安全;第三个“武当派”,就是联邦学习,联邦学习是最近比较火的话题,就是在多个分布式的节点,使数据能够进行交互,最后不仅能训练出一个模型来,还能保证数据的隐私和安全性。从三个不同技术的对比可以看出来,联邦学习是最能保证数据的隐私,又能保证效果的一个方法。
现在的隐私计算在金融行业还是非常火爆的。第一,金融行业对外部数据的依赖程度很大,因为金融行业本身就比较闭塞,能够收集到的客户数据非常少,风险控制对于银行来讲是一个非常重要的部门,它要提高风险控制能力,降低坏账率,提高业务水平,所以隐私计算在金融行业是非常重要的。
其次,在一些其他的消费者隐私数据比较敏感的地方,比如医疗、政府等等大数据领域,甚至后边可以扩散到小微企业、产业链金融、还有工业,对个人数据价值的保护,还有数据资产的界定,隐私计算都是非常好的一种解决方案。现在我们正处于一个技术的启动期,大概在2019年的时候,各种技术已经基本成熟了,2020年有些产业开始做一些试点和试用(POC),还有一些点到点的打通。而到了2021年,这个产业就逐渐开始爆发。
举几个例子,隐私计算在金融的几个细分领域应用范围也是比较广的,主要是反洗钱、联合定价、联合信贷风控,还有客户价值的营销筛选模型,在这些领域中隐私计算都已经有落地案例了。
隐私计算的口号就是打破数据孤岛。
数据孤岛分为内部孤岛和外部孤岛。一个大型的集团,比如像长安这种汽车集团,它下面有很多分公司,比如有保险公司、金融公司、汽车公司、车联网公司,这些公司有各种各样的数据,如果长安集团想做数据打通,它是不能把数据拷在一起的,如果拷在一起就违反了《数据安全法》,就出域了。
另外一个,机构和机构之间的数据打通,比如要反洗钱,上海某个银行要和银联进行数据打通,银联的数据不能出来,银行的数据也不能出去,这种情况下就需要机构和机构之间的数据打通。
除了金融行业,还有其他行业,比如样本数据的共享,我们知道CV样本是很难获取的,因为有时候我们去检测缺陷,缺陷并不容易出现,一旦出现,我们即便是标注好了,它的数据样本依然是不够的,所以如果我们大量的人都参与这个行业,去标注自己的样本,样本又能共享,变成一个样本池。同时,这个样本又只属于我自己,你用我的样本,但不会拥有这个样本,这时候又生成了一个产业,对于CV数据的共享,隐私计算也能发挥非常大的作用。
这是金融行业几个比较典型的案例,包括增强风控能力,合规,还有小微企业的贷款几个方面。举个小例子,现在我们都讲供应链金融,想给小微企业贷款,很难,特别是它的信用贷,它没有办法证明自己的还款能力。什么能证明?发票,税务局有它的开票记录,有它的一切经营记录,这些经营记录可以作为它信贷风控的依据。但是这些数据在哪里,可能是在阿里,它可能是阿里上的小微企业,有它的交易流水记录,也可能在税务局,这个数据就在三个方面。用联邦学习的技术,进行数据打通,增加小微企业画像的完整度,银行就可以给小微企业做一个非常客观的信用评分,再给它一个授信额度,小微企业就得到了企业资金的满足。
星云Clustar在这里边做什么呢?
隐私计算是机器学习的一个分支,机器学习是人工智能的一个分支,所有的行业都在用人工智能的技术去解决它的问题,星云Clustar想做的事情就是用隐私计算去为企业提供一个全栈的解决方案,这包括从算力层到计算框架层,再到最上层的数据。隐私计算就意味着数据是要打通的,要有外部数据输入才能完成一个完整的流程和场景,星云Clustar在这三个方面都是给客户提供一站式的解决方案,只要有了这三个东西,客户落地一个隐私计算或者联邦学习的业务场景是非常快的。
星云Clustar是秉承开源的,现在联邦学习最大的开源社区叫FATE,星云在里边主要做算力加速,还有大规模集群式的管理,我们在持续为FATE社区进行贡献。还有包括联邦学习的产业委员会,星云Clustar也在里面起到了非常大的推动作用。
有一个机构曾做了一个预测,到2025年的时候,有50%的企业都是隐私计算的用户,所以我们可以想像一下,我们在做一些业务决策的时候,要做BI,要做各种数据的汇总,CRM、ERP,那都是内部的数据,引入外部数据意味着比你自己在数据上去做各种升维降维、衍生变量,效率更高。所以除了刚才我们提到的金融行业,还有医疗、生物、政务、零售等行业,都会是隐私计算的潜在客户。
所以隐私计算这个赛道是刚刚起步,而且应用方兴未艾,星云Clustar将会坚持在隐私计算领域贡献自己的科技力量。
我的介绍到这里,谢谢。
更多精彩内容,关注钛媒体微信号(ID:taimeiti),或者下载钛媒体App
2022-09-14 钛媒体 App发布了 《星巴克加码中国市场,未来三年要新增开3000家门店|钛快讯》的文章
2022-08-11 钛媒体 App发布了 《白云山麾下公司虚抬药价“把戏”,被拆穿了》的文章
2022-07-06 钛媒体 App发布了 《为了帮00后卷王找到工作,简历修改师们拼了》的文章
2022-07-06 钛媒体 App发布了 《威尼斯向游客收“进城费”,国内城市如何借鉴?》的文章
2022-03-25 钛媒体 App发布了 《蔚来2021年财报发布:年营收361亿元,整车毛利率达到20.1%》的文章