张世明 博士
贝格迈思科技创始人/执行董事
九三学社中央科技委员会委员
香港大学圣约翰学院荣誉教授
“万物皆数,唯数学洞察一切,计算使能万物。”这是第五代国产分布式智能数据库AiSQL开拓者、贝格迈思创始人张世明博士对于当下和未来数字社会的认知与思考。张世明博士认为,未来所有需要解决的现实问题,最终都会回归到相应的数学问题。
而数学问题自然要用数学思维去解决,这也是张世明博士成立贝格迈思的初衷。
通过探索新硬件技术革新和软件技术进步,利用数学优化算法模型,研发国内首款内存驱动架构的自适应异构智能计算引擎,全力打造第五代分布式智能数据库AiSQL,真正践行分布式数据库核心卡脖子技术的国产化替代。
张世明博士毕业于香港大学计算机科学系,先后在德国慕尼黑大学LMU从事研究工作,曾任职于华为研究院诺亚方舟实验室和百度研究院大数据实验室,一直深耕大数据领域核心技术,在分布式系统和大规模机器学习系统等领域具有丰富的研发和应用经验。
“作为痴迷的技术极客,做一些有突破性的创新工作,是我们对技术的情怀,也是我们的使命感所驱”,张世明博士感慨地说。
根植于“Bigmath”的贝格迈思,是一家为应对即将到来的快数据不断增长的实时分析决策需求所面临的诸多难题,特别是如何真正实现大规模数据的快速、实时优化分析处理,提出了自己的破解之法、解决之道——自适应异构智能计算引擎,打造新一代自适应数据智能平台BigInsights的创新型公司,定义未来智能数据时代分布式智能数据库AiSQL的产品格局。
数据井喷,追赶“快数据”
我们正在快速迈进数据智能时代的新纪元,未来几年全球数据规模将继续不断增长,将让现有的数据规模相形见绌,这些数据将带来独特的用户体验和众多全新的商业机会。
张世明博士深信,“快数据”将是继“大数据”之后,下一个十年显著的时代特征,快数据的力量必将给我们的生活带来几乎无限的变化。
首先,数据规模会得到爆炸性增长。随着5G、物联网、大数据、人工智能、云计算等技术产业的快速发展,世界万物互联、智能感知,紧密相关的数据高速产生,全球数据量正迎来了爆发式增长。“大数据”跃然成为了“快数据”,全球数据正以难以置信的速度和体量产生。
IDC在《Data Age 2025》的报告中预测,从2018年到2025年,全球数据总量将从33ZB(1ZB=10亿TB=1万亿GB)急速增长到175ZB,比2016年产生的数据量增加了十倍。其中,只有不足五分之一的数据会真正得到实际应用,属于数据分析的全球数据总量将会毅然增长至原来的50倍,而触及数据库管理分析的全球数据总量将会猛增至原来的100倍。
2020年,全球数据量已达到44ZB。其中,单在中国产生的数据量就达8ZB,约占据全球总数据量的五分之一。
与此同时,数据增长的速率正在不断加快,数据中心承载的压力也越来越大。其中,快速增长的实时数据的比例会大幅提升,到2025年,全球近30%的数据将是实时的。
其次,数据复杂度在不断提升。据IDC估计,到2025年,非结构化数据占企业数据的80%以上,并且还将以每年55%的速度持续增长,人工智能和深度学习催生对海量非结构数据分析需求。这些非结构化数据在赋能应用之前,必须经过结构化处理后通过数据库进行调用、处理和分析,才能让数据资产化并赋能智能化应用,助力企业发展。
最后,从数据到决策需要快速响应。无论是商业应用还是社会治理,数据实时价值日益凸显,如何快速从海量实时数据中做出即时优化决策的需求不断增加。实时数据分析具有实现优化决策的能力,促进对关键事件更快速的响应,并且通常实时挖掘和捕获数据价值,从而大大提高业务洞察力。
面对高速产生的数据,越来越多的用户需要更加实时、更快速地进行数据分析、优化决策处理,以捕捉即时数据洞察,如量化投资、金融欺诈、线上交易验证、ICU监测、网络安全识别、电子竞技、风险管控、应急指挥等等。
另外,让人人都有自己的数据库将成为现实。将来像拥有Email一样,每个人都会需要拥有自己的数据库,用于管理个人重要数据,真正做到‘我的数据,我做主’。
张世明博士强调:“数据爆炸正在驱动硬件、软件及数据服务等市场前所未有的经济增长。快数据时代,实时分析与优化决策将是数据分析的重点。传统数据库正面临着不断增长的数据规模、复杂数据和实时分析、优化决策的多重挑战”。
显然,数据爆发、复杂度提升以及不断增长的实时分析、优化决策应用需求将成为数据库市场长期不断增长的基本驱动力。另外,孕育面向个人数据库的需求,将会有无限的市场空间。
多年来,核心的数据处理硬件架构仍基于经典的冯·诺依曼体系结构,即指令与数据混合存储,程序执行时,CPU在程序计数器的指引下,线性顺序地读取下一条指令和数据,以计算器为中心,这就注定了其本质特点是线性或是串行性。
简单来说,核心在于“串行”二字,存储器是冯·诺依曼体系架构的核心,CPU在每一次执行命令前,都要从存储单元中读取数据,执行一次计算任务,就要读取一次,执行十次计算任务,就要读取十次。
如此一来,冯·诺依曼体系结构的弊端由此显现,即业界显知的内存墙问题,不仅需要花费大量功耗在数据频繁读取上,更致命的是:慢。
如果处理速度过慢,则无法满足快速增长的大数据实时分析、优化决策处理的需求。面对快数据,数据库面临更大的挑战,需要解决三个基本问题:一,存储和管理越来越大的数据承载量;二,将孤立的数据孤岛连接起来;三,针对大规模数据进行实时分析。
张世明博士指出,我们亟需对传统数据库进行技术架构革新,分布式数据库正在经历变革,如新型HTAP和NewSQL数据库,以应对不断增长的大数据实时分析、优化决策处理的诸多挑战,如融合应用场景、大体量、高吞吐量、高并发、复杂业务处理等显著特点。
未来将是智能数据库AiSQL的市场,她将真正实现人工智能AI与数据库的无缝融合。AI赋能数据库的自治优化管理的同时,也可以通过SQL这种简单的数据库标准语言实现AI算法的优化调度,让人工智能应用开发变得更简单易用。
从零架构,打造自适应异构智能计算引擎
后摩尔时代,为突破以CPU为中心的冯·诺依曼架构的技术瓶颈,让CPU、GPU、FPGA或其他各种智能计算芯片xPU一起协同计算,发挥不同处理器各自并行数据处理能力的优势来共同完成计算任务是关键。
为达到此目标,张世明博士及其创新团队践行了一条全新的解决之道,以适应内存驱动架构的自适应异构智能计算引擎为基础,融合机器学习框架和高速网络,打造新一代自适应数据智能平台BigInsights。
自适应异构智能计算引擎真正实现数据实时分析、优化决策处理,是贝格迈思区别于其它同类型公司的基础。
传统数据库都是以CPU为处理核心,或有部分采用GPU或FPGA做为协处理器加速数据分析任务,但其并没有把数据库的计算任务下放到不同的处理器去进行适配优化处理。其结果是在不能进一步提升数据处理速度的同时,还浪费了不同处理器各自的数据处理优势,即没有发挥不同处理器的各自所长。
一个大的数据分析任务分配到计算机的内部,会解析成为多个不同的子计算任务,这些子计算任务之间存在着不同的计算模式和关联关系。
张世明博士及其创新团队可以通过这些计算模式和关联关系进行不同计算任务的微调度,把相应的计算任务分别自动适配到各自适应的CPU、GPU、FPGA或其他各种智能计算芯片xPU上。
这就使得,原先需要等待CPU一步一步地串行完成的任务,现在针对现代CPU、GPU、FPGA或其他各种智能计算芯片xPU的不同并行数据分析能力,分解成不同的任务下放下去共同完成,将“单一处理模式”变成了“多重处理并行”,这即是所谓贝格迈思特有的自适应异构智能计算引擎。
区别于其他竞品公司需要开发相应的专用系统来实现此,贝格迈思的技术领先之处即在于直接通过内置的自适应编译引擎即可实现。
这样结合诸多软硬件技术进步从零架构的新一代分布式智能数据库AiSQL--第五代数据库,不仅速度可以领先国际主流内存计算平台Spark超百倍,还可实现快数据复杂业务的实时分析处理,并实现在线系统弹性扩展、容灾备份、多副本数据一致性同步、跨数据中心数据异步同步、自动数据迁移、高可用安全计算等新型分布式智能数据库所需的高效功能。
这种创新型的思想和落地实现是由以张世明博士为核心及张潼教授领衔的创新团队历经多年合作研发而成,团队聚集了多位海归博士及国内外著名企业的大数据与机器学习专家。他们熟识机器学习与人工智能应用的全流程技术要素,在大规模机器学习和高性能分布式系统研发方面有着丰富的经验。
另外,贝格迈思已获得深圳科创委创新资金和深圳发改委创新产业基金以及多项人才专项资金支持,并通过了国家高新技术企业认定。
五大核心技术助力应对快数据挑战
据张世明博士介绍,支撑起贝格迈思异构自适应智能计算框架的,主要是五大核心技术:压缩可检索、加密可查询、原生虚拟化、内存驱动架构和远程内存访问。
压缩可检索对数据高效压缩存储并提供高效查询、加密可查询实现数据的可运算加密安全协议、内存驱动架构以融合内存为中心提供存内数据计算、原生虚拟化充分发挥新型硬件革新的能效比和远程内存访问技术实现内存架构的远程内存数据访问,全面提升系统性能,是贝格迈思自适应数据智能平台BigInsights的基础技术。
压缩可检索,面对较大的数据量,一般都会进行压缩,而传统技术压缩处理后须解压缩后方可进行计算。贝格迈思则采用独特的数据结构,实现优于普通压缩技术十倍的高效压缩比,实现最小信息存储,并在高效压缩数据上直接实现微秒级的实时检索,减少延迟,节约成本的同时,更大提升数据处理效率。
加密可查询,数据上云是势不可挡的发展趋势,但保证数据安全是关键。传统方法即是将数据加密后上云,但是数据加密后往往难以运算,达不到数据上云的目的。贝格迈思使用最新加密可计算的安全协议,实现用户可直接在加密数据上的高效查询分析,确保用户数据的全程加密安全可信计算,从根本上防范数据安全。
内存驱动架构,以内存为中心的体系架构,而不同于传统的以CPU处理器为中心的冯·诺依曼架构,即多个异构处理器共享统一的内存池和自适应异构智能计算引擎运行环境,实现真正大内存计算环境,有效防止多处理器缓存数据频繁迁移而导致的井喷效应,突破冯·诺依曼架构的内存墙计算瓶颈,打造基于内存驱动架构的自适应异构智能计算一体机,满足数据实时计算所需的强大算力需求。
原生虚拟化,为充分发挥新型硬件技术革新的高性能,突破操作系统的性能调度限制,让数据分析引擎实例拥有专有的硬件设备资源,可以透过操作系统直接管理和操作这些专有的硬件设备,保证实时计算所需的硬件资源核心,同时保证不同数据分析引擎实例的安全隔离,实现裸机设备的轻量级实时虚拟化。
远程内存访问,要实现大规模数据的内存实时分析,诸如实现PB级数据的内存实时分析,则需成千上万的计算机组成网络集群,协同进行分布式内存计算方可完成,毕竟单台计算机的内存资源是有限的,不可能将PB级数据装入其内存。从而,实现多台计算机间的内存互访成为问题的核心。基于内存语义原语的远程内存访问协议,实现分布式内存智能计算框架,是贝格迈思自适应数据智能平台BigInsights的基础。
目前,贝格迈思拥有的30多项核心专利都是围绕以上五大核心技术延伸而来。张世明博士表示,这五大核心技术,单独拎一个出来都可以做出一个千亿级市值的产品,这也是未来贝格迈思垂直拓展的方向。
立足自主创新,突破智能数据库卡脖子技术
进入快数据时代,我们生活中小到柴米油盐酱醋茶,大到房、车买卖交易,更有甚者你每时每刻的行踪、评论的每一个新闻、发送的每一条信息、消费的每一份账单以及每一笔资金的动向,都被事无巨细地记录在数据库中。
数据库与芯片和操作系统被视为现代信息技术的三大核心基础技术,是各行业核心系统正常稳定运行的基础,是数据分析优化处理服务的核心引擎。然而,在金融等关键行业的核心交易系统中,我国绝大部分数据库均被Oracle、IBM、SAP等国际巨头所垄断,系统的一切运行只能遵循“外国逻辑”,同时许多核心数据信息安全面临巨大风险。
张世明博士指出,数据库被视为基础软件皇冠上最耀眼的明珠,快数据时代的技术高地,是各大科技企业巨头(如谷歌、亚马逊、微软以及阿里、腾讯等企业)必争的技术核心。
数据库已历经40多年的技术演进,从单机数据库到MPP分布式数据库再到云数据库以及NewSQL数据库的技术变迁。然而,国产数据库却一直相形见绌、望洋兴叹,成为被国外卡住的关键核心技术之一。
近几年,在国产替代背景下,数据库的发展近几年备受瞩目,国产数据库如雨后春笋般涌现。然而,国产自主可控创新研发的数据库产品,却鲜为人知,甚至乱象丛生。
一些所谓国产数据库,其实质不过是用进口内核(如IBM Informix)或开源组件(如MySQL、PostgreSQL)包装起来的“香蕉软件”,在一些互联网企业的积极推动下,利用舆论、市场影响力以及免费或低价策略,迅速进入一些关键领域,挤压真正的国产数据库技术创新的发展空间。
对现代信息技术产业来说,新旧势力的对决已司空见惯。犹如当年风靡全球市场的诺基亚、摩托罗拉被苹果、三星打败,乔布斯发布iPhone手机的那一刻就定格了未来智能手机的市场格局;又如传统的IT信息系统正在被云计算所取代。
这一幕也正在数据库市场上演,第五代智能数据库AiSQL取代传统数据库将成为后摩尔时代数据分析优化决策市场的定局,微软、SAP和Oracle等科技企业巨头都在积极布局第五代智能数据库AiSQL的核心技术研发。
面对快数据更为复杂的业务形态,用户需要构建更为复杂、灵活、可控的数据管理分析系统。在大数据量,高并发下,能处理更多的数据源和数据形态,并具有更好的弹性响应能力,快数据时代的用户对数据库需求与过去大不相同,面临诸多技术挑战。
众所周知,传统数据库系统大都基于几十年前传统架构设计,基于数据存储于较慢的硬盘设备和系统构架于较慢的网络环境两个基本假设,从而较慢的数据读写IO和网络传输IO是系统性能瓶颈的关键因素。
张世明博士指出,历史已经发生了革新式变化,快数据时代更复杂的应用需求和更新、更强大的硬件环境,已经完全改变了市场规则。
现在,我们拥有融合SSD容量和DRAM性能的新型持久性内存NVRAM,网络带宽已经远远超过系统总线带宽。传统数据库的基本假设已经不存在了,反而处理器成为系统性能的主要瓶颈。
张世明博士介绍说:“我们现在完全不用担心内存的限制,包括成本,将PB级数据置于内存进行实时分析将是我们的目标。”
将PB级数据置于内存进行实时分析,这是很多公司想做而又不敢做的事情,可想难度之高。美国Databricks公司的Spark和德国SAP HANA是第一个吃螃蟹的,展现了内存计算在大数据实时分析领域强大的性能优势。
张世明博士回忆道:“在我们于2012年立志想做新型高性能分布式内存数据库时,就深受Spark、SAP HANA的启示。同时,MemSQL和VoltDB的成功也给我们巨大的精神鼓舞。”
立志自主创新研发,改变国产数据库创新研发不足、技术落后的局面,做有突破性的技术创新,是张世明博士及其创新团队近十年来孜孜不倦努力的动力。
“人工智能应用如火如荼的潮流,并没有让我们丢失立志初始的激情”,张世明博士如实说,“新型数据库底层技术才是真正突破我国人工智能基础技术壁垒所在;未来巨大的数据实时分析蓝海市场是我们坚信的基础,大数据所呈现的巨大价值已可见一斑;快数据将在各个领域发挥重要作用,技术情怀和使命感就是我们坚持不懈的动力。”
据张世明博士介绍,贝格迈思以自己研发的系统做底层支撑,摒弃‘拿来主义’。
贝格迈思创新团队践行了一条与其他数据库创新公司不同的技术路线。从硬件架构创新来真正提升数据库的算力,采用内存驱动架构的异构智能计算一体机为基础,打造贝格迈思特有的自适应异构智能计算引擎。
如此以来,贝格迈思创新团队将人工智能AI与数据库无缝的融合为一体,而其他数据库公司却因缺乏基础的人工智能硬件算力支撑,不得不把人工智能AI以分离系统模式与数据库并行。
贝格迈思创新团队真正践行新一代智能数据库AiSQL的弹性调度核心机制,自适应感知Workload进行系统自动伸缩、自适应感知业务特点自动匹配数据访问、自适应感知数据关联性自动调整数据存储、自适应感知数据计算模式自动适配处理器等核心数据智能引擎功能。
“贝格迈思新一代自适应数据智能平台BigInsights,一套高性能、弹性易扩展、高可用、安全可靠、以内存计算为核心、融合数能管理与机器学习框架于一体的数据智能平台。在统一命名空间下提供PB级数据内存管理,以云原生服务架构,多租户弹性隔离共享模式,为用户提供一站式数据智能管理和实时分析与优化决策服务,解决多样业务弹性需求,提高数据运营效率,降低系统资源投入成本,激发用户数据价值指数级增长。”
面向未来,打造应用生态,吸引人才
站在宏观的角度,把握数字化、网络化和智能化融合的数字经济发展契机,是科技创新与产业变革的必由之路;站在用户的角度,面对瞬息万变的市场竞争,实时获取数据的价值,是其立于不败之地的关键。
贝格迈思将以开拓创新精神,潜心打造应对数据洪流的诺亚方舟,将在数据智能技术创新赋能用户这条道路上,继续打磨技术,力争成为国际领先的数据智能创新技术的引领者,以及数据科技驱动行业应用的创新者。
贝格迈思将大力推行智能数据库AiSQL的国产化替代,不仅重塑各行业的运行逻辑,更为数据智能产业的发展开辟一条崭新的发展趋势路径。
同时,贝格迈思已联合中科院计算所计算机体系结构国家重点实验室、中科院软件所计算机科学国家重点实验室、中科院信工所信息安全国家重点实验室和中科院深圳先进院以及香港理工大学和香港大学等科研机构,进行持续地创新技术研发,进一步促进贝格迈思新一代自适应数据智能平台BigInsights的产品化迭代和产业化应用扩展。
贝格迈思还将联合行业应用企业打造新一代自适应数据智能应用推广平台,构建数据智能技术创新应用生态,促进数据智能创新技术在金融、医疗、环保、智慧城市、智能制造、物联网和工业互联网等领域的创新应用。
“吾欲鲲鹏展翅,弥青青子衿,尔枉用相存,予鼓瑟吹笙,契阔谈䜩”,作为一个志存高远的技术极客,未来的路上需要志同道合者。张世明博士一直在路上,探寻热衷于技术、喜欢挑战和创新、想做有突破性技术的同仁志士,共谋数据智能未来技术范式。