中科驭数卢文岩:数据中心算力生态呈现三足鼎立局面,DPU成第三颗主力芯片
新浪科技讯 12月16日下午消息,由新浪财经客户端、新浪科技联合主办的“2022科技风云榜”线上年度盛典今日开幕。中科驭数联合创始人兼CTO卢文岩发言指出,通过使用DPU,一万台服务器三年内节省的成本接近400万美元,如果再增加部分安全业务,它节省的成本可以提升至2630万美元,要超过1.8亿人民币。整个数据中心算力的生态正在形成CPU、DPU、GPU三足鼎立的局面,DPU成为了第三颗主力芯片。
数据统计,每3.5个月,全球对于算力的需求就会翻一倍,比摩尔定律的速率还要快。而承载着算力的主要载体其实就是现在的云和数据中心。结合亚马逊AWS、微软智能云、阿里云、谷歌云以及百度云等企业财报发现,当前各行业对算力的需求量是非常大的。尤其伴随着我国“东数西算”国家大战略的发布,算力的需求更进一步上升到了新的高度。
卢文岩指出,数据中心的架构演进大概分为三个阶段:第一阶段是2000年左右,基本上都是一个个独立的物理机,这时主要以设备为中心,一个个独立的设备通过网络连在一起。第二阶段,2010年的时候,云计算出现了,像虚拟化、资源的池化这一系列的概念被提出,数据中心中所有的计算资源、网络、存储都可以通过池化去做,但依然没有到一个完全打通的状态。第三阶段,2020年的云原生化的阶段,所有的资源都是池化的,统一的云原生的基础设施,对用户来说更多的是以应用为中心,都是跑的一个个服务、一个个应用。
然而也正是在第三阶段,上层应用对数据中心底层的基础设施提出了更高要求。
据卢文岩介绍,在这个阶段之前,其实所有的事情,不管是计算、网络、存储,这些其实都是CPU来做,CPU是大管家。但是CPU来做却面临着“数字中心税”等问题。据2017年Google指出,CPU在做一些基础层业务加速的时候,还要分出算力去做诸如任务划分、网络传输、调度等非业务层面的计算,在整个性能当中占了超过30%的开销。尤其随着光通信的发展,数据中心网络的带宽正成指数型增长,但CPU算力的增长却很放缓,这导致CPU已经兼顾不了所有事情了。
而在这样的情况下,DPU就诞生了。据卢文岩介绍,DPU诞生最初的目的就是为了充当CPU的助手,分担网络、存储、安全等一系列的任务,但随着DPU的不断发展中,DPU也逐步成了云数据中心的一个处理的核心,成为了联通各类计算资源、存储资源,包括连接CPU、GPU、IPU的一个核心调度芯片。
据卢文岩介绍,在今年英伟达发布的DPU能效白皮书指出,一万台服务器三年内通过DPU节省的成本接近400万美元,接近2800万人民币。如果我们再通过DPU加载安全等其他业务,节省的成本可以提升至2630万美元,要超过1.8亿人民币。
“所以,整个数据中心整个算力的生态发生了变化,它形成了CPU、DPU、GPU三足鼎立的局面,DPU成了第三颗主力的芯片。”卢文岩表示。他指出,DPU是下一代算力网络核心的支撑组件,从定位上来看,IT分为基础层、平台层、软件层、应用层几个层次,DPU大概处在基础层和平台层这一侧,CPU其实跨了四层,GPU更多的是在应用和软件。
据卢文岩介绍,作为国内主要从事DPU研发的企业,目前中科驭数首颗DPU芯片已经完成流片,有望成为国内首颗功能最全、性能最好的DPU芯片,具有重大的里程碑意义。此外,除了做DPU芯片之外,中科驭数也一直关注生态建设。据介绍,目前中科驭数在生态上投入了非常大的研发,公司12月8日发布的HADOS敏捷异构开发平台,历时四年打磨,已经服务于很多公司的产品和客户。
以下为演讲实录:
《数据中心的第三颗主力芯片DPU》
卢文岩:大家好!各位听众大家好,我是中科驭数的卢文岩,很高兴能参加2022科技风云榜年度盛典。我今天分享的内容是“数据中心的第三颗主力芯片DPU”。在开始我的内容之前,先简单地介绍一下中科驭数。
中科驭数是一家聚焦于专用处理器研发的公司,我们自主研发的国际领先的DPU系列产品可广泛应用于超低时延网络、大数据主力、5G边缘计算、高速存储等场景,助力算力成为数字时代的新生产力。
我们提出了创新性的软件定义加速器技术,进而自主研发了面向领域专用计算的芯片架构KPU,以及敏捷异构软件栈HADOS,据此打造了业界首颗融合了高性能网络与数据库一体化的加速功能的DPU芯片和标准加速卡系列产品,获得了突破性的行业应用,深受客户好评。
DPU是一颗怎样的芯片?
我们首先来看一下云数据中心的变革。
进入数字经济时代,算力成了最主要的生产力。数据统计,每3.5个月,全球对于算力的需求就会翻一倍,比摩尔定律的增长速率还要快。承载着算力的主要的载体其实就是现在的云和数据中心。最新的财季报道统计,像亚马逊的AWS净销售额同比增长了27%。微软的智能云收入同比增长20%。Google云收入增长37%。阿里云增长4%,百度智能云增长了24%。这些数据的增长非常显著,通过这些数据,我们可以看到,其实各行各业大家对算力的需求实际上是非常非常大的。
在今年上半年,我们国家也发布了“东数西算”的国家大战略,要在国内建设八大数据中心,它的一个意图是要数据向西、算力向东,服务东部沿海等算力紧缺的区域,解决我国东西部算力资源供需不均衡的现状。“东数西算”其实就是通过去构建像数据中心、云计算、大数据一体化的新型算力网络,将东部的算力需求有序地引入到西部。
“东数西算”战略进一步把算力的需求或者是把云计算提到了新的高度。DPU在这样一个战略当中到底要解决什么呢?我们先从数据中心架构的演进的趋势来看一下。
数据中心架构的演进大概分为三个阶段,第一阶段是2000年左右,基本上都是一个个独立的物理机,这时以设备为中心,一个个独立的设备通过网络联在一起。2010年的时候,“云”的概念被提出,云计算就出现了,像虚拟化、资源的池化这一系列的概念被提出,这些被提上了日程。我们在数据中心当中所有的计算资源、网络、存储,我们可以通过池化去做,但实际上它还没有达到一个完全打通的状态。
2020年,我们进入到了云原生化的阶段,这个阶段其实所有的资源都是池化的,统一的云原生的基础设施,对用户来说更多的是以应用为中心,都是跑的一个个服务、一个个应用,是不需要关心底层的。要想达到这样的一个性能,对底层的基础设施提出了更高的要求,也就是对像DPU提出了一个更多的要求。在这个阶段之前,其实现在所做的事情,不管是计算、网络、存储,这些其实都是CPU来做,CPU是大管家。但是CPU来做,它面临很多问题。接下来来看一组数据,可以找到更鲜明的答案。
(右图)2017年Google发表了一篇文章,文章里提出了一个新的概念,叫“数字中心税”。什么概念?它在做一些基础层的业务上加速的时候,它还要付出一定的税去做一定非业务层的东西,比如任务的划分、网络的传输、调度,并且在整个性能当中占了很大的开销,开销超过30%,这个开销是很大的。还有一个数据,其实不仅仅是开销的问题,那就是左下角的图。
现在随着光通信的发展,数据中心网络的带宽增长是成一个指数型的增长,但是CPU算力的增长却是在放缓,CPU在很多场景下是不足以去处理这么高的数据的,这个时候就带来一个问题,不仅仅是开销的问题,有可能就是现在的CPU根本无法完成这样的任务。
在这样的情况下,DPU就诞生了。它最初的目的其实就是去分摊数据中心充当CPU的助手,分担网络、存储、安全等一系列的任务,它也就逐步成了云数据中心的一个处理的核心,它去连通各类的计算资源、存储资源,比如说CPU、GPU、IPU之间的互联、之间的通信,它成了去调度各类资源的一个核心的芯片。
一个更加直观的例子叫OVS(虚拟交换)。虚拟交换是什么概念呢?在数据中心当中跑了很多虚拟机,叫VM(Virtual Machine),各VM之间都是通过网络进行交互的,每个VM需要发送很多网络数据包,比如每个VM发送1万个数据包/秒,我要处理VM之间的交换,假如每个处理器的核能处理4万个包,这样一台8核的物理机,如果上面运行20个VM,它就需要消耗掉5个物理的核。也就是说仅仅3个核才能供业务去使用,这个开销其实是非常大的。如果我们把OVS这个能力,数据交换的交换全部卸载到DPU当中来完成,整个的CPU的核就全部释放出来给业务层来用了,其实它的效果非常明显。
通过这个例子我们看出来了DPU的定位和它的职责。
有一个更直观的数据,在今年英伟达发布了它的DPU能效白皮书里的一组数据,如果我们按一万台服务器来看,一万台服务器三年内通过DPU节省的成本接近400万美元,就是基础的这一块,接近2800万人民币。如果我们再卸载一些其它的业务,比如说安全,它节省的成本可以提升至2630万美元,要超过1.8亿人民币,这是非常可观的。所以,整个数据中心整个算力的生态发生了变化,它形成了CPU、DPU、GPU三足鼎立的局面,DPU成了第三颗主力的芯片。它们的职责,CPU去处理一些系统的管理、一些任务的交互,一些基础的任务;GPU负责一些科学的计算;DPU负责数据中心基础层的一些业务,比如说像网络、存储、安全这一系列的业务。
到此,我们通过一个例子讲清楚了DPU是干什么的。
我们给DPU下一个更学术一点的定义,它是下一代算力网络核心的支撑组件。如果从它的定位上来说,我们看IT的分层,比如底层分成基础层,一直到平台层、软件层、应用层,这几类层次来说,DPU大概处在基础层和平台层这一侧,CPU其实跨了四层。GPU更多的是在应用和软件。
更学术一点的定义,DPU是以数据为中心,处理大量的数据,构造的一类专用处理器。采用的技术路线是软件定义的技术路线,这个软件定义更多指的是它的一些灵活性,支撑基础设施层资源的虚拟化、存储、安全、服务、质量、管理等一系列的服务,这是它更学术一点的定义。我们到此把DPU是什么,以及它做什么给讲清楚了。
怎么做?我们怎么做一颗DPU,要做DPU,它的难度在什么地方?我们从芯片的角度去看它。
在介绍它的难度之前,我们以中科驭数K2 DPU这个方案做一个例子给大家讲解。
看一颗芯片的难度,先从功能来看。其实DPU到现在为止,从功能上来算基本上算是一个最复杂的算力芯片之一,它要跨越虚拟化、网络、计算、存储、安全一系列的功能,它才能支撑起上层的应用。
我们可以看一个更加细化的东西,它在基础层有网络,需要处理数据包相关的,包括协议的处理、存储的转发、链接管理等等,再往上就是它的应用层,它可以直接对相关应用层的算法做一些加速。再一个像存储,与存储相关的,比如存储的读写管理、持久化、去冗余、纠错等,为不同层提供直接的安全的功能支撑。从四大功能点来看,它的跨度就比较大。但是如果我们从细化的功能点上来说就更多了,我罗列了一部分,得有几十种。所以,它的复杂度是非常高的。大概是这样一类芯片。
DPU从芯片结构上来讲,它应该长什么样子?
首先,它的目标其实一端连接着数据中心的网络,一端连接着CPU、服务器的主机,这就是它所处的位置。
这样一个芯片有哪些特点呢?第一,它是多IO的,因为他既要接触很高的存储网络的数据,一端要和CPU打交道,帮CPU处理,网络的数据也要送上去,所以系统的IO也非常强。另外,它还得接着存储,比如它本身处理需要很大的存储,它要去接存储的资源,对存储IO的性能也要求很高。
弱控制、强数据,这是什么概念呢?DPU有一个很大的特点,它要求实时地处理,叫做线速或者是inline的处理性能,网络的包进来是不能有丢包的,必须要实时地把它消耗掉,这个要求是非常高的。所以,它对数据的性能要求极高,但是它的控制要求没那么高,一般进来的数据处理的模式和它的配置,没有要求很复杂。所以,在DPU当中会有一个弱的控制平面,通常都是通过ARM、MIPS、RISC5这些通用核就可以实现,但对于数据的能力是要求很高的。
松耦合、敏捷异构。这是什么概念呢?它里面虽然对控制要求很低,但是它对数据要求很高,它处理的功能又非常多,像它要处理这么多的功能。所以,它是一个很敏捷异构,松耦合体现在它的功能点很多。敏捷异构是这些功能点之间可以相互组合去实现不同的功能。
所以,整个DPU的设计最大的挑战在什么地方?其实是在于它的数据平面,也就是和功能相关的这一块,这一块它的能力是要求最高的。所以,它的核心在这儿。
中科驭数的技术核心也是在于这儿,我们创新性地提出了“软件定义加速器”,KPU的这种架构正好是非常好地解决了这个问题,能去提供一个很强大的数据面的一个能力。
KPU是一个什么东西?它是一个什么样的架构?
中科驭数在2018年提出“软件定义加速器”这样一个技术,如果大家感兴趣,可以去看下这篇文章,这是一个理论性的文章。它是一个什么结构呢?我们可以用这个图来解释。左侧是人的大脑,我们知道人的大脑非常高效。它为什么高效?是因为它做了合理的分区,不同的分区做不同的功能,所以它很高效。KPU就是这样一个功能,它把芯片做了分区,分成了功能区和非功能区,而功能区里又针对不同的应用定制了不同的核心,在这个基础之上,我们通过一个统一的芯片的架构或者是指令,统一地去调动这些核,然后通过有机地组合,实现很高效的性能。
用一句话来归纳,KPU最大的能力在于它可以集成很多不同功能的核,实现高效的计算,正好契合了DPU设计的难度。这是中科驭数所采取的一个技术路线,也是一个最核心的技术。
基于这个技术,我们打造了中科驭数的K2的第二代DPU的架构。我放了第二代DPU很重要的一个架构图。绿色的部分其实就是它的IO的部分,它的储存、系统、网络等。蓝色的部分其实是它的控制平面,一个普通的通用的控制盒,但是它可以跑标准化的系统,可以有很强的生态的兼容性。这里最核心的其实就是它的数据平面,都是基于KPU的架构来实现,里面有专门处理一些算法,比如安全这一类的算法的核,它要接入网络的包,要做相应的加速、交换,比如VOS,就可以在网络数据处理阵列里做。
我们还有一个可编程的网络引擎,还有数据库和业务相关的引擎。
还有片上互联。
大概这就是我们中科驭数K2的DPU架构。这个芯片已经完成流片,近期大家会看到很多新闻。这是国内首颗DPU芯片,首颗能做到国内功能最全、性能最好的DPU的片子。在国内来说,这应该是非常有里程碑的事件,非常有意义,我们具备了去自主研发这种芯片的能力。
做芯片除了芯片本身之外,中科驭数更重要的是我们一直在关注着生态,我们在生态上投入了非常大的研发,我们到现在为止,我们在12月8日刚刚发布了HADOS敏捷异构开发平台,我们经过了四年的打磨,它其实已经服务于很多我们的产品,服务于我们的客户,取得了非常好的效果。我们也给用户提供了一个非常简单易用的功能强大的软件开发的平台。
除此之外,中科驭数在DPU行业系统生态已经布局多年,和行业里的公司展开相应的合作。
我们还为整个DPU的技术和行业贡献着我们的力量,我们从去年连续两年发布了DPU相关的白皮书。第一部白皮书讲的是DPU是什么,从技术的角度做了系统分析,DPU的定位、技术路线的深度解析以及它应用的解析。如果大家感兴趣可以扫描这个二维码去下载。今年我们发布了它的测评,一个芯片只有知道怎么测,你才能把它用好。我们今年又从测评的角度,更加全面地去给它提供了一套测评的标准,如果大家感兴趣,也可以去下载。
现在中科驭数的DPU已经在很多行业发挥了作用,已经在用,简单举两个例子。
1、证券行业。证券行业有一个很重要的特点,对延时要求很高,希望整个交易链路的延时要足够低。我们基于我们的技术,打造了低延时的网络解决方案,成为2021年业界第四、国内唯一的在这一块能力支撑的公司。
我们产品的性能,国产的像ARM这种平台,我们基本上算业界第一。X86的平台上,我们和AMD的Solarflare的性能是相持平的。这是非常好的一个成绩。
2、云原生的架构下,它所有的存储、安全都要卸载到DPU当中来做,我们打造了一个把整个服务网格的管理都下沉到DPU的方案,也是业内首创,基本上在云原生的场景下,把CPU资源全部贡献给了业务层,也是取得了非常好的成绩。
现在的格局,DPU还是一个“西强东弱”的格局,国内起步还是稍微晚了一点,但实际上没有晚那么多。从芯片这个行业的角度来说,还是一个不错的节点,我们现在不管是从一个大的环境,还是政策或者需求的角度,其实都是一个有利益我们DPU发展的大的环境。
谢谢大家!
中科院路航:隐私计算时代即将带来,需要全同态加密处理器
新浪科技讯12月16日下午消息,由新浪财经客户端、新浪科技联合主办的“2022科技风云榜”线上年度盛典今日开幕。中科院计算所副教授、硕士生导师路航发言指出,人和计算系统的关系正在不断地发展,我们即将迈入第三阶段的隐私计算时代,人类对计算机的需求从通用到智能,转变成保护隐私。而这个时代到来的一个代表就是拥有一款全同态的处理器,能处理稀疏的非结构化密文数据,而不再是明文数据。0000中科驭数卢文岩:数据中心算力生态呈现三足鼎立局面,DPU成第三颗主力芯片
新浪科技讯12月16日下午消息,由新浪财经客户端、新浪科技联合主办的“2022科技风云榜”线上年度盛典今日开幕。中科驭数联合创始人兼CTO卢文岩发言指出,通过使用DPU,一万台服务器三年内节省的成本接近400万美元,如果再增加部分安全业务,它节省的成本可以提升至2630万美元,要超过1.8亿人民币。整个数据中心算力的生态正在形成CPU、DPU、GPU三足鼎立的局面,DPU成为了第三颗主力芯片。0000柠檬光子创始人肖岩:激光芯片,化合物半导体新兴产业中的明日之星
新浪科技讯12月16日下午消息,由新浪财经客户端、新浪科技联合主办的“2022科技风云榜”线上年度盛典今日开幕。柠檬光子创始人兼首席执行官肖岩指出,激光芯片行业作为化合物半导体这个新兴的半导体赛道里的一个分支,随着光学应用的快速发展,将会成为高速增长的明日之星。0000