中国在世界人工智能期刊上的引用频次首次超过美国
定制、魔改、二次开发
早在2011年百度启动了FPGA AI加速器项目,2015年的FPGA部署已经超过5000片,2017年成为业界部署最多的,超过了12000片;2018年百度发布自主研发的AI芯片——百度昆仑;2019年流片成功,2020年昆仑一代开始量产并且大规模部署。
关于昆仑芯片的细节我们不做过多的赘述,但是值得一提的是,往往GPU是打造AI芯片的重要手段之一,但是我们也可以看出,百度从一开始却是基于FPGA打造的,FPGA的特点就是可编程,这样使用昆仑芯片的用户,就完全可以根据自己的应用场景来进行定制、魔改、二次开发。
由于AI应用场景的分散和复杂度高,定制化就显得格外重要。FPGA作为一种可编程芯片,非常适合部署于提供虚拟化服务的云计算平台之中。昆仑芯片配以FPGA的灵活性,可让用户可以按照自己的需求和应用场景进行专项定制,魔改,二次开发,实现更快速的市场普及,并能完成自身产品的后续迭代。
在性能方面,百度昆仑性能最高比英伟达T4强三倍。放大到全球的AI芯片,据麻省理工学院林肯实验室超级计算中心的一项统计研究《机器学习加速器的调查和基准测试》,在全球公开宣布的人工智能加速器和处理器的性能与功率分散图中,我们也可以看出,昆仑芯片性能也处于高位(如下图)。下图显示了最近公开发布的一些AI处理器能力(截至2019年5月),列出了芯片的峰值性能与功耗。
公开宣布的人工智能加速器和处理器的性能与功率分散图(图源:MIT《机器学习加速器的调查和基准测试》研究)
注:其中x轴表示峰值功率,y轴表示每秒千兆次操作的峰值。处理能力的计算精度由所采用的几何形状来描述;计算精度范围从单个位int1到单个字节int8,从4字节float 32到8字节float 64。形状因子由颜色来描述,这对于显示消耗了多少能量很重要,而且对于显示在单个芯片、单个PCI卡和整个系统中可以装载多少计算量也很重要。蓝色仅是单个芯片的性能和功耗。橙色表示芯片的性能和功率(注意,它们都在200-300W区域)。绿色表示整个系统的性能和能力——在这里是单节点桌面和服务器系统。
众所周知,“AI应用场景碎片化、落地难”已成行业共识,在AI芯片前仆后继的大军中,泡沫过后,许多企业已销声匿迹,仅留下了为数不多的十几家。百度又能靠什么?
造芯者不但需要懂硬件,还需要懂AI算法软件。据了解,百度昆仑作为百度人工智能平台的核心组件,可以原生支持开源深度学习框架飞桨(PaddlePaddle),百度机器学习平台(BML)及各垂类的AI 能力引擎。另外,昆仑不仅支持全球主流CPU、操作系统,Pytorch和 TensorFlow 等深度学习框架,也和国产化厂商密切合作支持飞腾、申威和海光等国产CPU,麒麟、深度和统信等国产操作系统。
此外,生态能力在芯片行业中尤为关键,而且放在自家产品上可尽显其性价比优势。
其实这点我们可以从华为麒麟芯片得到启发,因为有手机终端的不断试错和支持,麒麟芯片才能在迭代中不断创新,二者相辅相成,最终成就一段手机史上的佳话。百度亦是如此,相比其他单打独斗的AI芯片企业,它有大公司的生态优势。百度完全不用有一般AI芯片厂商的担忧:“我该做什么样的芯片?芯片做出来能否迎合市场的需求?又将用在什么场景?”因为百度有太多的应用场景了,智能音箱、智能驾驶Apollo、智能云等等,这些对百度整体业务都形成一个大循环。
特斯拉也是一样。在特斯拉自研FSD芯片前,需要采用英伟达的芯片,不仅在性能上满足不了特斯拉的需求,而且成本还高昂,完全不具有话语权。此后,特斯拉自己研发芯片竟达到了与英伟达相同乃至更好的效果,成本也把控在自己手里。
在造芯策略上,百度与当下国际互联网巨头如亚马逊、谷歌、微软等如出一辙,自产自用为主,但同时也注意为芯片建生态,芯片又反哺生态。未来随着智能汽车逐渐爆发,云计算、物联网市场的大幅度需求,百度或将被推上历史的潮头。