雷峰网 //www.xyschoolife.com //www.xyschoolife.com/resWeb/images/common/lp_logo.png 雷峰网 //www.xyschoolife.com 2015 www.xyschoolife.com All rights reserved. zh_cn Wed, 23 Mar 2022 22:49:31 +0800 全球首款3D晶圆级封装处理器IPU发布,突破7nm制程极限 //www.xyschoolife.com/category/chipdesign/hbqTOXts9yqXDQ2j.html 雷峰网消息,本周四,总部位于英国的AI芯片公司Graphcore发布了新一代IPU产品Bow,这是其第三代IPU系统,发布即面向客户发货。与上一代IPU相比,Bow IPU性能提升40% ,能耗比提升了16%,电源效率也提升16%。

值得注意的是,这一次Bow IPU的性能提升并非主要依赖采用更先进的制程,Bow IPU采用了和上一代IPU相同的台积电 7nm,通过采用和台积电共同开发的先进硅晶圆堆叠技术(3D Wafer-on-Wafer)达到性能和能耗比的提升。

Bow作为世界首款3D WoW处理器,证明了芯片性能提升的范式从先进制程向先进封装转移的可行性。

新一代 IPU 性能提升40%,价格保持不变

2016年,Graphcore成立并开创了全新类型处理器架构IPU,因其在架构上的创新曾被英国半导体之父Hermann Hauser称之为是计算机历史上的第三次革命。

经历6年时间的发展,Graphcore的IPU逐渐在在金融、医疗、电信、机器人、云和互联网等领域取得成效。本周四,Graphcore又推出了第三代产品Bow IPU。

据Graphcore介绍,第三代IPU相对于上一代M2000,性能提高40%,每瓦性能提升16%,即能耗比实现16%的提升。不过,AI芯片的真实性能还需要放在不同的应用领域中讨论。为此,Graphcore也给出了在不同垂直领域中Bow的性能表现。

在图像方面,无论是典型的CNN网络,还是近期比较热门的Vision Transformer网络,以及深层次的文本到图片的网络,与上一代产品相比,Bow IPU都有30%到40%的性能提升,在EfficientNet-B4这一项中,接近理论上限值。

BERT训练模型是自然语言方面的经典模型,基于BERT,OpenAI提出了GPT-1、GPT-2、GPT-3等纵向扩展或横向扩展,通过更深的网络层次和更宽的网络宽度让模型的性能和精度进一步提高。

“我们可以看到,这些模型在我们最新的硬件形态上都有很大的性能提升。”Graphcore中国工程副总裁、AI算法科学家金琛介绍道。

不仅如此,转换到实际模型中的吞吐量,与IPU POD64相比,在计算机视觉的ResNet50 和 EifficientNet-B4 训练模型中,Bow Pod64的吞吐量能够达到34%和39%的性能提升。自然语言方面, BERT-Large Ph1 预训练模型和语音识别Conformer Large 训练模型,后者都有36%的吞吐量提升。

作为英伟达的竞争对手,Graphcore自然不忘将 Bow Pod16 与DGX-A100进行对比,实验数据表明,EfficientNet-B4的backbone的训练在DGX-A100上需要花费70个小时的训练时间,而在Bow Pod16上,只需要14小时左右。

接近理论极限的性能提升,Graphcore Bow IPU是如何实现的?

5nm不再是首选,采用先进封装性价比更高

从芯片的规格上看,Bow IPU是世界上第一款基于台积电的 3D Wafer-On-Wafer的处理器,单个封装中拥有超过600亿个晶体管,具有350 TeraFLOPS的人工智能计算的性能,是上一代MK2 IPU的1.4倍。片内存储较上一代来看没有变化,依然保持0.9GB的容量,不过吞吐量从47.5TB提高到了65TB。

“变化主要体现在,它是一个3D封装的处理器,晶体管的规模有所增加,算力和吞吐量均得到提升。” Graphcore大中华区总裁兼全球首席营收官卢涛说道。而在大家都关注的工艺制程上,Bow IPU 延续了上一代台积电 7nm 工艺制程,没有变化。

理论上,一颗芯片的性能提升很大程度上取决于工艺制程上的进步,但随着工艺制程越来越逼近物理极限,摩尔定律逐渐失效,业界不得不寻找新的技术方向来延续摩尔定律。其中,3D封装就是被业界广泛看好的技术方向。

中国工程院院士、浙江大学微纳电子学院院长吴汉明就曾在一次演讲中提到,如果将芯片制造和芯片封装相结合,也可以做到65nm工艺制程实现40nm工艺制程的性能功耗要求。

Bow IPU正好验证了吴院士的观点。

卢涛表示,Bow IPU产品性能的提升主要来源于3D WoW和新增的Die。

至于为何选择改变封装方式而不是更先进的工艺,卢涛则表示MK2 IPU有594亿个晶体管,大概823平方毫米,已经是7nm单个Die能够生产的最精密的芯片。

“我们评估从7nm、5nm,到3nm等不同工艺节点的收益时发现,从7nm到5nm的生产工艺提升所带来的收益不像以前从28nm到14nm一样,能够带来百分之几十的收益,而是降到了20%。这时候我们可以通过别的手段和方法获得同样的收益。”

通过3D堆叠的方式,Bow IPU的两个Die增加了晶体管的数量,其中一个Die(Colossus Die)和上一代一样,另一个Die主要用于提高跨Colossus Die的电源功率传输,优化Colossus Die的操作节点,从而转化为有效的时钟加速。

在同台积电的合作方面,卢涛告诉雷峰网,Graphcore在一年之前就同台积电合作了一颗测试芯片,与台积电的关系非常紧密,加上AI处理器本身规模较大,需要一些新技术支持落地,而从台积电的角度而言,新的技术也需要有需求的产品共同推进。

值得一提的是,虽然封装方式有所变化,但Bow IPU开箱即用,与前一代产品百分之百软件兼容,不用修改任何代码,老用户无需做任何软件适配工作就能获得性能提升,价格保持不变。

目前,美国国家实验室Pacific Northwest已经基于Bow IPU尝试做一些基于Transformer的模型以及图神经网络,面向计算化学和网络安全方面的应用,且给出了比较正面的反馈。

延续3D封装,开发超越人脑的超级智能机器

Bow IPU使用3D封装只是起点,面向未来,Graphcore正在开发一款可以用来超越人脑处理的超级智能机器。

Graphcore将这款正在研发的产品命名为Good Computer,一方面希望计算机能够为这个世界带来正面的影响,另一方面致敬著名计算机科学家Good。

基于3D WoW,预计未来Good Computer将包含8192个IPU,提供超过10 Exa-Flops的AI算力,实现4 PB的存储,可以助力超过500万亿参数规模的人工智能模型的开发。

取决于不同的配置,Good Computer价格将在100万美元到1.5亿美元之间。

卢涛表示,开发Good Computer还是会沿用IPU的体系结构,IPU的存储是在处理器里面,虽然不叫类脑、内存计算或存算一体,但从某种程度上而言,IPU的运作机理接近大脑计算的工作原理,只是把计算和存储相结合。

另外,Graphcore也将从软件方面更有效支持稀疏化以达到类脑的计算量。

雷峰网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/hbqTOXts9yqXDQ2j.html#comments Thu, 03 Mar 2022 19:57:00 +0800
AI比人类更懂芯片设计? //www.xyschoolife.com/category/chipdesign/OvGtxvjza1ANUlJB.html 优化功耗、性能和面积(PPA)一直是芯片设计中的三个重要目标。但即使是最好的设备和经验最丰富的工程团队也无法保证优化结果的稳定性。

优化PPA的过程正受到越来越多因素的制约:应用、IP和其他组件的可用性不同,工程师对不同工具和方法的熟悉程度也不尽相同。例如,同样的设计目标既可以用更大的处理器实现更高性能,也可以用更小、更专业的处理元件更紧密的结合软件来实现。因此,即使在相同领域和相同的功率设计目标下,也会有许多不同的方法可以实现相同的目标。并且方案优劣的评价标准也是因领域和供应商的具体需求而异的。

另外,由于对芯片安全性的需求不断增加,优化过程变得愈加复杂。根据设备使用场景的重要性,其安全需求也各不相同。安全级别的高低会影响芯片功率和性能的设计,进一步影响IC制造成本、上市时间、交货时间和供应商的竞争力。

为了缕清这些因素,EDA供应商开始寻求人工智能和机器学习技术的帮助。芯片供应商们正致力于将各种AI功能集成到工具流中。根据麻省理工学院和德克萨斯大学奥斯汀分校的研究人员的论文,迄今为止该领域研究成果喜人。研究人员表示,使用了深度强化学习算法的设备在某些任务上的表现已经超过了人类。

在六个小时的实验中,研究人员通过对比使用强化学习的图卷积神经网络方法、传统的黑盒优化方法(贝叶斯优化、进化算法)、随机搜索方法、具有五年经验的设计师这四者的成果得到结论:带有迁移学习的强化学习方法可以取得更好的效果。换言之,基于人工智能的工具可以使晶体管设计更加高效。

如今,包括谷歌、英伟达、新思科技、Cadence、三星和西门子在内的许多公司都已经有在芯片设计中使用人工智能的计划,其中部分公司甚至已经在生产中进行这种尝试。

人工智能如何改变芯片设计格局?

直到今天,人们在设计芯片的过程中仍然在使用各种设计工具进行电路、逻辑门、布线、布局的仿真和验证。这么做是为了最大限度的减少可能的错误并且节约时间和成本,但这个过程相当乏味且耗时。

图 1:半导体设计流程中的各个步骤。 资料来源:eInfochips

设计芯片的流程有很多步骤:一般从确定芯片的规格和架构开始,然后遵循上面流程图中的各个步骤。在设计完成后,设计文件(GDS II)将会被发送给工厂。

当摩尔定律有效时,这个流程只需要根据实际情况进行微调即可。但随着制程红利正在消失,FinFET时代到来。由于先进制程研发成本的增高,芯片制造商们不得不开始寻找新的方法来实现PPA的优化。这种新变化显著增加了芯片设计流程的复杂程度,并使得按期交付芯片愈加困难。

“设计一个28nm芯片的平均成本仅为4000万美元,”IBS首席执行官Handel Jones说,“但现在设计一个7nm芯片的成本是2.17亿美元,设计一个5nm芯片的成本则是4.16亿美元,设计一个3nm芯片的成本甚至达到了5.9亿美元。”

 随着芯片的迭代,晶体管数量已经从几千个增加到了数十亿个。这使得芯片上晶体管排布设计的异构性越来越高,并且它们通常都会采用某种先进封装工艺。与之前只需要考虑如何将更多的晶体管排列在同一空间不同,现在芯片设计中还需要考虑到功率密度、热预算需求、各种类型的机械和电气应力、邻近效应以及工作环境等复杂因素。这使得设计过程耗时大大增加,同时也堆高了设计成本。更糟糕的是,芯片制造商间的持续竞争迫使他们必须在更短时间内实现芯片的迭代,否则就会在竞争中处于劣势。这导致了芯片制造商没有试错机会:一次设计失误就代表着巨额损失。

人工智能如何提高芯片开发效率?

将人工智能引入到芯片设计的流程中有利于减少流程复杂性、减少错误并缩短开发周期。

例如,在芯片设计中布线过程的90%已经实现了自动化,仅需要一位经验丰富的设计师完成最后10%的工作即可。人工智能的参与可以将这最后10%的时间进一步缩短。

图 2:人工智能的作用越来越大。 资料来源:寒武纪人工智能研究

“这一切都是为了效率,”Rambus的研究员Steven Woo说,“本质上不论是人类设计师还是人工智能,其目的都是为了实现芯片优化,但人工智能显然在这一过程中更有效率。我们会对算法模型进行预训练以让其更好的工作。由于引入了强化学习算法,随着时间推移基于人工智能的设计工具会变得越来越强大。假以时日它将能够向设计人员提供几乎无错误的解决方案,这种方案优化PPA的效率会比传统方案要高得多。此外,同样由于效率的原因,芯片之间数据交换的速度也非常重要,因为AI需要快速访问大量数据。”

许多人都支持Steven Woo的这一观点。西门子IC设计部门工程总监约翰.史纳比表示:“人工智能将使得芯片设计流程进一步自动化,尤其是在芯片布局的设计过程中。实践已经证明,在模拟电路中采用机器学习方案可以提高生产力。在布局设计上,AI可以用于生成FinFET节点中的最佳器件布局建议,以最大程度的减少互连寄生效应。当芯片设计涉及加速度计和陀螺仪等微机电系统时,AI能够参与参数化的设计流程,以与人类合作设计IC和MEMS器件。这将使得设计人员能够更快完成MEMS、IC的软硬件集成,使设计工作变得更加轻松。”

人工智能如何学习?

AI“智能”的基础是它可以在短时间内进行大量的识别和匹配工作,但遗憾的是AI并不能像人类一样“学习”知识。事实上,人工智能获取知识的方式和人类有着本质的不同。一般来讲,在算法应用之前需要将包含了大量数据的训练集或输入到算法初始模型中进行训练。在经过长时间训练之后,算法才能算得上拥有了“智能”。

(雷峰网编者注:AI的“智能”来自于其在数据集中进行大量尝试和策略调整而得到的不同情况下的最优解。在实际生产遇到的新场景中AI将这些最优解策略与实际情况进行匹配,从而得出相对实际场景最优的答案。这里举个例子来解释人工智能学习和人类学习过程的不同:人类可以在课堂上记住“1+1=2”的结论,并将其应用到“一个苹果旁边摆上另一个苹果”的场景中,从而得到“这里有两个苹果”的结论。而人工智能的学习过程则更像猩猩:通过两次将单个苹果摆在面前数出两个苹果,并将这一过程重复成千上万次。猩猩就可以在下一次面对“一个香蕉旁边摆着另一个香蕉”的场景时,得到“面前有两个香蕉”的结论。)

此外,人工智能还可利用强化学习方法(RL)来指导训练结果。RL是一种机器学习技术,可以为AI的学习过程加入奖惩机制。

在一个引入了奖惩机制模型的人工智能算法中,AI的学习总是从初始状态开始,并会输出一些随机结果。然后设计师会对该结果做出判断,当该结果被接受时,将视为对模型进行了“奖励”,模型会继续向着这个趋势进行优化。相反的,当该结果被设计师拒绝时,将视为对该模型的“惩罚”。模型会调整策略方向。无论是设计师拒绝还是接受该结果,算法模型都会进入在调整后进行下一次迭代,并输出新的结果以让设计师接受或拒绝。因此随着RL学习过程的持续进行,人工智能算法将会变得越来越完善。

西门子工业软件高级副总裁兼总经理Ravi Subramanian为机器学习进一步做了解释:“机器学习是人工智能的一个子集,指的是机器无需外部编程实现自我进化的过程。传统设备的运行规则遵循计算机语言中if-then-else语句的‘二极管’逻辑和线性顺序。但机器学习方法能够使设备不断从自身采集到的数据中获得反馈,从而指导设备下一步的行动。”

Subramanian表示,要让AI进行学习,需要三个前提条件:

其一是需要一个数据集,即一个包含了大量数据的库。数据可以是RTLIP、GDSII、C语言或SPICE表格等多种形式。(雷峰网编者注:数据集就是人工智能算法的初始输入,将数据集输入算法相当于给AI“例题”进行学习)

其二是需要一个算法模型。这个模型使得AI系统能够完成观测、学习、反馈等任务。基于这个前提使用了人工智能算法的设备才能根据每一次结果的输出动态调节自身策略,而不是和传统设备一样仅根据输入的程序运行。

其三是需要一个目标函数。并且设计一个围绕着这个目标函数的奖惩机制,以完成强化学习过程。(雷峰网编者注:目标函数是指一个规定“最优解”定义的函数。每次训练完成后,将会通过该函数输出一个返回值,一般称作τ,可以看做是算法每次“考试”后的分数。设计人员将会根据τ值与目标函数期望值的差距来决定对算法模型的奖惩)

“人工智能本身并不会做决定”,他解释说,“谷歌人工智能研究负责人Francois Chollet的说法很准确,他将人工智能定义为系统对数据进行分析后应用在陌生场景中的能力。”

汽车可以通过衡量每加仑油能行驶的里程或者每次充电后的最大行驶里程来衡量其续航优劣。但人工智能系统不同,每个人工智能系统的设计都是独一无二的,设计系统的工具也是各不相同的。但整个芯片行业都报告基于人工智能的芯片设计工具提高了生产力。

例如,谷歌将人工智能应用于芯片布图规划,并发现他们可以在不到六个小时的时间里完成从前工程师动辄需要数月的工作。无论是人类还是人工智能,两者都可以通过PPA优化得到满足制造标准的芯片设计结果,但在生产流程中引入了人工智能的企业生产效率显然更高。

“将人工智能应用于芯片设计过程肯定会提高芯片性能,”Cadence 数字与签核集团产品管理组总监 Rod Metcalfe 说。“例如,在设计过程中使用了人工智能的5nm移动CPU可以提高14%的性能,7%的耗散功率和5%的晶体管密度,这对于芯片设计很重要。”

这些改进在其他应用中也得到了体现。Synopsys 人工智能解决方案高级总监 Stelios Diamantidis 表示:“使用基于 AI 的设计技术,我们的客户表示他们能够与传统设计方法相比降低25%的功耗,这种提升是惊人的。”

AI在芯片设计领域的未来

对大多数人而言,难以想象将10亿个晶体管集成到一颗芯片中。但根据2021年6月新思科技的报告,他们已经制造出了一种含有1.2万亿个晶体管、400000个AI内核,面积为46225mm2的芯片。这是使用传统工具的人类设计师无论如何也达不到的技术高度。

Cambrian AI Research 创始人兼首席分析师 Karl Freund 表示:“在芯片设计流程中引入人工智能来提高效率现在已是大势所趋,至少对主要芯片供应商而言是这样的。像Synopsys DSO.AI这样的系统正在为公司节省时间和金钱,并生产出功耗更低、性能更高、面积更小的芯片。现在,业界正将注意力转向优化物理设计之外的下一步,例如系统、软件算法的优化和设计验证。整个行业都在从这些创新中受益,消费者也将能用到性能更强劲,功耗更低,更便宜的芯片。”

所有主要的EDA公司都在致力于将AI功能加入到他们的芯片设计流程中。并且,人工智能不仅可以帮助他们将更多东西塞进更小的空间里,还可以帮助他们将更多东西塞进更大的空间里。

图 3:Cerebras 的晶圆尺寸芯片。 资料来源:大脑系统

Cerebras Systems 的第二代芯片采用7nm工艺开发,包含2.6万亿个晶体管和 850,000 个 AI内核。这是目前世界上由人工智能设计的最大的芯片,它和一个盘子的大小相当。相比之下,世界上最大的GPU也仅有540亿个晶体管。Cerebras 的芯片有40 GB片上内存来支持 AI 计算。要设计这种体量的芯片,必须使用基于人工智能技术的芯片设计工具。

未来,在PPA问题之外,人工智能还可以在集成芯片安全性等领域提供帮助。

西门子的Subramanian指出,人工智能已经在至少四个领域得到了应用:1、创建一种设计和验证IC的新方法;2、减少设计过程中的错误并既减少设计时间;3、构建一个基于机器学习原理的新计算架构;4、构建基于人工智能算法的芯片。

结论

当问题能够被人工智能理解的方式明确定义时,人工智能在设计中的效果最好。(编者注:即需要将实际生产中的种种情况准确的转化为目标函数的一部分。)因此,IC设计者必须先考虑是否存在与人工智能适应、学习、概括能力相关的问题,设计好目标函数。这样人工智能才能够准确的将这些知识/规则运用到不熟悉的场景中。

“了解是否存在非常适合人工智能的问题是第一步,也是最重要的一步,” Subramanian说,“这也可能是有人工智能参与的芯片设计流程中最关键的一环。”

到目前为止,已经有很多领域显示出人工智能的优势,并且无疑未来人工智能会在更多领域中显现出这种优势。

曾经人们对于AI可能会昙花一现的顾虑已经消失。如今站在面向未来的交叉路口上,人们正憧憬的眺望。一个新问题此时在人们的脑中回荡:“人工智能还能够做什么?”这个问题的答案或许就是交叉路口上应该竖起的路标。


]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/OvGtxvjza1ANUlJB.html#comments Thu, 17 Feb 2022 18:41:00 +0800
AI芯片创业公司们走到分岔口 //www.xyschoolife.com/category/chipdesign/cQ9qpk6MrseCtTJU.html 距离2016年左右的AI芯片创业热潮已经过去五年多,从团队组建,到芯片设计、再到产品落地,AI芯片公司们到了交出一份答卷的时间。

Graphcore大中华区总裁兼全球首席营收官卢涛

Graphcore大中华区总裁兼全球首席营收官卢涛对雷峰网表示,“2022年AI芯片公司的竞争会更加激烈,因为不同的公司选择了不同的策略和路径,今年开始能看得更加清晰。”

实际上,从2020年开始,大部分AI芯片公司都开启了芯片的落地,然而由于AI芯片与传统芯片有明显的差别,芯片提供者与使用者之间的认知差异,加上疫情的影响,和全球蔓延的缺芯潮,AI芯片的落地和大规模使用面临重重挑战。

2021年,业界更加关注AI的部署,包括对机器学习框架的关注,支持的模型,以及集群的管理和调度管理。

想要成为AI芯片的佼佼者,有哪三个秘诀?

AI芯片公司面前的七个台阶

AI热潮催生了大量的芯片初创公司,初创公司要成功落地全新类型的AI芯片,挑战当前巨头,可以以攀登珠穆朗玛峰来比喻。

卢涛认为,如果今天的巨头在珠穆朗玛峰上,想要达到巨头的高度,需要攀登七个台阶。

第一个台阶是组建团队,第二个台阶是宣讲理念,第三个台阶是设计出芯片,第四个台阶是有芯片且能给客户送样品做测试,第五个台阶是有产品有落地,第六个台阶是有产品,有很多落地的,第七个台阶是有很大的市场份额。卢涛认为Graphcore处于第五到第六个台阶间。

处于这个阶段的公司,表明其已经解决了许多技术挑战。AI计算与传统的CPU有显著的差别,过去5-10年间,CPU的应用都十分明确,比如Web服务、数据库服务、存储服务等。但AI整体面向的应用有许多创新和研究,整体呈高度动态化。

在这样的情况下,AI芯片的落地更显艰难,步骤大致可以分为三个,首先,要用AI芯片的性能优势吸引客户,接下来客户会考虑软件移植的难度以及时间,在历经验证之后,才能实现大规模部署。

这个过程可以说是漫长而又挑战重重。其中一个非常大的挑战就是AI芯片提供者和使用者之间认知的差异。“从我们的角度而言,虽然这种认知的差异有所改善,但挑战仍然持续存在。”卢涛说,“比如,不少用户可能觉得我们的IPU性能表现好,并想能在不修改代码的情况下迁移到IPU,这就需要我们在软件和生态方面做大量的工作。”

AI软件和生态的建设,要求对某个具体的应用领域有比较完整的认知,实现整个业务端到端的配合,不仅仅是AI,还包括AI芯片与其它设备、系统的配合,运维管理等。

卢涛指出,“作为计算平台的提供者,要让最终用户把我们的平台用好,生态非常重要,生态建设能够降低用户的使用门槛。同时,垂直案例也非常重要,通过‘打样板’,能够显著加速在某一行业的应用。当然,加强与AI平台厂商的合作同样关键。AI领域有两种用户,一种是AI开发者,有了案例就可以做相应的开发,还有一种是AI平台型企业,他们可以把AI技术封装以提供给其他人员使用。”

对于有计算机背景的开发者或研究员,他们可以基于TensorFlow、PyTorch和百度飞桨等进行编程,如果不具备这个能力,就需要借助更高级的框架,比如Hugging Face来降低开发门槛,简化开发。这两者的开发难度有显著差别,如果用PyTorch实现一个业务,可能需要两百行代码,但采用Hugging Face,可能用50行代码就可以完成。

成为AI芯片领先者的三个关键

不难发现,想要实现AI芯片的大规模落地,减小AI芯片提供者和使用者之间的认知差是关键,这其中的关键又是软件和生态的建设。

但要成为AI芯片领域的领导者,卢涛认为有三个关键:预判+冒一点风险+一点运气。

“Graphcore在2016年成立时,只能追赶。对于新的领域,如果能提前预判,就可能在领域里具备领先性。”卢涛具体解释。

2016年,传统的机器视觉模型ResNet已经存在,这时候Graphcore需要追赶,作为追赶者需要做一些预判发现机会。2020年,Graphcore关注到了Transformer技术,这种技术本来是用于自然语言处理的底层技术,但业界出现了用Transformer做计算视觉的趋势,Graphcore率先开始支持。

到2021年下半年,一些基于Transformer的视觉模型,比如ViT成为了热门。由于有提前的预判,Graphcore对于新的基于Transformer的视觉模型以及GNN都有很好的支持,很多创新和前沿的模型比GPU支持得更好。

正是凭借着创新的IPU硬件和不断完善的Poplar软件生态,Graphcore在2021年有不少应用案例。在2021年下半年,安捷数科利用IPU进行气象预测、精准灌溉、防灾减灾。深势科技完成分子动力学模拟软件DeePMD-kit向IPU硬件的迁移,探索基于分子动力学模拟的科学计算、药物设计、材料设计和新型能源等场景。

在金融保险领域,牛津-英仕曼用IPU进行股价预测;Tractable与Graphcore达成合作,加速事故和灾害恢复。电信方面,Graphcore与韩国电信合作发布了IPU云。在城市环境可持续发展领域,升哲科技基于IPU进行城市相关可持续发展方面的应用。在医疗、生命科学领域,Graphcore与斯坦福大学医学院合作,使用IPU以“医疗+隐私计算”为核心方向进行了一些研究和探索。

但这些应用案例多为前沿技术和应用的探索,不是大规模的商业应用。对此卢涛表示,“商业领域内,我们有一些大规模应用的客户,他们更关注于自身业务给客户带来的价值,很少和技术厂商一同发布新闻。前沿的研究更加开放,研究者也希望结果能让更多人看到,自然会有更多可以分享的案例。”

他也同时透露,2022年,Graphcore会有一些和国内公有云厂商的IPU产品发布,也会有新的硬件产品的发布。Graphcore也会在一些相关的AI应用领域中会进一步加深合作,比如AI辅助科研、自动驾驶等是他们2022年在AI应用或垂直领域中比较重要的方向。

值得一提的是,Graphcore的IPU与CPU的硬件解耦,有助于IPU更好的拓展市场。比如在BERT训练中,Graphcore采用一台2颗CPU的服务器和64颗IPU,比例为1:32,在计算机视觉模型中的比例则基本为1:8。但如果是英伟达或者英特尔的系统,无论何种场景和模型,都会有一个固定的CPU和GPU比例,比如1:4或1:2。

写在最后

AI芯片的竞争最终依旧会演变为生态、商业的竞争。在AI芯片的早期阶段,虽然参与者众多,但各自都在团队组建和产品开发的阶段,AI芯片公司间并没有真正的竞争关系。随着AI芯片的发布,以及落地的推进,AI芯片公司之间的竞争才真正开始。

当越来越多的领域和客户开始关注AI的规模应用和落地时,自然会加剧AI芯片公司之间的竞争,这时候,已经不再单纯比拼硬件性能,软件和生态才更能打动最终用户。

2022年,我们将看到AI芯片公司间的竞争日趋激烈,我们也将慢慢看到AI芯片公司们真正的实力。雷峰网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/cQ9qpk6MrseCtTJU.html#comments Tue, 25 Jan 2022 11:08:00 +0800
UWB芯片设计公司瀚巍微电子完成Pre-A+轮融资 //www.xyschoolife.com/category/chipdesign/OWSHWQlYsAj8Duqn.html 雷峰网1月12日消息,低功耗UWB(超宽带)芯片设计公司瀚巍微电子(MKSemi) 宣布完成Pre-A+轮融资。本轮融总额8000多万人民币,将用于产品研发,市场扩展以及人才引进。本轮融资由光速中国和高榕资本联合领投、启明创投和常春藤资本跟投。

瀚巍微电子成立于2019年,由多位资深数模混合信号设计领域的专家领衔,专注于UWB芯片及方案的设计开发。瀚巍的低功耗UWB技术,可增加电子产品的电池寿命,使在尺寸要求极其严苛的无线传感器端产品上增加UWB定位功能成为可能。

UWB超宽带技术源于20世纪60年代,通过超大带宽,实现低功率谱密度上的快速数据传输。目前苹果、三星等巨头均开始在手机、智能手表、智能音箱及手机配件中集成UWB技术。据市场调研公司ABI Research透露,尽管UWB的生态还处于早期阶段,但整个行业正在快速成长。预计到2026年,内置UWB技术产品的出货量,将从2020年的1.43亿部,增长到13亿部。

在完成Per A+的同时,瀚巍正式发布其最新款UWB无线SoC(系统级芯片)产品MK8000,该芯片功耗低、系统集成度高,满足当下智能手机和物联网产品对UWB芯片的需求。

联合创始人、CEO张一峰博士表示,现阶段瀚巍正积极开展与手机平台公司的密切合作,并同时加速推广新产品MK8000在消费类电子和工业互联网产品领域的应用,例如智能家居,智慧城市,汽车,可穿戴产品以及健康监控设备等。

此轮融资之前,瀚巍微电子于2020年年底完成了数千万人民币的Pre-A轮投资,由OPPO领投,中芯聚源投资和联发科跟投。

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/OWSHWQlYsAj8Duqn.html#comments Wed, 12 Jan 2022 14:46:00 +0800
国家级基金领投,EDA公司芯华章宣布获得数亿Pre-B+轮融资 //www.xyschoolife.com/category/chipdesign/i9Ak3utrzLBEOwXT.html 雷峰网消息,2022年1月5日,EDA(集成电路设计工具)智能软件和系统领先企业芯华章宣布完成数亿元Pre-B+轮融资,由国家制造业转型升级基金旗下的国开制造业转型升级基金领投。

据悉,本轮融资将加大产品研发投入,并加快新一代EDA的下一阶段研究及技术创新。

芯华章董事长兼CEO王礼宾说:“非常荣幸芯华章能得到国家级基金的认可,这是对过去近两年团队日夜兼程交付成果的莫大肯定。我们深信,中国在数字化领域,尤其在人工智能、云计算、汽车电子等方面,将会逐渐引领全球。芯华章作为中国本土的EDA供应商,我们的一大优势是离这个充满爆发力的市场很近,我们将以客户需求为导向、以终为始来推进研发并搭建生态。未来,我们将坚守初心,以更多的原创技术赋能产业,让更多系统应用的创新得以实现。”

芯华章成立于2020年3月,公司名字寓意开启芯片产业的华力篇章。虽然成立时间不久,但芯华章推出产品的速度很快,也获得了多轮融资。

2020年11月26日,芯华章推出支持国产计算架构的全新仿真技术,以及成本最多能节省4倍的高性能多功能可编程适配解决方案。

2021年11月,芯华章又推出四款产品:高性能FPGA原型验证系统桦捷(HuaPro-P1)、国内领先的数字仿真器穹鼎(GalaxSim-1.0)、新一代智能验证系统穹景(GalaxPSS)、国内率先基于字级建模的可扩展形式化验证工具穹瀚(GalaxFV)。

资本也十分看好芯华章,公开信息显示,从成立至今,芯华章对外宣布了6轮融资消息,金额都是亿元人民币级别。雷峰网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/i9Ak3utrzLBEOwXT.html#comments Wed, 05 Jan 2022 17:48:00 +0800
国产EDA觉醒时代:从港中文走出来的ICCAD竞赛冠军 //www.xyschoolife.com/category/chipdesign/g39w2kEoqs8L688U.html 2014年博士毕业那年,摆在魏星面前的无非三条路:一,去美国Cadence、Synopsys或Mentor工作,像他在港中文的大多数同学一样;二,找一家互联网企业上班,像他以前在清华EDA实验室的许多师兄师姐一样;三,自己创业,留在国内继续研究EDA。

最终,这位天之骄子选择了当时对他来说性价比最低、也是最艰难的第三条路——创业。

与师兄魏星相比,2019年毕业的陈耿杰与贝泽华要「幸运」得多。

在他们毕业这一年,美国宣布对华为制裁,不允许华为在芯片制造中使用由美国设计、生产或授权的EDA软件工具。一夜之间,EDA成中国卡脖子技术,华为、中芯等等大厂开始大量招募EDA研发人才,他们也由此有了一个更大的舞台,可以留在国内研究EDA。去年,陈耿杰与贝泽华就加入了华为。

近两年,「EDA人才培养」成为解决中国卡脖子问题的话题聚焦点。相比当下的人才短缺,大众鲜少讨论、但更值得关注的是:2019年以前,国内的EDA人才如何生存?EDA软件公司又是如何夹缝求生?

而EDA人才的去向,从十年前的「大多从事互联网」,到如今「炙手可热、供不应求」,正是国内EDA行业变迁的缩影。


一、创业(上)

2014年,魏星与同门师兄弟刁屹、林德基,以及他们共同的博士导师吴有亮(David Wu)一起创立了奇捷科技(Easy-Logic),次年在离香港中文大学不远处的香港科学园落地,是香港第一家从事EDA软件工具研究的企业。

图注:香港科学园

奇捷科技的创业目标,是研发出一款能够自动处理功能性工程变更(Functional ECO)问题的EDA工具。

EDA的全称为「Electronic design automation」(电子设计自动化),主要用于辅助芯片设计,是芯片制造的两大核心技术之一(另一项是光刻机)。根据不同功能,EDA工具可以分为数字设计、模拟设计、晶圆制造、封装与系统等五大类,其中数字设计又可以分为前端设计与后端设计,奇捷科技团队要研究的ECO工具便属于后端。

这个想法,源于魏星与团队在读博期间参加ICCAD的CAD竞赛经历:

2012年,魏星与林德基、刁屹组队参加CAD竞赛。当时,他们挑战的是美国EDA三巨头之一Cadence所出的Problem A——寻找功能性工程变更(Functional ECO)的最小逻辑差,团队经过五个月的努力,最终提出了出色的ECO算法,获得了第一名。

ICCAD竞赛的前身为台湾在1999年创办的CAD比赛,自2012年列入ICCAD。每一年,ICCAD竞赛会出三道题,分别为Problem A、B、C,覆盖前端与后端,由Cadence、Synopsys、IBM等工业巨头出题,题目往往是它们在实际生产中遇到的问题,并提供工业级数据进行测试,每年都会吸引全球近200支队伍参赛,是EDA领域影响力最大的国际学术竞赛。

魏星与团队代表港中文在ICCAD竞赛中首次夺冠,不仅拉开了港中文在ICCAD竞赛中表现突出的序幕,其算法的性能甚至比Cadence自己的工具还优越,更是给他与团队带来了巨大的鼓舞。

此后两年(2013年、2014年),魏星与团队又连续夺冠,2013年港中文更是一举拿下A、B、C三道题的冠军。2012年至今,ICCAD的CAD竞赛一共产生了30个冠军,香港中文大学拿了11个(排名全球第一),奇捷科技的创始团队便贡献了3个。

图注:ICCAD2012 港中文冠军团队,从左到右分别为刁屹、吴有亮、林德基与魏星

连续三年在全球顶尖EDA竞赛中夺冠的经历,使魏星等人对ECO工具的研发信心倍增。

2014年,魏星博士毕业,自然考虑就业。

那时,港中文的大多数EDA毕业生会选择去美国的EDA软件设计公司Cadence或Synopsys工作,因为无论是香港或大陆,EDA产业的发展均处于几近荒芜的状态,就业机会少,薪资待遇也不具备优势。但魏星并不想去美国,一是有时差,二是往返飞行时间太长。

要留在国内发展,原先也大概率是进互联网或金融行业。EDA就相当于计算机系里的「数学系」,里面用到了非常多数学知识与数学模型,只要学好EDA,无论是去互联网大厂写代码,还是去金融行业做模型,都非常容易。EDA在国内火起来之前,魏星在清华EDA实验室的许多师兄师姐毕业后基本都进了互联网大厂;国内其他EDA重点高校,像复旦大学早年培养的EDA毕业生也大多转了金融行业。

但对魏星来说,明明他们在EDA这一块有所造诣、却要转行,多少有些不甘心。

那一年,恰巧魏星的导师吴有亮六十岁退休。吴有亮带领的实验室是港中文在研究ECO上的独一脉,在逻辑优化、逻辑验证、逻辑等价性变换等方向做了许多研究。魏星等人是吴的关门弟子,如果他们毕业后不继续研究,那么ECO这一脉就断了。

EDA的底层是算法,魏星本人对算法设计与程序研究也比较感兴趣,因此,综合多个因素,又有前三次ICCAD竞赛的冠军算法「壮胆」,没有想太多,他就决定了要创业。


二、创业(下)

「后面就有点上了贼船下不来的感觉了。」魏星调侃自己道。

ECO,全称为「Engineering Change Order」,即「逻辑功能更正」,即使在拥有数十多年发展历史的EDA领域也属于小众分支、后起之秀。目前,在美国EDA三巨头中,也只有Cadence研发出了一款Conformal ECO,Synopsys称已进行到Beta Version(测试版),Mentor Graphics则毫无进展。

简单来说,ECO的作用是「局部补丁」,伴随着芯片功能设计的日益复杂化而出现,主要是为了减少芯片设计中因发现某一流程出错而需重新调整的时间长度,降本增效。

当前,芯片设计的全流程耗时越来越长,动辄上千万个逻辑单元,从开始设计功能到最后流片,往往要一年以上。假设一款芯片设计已经用了九个月,布局布线也已完成,即将流片时才发现第一步的逻辑功能出错(如将「红黄蓝」写成「红黄绿」),需要修改。由于后面的步骤都是基于第一步,如果将第一步推翻,后面的步骤也会跟着失效,相当于整个芯片要重新设计。对于芯片厂商来说,这意味着成本会大幅增加。

这时,ECO工具就派上了用场:当芯片设计进行到后期,若发现前期的逻辑功能存在错误,则可以通过逻辑补丁对局部电路进行调整。比方说,一个逻辑功能由10万个逻辑单元构成,使用ECO工具可以只调整数十个、或数百个逻辑单元,其余单元不变,即可将问题解决掉,也无需重新设计芯片。

听起来是一个神奇的工具,但在奇捷科技刚成立时,大陆的许多公司并不知道ECO是什么,也不了解它的重要性。他们去联系芯片公司,得到的回答往往是:「EDA软件是什么?要买就直接买设备与器材,买一个软件好像很亏。」

没有市场、没有融资、没有人才,魏星回头看,感慨道:「直到2019年年底之前,这个(创业的)过程都是很痛苦的。」

2018年,经过四年的艰苦研究,奇捷科技推出了第一个ECO工具版本——EasyECO。虽然是首款国产逻辑功能自动更正软件,但并没有受到市场的追捧,在客户的心中认可度并不高,即使有人愿意出钱购买,价格也不高。而那时候,奇捷科技的账面已经几近归零,接近大半年发不出工资,「当时差一点就倒闭了」。

马死落地行,他们开始找投融资。当时大陆对EDA或ECO几乎没有概念,他们也找不到投资。后来,他们找到了台湾的联发科(MTK),联发科觉得EasyECO有一定的技术含量,联合香港科学院一起投资了200万美元,奇捷科技才活了过来。

在这期间,魏星、刁屹与林德基三人的博士导师吴有亮也出了很大的力,无论是技术研发、发展策略还是资金援助。魏星回忆,在奇捷刚成立时,很难拉到投资,吴有亮就以股东借款的名义,在公司最困难的时候个人垫了两百万多港币。

问魏星是否后悔过创业、错失互联网大厂的百万年薪,他答:

「如果是已经在大厂里拿过年薪百万,那可能很难下定决心去创业,因为你会经历工资很低的状态。但因为我们一毕业就创业,没有真正拿过一百万,不知道年薪百万是什么感受,所以容易接受一点。」


三、2019年之殇

每一个行业的发展都有可以被列入史册的时间点。对于中国的EDA行业来说,2019年无疑是一个划时代里程碑。

2019年5月17日,美国商务部宣布将华为列入实体清单,断供美国芯片与软件,断供现代高端芯片设计必需的EDA工具。「芯片热」一时席卷大陆,原先国内各个籍籍无名的EDA软件公司也突然引起了人们的关注。

纵观EDA在全球的发展,我国EDA存在两个极具警示性的特征:

一,EDA是一个已经在全球、尤其是美国走了四十多年的行业,商业化模式十分成熟稳定,但在中国大陆却是一个新兴领域,处于朝阳蓬勃的上升期;

二,在全球任一EDA软件开发团队中,华人所占的比例往往最大,但在中国大陆,EDA人才数量却极少,处于严重短缺的状态。

据《中国集成电路产业人才白皮书(2019-2020年版)》显示,至2022年,我国前后端全行业人才需求将达到74.45万人,EDA领军人才尤其稀缺。

事实上,EDA人才的「流失」,无论是赴美工作,还是转行,都是因为2019年以前国内的EDA人才没有什么用武之地,行业薪资竞争力也大大不如互联网与金融,EDA软件公司与芯片公司亦然。魏星与奇捷科技便是一个例子。

EDA在美国的商业化始于上世纪八十年代,三巨头Mentor Graphics、Synopsys与Cadence均在这一时期创立,分别是1981年、1986年与1988年。而我国大陆地区较有竞争力的EDA公司华大九天成立于2009年,「EDA第一股」概论电子成立于2010年,其余大大小小的公司更是晚于美国三巨头30年以上。

技术的竞争背后往往是人才的较量,但人才的持续成长又往往要依托产业的成熟发展。

我国对EDA人才的培养计划并非近两年才开始。上世纪八十年代,欧美也曾在EDA软件上对中国限制出口,促使国内开始研发EDA。1986年,「863计划」便将EDA列为技术攻破重点之一,清华大学计算机系的EDA实验室与复旦大学专用集成电路与系统国家重点实验室等高校团队在承担科研任务的同时,也培养了一大批EDA人才。

1993年,国内自主研发的EDA「熊猫系统」问世,但没多久,欧美就放弃了对中国的EDA封锁于禁售,美国的EDA企业也相继进入中国市场,出现了「造不如买、买不如租」的局面。国产集成电路产业倾向于采用国外现成的成熟软件,国产EDA软件也丧失了发展的机会。

国产EDA软件公司夹缝求生,市场不买账,收入自然减少,人员薪资待遇随之下滑,发展空间小,转行或出国实是环境所趋。

但2019年的钟声敲响后,人们开始意识到基础研究的价值,「国产替代」成为解决卡脖子问题的先锋。原先在美国EDA三巨头工作的华人纷纷回国创业,政策与资金向EDA倾斜,数十家EDA创业公司如雨后春笋,互联网大厂也开始搞硬件,EDA人才也顿时变得炙手可热。

今年8月,招商证券电子研究团队发布《半导体行业深度专题之十—EDA篇:蓄势待发,国产EDA迎黄金时代》报告,统计了Synopsys和Cadence在国内的营收,显示2020年Synopsys在中国大陆的营收为4.21亿美元,占其总收入比例约11.4%,Cadence在中国大陆的营收4.07亿美元,占其总收入比例约15.2%,合计8.28亿美元。这也意味着,国产EDA公司具有近10亿美元的国产替代空间。

人们相信,「多点布局下,国内EDA生态逐渐形成,国产EDA迎黄金时代。」


四、幸运儿

与师兄魏星相比,2019年博士毕业的陈耿杰与贝泽华无疑称得上是时代的幸运儿。

陈耿杰与贝泽华的本科分别毕业于中山大学电子系与上海交通大学计算机系,两人同时在2015年进入香港中文大学计算机科学与工程系,师从EDA领域知名女性科学家杨凤如(Evangeline Young)教授,又先后在2015年、2016年带队在CAD竞赛中夺冠,更在2020年与2021年前后脚入职华为2012实验室。

图注:ICCAD2016B 港中文团队领奖现场,杨凤如(左二)、陈耿杰(左三)与贝泽华(右二)出席了颁奖典礼

在他们博士毕业那会,大陆的EDA相关岗位已经大幅增加,薪资待遇也好于从前。贝泽华描述,2015年开始读博时,他连EDA究竟是什么都不太清楚,但在2019年毕业时,已经可以胜任芯片公司的EDA岗位,专业对口的就业机会也明显增加。

他觉得自己很幸运,在2015年本科毕业、正处于迷茫期的时候,做了一个正确的选择。

杨凤如一年只招收两到三名学生,凡事亲力亲为。当时,贝泽华在考虑读博时,实际上并没有明确的人生规划,杨凤如在港中文的博士招生委员会里捞起了他的简历,给他发了一封邮件解释「学习EDA不需要太多的学科基础,主要是组合逻辑或数学优化问题」,邀请他去面试她的PhD,于是贝泽华去面试、顺利拿到了offer。

图注:贝泽华

在EDA不为绝大多数青年学子所知时,更多人是因为「巧合」而选择EDA,比如贝泽华,比如魏星。在魏星本科毕业、保送研究生时,他之所以选择读EDA,也是因为他的成绩处于保送名单末端,只能服从分配,最后进了当时「大家都不去的、有空缺名额」的EDA实验室。

但深入EDA的学习与研究后,他们都爱上了这门「有趣又有用」的学科。如魏星所说,EDA在集成电路中属于底层研究,支撑着上面的芯片设计、集成板卡与更上层的移动应用等,只需要解决好EDA领域内的问题,但对算法的要求又极高,这种「独立又专注」的问题特性很吸引他们。

相形之下,陈耿杰是少数主动选择EDA的人。他形容,EDA就是一个「用来解决硬件设计的软件」,他本科学的是电子专业,偏硬件,同时又接触过一些软件,对软硬件都很感兴趣,于是就折中地选择了EDA这个「软硬兼施」的专业,主动联系杨凤如、希望去港中文读博。

读博后,陈耿杰在EDA研究上取得了卓越的成就:博士还没开始读就获得了2015年CAD竞赛Problem A的冠军(2016、2018也夺冠),2017年ICCAD最佳论文奖(港中文第一位),2018年ACM SIGDA学生研究竞赛第一名,2019年ISPD竞赛冠军,2019年ACM学生研究竞赛第一名,2020年ACM杰出博士论文奖(EDA方向),2021年ASPDAC最佳论文奖。

图注:2019年,陈耿杰(左)在ACM学生研究竞赛中获得第一名,由图灵奖得主Yann LeCun(右)颁奖

博士期间,陈耿杰分别在美国的Cadence与Synopsys实习过,但毕业后,他并没有考虑赴美,而是加入了当时刚成立不到一年的EDA初创公司鸿芯微纳,负责先进技术节点启动的布局布线。呆了一年多后,觉得自己的成长不大,就跳去了华为。

贝泽华在博士期间曾获得2016年与2019年CAD竞赛冠军,并获得两次最佳论文提名(DAC 2016与ISPD 2019),也曾在Cadence与Synopsys实习。毕业后,原先他是计划进入Cadence,也拿到了offer,但呆了快一年后,也离开了Cadence、加入华为。

「当时想的是,Cadence既有经验,又有专家支持,经验能力慢慢积累就好了。因为里面都是十几年的工具了,已经十分成熟,每个人负责自己的职责、在上面添砖加瓦就行。而华为的项目很多是从0到1,经验和能力的积累会快很多。」贝泽华复盘。

在EDA研发被寄予解决中国卡脖子问题的手段,新时代的EDA青年,如贝泽华,如陈耿杰,所面临的责任也被赋予了新的意义。除了是一份养家糊口的工作,他们在参与研究EDA的过程中也有了不一样的感受:

「因为是解决卡脖子问题,所以有一种使命感,虽然我们也不会经常把这个挂在嘴边。」陈耿杰谈道。


五、转机

对一介小小的EDA创业者魏星来说,2019年也是一个重要的转折点。

2018年推出EasyECO后,他们开始在全世界与Cadence的Conformal ECO竞争。大部分情况下,由于名气小、工具新、研发支持不足,奇捷科技都是以失败收场。但2019年,在一次争取三星订单的过程中,他们打败了Cadence。

当时,三星有一个紧急的项目要用ECO工具修改逻辑单元。他们先是用了Cadence的Conformal ECO,发现要加四千多个逻辑单元,无异于推倒重来,工程师的心态十分崩溃。后来,他们采用了魏星等人开发的EasyECO,只需加四五十个逻辑单元就将问题改正,喜出望外,就选择了购买奇捷科技的工具。

「评价ECO工具的性能好坏,标准很简单,就是看修改的逻辑单元数量。如果要修改几千个逻辑单元,要一两个月的时间,工程师就很痛苦,相当于他要重做。但如果只修改几十个逻辑单元,一天就可以完成,工程师就很高兴。」魏星解释,「ECO工具的底层是算法。如果核心算法运行地好,就能快速求解出近似最优解,快速解决问题。」

之后,三星的其他部分也购买了奇捷科技的ECO工具,成为了奇捷科技最大的客户。

「我们现在有十几个客户,都是我们一点一点打下来的。」魏星自豪地谈道。他对AI科技评论回忆,从2020年开始,他既当CEO又当CTO,满世界跑,2019年有小半年都在台湾,光AMD就去了五六次。飞廉价航班,住平价旅馆,如此辗转。

虽然艰苦,但几年下来,随着产品在市场的认可度提高,魏星等人开始越来越有成就感:「我们去AMD也是直接测试他们的5nm电路。如果我们不开这个公司,可能我们很难有机会去与这样的国际芯片巨头合作,获得他们的重视,还能与Cadence的工具去PK。」

据介绍,2018年与2019年,奇捷科技的年收入都不超过100万人民币,今年预计可以达到100万美元,自负盈亏指日可待。

2019年以后,随着国内对EDA商业工具的关注度在上升,他们在融资方面也顺利了许多,不久前也完成了近4000万元的A轮融资。

除了EasyECO,奇捷科技接下来还计划向市场推出 Formal Arithmetic Verifier(FAV)算数逻辑形式验证工具与Easy-iPlace智能布局布线工具。在2014年的CAD竞赛中,FAV工具的完成率达到了100%,设立了算数逻辑形式验证工具的行业基准。而Easy-iPlace则可以使芯片的曼哈顿总导向长度减少1-3%,从而获得经过优化的布局结果。

如今,奇捷科技已成为国产ECO的独角兽。魏星笑道:「我们不敢说自己是世界第一,因为还有Cadence的Conformal,但至少也可以排得上世界第二了!」


六、EDA人才回流与培养

纵观港中文历年EDA毕业生的去向,我们不难发现:早些年,港中文所培养的大部分EDA博士毕业生都去了美国硅谷,但随着国家对EDA的重视加大,越来越多博士生选择回到大陆发展。

近两年,虽然大陆各高校开始加大对EDA人才培养的投入,但终究起步晚,人才供应数量有限。而作为一所老牌名校,港中文计算机系从上世纪90年代开始研究EDA、培养EDA研究生,一定程度上可以弥补我国大陆在领军人才一块的不足。

港中文最早的EDA带头人是黄泽权(Chak-Kuen Wong)教授。他于1970年在哥伦比亚大学获得博士学位,而后加入美国IBM研究院从事EDA相关研究,1995年回到港中文任教,1996年出版EDA经典教材《An Introduction to VLSI Physical Design》,之后港中文就逐步建立起了世界级的EDA研究团队。黄泽权本人更凭借在EDA领域的成就入选IEEE Fellow与ACM Fellow。

图注:黄泽权教授

二十多年来,港中文在EDA上持续投入。目前,港中文EDA方向有7位名师(如下图),研究范围覆盖了系统设计、架构设计、逻辑物理综合、测试与验证、制造与封装等EDA领域,近六年来在EDA领域国际顶会DAC&ICCAD上共计发表论文94篇(系统设计10篇、架构设计23篇、逻辑物理综合20篇、测试与验证21篇、制造与封装20篇),研究积累可谓深厚。

根据计算机领域的世界学术排名 CS Ranking,港中文在EDA (design automation)领域一直稳居世界前列,自2021年已经排名世界第一。

在人才培养中,港中文重视实践与知识的「传帮带」,如:自2012年起,他们每一年都会参加ICCAD、ISPD等等学术竞赛,鼓励学生去各大芯片设计公司实习,以此来锻炼他们的实战能力。魏星、陈耿杰与贝泽华等人都认为,CAD竞赛的参赛经历对他们学习EDA有很大帮助。

知识传承上,港中文的教师在招生上也十分积极主动。除了贝泽华,2019年与2020年CAD竞赛的冠军成员汪方舟也是在杨凤如的游说下选择了攻读EDA博士:

「当时与Evan(杨凤如)聊,觉得她是一个非常和蔼可亲的人,学生毕业后的去向也都挺好的。第二是看到老师组里的师兄师姐都很优秀,觉得可以从大家那里学到很多东西。」

图注:ICCAD2019C 港中文团队,最右为汪方舟

汪方舟的本科就读于香港城市大学。2019年毕业时,他身边的大多数同学都选择了热门的人工智能方向,而他想「做点不一样的东西」。于是,导师抛出橄榄枝后,他没有犹豫太多,就接受了offer。

这时,EDA在国内已经火起来,汪方舟的成长机会也多了许多。比如,在考虑实习时,他的选择已经不仅仅限于Cadence与Synopsys,还有国内的各大需要EDA工具研发的平台。今年,他就选择了进入华为诺亚方舟实验室实习。这样的机会,对于2012年代表港中文在CAD竞赛中首次夺冠的魏星来说,是不可想象的。

不过,据汪方舟介绍,目前在华为从事EDA的人,相较于美国三大家,大多是硕士,博士较少。这说明,培养高端的EDA人才仍是当务之急。

「其实EDA的门槛没有大家想象的那么高。」汪方舟分享自己的学习心得。他认为,EDA领域的问题并不难理解,只要努力提高编程能力、能用代码将想到的算法实现出来,同时多看相关书籍(比如《VLSI Physical Design: From Graph Partitioning to Timing Closure》),关注新兴研究,「不是EDA本科生也能很快上手」。雷峰网

从企业用人的角度来看,魏星则认为,EDA人才的培养一定要与芯片设计公司合作。「芯片行业的技术应用性很强,开发工业软件不能光凭想象。」在技术壁垒加深的情况下,鼓励高校学生去参加有工业界密切参与的学生竞赛(比如ICCAD竞赛)是一个不错的选择。


七、走在未来

问大陆EDA行业距离成熟期还差什么,魏星与贝泽华都不约而同地回答:「时间。」

关于时间,魏星还提到另一个维度:市场应给予新兴的EDA创业公司更多的耐心与宽容。

他认为,奇捷科技能从「差点倒闭」到「自负盈亏」,一是因为团队从参加ICCAD竞赛时就研发出了不错的算法,「底层算法是决定一个EDA工具成败的关键因素」;二是入场早,而EDA领域需要长时间的研发积累,「如果没个三五年的积累,很难让芯片设计公司接受我们的工具」。

而笔者认为,在关于时间的思考上,我们还可以有一个新的视角:未雨绸缪。也就是说,在科技的研究上,我们是否可以赶在一项技术真正被外国卡脖子之前主动去投入研发,即使当下的实际产值并不高?

这样「吃力不讨好」的事,显然企业是不会干的,只能由国家出钱、高校主导。然而,如果没有企业所提供的实际岗位与生产探索,预防卡脖子行动的闭环又是无法完成的,因为即使高校培养出了优秀的人才,没有就业机会,最终也是白忙一场。雷峰网

不过,单就EDA人才的成长与机遇来看,我们至少可以说一句「他们熬出头了」。但在未来的十年里,我们是否可以迎来国产EDA的黄金时代,人才只是其中的一个因素。

愿彻底的觉醒,愿不再酣睡。雷峰网

参考链接:

1. https://www.cpr.cuhk.edu.hk/en/press/cuhk-faculty-of-engineering-phd-student-receives-the-first-place-in-acm-student-research-competition-for-research-on-vlsi-routing/

2. https://mp.weixin.qq.com/s/u0SYUPc6XTvQ3vly-l_mkQ

3. https://www.eet-china.com/mp/a68540.html

4. https://www.sohu.com/a/506605446_166680

5. https://www.163.com/dy/article/FTARKTPS0511RIVP.html

6. http://csrankings.org/#/index?da&world

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/g39w2kEoqs8L688U.html#comments Thu, 30 Dec 2021 15:24:00 +0800
从进口替代到全球一流!中国第一家上市的芯片设计公司,成立仅用『5分钟』 //www.xyschoolife.com/category/chipdesign/Wmx1kywIqLdwAqRl.html 巨头林立的芯片行业,想要实现跨越式超越的难度超乎想象,因此,国内大多芯片公司只能从某一细分市场实现突破。但也正因为有了这些芯片公司的单点技术突破,加上资本、政策的共同努力,中国芯片产业才能有整体赶上甚至超越全球领先者们的机会。

为此,雷峰网策划了“中国芯片行业隐性冠军”系列文章,让更多人认识那些过去几十年默默投入的半导体人和公司,了解他们在细分市场实现突破背后的故事以及未来的可能性。

这是本系列的第二篇文章。


2019年开市的科创板,首批挂牌上市的25家企业中,芯片公司就有5家。此后的两年间,中国芯片公司迎来了上市潮,到2021年7月22日科创板开市两周年时,科创板已经有32家芯片公司上市,总市值超过1万亿。

2021年8月4日,科创板又迎来了一家创造了多个中国第一的芯片公司——复旦微电子。

复旦微电子是国内第一家发起式股份公司的集成电路设计企业,是第一家在港资本市场上市的国内芯片设计企业,还是第一家集成电路布图设计登记企业。

2021年8月4日,复旦微电子成功登陆上交所科创板,股票代码:688385.SH,形成“A+H”资本格局

让人意外的是,公司创始人仅花了5分钟就达成了组建复旦微电子的意向,创立2年就成功上市,23年后的今天已经推出比肩全球顶尖水平的FPGA。

从复旦微电子的发展历程中,可以看到中国芯片人的坚守和家国情怀,可以看到成百上千家中国芯片设计公司从进口替代到赶上甚至超越全球顶尖芯片公司艰难历程的缩影,也能看到中国芯片行业几十年间的变迁和未来走向。

复旦微电子的故事,要从享有世界盛誉的我国著名物理学家谢希德教授讲起。

三代人的努力,5分钟决定创立

50年代从美国回来的谢希德教授,在复旦大学开创了半导体物理的基础研究,为复旦微电子的成立培养了一位核心人物章倩苓教授。

复旦微成立的另一位核心人物是叶仰林教授,他到国外访问学者的时候,不仅看到了晶圆代工厂的出现将会影响全球半导体产业的格局,还看到了中国半导体产业和世界领先水平的差距。回国后,叶仰林教授向复旦大学贷款100万元,在1985年与章倩苓教授等人共同成立了复旦大学专用集成电路与系统国家重点实验室。

1998年复旦微电子揭牌成立,成为中国集成电路设计业第一家发起式股份公司

实验室能够培养人才,但想要留住被国外芯片公司吸引走的人才,还得靠企业。于是,叶仰林教授有了创立公司留住人才,发展国内芯片产业的想法。但成立并管理一家公司不是叶教授擅长的领域,资金也是个大问题。

叶教授1994年和在上海农投工作的施雷谈起了自己成立公司的想法。

施雷与芯片和叶教授颇有缘分,他在1985年考入中国科技大学管理科学系,中国科技大学把每个学生都当科学家培养,虽然是管理系的学生,但施雷也要和物理系一起上物理电路课,对集成电路了解不少。在复旦大学上管理系研究生的时候,施雷和叶教授实验室的人关系很好,毕业后到了投资公司,依旧和叶教授维持紧密的联系,这也是叶教授会和施雷谈起成立公司想法的关键。

可惜,叶教授在1995年突发疾病去世了,成立芯片公司也被搁置。不过,施雷一直没有忘记叶教授想要成立芯片公司留住人才的心愿,1997年他从上海农投到了上海商投,开始为成立芯片公司寻找资金。

“投资公司的领导不太懂集成电路,但他们知道国家需要芯片,也需要芯片人才,于是同意投资300万。”施雷对雷峰网说,“拿到300万投资后,我就去和当时复旦大学专用集成电路与系统国家重点实验室的副主任俞军谈了5分钟,就达成了组建复旦微电子的意向。”

在复旦微电子内部,这被戏称为“5分钟决议”。

经过三代人的努力,1998年7月,12位受过高等教育、有实际工作经验,在国内半导体行业中知名度较高的优秀青年,放弃出国机会,激扬着报效国家的崇高理想,满怀着追赶世界微电子行业制高点的雄心壮志,在黄浦江畔复旦大学的一个院落,成立了上海复旦微电子。

由于资金不足,12位青年还拿出各自的积蓄,凑了六百余万元,成立了中国集成电路设计行业第一家发起式股份公司,施雷担任上海复旦微电子股份有限公司董事总经理。

刚成立的复旦微电子,在复旦大学一个50平米的小房间里,开始了第一款芯片的设计。

复旦微电子成立时的一个办公地点,复旦大学水房

替代进口芯片起步,生死关头融资1亿港币

与大部分中国芯片公司一样,刚成立的复旦微电子也从进口替代开始。“当时,用于电话机的飞利浦TEA 1062芯片需求很大,恰好这款芯片的生产线就在上海的漕河泾,还对外开放。我们在研究了这款芯片之后,根据中国市场通话噪声大的特点,设计出了更符合中国市场的芯片开始销售。”施雷说。

仅一年时间,这款芯片就销售了200万颗。就这样,复旦微电子创始团队的12个人分成了两三个模拟芯片的项目组,根据市场需求设计芯片。

但集成电路行业是一个高投入的行业,复旦微成立时仅有的600多万元远远不够。

在那段时间里,芯片设计所需的工具EDA软件只能买便宜的,测试设备只能用别人不用的再修一修,办公室的环境也很艰辛。到了2000年,眼看复旦微的资金即将见底,一个机会出现了。

2000年香港创业板开板前,在上海举办了一个创业板和香港联交所的交流会。“交流会的前一天晚上,我和负责交流会的蔡敏勇主任一起上电台,结束后蔡主任告诉我明天有一个香港创业板的交流会,已经定了50家企业,问我是否愿意作为第51家企业候补参加。”施雷印象深刻。

第二天,施雷代表复旦微电子候补参加了香港创业板的交流会。由于复旦微是一家股份公司,上市不需要改制,另外,成立仅两年的复旦微没有历史包袱,有利于上市,在解决了重重挑战之后,复旦微电子最终在2000年8月4日成功在香港创业板上市,成功募资1亿港币。

2000年8月,复旦微电子在香港创业板上市

获得1亿港币的复旦微电子解决了资金的燃眉之急,团队规模也从12人增至50多人,继续沿着进口替代的方向向前发展。2002年初,复旦微电子增发H股成功,又获得了1亿港币。

“有了四年产品定义经验的积累,客户资源,以及2亿港元的融资,生存基本有了保障之后,我们就开始从逆向设计转向正向设计。”施雷说,“如果我们不自己定义芯片,设计超大规模的集成电路,永远也不可能成为一流的公司。”

2002年,复旦微电子已经成功设计出当时代表国内CPU研制最高水平的高性能嵌入式32位微处理器神威Ⅰ号,拥有完全自主知识产权,并且一次流片成功。这是一款可以载入中国芯片史的产品。

从2003年开始,复旦微电子大举迈入了自主定义芯片的阶段,选择从技术门槛相对较低的智能卡开始,设计各种类型芯片。

经过几年的发展,智能卡业务取得不错的成绩之后,复旦微电子准备进军难度更高的大规模集成电路。2006年左右,国家鼓励发展核心基础技术,特别是四大通用芯片CPU、GPU、FPGA、DSP,以及对存储芯片。这些芯片难度最高,被国外芯片巨头垄断市场,但自主化和中国巨大的市场规模也给中国芯片公司带来了机会。

施雷提出了一套“丛林法则”,要抢占国外大公司的市场份额,就要成为“狼”,把自己放在强者的地位,才有生存和对话的资格。

于是,团队规模已经达到几百人的复旦微电子顺势而为,进入了高手统治的存储和高性能FPGA领域。

把挫折转化为产品基因,推出全球一流FPGA

想要在持续且迅速迭代的芯片领域取得成功,技术实力和战略都更显重要。复旦微电子和复旦大学联合启动的FPGA项目取得了瞩目的成功,连续研发出了国内首款百万门级FPGA、千万门级FPGA、亿门级FPGA,填补了国产高端FPGA的空白。FPGA中文叫做现场可编程逻辑门阵列,门的数量越多,性能会更高,可以完成更复杂的处理任务。

而成功的背后并非一帆风顺,复旦微电子在FPGA领域刚开始也遭遇了一个巨大的挫折。由于没有经验,复旦微电子2007年的第一代FPGA性能很高,但由于没有配套的软件工具链的支持,很难在实际应用中使用。

“芯片的性能有时候恰恰是不重要的参数,要让芯片配合软件很好地运行挑战更大。”施雷说,“想要设计出高端芯片,方法论很重要。”

到了第二代FPGA,复旦微电子吸取了第一代产品的惨痛经验,充分考虑了软硬结合,最终成功推出了被规模应用的第二代FPGA芯片。

自此之后,软硬融合写入了复旦微电子的产品基因之中,与全球领先的芯片巨头一样,用软硬结合的产品和生态保持其产品的竞争力。用软硬结合的MCU,也在MCU市场也收获颇丰。

迈向高性能高端芯片的过程中,复旦微电子也成功实现了转型。2007年之前,复旦微电子一直处于亏损或者微利的状态,到了2011年左右,复旦微电子开始转向盈利,并且盈利高速增长。《福布斯亚洲》杂志2011年评选复旦微电子为“最佳中小上市企业”,这也是对复旦微电子成功转型的认可。

施雷回忆,复旦微电子的营收有几个关键节点,我们用了四五年实现了营收1亿,之后又花了四五年才实现税后利润1个亿。

2014年1月,复旦微电子从香港创业板转入主板,销售额也保持快速增长,2016年销售收入12亿元,2017年销售超过14亿元,2018年上半年同样增长势头良好,但下半年突如其来的贸易战,改变了增长的势头。2019年,FPGA市场的竞争更加激烈,复旦微电子面临着着巨大的竞争压力。

但即便在这样的压力下,施雷和公司管理层仍然坚定持续投入研发,在2019年研发投入超过5亿元,外界充满了质疑和不解的声音。

复旦微电子集团总部大楼

显然,持续的高额研发投入也已经成为复旦微电子的基因。对于高科技行业,这是一个正向激励,持续的高额研发投入让复旦微电子的整体毛利率高于业内同行水平。

施雷介绍,复旦微电子2019年的高额研发投入的重要用途是14/16nm 10亿门级FPGA和PSoC的研发。10亿门级FPGA已经是全球顶级水平,PSoC则是FPGA演进的方向。

2020年,复旦微电子全年销售额达到近17亿元,这是回应外界质疑最好的方式之一。

“FPGA继续发展的形态会发生改变。”施雷认为,“业界都看到了FPGA与AI结合的优势,因此FPGA和各种专用加速器结合,比如AI加速器集成为一个计算平台是未来的趋势。我们和国外领先的FPGA公司都在朝这个方向发展,这是一个新的形态,我们目前对这个芯片的命名是PSoC。”

FMQL45AIT(简称青龙筋斗云),国际首款自定义全新架构的可重构AI芯片

“当我们的产品走到行业顶尖水平,芯片形态发生变化的时候,客户比我们知道PSoC的用途和优势。”

施雷向雷峰网透露:“我们如今的成绩是四五年前种下的种子,复旦微电子的PSoC目前只是提供样片阶段,但已获得非常好的市场反馈。新一轮的快速增长才刚开始,而我们也将坚持创新,持续保持行业的领先地位。”

在施雷心里,复旦微电子的目标,或者说中国芯片公司的成功是设计出全新的芯片,让全球对中国的芯片公司刮目相看。

写在最后

正如一个伟人的成功无法复制,一家成功的企业也无法复制。

复旦微电子1998以600多万元的资金成立,到2021年市值超过400亿元,23年间,从初创的12人,壮大到1400多人的团队,开发了具有自主知识产权的5个系列200多种产品。

复旦微电子12位敢想敢为、有家国情怀的年轻人,在国家力量、时代机遇、资本的助推下,以及不忘初心的坚守下,以发展中国微电子事业为己任,致力于让所有的国产电子产品都有一颗中国芯。

复旦微电子的发展历程,是许多中国芯片公司发展的缩影,他们从替代进口芯片开始,从简单的模拟芯片切入,把握时代的机遇,利用资本的力量,从芯片的逆向设计转向自主研发,熬过多年的持续高投入和亏损之后,成功研发出大规模集成电路,最终跻身高端芯片的行列。

“不要觉得许多国产芯片不够高级。”施雷说,”没有竞争力的芯片都无法销售,只要有客户购买,就值得被尊重。”

这是施雷对国产芯片的态度,国产芯片的真正强大,不是沿着已有的产品形态设计出性能最强的芯片,而是设计出全新的软硬融合的芯片,满足用户需求。

他同时也认为,经过几十年的努力,国内的芯片产业发展至今并非不堪一击,但仍然要保持开放合作的态度。随着更多资本的进入,大量人才的加入,以及国产芯片被更多人接受,进入后摩尔定律时代,中国人有可能将芯片发扬光大。

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/Wmx1kywIqLdwAqRl.html#comments Tue, 23 Nov 2021 21:41:00 +0800
高通:2024 年苹果芯片业务所占百分比将降为个位数 //www.xyschoolife.com/category/chipdesign/6rPUCGesT0fMxHMz.html

高通股价周二收盘上涨 7.9%,此前高通在投资者大会上发布了看涨预测。

在11月16日的投资者大会上,高通公司宣布将持续扩展其半导体业务,以满足对其技术的需求带来的日益增长的机遇。

同时,高通表示其增长不依赖于与任何单一客户的关系,例如向苹果销售调制解调器芯片。

高通公司总裁兼首席执行官安蒙在会上提道:“高通公司正迎来有史以来最大的发展机遇,助力赋能万物智能互联的世界。高通公司独具优势,除智能手机之外我们还将在众多领域实现业务增长,我们的业务正在快速多元化,并非依靠单一行业或单一客户。”

高通目前为苹果设备提供无线芯片,但表示预计仅提供2023年iPhone所需调制解调器芯片的20%。高通的报告称,2021年芯片总销售额为270亿美元。但是,公司管理人士拒绝透露目前苹果公司的收入占公司总收入的比例。

高通表示,预计到2024年,其名为QCT的整个芯片业务将至少增长12%。同时,高通也预计,到2024年底,其与苹果的业务在其芯片业务中所占的比例将降至为“个位数”百分比,且该数字会极低。

这意味着高通的芯片业务增长不再与“高通&苹果合作”紧密相连。

“随着我们继续投资领先的射频前端技术,有机会供应给苹果。但就苹果而言,除了计划中的假设,我们不会做任何假设。关于苹果的一切,我们都应该考虑它的积极面。”安蒙说道。

现场,苹果公司的代表没有对高通的规划置评。

早在2019年,苹果就收购了英特尔的调制解调器业务,目前正在研发自己的无线5G技术,但尚未公开讨论其调制解调器计划。

高通首席财务官阿卡什·帕尔基瓦拉(Akash Palkhiwala)表示,高通在手机领域的主要策略是为高端Android设备提供动力。

在高通投资者日到来之际,分析师一直在跟踪高通和苹果的各方面动作。

伯恩斯坦分析师斯泰西·拉斯贡 (Stacy Rasgon) 在本周一的一份笔记中写道:“苹果最终将自己的芯片组内部化的潜力仍然充满悬念,相信许多投资者也正在寻求某种清晰的答案,他们有可能会在没有苹果芯片的情况下承保盈利能力水平。”

虽然高通公司以手机无线芯片和处理器的供应商而闻名,但高通的业务已经多样化,目前超过三分之一的销售额是由驱动其他类型设备(如PC、汽车和虚拟现实耳机)的芯片产生的。

这可以通过高通在投资者大会上设定的“未来三个财年的全新财务目标”反映出来。

●  到 2024 财年,QCT 半导体业务营收将实现中双位数(mid-teens)的复合年均增长率,运营利润率将超过 30%
- 到 2024 财年,智能手机和射频前端业务营收的增长率至少将与可服务市场(SAM)12% 的复合年均增长率持平
- 汽车业务年营收将在未来 5 年增长至 35 亿美元,在未来 10 年增长至 80 亿美元
- 2024 财年,物联网业务年营收将增长至 90 亿美元
● QTL 技术许可业务预计将保持现有的营收规模和利润水平

另外,高通还表示,虽然其2021汽车业务的销售额不到10亿美元,但是在未来10年的销售额可能达到80亿美元,其中一部分的销售额将通过高通与宝马的合作来实现。

高通将最新的前沿驾驶辅助技术与 Snapdragon Ride™ 平台引入宝马集团下一代先进驾驶辅助系统(ADAS)和自动驾驶(AD)平台。宝马下一代自动驾驶软件栈将基于 Snapdragon Ride 视觉系统级芯片(SoC)、视觉感知以及由高通车对云服务平台管理的 ADAS 中央计算 SoC 控制器而打造。

简而言之,也即是高通公司将为宝马的自动驾驶汽车提供芯片。

谈及到双方的合作,安蒙表示:“高通与宝马集团的合作开启了汽车领域的全新时代,作为领先的科技企业,双方将共同设计与开发骁龙™数字底盘的关键元素,赋能下一代汽车。我们为这一里程碑式的合作感到自豪,期待双方合作打造的产品尽快落地。”

雷锋网雷锋网雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/6rPUCGesT0fMxHMz.html#comments Wed, 17 Nov 2021 23:53:00 +0800
又一 FPGA 芯片公司登陆科创板,首日市值暴涨170% //www.xyschoolife.com/category/chipdesign/fUyxaI3pxlLcpoew.html 11月12日,芯片设计公司安路科技正式上市科创板,本次发行股份数量5010万股,每股发行价26元人民币。截止当日收盘,安路科技每股价格上涨至70.25元,较发行价上涨170.19%,总市值达到281.07亿元。

安路科技的招股说明书显示,本次发行拟募集10亿元,约40%用于新一代现场可编程阵列芯片研发及产业化项目研究,约30%用于现场可编程系统级芯片研发项目,约30%用于发展与科技储备资金。

招股书显示,安路科技不存在控股股东和实际控制人。华大半导体有限公司直接持股33.34%、上海安芯及其一致行动人持股26.10%、国家集成电路产业投资基金股份有限公司直接持股11.18%、深圳思齐和上海科创投则分别持股9.67%、6.21%。

三年营收增长翻倍,55%用于研发

招股书显示,安路科技在报告期内业务规模增长翻倍,2018 年、2019 年及 2020 年安路科技营业收入分别为2852.03万元、1.22亿元、2.81亿元。

在净利润方面,2018 年、2019 年及 2020 年,公司净利润为为-889.96万元、3,589.46万元、-618.71万元。截至报告期末,公司存在未弥补亏损的情形尚未消除。安路科技表示,由于公司 FPGA 芯片和专用 EDA 软件等业务较为复杂且新品的研发难度较大,在报告期及未来可预见的期间内,公司将会保持较大的研发支出。

在研发投入方面,最近三年安路科技累计研发投入为 23,849.31 万元,占最近三年累积营业收入的比例为 55.22%。从公司的研发项目情况可以发现,安路科技的研发投入主要集中FPGA 芯片的研发,2020年就投入了8000万元,占所有研发项目投入比例最高。

主打国内市场,营收来源主要来自FPGA

公司的主营业务营收主要来自FPGA 芯片业务,2020年的营收全部来自该业务,包括ELF(低端)、EAGLE(中端)、PHOENIX(高端)三大系列产品。

从业务收入占比来看,安路科技主要的营收来源还是以低端产品为主——ELF系列,占总营收的72.79%,目前已经升级为第三代产品,主要应用在工业控制、网络通信、数据中心领域。

按产品划分的主营业务收入情况

按销售地域划分的收入构成来看,安路科技的主要市场还是在国内,2018年、2019年、2020年分别占营收的74.03%、85.85%、81.35%。

根据Frost&Sullivan预计集成电路市场,在 2025 年将达到 4,750.3 亿美元,2021 年至 2025 年期间年复合增长率达到5.5%。从长远看来,安路科技的国外市场或许将进一步拓宽。

在毛利率方面,2018年、2019年、2020年综合毛利率分别为 30.09%、34.42%、34.18%。其中,2020 年推出的 PHOENIX 系列产品毛利率达 52.39%,高于当年的综合毛利率。另外,安路科技也表示,公司主要产品毛利率主要受下游市场需求、产品售价、产品结构、原材料及封装测试成本及公司技术水平等多种因素影响。

值得一提是,公司正在开发出高端的FPGA产品,PHOENIX在去年实现量产,带来公司在高端市场上点的突破。在国际FPGA巨头们走向被并购的道路之后,国产FPGA冲击高端的做法,将会如何?值得期待。

 雷锋网雷锋网雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/fUyxaI3pxlLcpoew.html#comments Mon, 15 Nov 2021 11:04:00 +0800
高通要用AR眼镜推元宇宙一把 //www.xyschoolife.com/category/chipdesign/416YYfM6yjTgztfy.html 10月底,Facebook更名为Meta,这是Facebook转变为“元宇宙公司”的重要一步,也让元宇宙引发更多讨论。

元宇宙并没有一个清晰明确的定义,简单理解,元宇宙就是现实世界在虚拟世界的一个映射。

既然要映射现实世界,难度可想而知,AR、VR、MR(统称XR)应该是目前与元宇宙联系比较紧密的设备,但XR设备依旧处于早期,想要实现元宇宙,推动XR设备的发展是关键。

今天,在XR领域投入十年的高通推出了头戴式AR开发套件骁龙Spaces XR开发者平台,目标是降低开发者开发AR应用的门槛,实现AR应用的跨平台运行,推动AR的普及,以及元宇宙的发展。

元宇宙与XR

元宇宙是热词,但并非新概念。

1992年的科幻小说《雪崩》里写道,“只要带上耳机和目镜,找到一个终端,就可以通过连接进入由计算机模拟的另一个三维现实。每个人,都可以在这个与真实世界平行的虚拟空间中拥有自己的分身。”

29年前就被提出的元宇宙概念,在2021年“一夜成名”,与今年元宇宙第一股多人在线创作沙盒游戏平台Roblox的上市有紧密关系,也离不开Facebook、腾讯、英伟达、字节跳动等巨头的参与。

大部分人看到了Facebook更名Meta,却容易忽略Facebook推出的VR设备Oculus Quest2,也是与元宇宙密切相关的智能设备,自2020年10月发售后出货量屡创新高,这是Facebook要转型元宇宙公司的底气所在。

Roblox认为,一个真正的元宇宙产品应该拥有8个属性:身份、朋友、沉浸感、低延迟、多元化、随地、经济系统和文明。XR设备显然拥有其中多个特性。

高通技术公司副总裁兼XR业务总经理司宏国(Hugo Swart)对雷峰网表示:“元宇宙和XR紧密相联,人们在虚拟世界中可以拥有自己的化身,实现协作、沟通、学习和娱乐等体验。许多人将元宇宙称之为‘实体互联网(Embodied Internet)’,这意味着需要在空间中进行编程计算和处理。”

司宏国也从计算和交互的概念去解释当下和即将发生的变革,“过去的几十年,人们一直通过2D屏幕(笔记本、智能手机、平板电脑)完成计算功能。有了VR和AR技术,计算已经演进到了空间计算的阶段。也就是说,传统意义上的屏幕消失,整个世界都成了你的‘主屏’,而这一转型刚刚开始。”

XR从纵向整合到横向扩张

实际上,高通一直在推动与元宇宙密切相关的XR的发展。2007年,高通就启动了首个基于智能手机的AR研发项目,此后又推出XR专用芯片组——骁龙XR1和骁龙XR2。在2018年,高通和合作伙伴Nreal等引入了AR眼镜概念,2019年AR眼镜成为了产品品类。

在这个过程中,整个AR、VR行业也经历了高峰和低谷。2015年,国内VR的投资规模从2.7亿上升至24亿,一年内翻了8倍。随后的2016年,被称为“VR元年”。

然而很快,由于许多技术挑战没有解决,VR设备眩晕感强烈,游戏和内容不多,体验不好的VR设备未能普及,VR投资泡沫也随之破灭,行业陷入低谷。

但随着技术的完善,以及软件和应用生态的逐步发展,XR设备在完成了更好的纵向整合后,各种形态的产品,包括AR眼镜、智能眼镜、以及商用VR一体机都能提供更好的体验,被更多消费者接受。

今年,XR行业无论是发布的产品数量还是出货量,似乎都预示着XR行业的发展又迎来了一个新的高点。IDC预计,2021年全球VR出货量将达到830万台,较2020年全年增长50.2%。

“这一行业目前还处于相对早期的发展阶段,我们期待这类设备的出货量在明年开始增长,并在2023年达到更高的成熟度。”司宏国预计。

当更多人拥有了XR设备之后,想要进一步吸引更多人使用XR设备,应用就成为了关键,而应用丰富的关键是软件开发平台。在这一行业耕耘了十多年的高通收购了世界上最早发布移动AR应用,负责AR软件开发套件开发的Wikitude之后,今天宣布推出头戴式AR开发套件骁龙Spaces XR开发者平台。

骁龙Spaces平台能够提供环境和用户理解功能,为开发者带来用于打造可感知用户并能与用户智能互动、适应用户所在室内物理空间的头戴式AR体验的工具。一些主要环境理解特性包括:空间映射与空间网格、遮挡、平面探测、物体与图像识别和追踪、本地锚点及其持久性以及场景理解。具备用户理解能力的机器感知特性包括定位追踪和手势识别。

简单来说,骁龙Spaces可帮助开发者构建两种类型的应用,一类是从零开始打造3D体验,一类为支持AR特性,即AR作为现有移动应用的扩展。骁龙Spaces有三个重要特点:成熟的技术和创新;开放、跨终端AR生态系统;开发者优先的平台。

“我想强调骁龙Spaces的开放性,它符合OpenXR标准,降低了开发者利用骁龙Spaces的门槛。同时,我们也和Epic Games和Unity在引擎方面展开合作,便于熟悉这类3D工具的开发者将应用迁移至骁龙Spaces平台。”司宏国说,“如果每家OEM都各自研发底层功能可能会导致孤岛效应,因为开发者很难把应用从一个平台复制到另一个平台。而骁龙Spaces能够跨终端运行,OPPO、小米、联想、Motorola和Niantic等厂商都宣布支持。我们还与移动运营商生态系统展开合作,包括NTT DOCOMO、T-Mobile和德国电信,共同推动AR发展。”

雷峰网了解到,骁龙Spaces既支持智能手机,也支持眼镜设备,包括采用骁龙XR1平台和XR2平台的眼镜设备。

AR有潜力替代智能手机

骁龙Spaces的三个特性中,开发者优先的特性让人有些意外。

过去,高通通常是面向OEM客户提供核心技术和特性支持,这次却将开发者视为骁龙Spaces的关键客户,并推出“骁龙Spaces探路者计划”,AR创新者或企业可以提前获得平台技术、项目资助、联合营销与推广和硬件开发套件的支持,包括健身、桌面游戏等应用开发者,正式的面市时间为2022年春季。

高通为何做出改变?

“我们发现行业中出现了开发或打造空间体验和3D体验全新模式,在新模式下,如果每家OEM、ODM厂商都推出自己的开发平台,对于开发者会很困难。”司宏国解释:对于高通,我们一边继续向OEM客户提供支持,帮助他们在分发渠道上推出新应用并保持差异化优势;与此同时,也为开发者提供通用的平台,帮助开发者更轻松地在骁龙Spaces平台上打造出色的空间体验。”

不难看出,在AR硬件逐步完善的时候,想要推动AR快速发展,就需要靠开发者和应用,作为这一领域的重要推动者,推出软件平台骁龙Spaces符合产业需求。

但骁龙Spaces是否会成为智能手机时代的安卓?司宏国明确,“我们不会针对骁龙Spaces收费。”

实际上,高通看好的是AR当下的发展和未来潜力。

“我们看到VR在短期内的发展势头更加迅猛,特别是在游戏、健身、B2B等领域,以及对元宇宙概念的实践方面。但我们认为AR眼镜在未来甚至有潜力替代智能手机。”司宏国说。

“我们期待在接下来三到五年,AR眼镜、智能眼镜、以及商用VR一体机设备会逐渐走向融合,最终形成一种终极设备形态,能够实现所有体验。但对于VR、MR设备,实现这一趋势可能还要花更长的时间,因为这些设备的显示模块支持光学透视,它们的部署方式有很大差别。”

写在最后

元宇宙的概念在2021年火了,在XR领域投入了十多年的高通能成为受益者。当然,耕耘多年,提供底层技术支撑,经历了XR行业起伏的高通,更希望在已经有超过50款搭骁龙平台的XR设备发布之后,继续提升硬件的同时,用开发平台更快推动市场发展。

关键的问题在于,提供软件开发者平台并非高通的强项,但高通可以发挥巨头公司的优势,通过收购获得相应的技术和人才,通过收购Clay AIR和Wikitude,通过硬件和软件的产品组合,有希望以更快的速度推动XR的发展,让XR成为高通新的增长点,也能成为元宇宙时代的领导者。

还需要看到,高通优先选择了AR。

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/416YYfM6yjTgztfy.html#comments Tue, 09 Nov 2021 22:02:00 +0800
客户自研高性能CPU,英特尔王锐:有信心赢回客户 //www.xyschoolife.com/category/chipdesign/00w5lvtWrEIammdN.html 英特尔在半导体先进制程上进展缓慢的几年间,来自同为x86 CPU阵营的AMD,以及来自Arm阵营的多位竞争者,让英特尔无论在消费级酷睿CPU还是企业级至强CPU市场都面临不小压力。

今年上任的英特尔新任CEO帕特·基辛格(Pat Gelsinger),正在努力改变这样的局面。

3月,帕特·基辛格就宣布了英特尔IDM2.0战略;

4月,英特尔推出了第三代英特尔至强可扩展处理器;

6月,Six Five峰会上,英特尔全新基础设施处理器IPU面世;

7月,帕特又公布了英特尔有史以来最详细的制程工艺和封装技术路线图,并表示英特尔要在2025年回归制程的领导力;

8月,英特尔架构日公布了第一个高性能混合架构Alder Lake,全新的高性能独立GPU架构,全新IPU架构,以及数据中心GPU架构的详细信息。

本周,Intel On技术创新峰会上,英特尔推出Alder Lake 12代酷睿处理器,架构进行了十年来最大的转变,性能大幅提升。同时,英特尔强调软件优先,进一步加强开发者生态。

帕特·基辛格上任后的一系列动作,目标就是向外界释放一个明确的信息——英特尔回来了!

英特尔真的回来了吗?

如何看待竞争?

相比英特尔今年的一系列战略和新产品发布,外界更加关注的是英特尔如何应对当下市场的竞争。英特尔在桌面和高性能CPU市场长期保持领导力,然而10nm制程的受挫,让AMD有机会借台积电的先进半导体工艺赢得桌面CPU市场,苹果这位大客户发布的自研M1芯片,更是给英特尔带来不小压力。

消费级CPU市场面临竞争的同时,英特尔在利润丰厚的高性能计算CPU市场也迎来了新的竞争对手。云计算和AI等需求,让亚马逊、阿里都自研了Arm架构的服务器CPU。英特尔在最擅长的CPU领域可谓腹背受敌。

英特尔公司高级副总裁、英特尔中国区董事长王锐

对于这样的处境,今年9月份晋升为英特尔公司高级副总裁、英特尔中国区董事长的王锐在Intel On技术创新峰会期间与雷锋网交流时坦诚的表示:“过去几年英特尔的执行方面慢了一些,不能为我们的客户提供他们所需求的差异化。所以从某种角度上,客户做出这样的选择。”

她也同时表示,“市场上有竞争并不是坏事,特别是站在全球角度来考虑更是如此。当我们有最领先的芯片时,我们就有信心重新和合作伙伴去洽谈、协同,再看看能不能赢回他们的生意。

就像科技巨头们下定决心要自研芯片十分艰难一样,尝到自研芯片的甜头后也很难回头。一个很好的例子就是微软和苹果,两家公司一个是开放系统的代表,一个是封闭系统的代表,一开始封闭系统赢了,然后开放系统赢了,然后又回到封闭系统。

想要赢回这些客户,最好的办法就是推出比他们自研芯片更强的芯片,或者寻找新的合作方式。此时,先进半导体制程又变得非常重要。

赢回客户的基础——制程领先

先进制程是半导体产业持续前进的基础,英特尔过去几十年间也是凭借先进的半导体制程保持领导力。然而,2015年开始摩尔定律开始放缓,摩尔定律失效的言论也不绝于耳。

Intel On技术创新峰会上,基辛格说,“摩尔定律仍然有效,我们将在未来十年保持摩尔定律,甚至比摩尔定律更快。”基辛格并不是在喊口号,根据他之前公布的路线路,英特尔将在未来四年迭代五代制程。

在摩尔定律持续有效的时间里,半导体制程每18个月到两年迭代一次。英特尔要用比摩尔定律更快的速度赶上目前的业界领导者。

“我们是以短跑的速度在跑马拉松。”王锐如此形容英特尔如今的状态以及表达其重回制程领导力的决心。

她也同时解释,摩尔定律不是物理定律,它是经济定律。如果说按照非常科班的、原始的视角看待,确实有后摩尔定律。但摩尔定律的精髓是提供经济价值,所以只要有技术突破,找到解决方案,继续提供经济价值,就可以维持摩尔定律。

对于英特尔而言,执行力是其重新获得制程领导力的关键。

“过去几年里,我们在执行方面有一些挫折,摔了几个跟头”王锐说:“英特尔过去已经用年复一年,一次次按时推出的一代又一代的产品证明了英特尔最著称的就是英特尔的执行力,我们最大的竞争对手是自己。”

一旦英特尔重新拥有了先进制程的领导力,就拥有了赢回客户的技术基础,同时还能和自研芯片的客户有进行新的合作。英特尔IDM2.0最核心的变化就是将为客户提供芯片代工服务。“我们不仅可以为客户提供先进制程,在同样的制程下,我们的先进封装技术也可以帮助我们的客户。”王锐指出。

更开放生态才是最强竞争力

先进制程技术的领导力是英特尔最基础和最核心的竞争力,但基于先进制程和硬件的生态才是其竞争力的全部。

王锐说:“英特尔非常清楚自身的优势以及面临的市场竞争,在新一代更有竞争力的高性能CPU Sapphire Rapids发布之前,我们的生态发挥了重要作用。想要打造新的高性能计算数据中心生态,整个架构的投入非常大,而且这是一个长期的投入。”

靠着生态的优势,英特尔在先进制程重回领先位置之前,也在通过架构创新提供更具性价比的CPU。

英特尔客户端计算事业部副总裁Sunil Kaimal在Intel On技术创新峰会上说:“12代英特尔酷睿处理器Alder Lake,基于Intel 7的制程工艺,采用了高性能混合架构,包含性能核与能效核,带来了极大的越代性能提升。这是在过去十年以来,x86架构最大的转变。同时,我们与微软深厚的合作伙伴关系,双方的紧密协作,能够智能、充分发挥最新一代酷睿处理器性能核和能效核的优势,在真实场景中实现更高性能和效率。”

Geekbench 5资料库中的12代酷睿Core i9-12900K搭配Windows 11平台的跑分成绩显示,CPU单线程得分1834,多线程得分17370,比AMD的最新一代16核旗舰CPU Ryzen 9 5950X单核和多核性能分别高11%和5.6%,比苹果最新推出的最强劲的M1 Max的多核跑分12559也有明显优势。

更为重要的是,英特尔也在适应新需求下客户对算力的需求。以前,英特尔的态度是,客户需要的下一代CPU是他们提供的CPU。

“我们早已知道,复杂多样的数字社会,我们必须和最终用户更接近,有共同发展的机制,才能为用户提供差异化的解决方案和服务。”王锐进一步表示,“为了弥补和最终用户还有一段距离的天生短板,我们和合作伙伴紧密结合。”

这种紧密体现在英特尔软件优先以及更注重开发者社区建设。

软件是离开发者和客户最近的产品,对于大部分的开发者和客户而言,他们并不关心底层的硬件架构,以及硬件的调度方法,能让他们买单的是足够易用、稳定的软件和更高的性价比。

英特尔已经推出了跨硬件架构(CPU、GPU、FPGA、ASIC)的统一开发平台oneAPI,并不断完善其性能,包括最新宣布的oneAPI 2022加入了900项新的功能,以及推出完整的英特尔开发者目录降低开发者使用和发挥英特尔硬件的难度,降低开发者的创新门槛。

同样重要的是,英特尔以更开放的心态建设生态。帕特·基辛格提出的是要为开发者提供开放、有选择、可信任的开源生态。这既是英特尔的目标,也是英特尔的挑战。

“一个开源社区的打造并不容易,即便像英特尔、阿里这样有雄厚实力的公司,也难以仅靠一家公司就打造出整个生态,我们要和众多合作伙伴共同发力。”王锐说,“英特尔是和众多合作伙伴一起跑马拉松。”

写在最后

“回看英特尔的历史,他们并没有犯过重大错误。”这是一位国产CPU资深专家此前对雷锋网说过的话。

英特尔在很长一段时间里的成功,先进制程是基础,然而过去几年间英特尔在这一领域的落后,成为了其近来面临激烈竞争的关键。当然,英特尔也面临着数字化时代客户对算力差异化需求的新挑战。

这也是帕特·基辛格上任后,不仅公布了重回制程领导力计划,以及强调软件优先,还恢复了为开发者举办的峰会Intel On(此前叫IDF)背后的逻辑。

技术出身,曾经为英特尔工作多年的帕特·基辛格,何时能让英特尔真正王者归来?

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/00w5lvtWrEIammdN.html#comments Sat, 30 Oct 2021 10:07:00 +0800
全栈开源RISC-V处理器,平头哥为何舍弃眼前利益? //www.xyschoolife.com/category/chipdesign/8RRzfDhb4WFOWpgL.html 阿里在2021云栖大会期间阿里云智能总裁张建锋宣布了一个让人意外的消息,全栈开源平头哥玄铁RISC-V系列处理器。这是系列处理器与基础软件的全球首次全栈开源,也正是让人意外的关键。

玄铁RISC-V系列是已经拥有150多家客户、超500个授权数,出货超25亿颗的国内应用规模最大的国产CPU IP。

玄铁RISC-V系列处理器全栈开源,就意味着平头哥将因为开源而损失IP授权费。平头哥为什么要牺牲短期利益推动RISC-V生态的发展?

 

全球首次全栈开源处理器与基础软件

RISC-V是一个源自伯克利大学的指令集,虽然指令集开源,但要用指令集设计出芯片,还有大量的工作,特别是设计出一款经过量产验证的处理器。RISC-V社区有许多可免费下载的RISC-V处理器代码,但这些开源的设计许多都没有经过硅验证,这就意味着有大量漏洞。

使用RISC-V开源社区IP设计芯片的嘉楠科技创始人、董事长兼首席执行官张楠赓此前就对雷锋网说,“使用RISC-V虽然省去不少IP授权费,但是我们研发周期也会更长一些。”

平头哥此次开源的玄铁系列RISC-V IP,都是经过量产验证的IP,包括玄铁E902、E906、C906、C910,以及基于玄铁的多操作系统的全栈软件及工具。

值得单独介绍的是玄铁C910,这是一款高性能RISC-V IP,这款IP的架构将经过产品验证的指令技术与RISC-V精简指令技术融合,稳定性比原始RISC-V提升的同时,性能有平均20%的提升。而且,玄铁C910能够全面适配AliOS、FreeRTOS、RT-Thread、Linux、Android等操作系统,性能可以满足5G、网络通信、人工智能、自动驾驶等领域需求,被超过百款芯片采用。

相比没有经过量产验证的开源IP,开发者通过平头哥Github和芯片开放社区(Open Chip Community)下载的玄铁源代码既可以用于开发产品,也能用于RISC-V和芯片设计的学习。这是因为,平头哥开源的IP具备完整的验证和流片的条件,商业公司可以用开源IP设计产品。

同时,开源IP的模块拆分和命名规则都极其规范,代码有很强的可读性,对于想要学习RISC-V和了解芯片设计的开发者有非常高的价值。

平头哥副总裁孟建熠与雷锋网交流时指出,“经过过去几年的实践,我们发现仅靠平头哥推动RISC-V的发展力量远远不够。所以我们把玄铁开源,让整个社区的开发者都能在开源的基础上做软硬件适配,推动RISC-V架构往更深层次演进。”

平头哥过去几年一直在努力推动RISC-V的发展,玄铁C910 2019年面世之时就对外开放,可以下载其FPGA代码。随后,平头哥又推出了面向AIoT的一站式芯片设计平台“无剑100 Open”,能够提供集芯片架构、基础软件、算法与开发工具于一体的整体解决方案。

“这次我们从IP到基础软件全栈开源,希望能给行业提供一个从RISC-V架构扩展,到SoC平台适配,再到基础软件适配优化的体系。”孟建熠表示。

为什么牺牲短期营收?

全栈开源玄铁处理器IP,一定会减少平头哥的营收,但平头哥选择这样做有多方面的考虑。

首先,推动开源硬件的发展本身就是在无人区探索,此前并没有成功的案例。对于开发者而言,使用开源软件有成本低的吸引力。但硬件开发流程复杂、时间周期长,试错代价昂贵,只有经过验证的开源处理器才可能被广泛应用和接受。

“对于RISC-V这种开放架构,需要相比传统授权更加开放模式,才能不断支持创新的发展。” 孟建熠说,“RISC-V社区开源核不是稀缺资源,但如何让这些开源核具有稳定、可靠和持续演进的能力,推动开源核与开源软件的生态融合,以及让这些开源核成为量产芯片是关键。”

平头哥全栈开源玄铁对整个生态有利,但此前已经获得玄铁IP授权的公司的权益如何保障?孟建熠说:“除了开源的核,我们还会持续推进RISC-V架构新技术的发展以及开发对应的新核,提供给我们的商业合作伙伴。”

更关键的问题是,作为一家商业公司,平头哥全栈开源玄铁IP牺牲短期利益,推动整个RISC-V生态发展的意义和目的何在?

“普通IP公司所有的回报来自IP授权费,阿里是从云端一体的大生态来看待,思考也和普通IP公司有所不同,我们的生态需要更多定制化、普惠芯片连接我们的生态,进一步推动我们云端一体的生态繁荣。”孟建熠表示。

“我们第一步考虑的是让RISC-V的技术和生态更加完善,降低创新成本。当RISC-V生态成熟的时候,作为这个生态的推动者和建设者,阿里也会是这个生态的受益者之一。”

可以理解为,平头哥开源全栈处理器IP,目的并非要与传统芯片公司竞争,而是为了更好服务自身业务,保持竞争力。并且,半导体IP也不是一个值得阿里这样体量公司争抢的生意。

市场研究机构IBS的数据显示,全球半导体IP市场将从2018年的46亿美元增至2027年的101亿美元,年均复合增速达9.13%。半导体IP公司几乎都是小而美,即便是广为人知的Arm,其2020年营收达到创纪录的19.8亿美元,相比芯片设计公司英特尔779亿美元的年营收,差距明显。并且IP公司需要长期持续的大规模投入,才能保持产品的竞争力。

RISC-V芯片冲出IoT市场

既然阿里用更高的视角看待在RISC-V领域的投入,目标是端云一体的大生态,以及RISC-V生态繁荣会带来的机会,那RISC-V的发展情况值得关注。

RISC-V基金会首席执行官Calista Redmond曾透露,截至2020年底,全球范围内RISC-V芯片(SoC、IP和FPGA)已推出93款,覆盖了云端、移动、高性能运算、机器学习、自动驾驶等产业。

实际上,RISC-V芯片应用最广的是在边缘的IoT市场。原因很简单,RISC-V社区有许多免费的CPU IP,并且边缘的IoT设备所需的处理器对性能和软件工具链的要求都不高,这就有利于RISC-V处理器的大规模应用和普及,包括MCU、蓝牙、语音等芯片,中国市场尤其明显。

“RISC-V在IoT市场的突破相对容易,中国的产业链优势也在此。”孟建熠认为。

但RISC-V要成功必须突破对性能和软件生态有更高要求的应用。平头哥在这个过程中也发挥着重要作用,今年10月13日,平头哥宣布玄铁910成功兼容安卓系统,可运行Chrome浏览器等应用。

“我们的初衷是去验证RISC-V处理器是否能承担浏览器、Java这种交互很强应用的压力。安卓的软件栈很厚,通过移植,能够进一步探索RISC-V架构的完整性和能力的极限。”孟建熠解释。

Android 10系统顺畅运行在平头哥玄铁910 RISC-V处理器上

兼容安卓系统是RISC-V发展的一个重要里程碑,也是RISC-V迈向高性能计算的关键。

雷锋网了解到,基于RISC-V的应用处理器(AP)正陆续推向市场,比如全志基于玄铁C906核心的D1 AIoT开发板,支持64bit RISC-V指令集并支持Linux系统。更多RISC-V应用处理器的芯片和开发板也会陆续推出,这将进一步推动RISC-V向高性能市场拓展。

写在最后

RISC-V是相比x86和Arm是一个新兴的指令集,凭借其开放、灵活、低功耗等特点,RISC-V Foundation吸引了全球包括谷歌、阿里巴巴、三星、华为、英伟达、西部数据等500多家企业和机构成为其会员。

与巨头公司只是将RISC-V芯片用于自家的产品之中不同,阿里平头哥的RISC-V芯片不仅用于自研芯片之中,还对外提供RISC-V IP。如今,平头哥全栈开源其经过量产验证的IP产品,对于整个RISC-V生态的发展是一个重要的贡献。

至于全栈开源IP产品之后,平头哥未来的商业模式,目标是服务阿里的云端一体的生态,但具体如何实现良性循环,平头哥并没有透露,应该也在不断的探索,毕竟开源硬件目前还没有成功的案例。

基于平头哥对于RISC-V生态的贡献程度,其有可能成为开源硬件领域的RedHat吗?


想要了解更多RISC-V的技术和行业发展趋势,请期待GAIR 2021全球人工智能与机器人峰会集成电路高峰论坛的RISC-V分论坛,论坛将邀请国内芯片领域顶尖学者,包括平头哥在内的国内RISC-V芯片发展的重要力量,以及最有行业洞见的投资人,共同深入、全方位RISC-V技术突破、产品落地、生态建设、市场机遇,更多信息请关注GAIR 2021官网,或直接与论坛负责人联系(微信:bensoneit)获得最新信息和进入社群交流的机会。

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/8RRzfDhb4WFOWpgL.html#comments Fri, 29 Oct 2021 19:27:00 +0800
10年芯片圈扫地僧,踩对两次苹果浪潮,5年成就TWS耳机电源芯片龙头 //www.xyschoolife.com/category/chipdesign/SNMDijnnu6K1yrVI.html 巨头林立的芯片行业,想要实现跨越式超越的难度超乎想象,因此,国内大多芯片公司只能从巨头忽视的某一细分市场实现突破。但也正因为有了这些芯片公司的单点技术突破,加上资本、政策的共同努力,中国芯片产业才能有整体赶上甚至超越全球领先者们的机会。

为此,雷锋网策划了“中国芯片行业隐性冠军”系列文章,让更多人认识那些过去几十年默默投入的半导体人和公司,了解他们在细分市场实现突破背后的故事以及未来的可能性。

苹果在2010年发布的iPhone4,开启了智能手机的时代,也改变了许多公司和个人的命运。进入苹果供应链的企业,赚的盆满钵满。即便没有进入苹果供应链,因为智能手机带来全新市场机会也让他们从中受益,比如移动电源、真无线立体声(TWS)耳机。

2000年进入芯片行业的董官斌就是其中一位。他在iPhone4发布后的2011年开启全新创业旅程,创业两年后凭借敏锐的市场嗅觉,抓住了手机移动电源需求爆发的机遇,解决生存问题。

2016年,苹果AirPods引爆了TWS耳机市场,有了移动电源市场经验的董官斌再次抓住机会,在2020年实现了公司年营收过亿的里程碑。

董官斌创立的思远半导体专注于锂电池的电源管理芯片,这是极难引起普通消费者关注的芯片,但却是所有电子设备必不可少的芯片,因为它影响续航、充电等体验。也正因为如此,董官斌称自己和思远半导体是芯片圈的扫地僧。

踩对两次苹果浪潮的董官斌,正在朝着公司年营收从亿级到十亿级的目标奋斗。这一次,董官斌依旧会关注苹果可能会带来的下一次机遇,但他并不认定可穿戴的市场还会是苹果主导。

创业十年,营收从0到过亿,市场环境迅速变化,董官斌是受益于苹果成功的一个代表,也是深圳创业者的一个缩影,思远半导体如今的成就,能让我们明白芯片公司如何用不变应对不断变化的市场,也能说明中国半导体行业坚定长期主义的重要性。

思远半导体总经理董官斌

10年扫地僧,坚定电源芯片市场,开启10年创业长路

董官斌2000年从机械电子专业毕业,加入了一家芯片公司从事研发工作,但他对芯片行业非常陌生,更别说这家公司的主营业务模拟芯片。四年后,董官斌到了一家主营电脑配件的公司继续做研发,但此时也产生了换行的想法。

“那时候对行业的理解不够深刻,也看不清未来,所以有了换行业的想法。”董官斌对雷锋网说,“思考了几个月之后,我还是决定留在芯片行业,并且明确了一定要去深圳。”

董官斌2007年到深圳工作,从研发转到销售岗位,他发现那时深圳的生活成本低于北京和上海,并且有成熟的电子产业链,非常适合创业。

2011年,在深圳注册成立了思远半导体, 第一年借用朋友的办公室办公。

“创立思远半导体的时候,我们的目标很简单,前三年解决生存问题,并且一定要找到一个值得进入的市场。”董官斌说,“我们用最简单的方法,最少的投入开始创业。因为我和合伙人对模拟芯片的整个流程都很熟悉,我们就自己开发芯片,那时候差不多每天两三点才睡觉。”

经过半年的努力,董官斌和合伙人成功开发了第一款芯片。在创业的前三年里,他们只有一个客户,专为这个客户做定制服务,总共量产了将近60颗芯片。

虽然在创业的前三年里,思远只服务了一个客户,但他们已经看到了移动电源市场的机会。并且,董官斌也逐渐明确坚持在电源管理芯片领域。按照他的说法,他曾经在电源管理芯片和触控芯片之间犹豫过,最终选择了电源管理芯片,原因是无论电子设备如何发展,都需要电源管理芯片,并且他做了决定之后就没再犹豫过。

移动电源爆发,拿下第一笔100万颗芯片订单

董官斌发现移动电源市场的机会是一次与明微电子总经理李照华的交流,李照华说市场上都在找充电宝的电源IC,可能是思远的机会。获得了重要的市场信息,但董官斌还是谨慎全面的做了分析之后才决定进入这一市场。

“iPhone带火的智能手机有一个特点,不能更换电池,这样外出时手机充电不方便,移动电源的需求应运而生。那时多普达和HTC是主流的智能手机,安卓后台偷跑程序耗电量很大,我们就想如果有备用电源随时可以补电,就能解决用户痛点,所以最终决定进入这个市场。”董官斌回忆。

于是,董官斌在2012年决定进入移动电源市场,到了2013年底,经过无数次的尝试,一一解决技术难题,思远针对移动电源推出了第一款电源管理芯片,正式进军移动电源市场。

从今天往回看,思远完美踩在了移动电源爆发的时间点,2012年移动电源市场的需求开始出现,到了2013年市场迅速增长,一年后的2014年开始井喷式增长。

但在产品量产和获得客户之前,董官斌说心里仍然在打鼓。

幸运的是,在代理商的介绍下,思远移动电源的第一笔订单就卖了100万颗芯片。因为这个大客户在移动电源终端市场具有领导力,思远的第一颗移动电源芯片MP2310被客户争抢采用,2014年-2015年间共出货3000多万颗。

思远的第一颗移动电源芯片能够大卖关键的原因还是性价比。

“当时市场上最火的是矽力杰和台湾致新的同步升压IC,一个移动电源需要三颗分立的芯片:充电IC加MCU再加升压IC,整体成本很高。”董官斌说,“我们第一代移动电源芯片将分立的芯片集成为一颗系统芯片,并且系统芯片比单颗升压芯片还便宜,所以获得了大量客户的高度认可。”

就这样,2016年,思远在主流1A移动电源SoC市场出货量排名行业第一。 2017年在移动电源芯片市场的出货突破了8000万颗。

在这个过程中,思远成功引领了移动电源电源管理芯片的发展,集成式的SoC成为了主流,有一批分立器件的公司退出市场。

但思远在这个市场的表现也并非完美无缺,随着市场的发展,同质化竞争越来越严重,2015年开始,移动电源的需求逐渐从小电流转向大电流充电,那时思远在大电流充电方面的技术还在积累,丢掉了部分市场。

好在消费电子市场的日新月异总会带来新的机会,2015年之后手机电池的容量变大,还增加了快充功能,再加上共享充电宝的火热,移动电源市场进入平稳期。

在移动电源管理芯片市场依旧维持不错市场份额的董官斌,开始总结经验,准备为TWS耳机的机遇全力以赴。

敢为人先,获得TWS耳机芯片销量冠军

就像是历史重演,又或是董官斌成功的秘诀之一,他再一次率先捕捉到了市场对电源芯片的需求,这一次是TWS(真无线立体声)耳机。

TWS耳机火爆之前,市场上已经有大量的蓝牙无线耳机,只是因为技术的限制,无线耳机只能主耳机连接手机,再由线缆将音频信号传输到从耳机,产品形态只能是单耳式或挂脖式。

图片来自高通

2016年,苹果最新发布的iPhone7/7Plus取消了3.5mm耳机接口,同时推出了全新TWS耳机AirPods。不过AirPods销售日期推迟,上市后需要等待至少一个半月时间才能收到新产品,这也没阻挡消费者对AirPods的购买热情。

但即便如此,2017年时苹果是否能引爆了TWS耳机市场仍然存疑。“一次和做蓝牙芯片的朋友交流,他一直强调要我关注TWS市场,接下来会迎来爆发。”董官斌说,“真正要下定决心进入一个新市场,即便有之前在移动电源市场的经验,也并不简单。”

思远的第一个TWS客户是主动找上门,采用的是移动电源的电源管理芯片。

“早期的产品更多的是关注能用,对于体验的关注并不多。我们的电源管理芯片之所以会被采用,因为移动电源和TWS耳机对电源管理芯片的需求有相似性,加上思远的芯片有功耗低和小电流关断的优势。所以即便移动电源的芯片对于TWS耳机不是最优选择,但在那个时间点是合适的选择。”董官斌讲述。

最终让董官斌决定专为TWS耳机设计电源管理芯片的关键是市场的增长。2017年,思远面向TWS客户出货的芯片从几十万增长到了几百万,到了2018年,出货的量级又快速增长到千万级别。

在2019年,思远的TWS电源管理芯片出货量已经突破1亿颗,市场占有率排名行业第一,小米、OPPO、一加、realme、魅族、传音、1MORE等知名品牌厂商都与思远建立了合作关系。

不过,思远是在2018年9月才正式启动专为TWS耳机设计电源管理芯片的项目,在此之前超过8个月的时间都在服务客户的同时收集市场信息。

“移动电源市场的经验告诉我们不能在眼前的客户上花更多时间,而应该直接去了解品牌和客户的复杂需求,然后满足这些需求。”董官斌说:“我们把TWS耳机原来需要3-4颗IC的方案,精简到只需要1颗思远电源管理IC,再加上MCU就可以实现所有功能。不仅芯片整体的面积减小,电气性能也不输国际品牌,在某些关键技术上还更符合系统需求。”

又一次,凭借更高集成度的芯片,思远首款专为TWS打造的电源管理芯片SY8801在2019年5月推出,2020年大规模量产,获得了百度、网易、漫步者、哈曼、JBL等国内外知名品牌厂商的青睐,全年销售额成功突破亿元,同时获得了知名投资机构石溪资本的A轮投资。

2021年3月,旭日大数据发布的TWS电源管理IC出货量排行显示,思远半导体当月出货2430万颗芯片,超过排名第二的德州仪器。对于思远超越巨头的成功,董官斌谦虚地认为,可能是“老虎”打盹。

紧接着,思远又进入了TWS耳机端的电源管理芯片市场。

“一开始没有进入TWS耳机端电源芯片市场,只做了电池仓的电源管理芯片,主要还是因为市场那时不够明朗。”董官斌说,“我们的耳机端电源管理芯片把电路板面积缩小了70%,功耗更低,而且包含了十几个功能,让这颗芯片也大受市场欢迎。”

按照董官斌对消费电子市场的观察,消费电子产品的迭代周期是2年左右一代,差不多有3个迭代的周期市场完成洗牌,时间大概持续6年。如此计算,TWS耳机市场还有3-4年的高速增长期。

董官斌认为,接下来TWS的电源芯片会朝着更高效率、更高集成度发展,功能会增加快充、无线充电等。

“TWS耳机作为音频设备的属性已经基本确定,市场的接受度也已经很高,但未来会朝着更复杂产品方向发展,会集成哪些传感器和新功能,现在还不够明确。”这是董官斌的观点。

显然,对于思远这样体量相对较小的公司而言,紧跟市场需求推出高性价比的产品是当下的生存之道。但即便在移动电源和TWS的电源管理芯片细分市场都市占率足够高,对于想要做大做强的思远来说,还要继续向前迈进。

把亿元营收变成十亿级

消费电子市场的优势是需求量巨大,但总体毛利率偏低,并且一旦跟不上市场的变化就很容易被淘汰。

董官斌在芯片行业做了20年扫地僧,创业10年的经验告诉他,在消费电子领域,关注苹果是对的,并且苹果还会继续在消费电子市场领跑,至于可穿戴市场,不见得还会是一家独大,所以苹果能否独占可穿戴市场保持很强的领导力,答案并不那么明确。

“无论如何,想要保持市场竞争力,一定要紧密和客户合作,深挖客户需求。”董官斌总结。

2022年,思远即将迈入公司新十年的征程,过去十年中,思远的产品从无到有,主要市场从移动电源到TWS耳机,团队人数从2人到近百人,营收从零到过亿,近两年年营收保持50%的复合增长率。

对于下一个十年,董官斌的目标是加速把1亿元营收变为1亿美元营收。

显然,仅靠消费电子难度不小。为此,董官斌把目标看向了工业电子和汽车电子市场。

“工业电子和汽车电子市场的变化相对缓慢,市场总体的规模相比消费电子市场小,但这两个市场有更高的毛利率,这既可以补全思远的产品线,也能够提升公司整体的毛利率。”董官斌这样规划思远未来10年的发展。

汽车电子和工业电子是典型的企业市场,与思远擅长的消费电子市场无论在产品特性,市场需求方面都有较大的不同,但董官斌说一定会投入,这是思远发展必须做出的选择,目前也有和这两个市场潜在客户的交流,思远未来要逐年降低消费电子产品营收的占比,进行多元化布局和实现更高毛利率。

“中国芯片行业的发展还是围绕系统的创新,创新的系统会带来对芯片新的需求。”董官斌进一步指出,“虽然模拟芯片对先进制程的追求不如数字芯片那么快,但也在持续发展。过去十年间,限制中国模拟芯片行业发展和提升竞争力的关键还是先进制造,如今国内的先进制造的水平与国际先进水平的差距越来越小,另外,先进封装技术的发展也有利于包括我们在内的模拟芯片公司的发展和产品竞争力的提升。”

模拟芯片并不常被关注,但又是电子设备中必不可少的芯片。从事这个行业20年的董官斌,把自己比作扫地僧,他认为无论是国家的科技行业还是芯片行业,都需要大量默默投入,研究、开发和构建底层技术和产品的人。

“只有默默投入,坚持长期主义,我们的核心能力才能打磨的越来越强,才能迅速适应不同市场,各种系统的需求。”董官斌说,“也只有这样,我们才能完成接下来十年走向全球市场,再持续发展十年的目标。”

写在最后

雷锋网与董官斌的深度交流持续了两个小时,从这位在芯片行业耕耘了20年,带领思远走过10年的掌舵者身上,我们看到了一位中国芯片行业长期主义的代表。他并不擅长讲故事,说概念,只是用产品拿下市场。

回看思远在消费电子市场的成功,准确踩在由苹果引发的新市场爆发的时间点,用集成度更高的芯片赢得市场是共性,不同的是产品需求和功能,成功并非是简单的复制,本质还是因为愿意把年营收的15%持续投入研发,不断积累核心技术。

思远是深圳创业公司的代表,更是众多已经在芯片细分市场实现突破的代表,他们不讲高大上的概念,不包装自己,却在多次的试错和实践中练就了敏锐的市场洞察力。

他们在众多的竞争对手中靠性价比赢得市场,却又比别人目光更长远,愿意用时间、精力去打磨出更具竞争力的产品,实现领跑。

随着中国系统公司的不断成长,以及先进制造的进步,中国芯片设计公司有机会在十年后追上全球领先水平,走向全球,那时候才是谈超越的时候。

正如董官斌一直强调的,无论是芯片公司还是芯片人才,甚至是国内的整个芯片产业,一定要坚定长期主义,找到技术和行业的发展规律,不断提升核心竞争力,才有可能成功。

董官斌判断,随着中国芯片产业的发展,未来中国的芯片公司也一定会出现许多并购。“如果十年后思远还在,那说明中国芯片行业的并购已经都完成,如果十年后没有了思远,说明并购潮已经提前。”

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/SNMDijnnu6K1yrVI.html#comments Thu, 28 Oct 2021 21:32:00 +0800
全球首款5nm服务器CPU“倚天710” 问世!阿里自研芯片的终点在哪? //www.xyschoolife.com/category/chipdesign/2qgIwMKQcirWmYHw.html 全球高性能CPU市场又增加了一个重磅玩家。

2021年10月19日云栖大会,阿里巴巴旗下半导体公司平头哥发布自研为云而生的高性能CPU倚天710,同时还推出搭载倚天710的“磐久”云原生服务器。这是继2018年云栖大会发布的含光800云端AI推理芯片之后,平头哥最新的自研芯片,也表明其自研高性能芯片的设计能力从专用AI芯片走向了通用CPU芯片。

阿里云智能总裁、达摩院院长张建锋

雷锋网了解到,倚天710采用最新的Armv9架构,基于最先进的5nm工艺,单芯片集成600亿晶体管,CPU核心数高达128个,最高主频为3.2GHZ。倚天710不仅是全球首款采用5nm工艺的服务器芯片,也集成了最新的内存DDR5和PCIE5.0。

也就是说,从架构到制造工艺,从CPU核心到内存和接口,倚天710都拥有当下CPU最先进的技术。

标准测试集SPECint2017的数据显示,倚天710的分数达到440,超出业界标杆20%,能效比提升50%以上。

阿里花费数亿美元打造一款高性能CPU的价值和目的何在? 

倚天710集最先进技术于一身

概括倚天710的特性,那就是集先进技术于一身。

先看最底层指令集架构,倚天710采用的是Arm今年三月才发布的面向新十年的Armv9架构。根据Arm发布的产品,雷锋网预计倚天710采用的是Arm Neoverse N2核心,兼具性能和能效。

一般而言,Arm只会为其最新的架构选择少数几家合作伙伴,阿里平头哥作为首个宣布采用Armv9架构的公司,不仅显示了双方在合作上的深入,也能体现出平头哥在芯片设计领域的能力。

基于最新的指令集,倚天710包含了高达128个核心。之所以说是高达,是因为今年3月AMD发布的最新一代服务器CPU EPYC,最高为64核128线程,4月英特尔发布的第三代至强可扩展处理器,核心数是40核。

与倚天710核数更为接近的,是同样采用Arm架构的Ampere(安晟培)在2020年投产的80核云原生服务器CPU Ampere Altra。Ampere的128核CPU计划在今年第三季度投产,同样采用5nm工艺。

倚天710即将在阿里云数据中心部署,然后逐步服务云上企业。

再从底层架构转向制造工艺,倚天710采用的是5nm工艺,这一节点已经被应用于苹果A15芯片,但倚天710是首个采用5nm工艺的服务器CPU。最新的架构加上最新的工艺,自然会对芯片设计的能力有较高要求。

但相比之下,解决上百个核心带来的带宽瓶颈更考验平头哥。过去数年间,处理器核心性能的提升速度远超带宽的性能提升速度,这限制了CPU计算性能的提升,就像是“茶壶里面倒饺子”。

据悉,为了解决带宽瓶颈,平头哥对片上互联作了特殊优化,采用新的流控算法,降低系统反压,有效提升了系统效率和扩展性,使单核高性能有效地转化为整个系统的高性能。

另外,倚天710通过新的系统地址到DRAM地址的转换机制,支持安全、非安全隔离、多NUMA、异常通道隔离多种特性,同时DRAM读写效率大幅度提升。

除了从芯片设计的前端进行优化,倚天710在后端物理实现方面也克服了诸多挑战,包括灵活调度多达30种不同EDA软件、深度定制时钟网络和定制IP技术。

倚天710还采用了先进封装技术,集成业界最领先的内存DDR5和接口PCIE5.0技术,有效提升芯片的传输速率,并且可适配云的不同应用场景,最终实现了性能和能效的优势。

花费数亿美元打造云CPU的价值

倚天710集成如此多先进技术,也意味着这款芯片的成本非常高昂。

市场研究机构International Business Strategies (IBS)的研究数据显示,28nm之后芯片的成本迅速上升。28nm工艺的成本为0.629亿美元,到了7nm和5nm,芯片的成本迅速暴增,5nm将增至4.76亿美元。

来源BIS

芯片是一个典型需要以量取胜的行业,一款芯片从设计到制造,采用先进制程成本高达数亿美元,只有芯片有足够大的量,才能拥有成本优势,这也是为什么只有手机这样的产品才能持续采用最先进的制程。

倚天710作为一款阿里为云而定制的芯片,阿里明确表示不对外出售,这意味着其出货量难以达到手机的数亿量级。那么,从单颗芯片成本的角度看,平头哥自研一款5nm的CPU芯片很难实现芯片的以量取胜。但如果从总体拥有成本和公司整体的竞争力来分析,自研高性能CPU有非常重要的价值。

IDC最新今年7月发布的2021年第一季度中国公有云市场数据显示,季度内IaaS+PaaS市场规模达46.32亿美元(301亿人民币),其中阿里云排名第一,市场份额为40%。另据Gartner 2021年报告,云基础设施和平台市场呈现稳固、集中格局,在全球范围,超过90%的云市场向亚马逊、微软、阿里云、谷歌等前四家云厂商集中。

阿里云作为芯片的最大使用者之一,在全球建设了数百个云数据中心,能够支撑阿里自研芯片。

但更重要的是,阿里云的竞争对手们也正在通过自研芯片来增强自身优势。亚马逊自研的Arm CPU已经展现出优势,谷歌的TPU也已经在云中被广泛使用。

这样看来,阿里为云研发CPU和AI芯片成为其提供差异化服务,保持领导力的关键。

同样,阿里自研芯片的优势也已经展现,2020年10月30日开始,淘宝用户的搜索请求均由含光800处理,其支持的淘宝主搜全链路吞吐率性能达到GPU性能的3倍左右。在杭州城市大脑的业务测试中,1颗含光800的算力相当于10颗GPU。

同时,基于对自身业务理解定制的AI芯片也能让阿里云提供更多更好的AI云服务,比如图像搜索、场景识别、视频内容识别、自然语言处理等场景。

因此,无论从总体拥有成本,还是公司战略的角度,自研芯片是阿里云的必然选择。并且自研的芯片越早应用,自研芯片的决心越坚定,越有利于阿里云提供高性能,差异化的云服务,保持和提升领导力。

可以看到,倚天710从前端架构设计到后端物理实现都是自研,并且集成了最先进的技术。

阿里成芯片公司?

从2018年阿里平头哥成立到现在,短短三年间阿里已经拥有了自研AI芯片含光800,自研云端CPU倚天710,还开发了十多款玄铁系列嵌入式RISC-V指令集CPU IP核,累计出货量超过25亿颗。

这不禁让人疑问,阿里是要取代现有的芯片公司了吗?

答案是否定的,以阿里为代表的科技巨头自研芯片的核心原因是市场上的芯片性能越来越难以满足其包括AI在内的新兴业务,以及提供差异化功能的需求。另外,最先进的CPU和GPU售价高昂,且功耗高,此时基于对自身业务的理解有针对性开发芯片成为了一个更好的选择。

阿里云智能总裁、达摩院院长张建锋表示:“基于阿里云‘一云多芯’和‘做深基础’的商业策略,我们发布倚天710,希望满足客户多样性的计算需求。我们将继续与英特尔、英伟达、AMD等合作伙伴保持密切合作。”

对于第三方芯片公司来说,其业务的核心是尽可能多销售芯片。

但对于阿里这样的系统公司,直接为用户提供系统级服务,芯片只是其提供更好、更具差异化服务的关键,销售芯片并非其目标,既然如此,芯片的开发和应用策略和路径和传统芯片公司并不会相同。

比如,倚天710与飞天操作系统协同,能为云上客户提供高性价比的云服务。还有,基于从云到端的芯片,阿里能够更好的发展其AIoT生态,构建一个更强大的生态。

从处理器到服务器,再到操作系统,阿里正在从系统层级实现全面的自主,增强竞争力。

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/2qgIwMKQcirWmYHw.html#comments Tue, 19 Oct 2021 12:42:00 +0800
英特尔下一个时代的『CPU』,10倍以上性能提升,1000倍能耗降低 //www.xyschoolife.com/category/chipdesign/C5lm6oDaYJjpMTav.html 芯片行业有一种说法:“算力可以换一切”。

也就是当芯片算力足够大的时候,许多难题都能迎刃而解,这也解释了摩尔定律如此受关注的原因。但随着AI、大数据的发展,传统的芯片越来越难以满足新兴应用的需求,业界需要全新类别的芯片。

量子计算、神经拟态计算(也称类脑计算)是两个重要的突破方向。相比量子计算,神经拟态计算的关注度略低一些,但神经拟态计算已经被英特尔证明在一些应用中,可以带来至少10倍的性能提升,同时实现1000倍的能耗降低。

英特尔神经拟态计算实验室总监Mike Davies在近日宣布英特尔第二代神经拟态芯片Loihi2后与雷锋网的交流中说:“英特尔可能不是第一家将神经形态技术商业化的公司,因为英特尔的规模,我们正在寻找巨大的机会。所以,我们必须以十亿美元的水平看待所有的商业机会。我们并不急于商业化,但当我们商业化的时候,希望这是一项通用技术,可以像CPU、GPU在多种应用中为广大客户提供巨大价值。”

从某种意义上来说,无论是英特尔正在探索的量子计算还是神经拟态芯片,都有可能成为地位可以比肩现有CPU的“下一个时代的CPU”。

Mike说至少要在3年后才可能看到英特尔正式推出神经拟态的商业化产品,但Loihi已经取得的成果值得我们期待神经拟态芯片的时代。

神经拟态芯片与传统芯片有何本质差别?

谈论神经拟态芯片的优势之前,先解释一下神经拟态计算这种全新的计算方式。神经拟态计算受到生物学原理的启发,基于对现代神经科学的理解,从晶体管到架构设计,算法以及软件来模仿人脑的运算。

神经拟态计算与传统芯片和传统处理方式有很多不同,比如,人脑中没有单独的存储器,没有动态随机存取存储器,没有哈希层级结构,没有共享存储器等等。“存储”和“处理器”错综复杂地深绕在人脑里,在人脑的结构中有“神经元”的存在。

系统编程层面也有很大的区别,传统的CPU或GPU结构以顺序操作或指令/程序来思考,在神经拟态芯片中,计算过程需要神经元单元的互动。神经拟态芯片处理答案的步骤也许不按照程序的执行步骤,更多的是根据动态的交换反应。

当然也有相似之处,在电脑中,以数字化核心相互交流基于事件的信息,叫做脉冲,这点和人脑传递信息的方式相似。

相比传统计算与神经拟态计算原理的区别,更多人应该更加关心神经拟态计算表现在应用中的优势。Mike说:“有一系列问题人脑可以很好地处理,所以我们可以期待神经拟态计算对于真实数据的处理速度或反应时延的性能效率提升,尤其是对于真实数据样本的适应力或快速学习能力的提升。”

神经拟态芯片擅长处理哪些任务?

2017年时,英特尔就对外公布了其第一代神经拟态芯片Loihi,随后便开始与业界共同探索神经拟态计算的可能性和可以发挥优势的场景,并建立了神经拟态研究社区(INRC),如今已经有将近150个成员机构。

INRC今年新增的成员包括福特(Ford)、佐治亚理工学院(Georgia Institute of Technology)、美国西南研究院(SwRI)、美国菲力尔公司(Teledyne FLIR)。

“我们调查了最近所有的结果,研究了IEEE文献,在很多不同的领域都得出,Loihi的结果超过了使用最好的CPU和GPU算出的结果,其中很多出自感知领域。”Mike表示“特别是和新的事件相机传感器(新型视觉传感器)集成时,神经拟态芯片能够以非常低的功率水平来执行手势识别和其他视觉推理任务。”

比如气味传感器,与基于传统深度学习的方法相比较,神经拟态计算可以有效地学习多达三千倍的数据。

在机器人学习方面,基于神经拟态计算也展现出在机器手臂系统变化中的鲁棒性,在一些实时出现的偏差中,Loihi也可以识别到,然后可以回归预期轨道重新布局电路。

“过去的几个月中,神经拟态计算在量化优化领域取得了非常好的结果。”Mike兴奋的表示。

相比而言,英特尔与德国铁路公司的合作更能展现神经拟态计算未来的应用前景。Mike介绍,“使用Loihi解决铁路调度问题,速度比德国铁路公司运营的Dion's使用的先进商业云计算处理器快一个数量级以上,这是1000倍的低能耗。这表明高阶规划决策优化问题可以在以前根本不可能实现的形式因素中得到支持。”

还有一个例子,一些早期的研究显示,热扩散方程(一个基本的物理行为属性)已经在Loihi中建模,桑迪亚国家实验室完成的这项研究极大地减少了科学计算存在功耗过大方面问题的可能性。

“我们对Loihi的结果非常满意。但与此同时,我们发现了硬件的一些限制。”Mike同时指出。

迈向下一个CPU时代

更强大的硬件

“我们有了一个编程性极强的神经元,可配置性极强的神经元模型,但它是一个固定功能类型的神经元。”Mike进一步表示,“自然界没有单一的神经元,实际上有1000种不同类型的神经元,它们在大脑中有许多不同类型的动态。我们想尝试支持的应用确实需要更多的灵活性,以使芯片中的神经元更加多样化。”

雷锋网了解到,英特尔通过一个微码指令集来解决灵活性的问题,这个微码指令集定义了神经元模型,几乎可以编程任意的模型,涵盖了研究界试图探索的不同类型的方法。

“我们还扩展了脉冲的概念,这将提升结果的精确度,还可以缩小网络的大小,以支持特定的问题。”Mike介绍,“在功能上,我们在Loihi2上还加强了芯片的学习能力。”

这些研究层面和功能层面的进步需要更强大的硬件支撑。在电路层面,Loihi 2比Loihi 1快2到10倍,这取决于特定的瓶颈和你测量的特定参数。例如,基于模拟的结果显示,在前馈神经网络中,Loihi2比Loihi快10倍。

工作负荷层面,Loihi2的神经元的数量提升了8倍,同时将芯片的面积缩小了一半(芯片总内存大致相同),即基于核心大小为0.21 mm2的Loihi 2,最多支持 8192个神经元,对比核心尺寸为0.41 mm2的Loihi,最多支持1024个神经元。

Mike解释,“第一代Loihi做了固定分配,芯片中的每个核心都支持1024个神经元。但我们发现,在许多应用中,神经元的数量是一个有限的因素,芯片中的其它内存资源却没有得到充分利用。因此,Loihi 2的架构允许资源在有限的程度上进行交换,同时不影响架构的格式和效率,从而当应用工作负载受限于神经元数量时(通常会发生),能够提供更多的资源来扩展到更多的神经元。

与此匹配,需要先进的半导体制造工艺。“神经拟态计算的架构相对于其他架构需要更大的资源密度,Intel 4制程能够提供更大的晶体管密度,我们可以在同样大小的芯片上放置更大的神经网络。”Mike还说,

“与以往的制程技术相比,Intel 4制程节点采用的极紫外光刻(EUV)技术简化了布局设计规则,使Loihi 2的快速开发成为可能。”

采用预生产版本的Intel 4制程其实还有英特尔展示其先进制程领导力的作用。需要指出的是,神经拟态架构是一个非常同质的架构,这对于仍处于产量优化过程中的早期工艺来说有很大优势,因为它可以容忍大量的缺陷。

“神经拟态架构比其他架构更能够从Intel4预生产过程中受益。”Mike表示。

不过,要解决更多实际问题还需要用Loihi2构建系统。为此,Loihi2的扩展能力也进行了提升,有了4倍速度的接口,还新增了两个接口,可以在3个维度上进行扩展。

同时,Loihi2对芯片间的连接进行了压缩,让许多工作负载的扩展提供了10倍以上的带宽,在减少拥堵和该架构扩展到更大网络的能力方面,综合提高了60倍以上。

总体而言,Loihi2的诸多改进,是为了减少支持相同程度能力所需的网络规模,从而获得更快的处理速度和更低的功耗。

软件是神经拟态芯片大规模商用的关键

“Loihi 2与第一代一样,属于通用的神经拟态架构。展望未来,我们希望能构建一种新的可编程处理器架构,类似CPU或GPU,不针对特定的应用,适合用于填充组合技术。”Mike展望。

纵观成功的CPU和GPU,都有非常易于使用软件及软件生态。显然,神经拟态计算芯片想要成为像CPU一样的通用芯片,软件非常关键。

Mike也说,“过去三年使用Loihi的过程,我们吸取到一个重要经验,软件对神经拟态领域进展的限制和硬件一样关键。”

此前,想要使用神经拟态芯片,都需要从头开始开发软件,这就像每个人都在重新创造世界。借鉴深度学习领域成功的TensorFlow和PyTorch,加上在神经拟态领域的经验和需求分析,英特尔专为神经拟态计算打造了开源软件框架Lava。

Mike强调,“我们不会把Lava作为英特尔的一个成品发布给全世界使用,但这确实是与外界合作的起点。我们现在已经在GitHub上发布了这个软件框架,它借鉴了英特尔在这个领域观察到的东西,也借鉴了英特尔第一代软件开发获得的经验,也就是称之为NX软件开发工具包的NX SDK。”

开源框架Lava有一个重要特性,无论是将应用程序的成分映射到传统的CPU或GPU上,还是将其分解成神经过程然后运行在神经拟态芯片上都可以。

“在使用Loihi 2研究芯片时,仍然需要通过英特尔相关法律程序的批准,这对很多想要参与这项研究的人来说是一个障碍。”Mike表示,“我们将为Lava提供一个开源许可证,这意味着开发人员可以自由进入并将这个框架移植到其他神经拟态芯片上。这是关键的一步,能够扩大开源社区,并将所有这些探索神经拟态研究的不同方向的努力和付出汇集在一起,至少在软件层面,可以更快速地实现商用落地。”

雷锋网了解到,Lava使用的是Python语言,这在一定程度减轻了采用Lava的难度。

“我想说的是,构建算法的方式,对于巨大的芯片来说是比学习编程语言而言更困难的障碍。”Mike对雷锋网表示,“可以尝试轻松过渡到使用神经形态芯片,但我们认为最大的挑战还是当前编程所需要使用的特定语言。在未来,我们或其他为Lava做出贡献的人可能会引入新的语言或特定领域的语言,因为很明显它可以提高生产力。”

写在最后

对于英特尔而言,全面的产品组合是其保持当下以及可见的未来竞争力的关键。而对神经拟态计算和量子计算的探索,则关乎长远未来的技术领导力。正如Mike所说,神经拟态计算的大规模商用还有很长一段路要走,但英特尔一旦商用神经拟态计算芯片,瞄准的是十亿美元的市场。

也就是说,英特尔研究神经拟态计算和量子计算,瞄准的是下一个CPU/GPU级别的产品。

Loihi已经取得的成果,以及如今宣布的Loihi2,不仅能够释放出其在先进计算领域的进展,更能通过Intel4制程将其现在的竞争力和未来的竞争力很好地连接在一起,共同展示英特尔的未来。

但在先进计算的探索中,除了需要实力,也需要运气。

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/C5lm6oDaYJjpMTav.html#comments Thu, 14 Oct 2021 16:58:00 +0800
这里有一份物联网芯片和汽车芯片安全的设计指南 | CNCC2021 //www.xyschoolife.com/category/chipdesign/Gvqrlc158qwbAFtP.html 芯片总因其高性能而受到关注,安全性却时常被忽略。近年来,芯片安全事件多次引发业界广泛关注。2018年,英特尔、AMD、ARM处理器中的Meltdown和Spectre漏洞,几乎威胁到了所有人的电脑和智能手机的安全。

今年又有研究报告指出,高通公司芯片中的一个新漏洞可能会影响全球30%的安卓手机。

随着联网设备的增加,一旦芯片出现安全问题,影响的范围将远超以往,物联网设备的安全性就显得更加重要。

全球移动通信系统协会(GSMA)的统计数据显示,2020年全球物联网设备连接数量高达126亿个。GSMA同时预测,2025年全球物联网设备(包括蜂窝及非蜂窝)联网数量将达到约246亿个。

那么,如何才能保证海量联网设备的安全?

另外,随着汽车的智能化和网联化发展,汽车的安全又如何保障?

提升物联网芯片安全的矛盾问题何在?

物联网设备的连接数在高速增长,全球物联网安全的费用支出也在不断增加。市场分析机构Gartner调查数据指出,近20%的企业或相关机构在过去三年内至少遭受一次基于物联网的攻击。Gartner在早期预测,为防范安全威胁,2020年底全球物联网安全费用支出将达到24.57亿美元。但实际上,想要提升物联网芯片的安全性需要解决一个关键矛盾问题。

湖南大学教授/博导、国家优青基金获得者、湖南大学芯片安全技术及应用研究所所长、CCF容错专委秘书长张吉良教授告诉雷锋网,“物联网芯片安全最大的痛点是,在计算资源、存储资源和功耗严重受限的物联网环境中,芯片安全机制的代价与安全性之间的矛盾。”

密钥安全存储和基于密钥的加解密计算是基本的芯片安全机制,也是芯片安全的两大基础功能,但传统安全机制存在容易受到物理攻击和难以适应资源受限的物联网设备的问题。

更具体地说,一方面,传统密钥一般通过非易失性存储器或者熔丝进行存储,现有的基于电子显微镜和微探针等物理攻击方式有可能从芯片中获取这些密钥,这就面临着容易受到物理攻击的问题。当然,可以通过增加防篡改功能的密钥安全存储提升芯片的安全性,但这带来的成本开销对于物联网芯片来说是难以承受的。

另一方面,传统芯片密钥管理复杂且加解密计算复杂度高,像在物联网这样的轻量级终端设备上,在算法引擎功能、性能、功耗方面都难以承载。

因此,想要提升物联网芯片的安全性,就必须解决芯片安全机制的代价与安全性之间的矛盾。

同时,与物联网芯片一样,亟需提升芯片安全性的还有汽车行业。

汽车芯片安全性的痛点是什么?

汽车的智能化和网联化是两大发展方向,但是已经有相关影视作品给我们展示了智能化和网联化带来的潜在风险,诸如通过远程攻击并控制汽车,会带来不可预测的损失。显然,相比普通的物联网设备,联网汽车的安全性更关乎每个人的安全。

汽车安全的核心,自然也离不开芯片。如今的汽车芯片无论在性能、稳定性和安全性要求上都高于消费电子产品,也有像ISO26262这样的针对汽车芯片的功能安全标准。不过,汽车芯片的核心技术长期被国外企业管控,在当今复杂多变的国际形势下,制约了我国汽车产业的自主可控发展。

因此,对于我国的汽车芯片公司而言,不仅要解决汽车芯片的功能安全问题,还要面对供应安全的问题。

“现有的汽车芯片在计算性能、存储容量与通信能力等方面难以支持复杂行驶条件下的计算与控制需求,芯片架构需持续创新,但是诸如采用多核异构计算的架构导致汽车芯片的功能安全设计难度日益增加,同时还要满足汽车领域的低成本、低功耗等要求。国内芯片设计企业尚未完全掌握汽车芯片的功能安全设计保障技术,缺少具有一定竞争力的可实用核心产品,这是我国汽车芯片安全方面的一大挑战。” 清华大学教授、清华大学移动计算研究中心副主任李兆麟博士说。

“另一方面,我国汽车芯片的功能安全标准体系不健全,行业未形成统一技术框架,缺少必要的第三方的测试手段和评价与认证能力,致使整车企业缺乏方法和工具来判断国内自主研制的汽车芯片的安全性,同时,国内尚未建立健全完善的自主研制汽车芯片产品的应用体系。”

如何提升芯片安全性?

不难发现,从普通的物联网芯片到汽车芯片,在安全性的提升上,都面临着技术和成本的挑战,这也是芯片安全性容易被忽略的重要原因。

想要提升芯片的安全性,从设计到应用的全流程都有优化的空间。

“EDA软件可以在芯片设计初期就帮助用户快速计算芯片的安全等级能力和指标,快速迭代芯片设计代码,降低设计复杂度并保障芯片设计的功能安全性。” 上海芯思维信息科技有限公司CEO刘志鹏博士指出。

EDA工具支持的常用故障类型是SA0、SA1、SET和SEU,故障注入仿真旨在帮助功能安全芯片设计厂商自动计算SPFM(单点故障覆盖率),LFM(潜在故障覆盖率)以及DC(安全机制诊断覆盖率)等技术指标。

芯片完成流片和封测后,还需要进行加速环境应力测试、加速寿命模拟测试、电气特性确认测试等。

雷锋网了解到,正常完成一批可靠性测试实验通常需要两个月甚至更多时间,而厂商一般需要完成三批次的可靠性测试才算完成可靠性验证。此外,可靠性测试很多测试项需要在第三方实验室进行测试,测试板、测试座、测试费等都是一笔不小的开销。

但无论对于汽车芯片还是物联网芯片,成本都非常敏感,因此想要提升安全性必须达到可靠性与测试成本的折衷。

安徽大学集成电路学院教师宋钛博士说,“业界引入了新的测试概念——适应性测试。它依靠机器学习的数据统计,根据缺陷特征预测缺陷芯片。基于故障数据建立预测模型,对可靠性低的芯片不必测试直接剔除。这很像测试专家经常根据经验对缺陷进行预判,但经验有时会出错。而基于机器学习的测试方法依托数据,并且能根据数据的变化而调整预测模型。”

不止于此,芯片的可信芯片设计与测试还有更多值得探讨的话题。

2021年10月30日13:00-16:00, CNCC 2021的“可信芯片设计与测试:从物联网芯片到汽车电子”论坛,安徽大学副教授、博士生导师、安徽大学芯片设计与测试研究所所长、CCF容错计算专委委员、CCF集成电路设计专业组委员、CCF/IEEE高级会员闫爱斌担任论坛主席。

论坛的六位重磅专家(清华大学教授/博导、国家杰青基金获得者、集成电路学院副院长尹首一博士;清华大学教授/博导、清华大学移动计算研究中心副主任李兆麟博士;湖南大学教授/博导、国家优青基金获得者、湖南大学芯片安全技术及应用研究所所长、CCF容错专委秘书长张吉良博士;安徽大学集成电路学院教师宋钛博士;昆仑芯(北京)科技有限公司资深研发工程师罗航;上海芯思维信息科技有限公司CEO刘志鹏)将会向您分享:

  • 如何设计毫瓦级超低功耗神经网络处理器,将人工智能普及到移动与物联网设备;

  • 智能汽车芯片的可靠和安全技术要求,以及对汽车芯片短缺问题的认识和思考;

  • PUF芯片安全技术面临哪些机遇与挑战;

  • 机器学习技术在芯片测试中的应用;

  • 新时代企业的芯片算力解决方案及可信计算实践等。

如果您关注芯片安全,敬请关注CNCC 2021的“可信芯片设计与测试:从物联网芯片到汽车电子”论坛。

另外,CNCC还有其它芯片论坛将深入讨论开源芯片的软硬件协同敏捷设计,面向人工智能芯片的编程语言和编译器。

CNCC 2021是计算机领域年度盛会,将于10月28-30日在深圳召开。今年大会主题是“计算赋能加速数字化转型”,本届大会共开设了111个技术论坛,涉及32个研究方向,无论从数量、质量还是覆盖,都开创了历史之最,将为参会者带来学术、技术、产业、教育、科普等方面的全方位体验。

CNCC是计算领域学术界、产业界、教育界的年度盛会,宏观探讨技术发展趋势,今年预计参会人数将达到万人。每年特邀报告的座上嘉宾汇聚了院士、图领奖得主、国内外名校学者、名企领军人物、各领域极具影响力的业内专家,豪华的嘉宾阵容凸显着CNCC的顶级行业水准及业内影响力。

今年的特邀嘉宾包括ACM图灵奖获得者John Hopcroft教授和Barbara Liskov教授,南加州大学计算机科学系和空间研究所Yolanda Gil教授,陈维江、冯登国、郭光灿、孙凝晖、王怀民等多位院士,及众多深具业内影响力的专家。

大会期间还将首次举办“会员之夜”大型主题狂欢活动,让参会者畅快交流。雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/Gvqrlc158qwbAFtP.html#comments Tue, 12 Oct 2021 11:27:00 +0800
前博通副总裁创业,9个月流片,性能赶超对手十多年迭代的高端视觉芯片 //www.xyschoolife.com/category/chipdesign/TBedRz5rxU2KOjtM.html 想要在资金、技术、人才门槛“三高”的芯片领域沿着领先者走过的路实现弯道超车,可能性微乎其微,创新则可以颠覆传统。

前博通副总裁、紫光展锐CTO仇肖莘2019年5月创立的爱芯元智(原爱芯科技)仅用时一年四个月就量产了一款可以与竞争对手迭代十多年的高端视觉芯片比拼的产品。

“ISP(Image Signal Processor,图像信号处理器)经过十几二十年的发展性能已经达到传统算法的极致,我们引入AI的方式颠覆传统的ISP设计,同时提升ISP的性能天花板。”爱芯元智创始人兼首席执行官仇肖莘对雷锋网表示。

用AI颠覆传统的ISP,有哪些关键?

感知+计算的大市场

爱芯元智(原爱芯科技)成立的2019年并非AI芯片初创公司大量成立的时间点,之所以选择在2019年创业,仇肖莘说,“我非常看好感知+计算芯片的应用前景。ISP是感知的关键,但这个技术沿着传统的方式很难有很大的提升,如果把ISP和AI计算结合起来,不仅能够提升ISP,也有广阔的应用市场,包括智慧交通、智慧城市、运动相机、翻译笔等。”

看好市场的机遇是一方面,仇肖莘的个人经历也决定了爱芯的创立时间。她本硕毕业于清华大学自动化专业,并在美国南加州大学取得了电子工程博士学位。在2018年9月加入紫光展锐任CTO之前,仇肖莘一直在国外工作,曾在AT&T Labs任职并获得研究卓越奖,也曾任博通公司副总裁。2019年,创业并且聚焦感知和计算成为她新的的选择。“我们希望做AI视觉芯片行业的开拓者,同时也坚持长期主义。”仇肖莘说。

明确了目标,坚定了信念后,仇肖莘迅速集结了一批参与过10颗以上的芯片设计和生产的核心成员,业务范围涵盖芯片的设计、生产,软件和硬件。“我现在可以说,爱芯元智已经有非常完整的芯片团队,负责芯片从设计到生产到应用的各个环节。”仇肖莘表示。

团队的完善带来了产品的快速量产。雷锋网了解到,爱芯元智的首颗人工智能视觉芯片AX 630A在2019年8月立项,9个月后的2020年5月流片,7月31号回片后一次成功点亮,12月进入量产状态,今年6月正式风险量产。

“AX630A是我们目前的旗舰产品。这款新品第一版就流片成功,既没有做MPW,也没做任何Metal Fix。”仇肖莘自信的表示。

颠覆传统ISP的两大关键

爱芯元智的首款旗舰产品AX630A功耗约3W,可实现57.6TOPS@800MHz 2w4f算力,等效算力到达28.8TOPS@800MHz INT4。如果对比市场同类产品,竞品以int8运行Resnet50的网络,AX630A以混合精度的方式运行Resnet50,在最终精度几乎相同的情况下,爱芯的芯片每秒处理的图像帧数是竞品的十倍多。

 

能够实现一个数量级性能差距的关键是爱芯元智自研的混合精度NPU以及联合设计的AI ISP。要用AI颠覆ISP,首先需要解决AI芯片面临的内存墙挑战。所谓的内存墙,是由于内存性能远小于计算性能,内存不能高效将数据传输到计算核心,带来高功耗和有效率计算性能不高的问题。

目前业内通过多种方式解决内存墙的挑战,包括存算一体、可重构计算等。爱芯解决内存墙挑战的方式是混合精度。

“AI模型有非常多层,在端侧,目前主流的方式是每一层都读取8位整数(int8),但实际上,在最终模型精度不变的情况下,并不是每一层都需要读取8位数,中间层的数据表达4位甚至2位就足够,不同的层用不同的数据精度表达就是混合精度。”仇肖莘表示,

“采用混合精度设计AI芯片可以降低对内存的需求,比如原来每层网络都读取8位数据,用混合精度表示可能平均只需要4位的精度就足够,这样不仅能够在相同的芯片面积下提供更大的算力而且对内存的带宽需求就可以减少为原来的四分之一,也就解决了内存墙的问题。”

要用混合精度的方式设计AI芯片的挑战在于需要芯片和算法的协同设计,既然是协同设计,就需要同时非常了解算法和芯片架构,用算法指导AI芯片的硬件设计,同时又要思考AI芯片的设计反过来对算法实现的影响。

也就是说,硬件可以提升算法的效率,而算法又可以绕过硬件的限制,这是一个在算法灵活性和硬件效率间寻求最佳平衡点的难题。

“我们是业内第一个设计且量产端侧混合精度AI芯片的公司。”仇肖莘说。

解决AI芯片的内存墙挑战只是第一步,接下来需要思考的是如何将AI与ISP结合超越传统ISP,真正实现颠覆。

“传统的ISP流水线(pipeline)有十几到二十个模块,我们将ISP流水线中最重要的几个模块,包括高动态、3D降噪等AI化处理,将AI处理融入到ISP流水线中。”仇肖莘透露。

爱芯元智ISP负责人、系统架构师张兴解释,“用AI的方式实现ISP流水线中的关键模块,我们就能够不断迭代和优化AI模型,不断提升画质。AX630A从去年7月底回片到现在,我们的模型每半个月更新一版效果,效果实现了质的飞跃。”

仇肖莘说:“如果用传统的方式,我们没有办法在第一代芯片就达到行业内迭代了十多年的高端水平。通过AI定义ISP,我们的第一代芯片就赶上了行业高端ISP,并且在某些性能上实现了超越。”

也就是说,传统ISP需要通过芯片按年来迭代的方式,才能不断完善ISP,而爱芯将ISP中的关键模块AI化,ISP的迭代周期大幅缩短到以周来计算,提升了ISP的迭代速度的同时,还提高了ISP的灵活性能够匹配不同传感器。

“如果是没有协同设计的ISP和NPU,很难实现将ISP流水线中的关键模块软件化或者说AI化。我们之所以率先量产AI ISP不仅因为这两个核心IP都是自主研发,联合设计也非常关键。”仇肖莘特别指出。

“高算力的AI ISP有很多好处,比如可以提升图像的信噪比,把原来被埋在噪声里的信号恢复出来。或者,大算力也能够实现大规模的智能分析,用于智慧城市等。还有,大算力能够满足视频流处理需求的同时,实现更好的夜间视频效果。”

要知道,视频流的处理对ISP有较高要求,每帧的处理时间只有33毫秒,这对ISP是极大的考验。

注:视频截图已做人物隐私保护

从爱芯展示的视频看,AX630A在多路视频结构化智能分析、大规模智能分析和夜间视频效果中确实有显著提升。这款芯片也已经被华东地区的大客户采用。

普及AI ISP 

“手机业界已经发现在AI算力的支持下,AI算法已经超越了传统ISP算法的效果,因此目前主流的趋势是用AI算法替代传统算法,或者将AI算法与传统算法结合。”张兴指出。

近来,手机业界也掀起了自研芯片潮流,头部手机公司纷纷研发起ISP,本质原因是影像和显示功能是消费者最容易感知,也最愿意买单的功能,自研ISP能够在提升手机影像相关性能的同时实现差异化,并且相比研发SoC,自研ISP的投入产出比最高。

作为率先量产AI ISP的公司,爱芯不会错过这一市场。爱芯的第二款产品,也是其定位主流的产品AX620A也已经在今年5月流片,7月下旬已经回片,目前一切顺利,预计在2022年第一季度客户会出货搭载AX620A的产品。

AX620A的功耗小于1W,可以实现28.8 TOPS @800MHz 2w4f(等效算力 14.4 TOPS @800MHz INT4)的性能,因其主流产品定位AX620A的性能低于AX630A,但因为ISP和NPU都是新一代,所以在单核性能和能效及图像效果上相比旗舰产品AX630A都有所升级。

仇肖莘透露,“我们设计AX620A的时候还是希望能做手机的前处理ISP,所以功耗控制是一个大的设计目标。在这一应用市场,预计明年会有好消息和大家分享。”

AI ISP应用于手机和智慧城市等场景的效果一旦被市场认可,竞争对手就会迅速跟进,这也促进了爱芯的快速成长。“我们一定要比别人超前几步,否则很容易被人追上。我们的目标是在初期迅速让产品成系列,并且有相应的客户支持,客户用起来之后,后续的产品迭代就会比较慎重,每一代产品都需要有亮点。”仇肖莘谈及爱芯的产品规划。

雷锋网了解到,随着爱芯芯片的量产,爱芯的团队人数从年初的140多人迅速扩增到了如今的300人,并且软件团队的人数大约是硬件团队人数的1.5倍左右。

“我们的芯片明年会有比较大的出货量。爱芯元智最终的目标还是成为视觉处理领域的头部企业,所以我们一定要成规模。同时,我们现在选择投资人的时候,也更看重可能带来的协同性。”仇肖莘说。 

小结

爱芯元智的成立时间早已过了AI最热的时间,但爱芯用技术和定位证明,只要满足市场需求的产品就能够迅速获得市场认可。视觉作为AI落地的重要方向,相比许多AI芯片初创公司仅提供AI加速器的方法,爱芯元智的AI ISP使用的场景以及易用性的更加明确,这也是其产品能迅速落地的关键。

不过,要发挥混合精度NPU和AI ISP的优势,还有很多技术关卡需要持续突破,这对成立不久的爱芯来说,有大量软件层面的工作需要做,对使用的客户来说,也有一定的技术门槛。

爱芯元智已经用自研核心IP表明了其想要在这一市场做大的决心。能否达成,拭目以待。

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/TBedRz5rxU2KOjtM.html#comments Thu, 30 Sep 2021 14:05:00 +0800
紫光展锐如何冲上手机处理器市场的全球第四? //www.xyschoolife.com/category/chipdesign/5BmhfrJe3GM13SeU.html 曾经稳固的4G手机芯片市场格局,在5G时代已经开始发生变化。

联发科凭借高性价比的中高端5G芯片表现比手机芯片一哥高通更加亮眼。紫光展锐也在内部大刀阔斧改革以及新的战略之下,今年第二季度在手机芯片市场占有率排名第四,公开市场第三。

“方向正确是赢多赢少的事,方向错误是输多输少的事。”这是紫光展锐CEO楚庆反复强调的观点。

这就引出了两个问题,展锐做对了什么能够冲进手机处理器市场的前五?紫光未来的潜力有多大?

冲上手机处理器市场第四位

市场调研机构counterpoint上月发布的统计数据显示,紫光展锐2021年第二季度在全球智能手机应用处理器(AP)市场占有率为8.4%,仅看公开市场(不包括苹果)排名第三。这是值得紫光展锐庆贺的成绩,因为这是在其2020年市场占有率被单独统计后,一年内实现了翻倍。更早的2018和2019年,紫光展锐在这一市场的占有率被归入“其它”,不单独展示。

紫光展锐能迅速提升市场占有率,最核心的原因还战略的调整。“战略方向决定事业成败。”楚庆说:“过去展锐的经营颓势,一大主要因素就是掉进了‘低端陷阱’。”

“低端陷阱”是展锐在第一届内部战略与管理峰会上,新管理团队总结出的一个概念。楚庆在今天的展锐UP ·2021线上生态峰会上首次解释了“低端陷阱”的含义。

“过去展锐只做低端产品,只适应那些低端客户,这会得到两种反馈:一种是现金,另一种是需求。低端产品得到的现金一定是少的,而需求如果不是面向未来,只是让你开发越低端的产品,这就造成了恶性循环——你既没有足够的资金投入到开发,客户也没有对你提出更高的诉求,最终你既不想去创新,也没有能力去创新,就像掉到一个陷阱里一样。”

摆脱低端陷阱,以楚庆为首的新管理团队2018年开启了公司大调整。雷锋网此前介绍过,展锐在2018年及之前的6年,业务连续下滑,几乎没有任何新产品,对于展锐那样体量的芯片公司,一年起码要有100个订单才合理。

楚庆上任起,展锐几乎更换了所有的管理者,自上而下大换血。2018年底,展锐的员工硕士学位人数占比大概是40%,2021年4月已经达到了85%,团队的平均年龄也从差不多37岁降到了32.8岁。

人才对于芯片企业而言是更加重要的核心资产,有了新的团队和人才队伍,还需要让企业走在正确的道路上。

“‘5G当先’已成为了展锐的一种战略选择。”楚庆表示,“我们所处的行业,要求展锐必须扛起两面大旗,一是5G技术,要保证5G技术必须领先,R16就是展现责任心的一次具体行动,支持中国5G生态链领先全球。另一个是半导体技术,必须进入先进技术领域,并扎根其中。”

5G当先的战略下,楚庆用了展锐当时一半的研发力量(2000人做头)投入5G。2020年5月15日,展锐首款5G智能手机芯片正式商用量产,与国际领先厂商的差距为六个月左右,跻身全球5G第一梯队。“2021年2月4日,展锐第二套5G芯片回片,开创全球最早的6nm,甩掉了半导体技术长期落后的帽子!”楚庆在两个月前转发《展锐上半年经营业绩报告》时配上了这样的转发语。

今年7月,展锐宣布联合联通成功完成全球首个基于3GPP R16协议版本的业务验证,这是5G R16标准迈向商用的重要里程碑,也是展锐5G技术创新的又一成果。

5G其实与先进半导体技术相辅相成。展锐2020年发布的唐古拉T770是全球第一颗基于台积电6nm工艺制造的5G SoC。展锐的手机芯片从12nm跨越10nm和7nm,再到6nm EUV工艺,首次实现了工艺领先。

今天的峰会上,紫光展锐执行副总裁周晨曝光了其6nm 5G芯片的跑分成绩,超过40万分的成绩表明表明其已经能够达到业界主流中高端5G智能手机的性能水平。

但帮助展锐快速提升市场份额的,4G更为关键。

“展锐在4G智能机成功逆袭,是因为制定了正确的战略。”楚庆表示,“在5G来临之际,大公司没有别的选择,只能精力全投到5G上,完全忽略了4G。我们在这个时候杀一个‘回马枪’,利用最高效的组织方式开发了T610/618,而且在很短的时间内推向了市场,结果这一战不光为我们赢得了生机,还赢得了声誉。”

雷锋网了解到,目前展锐在4G领域既有顶线的T610/618,也有面向中间层和主打性价比的多元全线产品,4G业务布局形成一个立体战略架构。

“小公司相对于大公司而言,唯一的优势就是战略优势,如果不能抓住,必然失败。”楚庆这样说。

这让展锐以冲刺的速度提升了其在手机市场的占有率。2021展锐成功进入荣耀、realme等手机品牌,并持续获得包括海信、TCL、中兴、联想、摩托罗拉、诺基亚等品牌厂商在内的全球128个国家超五百家客户的订单。

2021上半年,展锐营收同比增长240%,其中5G手机业务收入同比增长1458%。

紫光展锐未来的可能性

虽然有市场机构预测,展锐处理器今年下半年在中国智能手机品牌的份额有望达到10%,但手机市场的增长空间有限,潜力还是在于手机之外的消费以及行业市场。统计和预测数据表明,全球范围内物与物连接的数量正在快速增加,已经超过了人与人之间的连接数量。

5G出现之前,移动通信主要围绕人与人之间的通信,支撑起丰富的消费级业务。5G定义物间通信为主要场景,推动物联网产业爆发。为了以先进可靠的技术承载数字世界的生态,展锐有三大技术底座,分别是马卡鲁通信技术平台,AIactiver技术平台和先进半导体技术平台。

展锐高级副总裁夏晓菲介绍,马卡鲁是展锐的5G通信技术平台,为客户提供方便快捷的一栈式解决方案。AI技术平台AIactiver,通过异构硬件、全栈软件和业务深度融合,优化了原生用户体验的同时,也向客户提供完整的二次开发平台和定制服务,帮助生态合作伙伴高效便捷的开发丰富的AI应用。先进半导体技术平台将包含SoC、射频、电源芯片等多个领域,以及先进封装技术。

实际上,展锐在5G行业市场也已经开始快速发展。Counterpoint的第二季度全球蜂窝物联网市场跟踪报告显示,展锐是全球前五大蜂窝物联网芯片厂商中唯一一家同比增速超过100%的玩家。

同时,展锐在多个典型行业领域都取得了优异表现:在公网对讲机领域,展锐产品的国内市场份额接近80%;金融POS领域国内市占率50%;云喇叭国内市占率70%;OTT领域Wi-Fi份额60%,市占率全国第一;在快递车的换电充电领域,展锐在全国市场份额接近六成。

展锐高级副总裁、工业电子事业部总经理黄宇宁指出,展锐2021年上半年在工业电子领域实现了业务销售收入同比增长153%的成绩。

不过,市场需求依旧整个芯片行业面临的挑战。楚庆认为,目前的缺货并不是因为真实需求的大幅增长而造成的供应不足,囤货更多属于一种投机行为。

“芯片供应商都在加大马力供货,从一些关键供应链的产能增加情况来看,去年年底到今年年初已经做了大规模的投入,预计明年二季度这笔投入会变成现实的产能,所以明年二季度到三季度之间可能是一个拐点,有可能从芯片缺货时代迈向供应充足时代。”楚庆预测。

因此,如何面对芯片供应紧缺充足的时代,以及发现并抢占真正爆发的应用市场,才是展锐未来增长的关键。

楚庆透露,展锐已经有应对芯片供应紧张缓解的准备。

同时,为了能够更好服务客户,展锐成立了一个新的部门——解决方案管理部。“我们把几乎原来研发力量30%的人力都投了进去,就是为了给生态伙伴提供更好的支持、更好的服务,不光是要变得更高效,而且还要更精准,这是我们的决心。”楚庆解释。

小结

楚庆领导的新展锐自2018年以来已经交出了漂亮的成绩单,在5G以及发展国产高端芯片的大背景下,展锐抓住了机遇,战略调整的价值也被证明。但这种势头能否保持,一方面仍要看其领导团队的执行力以及能否在战略指引下持续保持高效。另一方面,只是迈进5G和高端芯片市场的展锐,想要站稳难度不小,毕竟这个行业如今仅剩的竞争者,每一个都比展锐强大。

还有一个问题,紫光集团的破产重组会在多大程度上影响展锐的发展。雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/5BmhfrJe3GM13SeU.html#comments Thu, 16 Sep 2021 18:06:00 +0800
Arm正在x86统治的高性能CPU市场“披荆斩棘” //www.xyschoolife.com/category/chipdesign/3HBCaQnHjpWfzjtb.html 摩尔定律持续发挥作用的几十年间,无数应用受益于芯片性能的快速提升,芯片市场的格局也在这个过程中逐步稳定,x86 CPU在桌面和高性能计算市场占有绝对优势,Arm CPU统治移动互联网市场。

然而,随着摩尔定律的放缓,市场的格局也开始发生变化。能效比优势明显的Arm CPU经过三年多的努力,已经在x86 CPU统治的云计算、HPC市场取得了值得关注的成绩。并且,正在快速增长的DPU和5G市场,Arm也雄心勃勃。

三年推两代产品

2018年10,Arm推出了Arm Neoverse,这是面向云到边缘基础设施产品,Arm承诺Neoverse平台效能30%的年增长率将持续到2022年及以后。要知道,那时候摩尔定律给传统CPU带来的提升已经不足10%。

Arm Neoverse规划了三个系列产品,同时考虑性能、功率、面积(PPA),擅长可扩展的N系列;提供最佳性能,相对会消耗更多面积和功耗的V系列;主要关注效率,在功耗和面积的缩减上进行优化的E系列。

2019年,第一代Neoverse N1推出,性能相比Cosmos平台提升60%,是2018年提出的目标的两倍。同时推出的还有Neoverse E系列处理器。

2020年发布的Neoverse N2,在保持相同水平的功率和面积效率之余,相比Neoverse N1单线程性能提升了40%。强调性能的Neoverse V1的单线程性能相比Neoverse N1更是提升超过50%。

单核性能大幅提升的Arm Neoverse CPU今年接连交出成绩单。今年3月,安晟培半导体(Ampere Computing)发布 “首款云原生处理器”Ampere Altra,拥有80个64位Arm 处理器内核,雷锋网此前的文章介绍过,这是Ampere在2020年流片的产品。不久后,甲骨文就发布了Ampere A1 Compute。

到了7月,基于网络基础设施提供CDN内容分发网络与减缓DDoS攻击的服务提供商Cloudflare首次采用基于Arm架构服务器进行部署。据悉,相较于2013年设计的服务器,Cloudflare基于Arm架构的系统可以安全地处理10倍以上的互联网请求。

在高性能计算领域,日本国立研究开发法人理化学研究所(RIKEN)与富士通公司共同基于Arm架构开发的超级计算机“富岳”连续第三次名列国际超级计算机500 大(TOP500)排行榜的第一名。

Arm为什么能够迅速拓展高性能计算市场?

Arm接连交出的漂亮成绩单背后,是市场需求的变化。

“面对未来基础设施的多样化要求,传统的通用解决方案已经不再适用。云服务提供商和超大型互联网公司正在推动的创新达到了一个前所未有的水平。这些都在驱动整个数据中心的优化逐渐从上层应用迁移到整机,并进一步扩展到服务器处理器。”Arm基础设施事业部全球高级总监邹挺进一步表示。

“通过Neoverse,Arm和广泛生态合作伙伴系统正在提供一个独特的平台,来实现未来针对服务器芯片的解决方案。其中,AWS Graviton2所带来的强劲发展势头就是这个共同愿景的非常有力的证明。”

性能的提升给有差异化需求的云计算提供商针对Arm高性能CPU进行优化的动力。目前,百度智能云数据库积极发展 Arm 平台数据库产品,已经完成Arm架构的全栈代码改造和性能优化,性能打平传统架构平台。

腾讯也持续在 Arm 架构上进行优化与实践工作,通过性能测试、数据交流、技术研讨等形式不断推动JDK在Arm架构的发展。据悉,KonaJDK团队目前完成了JDK8和JDK11等版本的优化,后续也计划支持JDK17等版本,未来也会加大投入完善JDK对Arm架构的支持。

“基础设施市场变化非常快速,也在不断发展,为了满足这个市场的多样性与快速变化,必然会出现不同类型的计算解决方案。”邹挺进一步表示。

“一方面,我们看到超大型互联网客户通过Arm IP定制服务器芯片,满足特殊应用场景需求。另一方面,也有大量企业客户对标准化Arm服务器芯片带来的高性价比、优异的TCO(总体拥有成本)表现有着很浓烈的兴趣,这也给独立的 Arm 服务器芯片厂商带来非常广阔的市场前景。”

邹挺认为,Arm在云领域上我们已经取得了最相对领先的成功。同时,在中国市场Arm重点关注的领域是云数据中心/超大型互联网领域、和5G网络/电信市场。

加大软件生态投入站稳高性能CPU市场

5G的蓬勃发展,也给Arm带来了新的机会。英伟达将在其5G平台上扩大对Arm架构的支持。

另外,在即将爆发的DPU市场,Arm Neoverse也被多款产品采用。两个月前,Marvell 发布了基于Neoverse N2平台的DPU。上月的英特尔架构日,英特尔透露了其首款IPU产品的信息,让人有些意外的是其款IPU集成了Arm Neoverse N1 CPU。

邹挺认为,DPU 连接到主机系统,并通过 PCI-Express 插槽供电,再加上DPU支持专用的工作负载加速器和数据包处理功能,所以DPU中的处理器能否提供出色的每瓦性能至关重要。Neoverse N系列能够提供行业领先的每瓦性能表现,是DPU核心的最佳选择。

有业内人士也告诉雷锋网,Arm能够提供更加成熟的软件工具链也是其在高性能CPU和DPU市场被采用的重要原因。

Arm当然也看到了这一点,并且正在加强其在高性能CPU软件生态方面的建设。据了解,在Armv8时代的十年,Arm软件开发人员所投入的研发时间超过了 1,000 万个人时。在Armv9时代的十年,Arm软件开发人员的投入时间大概率会超过3,000万个人时。

具体到基础设施领域,邹挺介绍,“通过过去十年的努力,Arm现在拥有大量的OSS项目,ISV也已经支持Arm 64位架构。在Docker Hub上为Arm编写的容器镜像数量超过10万。同时,在Arm硬件上进行CI/CD构建的时间已经多达每个月超过100万分钟。”

企业级云原生软件的支持上,Arm的合作伙伴红帽近期也宣布其Openshift on Arm开发者预览版也在中国落地。

Arm在云计算、HPC、5G所需的高性能CPU市场的软件生态正在成熟,高性能计算CPU的市场也正在迎来新的变化。雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/3HBCaQnHjpWfzjtb.html#comments Thu, 02 Sep 2021 18:24:00 +0800
深度揭秘:百亿美元 DPU 芯片市场的『三国杀』 //www.xyschoolife.com/category/chipdesign/pPrI3PQNZEbg2ZN6.html 全球芯片行业近年来技术、产品、市场的变革,都与摩尔定律的放缓直接相关。AI芯片就是典型代表,当传统的CPU、GPU依靠摩尔定律带来的芯片性能提升不足以满足AI、大数据的需求时,大量的AI芯片应运而生。

继AI芯片之后,DPU(Data Processing Unit)芯片又成了各大芯片巨头、互联网巨头、初创公司争相研发的新产品,也是近年来资本热衷投资的方向,所有的参与者都希望在市场爆发前抢占先机。

不同于CPU和GPU,DPU是典型的应用驱动型芯片,传统芯片巨头有丰富的芯片设计经验但对应用场景的理解不够深入,互联网巨头深刻理解自身业务需求但芯片设计经验不足,初创公司各有所长。

多位业内人士告诉雷锋网,DPU芯片市场将在2-3年后爆发。在全新的DPU赛场,谁能脱颖而出主导市场?

到底是IPU还是DPU?

探讨新鲜的DPU,不妨从命名开始。DPU的概念最早由美国一家名为Fungible的初创公司提出,但将DPU概念带入大众视野的是英伟达。在Fungible提出DPU概念的2019年,英伟达以69亿美元收购了Mellanox,一年后的2020年,英伟达基于Mellanox的产品发布了DPU,DPU的概念一炮而红。

今年6月,英特尔公布了IPU(Infrastructure Processing Unit,基础设施处理器)的愿景。

英特尔公司数据平台事业部首席技术官Guido Appenzeller对雷锋网表示,“DPU和IPU在功能上没有根本性差别,只是命名不同。我个人认为,IPU这个名称要好很多,因为IPU的作用就是处理基础设施功能,这是其与众不同之处。”

“IPU和DPU都有其合理性,目前看将两者画等号问题不大。不过我更倾向于使用DPU的命名。”中科驭数CEO鄢贵海表示,“如果将处理器按照结构划分,可以分为以控制为中心和数据为中心两大类,DPU是以数据为中心,强调的是吞吐量、运算的高效性等,以DPU命名也比较贴切。”

中科驭数是2018年成立于北京的DPU初创公司,在7月底宣布获得了数亿元的A轮融资。

2020年刚成立,在今年7月宣布获得数千万元Pre-A轮融资的DPU初创公司大禹智芯也更倾向于DPU的命名方式。

大禹智芯CEO李爽说:“IPU更多是从应用场景的角度命名,DPU则是描述产品的功能,如果类比CPU和GPU的命名方式,我觉得DPU更合适。英特尔用IPU也很合理,毕竟这类产品还没有形成标准,大公司想要自己定一个标准,而且,IPU中也包含intel的首字母。”

无论是IPU还是DPU,都是全新的命名,那全新的命名代表的是全新的产品吗?李爽和Guido Appenzeller认为属于全新的产品。鄢贵海则认为DPU只能视为全新的商品,实际上DPU的技术已经发展了很多年。

“DPU是一个I/O密集型专用处理器,早在40年前,IBM也有功能类似的产品,他们叫做I/O控制器。因此,DPU的技术要素之前已经存在,只不过当时的重要性没有凸显,如今是通过DPU这样一个产品来进行集中体现。”鄢贵海解释。

李爽提出,“我们不应该把重点放在寻找DPU的定义上,而应该更多关注DPU要解决哪些问题。”

为什么需要DPU/IPU?

DPU诞生的背景是带宽与计算性能的增速失调。CPU的性能从5-10年前每年30%的增幅,到三年前大概只有每年不到3%的性能增幅。而网络带宽每年依旧还有35%左右的增长。”鄢贵海指出:“处理性能和带宽增速的比例从原来的大概1:1,变成了现在的1:10左右。”

当有10倍以上的差距时,就需要思考新的架构。因为原来的架构没办法进行平行扩展,这时候就需要专用的系统。所以DPU不能简单讲是一颗芯片,它是一个系统。”李爽认为,“DPU实际上是架构转移。”

Guido Appenzeller从另外一个维度去解释IPU的诞生。“传统数据中心内只有一个主人。而在云中,工作负载和系统则分别属于租户和云系统提供商,我们看到这两种架构开始分离。”他说,“IPU是一个新兴的架构,专门运行云服务提供商的软件,租赁这些服务器的租户的软件则在CPU上运行。”

用一个形象的比喻来解释传统数据中心与云服务提供商数据中心架构的不同,传统的数据中心就像是家庭场景,客厅、厨房、餐厅都在一个大的区域内,有一个明确的主人。而云服务提供商的数据中心则像是酒店,客房、餐厅是分开的,酒店客人和工作人员也同样分开。

Guido Appenzeller认为IPU带来了三个显著优势,首先,加入IPU的架构可以清晰地区分租户区和云服务提供商区。其次,可以把基础设施功能转移到专门优化的IPU上,实现性能的大幅提升。最后,IPU把数据中心变成了无磁盘架构,无需再给每台服务器配备磁盘。

根据Facebook给出的数据,基于微服务的现代应用占用了大量的CPU循环,从31%-83%不等,比如在Web应用中,83%的CPU循环被用于开销,包括传输、压缩、解压缩、加密等功能。如果把这些开销从CPU转移到IPU,云服务提供商就可以把整个CPU租给客户。

鄢贵海也表示,数据中心东西流量与南北流量大约是4:1,东西流量统计的是数据中心节点之间流量,这表明底层基础设施之间消耗的计算资源远大于对外提供服务消耗的资源。目前来看,网络卸载能力是客户对DPU最刚性的需求。

接下来值得关心的问题就是这种新产品的技术路线。

有哪些类型的DPU/IPU?

李爽认为,目前DPU有三种技术架构,一种是Arm多核或MIPS多核,一种是CPU+FPGA的架构,一种是ASIC SoC的架构。前两种已经被验证过,优劣势也比较明显。多核架构具有通用性,整个技术栈偏软件为主。

Guido Appenzeller只将IPU分为两类架构,第一个是专用ASIC IPU;第二个是基于FPGA的IPU。“每一类都有自己的优势和劣势。基于FPGA的IPU能快速实施新协议,应对不断变化的要求或新协议。专用ASIC IPU可以实现性能和效率的最大化。

“在美国和中国,六大云服务提供商目前使用基于FPGA的IPU。随着带宽变高,我们看到他们缓慢地转向专用ASIC IPU。因为存在很多专利协议,所以不会发生快速转变。” Guido Appenzeller指出IPU发展的趋势。

鄢贵海也认同这个趋势,“Arm/MIPS多核的方式在实际的应用系统中未必能真正发挥优势,FPGA的方式可以在接口上省去一些功夫,但重要的部分没有突破,我觉得是避重就轻。ASIC的限制条件更少,能进行更多的定制,实现更大的差异化,差异化越大才能有更大的优势。

“通过与客户的沟通我们发现,市场对于DPU的认可度非常高,但还没有一款很好的DPU能够满足客户需求,大家都在期待一款好的产品。”李爽指出市场都在期待一款优秀的DPU。

这里需要强调的是,虽然目前IPU/DPU与智能网卡(SmartNIC)在形态和功能上有一些类似,但他们本质上是不同类别的产品。Guido Appenzeller解释,IPU 具有本地控制平面,这意味着IPU可以控制CPU,而SmartNIC更多的是卸载,由CPU管理,处于CPU的控制系统中。

一款有竞争力的DPU/IPU有哪些特性?

正如对于AI芯片的评价还没有公认的评价体系,想要评价尚在探索阶段的DPU也并不容易。“如果评价AI芯片的性能已经很困难,我觉得评价DPU的性能会更困难。由于DPU本身功能的多样性,导致我们去衡量它的时候需要的不是一个指标而是一套完整的指标。”鄢贵海指出。

比如,衡量DPU的网络加速功能,网络带宽是关键指标。DPU支持虚拟化,OVS的转发容量又是关键。考量DPU的数据压缩/解压缩,加密和解密性能,在非对称的性能中选择哪一个作为关键指标又是问题。

李爽指出,无论如何,DPU的处理性能一定要大于端口的能力。

Guido Appenzeller说:“设计一款出色的 IPU有很多挑战。我认为最难的部分是获得加速器和流水线,因为它们负责做大部分工作,能够确保具有非常高的性能、非常低的延迟,特别是对大规模云提供商影响最大。”

当然,对于一款芯片来说,物理指标,包括性能、功耗和面积依然可以作为衡量一款DPU的重要维度。但更重要的衡量维度是整个DPU系统,因为DPU是典型的场景驱动芯片。

“CPU、GPU这些传统的芯片都有标准的框架和技术定义,芯片设计公司按照定义去设计芯片,到了用户端最困难的其实是驱动和软件框架。所以最后会发现在芯片硬件性能相似的时候,比拼的是硬件和软件的衔接。”李爽进一步表示,“DPU是一个全新的系统,没有参考设计。这时候只有充分理解客户的需求,从底层硬件架构到软件设计出一套新型的芯片系统满足客户需求是非常大的挑战。”

“要设计一款有竞争力的DPU,一定要对场景有非常深刻的理解。”李爽强调。

对于这一点,英特尔已经用产品证明,其首款产品是一款200G的ASIC IPU,是与一家顶级云服务提供商共同合作开发,实现更高的性能,包括数据包处理,安全性和隔离性等。

鄢贵海也说:“像DPU这样应用驱动的芯片,其性能最终要体现在应用侧。要在应用侧发挥出DPU领先的性能,我认为软件会成为一个重要的瓶颈。”

 “这一点我们在之前已经感受到,在做网络二、三层协议卸载的时候,为了能够充分发挥性能,几乎要重构底层的BSP网络协议,但同时要保证API的不变。”鄢贵海说,“整个DPU系统的性能要提升,不仅要对应用层有足够深度的了解,还需要有包括网络、虚拟化、存储、高速总线协议方面的专业知识。因此需要一套非常好的设计方法和流程,将具备不同设计能力,对不同领域有深度了解的人和设计整合起来。”

“英伟达DPU的软件栈DOCA是在复制了他们在GPU+CUDA领域的成功。客户有学习和迁移的门槛,也是需要慎重考虑是否采用的选择。”这是李爽和鄢贵海的共识。因此大禹智芯和中科驭数都是通过在软件层面投入大量的工作,取不同客户需求的最大公约数提供相应功能,在API层面尽量兼容客户已有的习惯,最大化降低客户的使用门槛和迁移成本。

“目前我们还没有准备好谈论软件,今年晚些时候会有更多相关消息。” Guido Appenzeller表示。

那么,DPU系统的竞争,会朝着什么方向发展?

2-3年后正式开启DPU赛场

有意思的是,此次与雷锋网深度交流的三家DPU提供商,硬件路线都各有特色。英特尔是典型的传统芯片巨头的代表,他们拥有ASIC IPU和FPGA IPU两条产品线。中科驭数选择的是ASIC IPU的路线。大禹智芯采用Arm、FPGA、ASIC根据场景不同组合的路线。

ASIC一般而言是在牺牲一定的灵活性的前提下获得高效处理能力。对于采用ASIC IPU路线的中科驭数,鄢贵海对灵活性的看法是,“如果分工过于细致但共享度不够,可能会损失效率,但如果有足够的共享程度,分工带来的潜在灵活性损失会被极大弥补,这一点我倒不是特别担心。而过分追求灵活性,也可能丧失DPU异构计算的潜力。

大禹智芯坚持DPU的通用性。李爽解释:“我们的目标是构建面向云计算市场的通用DPU。所以在软件可以复用,硬件采用多种方案。这实际也是降低风险的方式,先配合上层应用定义好软件,在这个过程中不断提取对硬件的定义,减少因为对场景理解不够透彻可能导致的芯片设计偏差。”

据悉,大禹智芯会使用Arm的IP以及第三方的FPGA,ASIC则是自己的芯片团队设计。

至于最终的落地情况,中科驭数FPGA版本的DPU已经与上交所、华泰证券、中泰证券、国泰君安等十余家头部客户建立合作,其产品的性能、稳定性已经在实际应用场景中验证。即将推出的下一代产品会向数据中心、5G边缘计算等领域扩展。

大禹智芯首要的目标市场与英特尔一样都是云服务提供商。李爽说,“我们的目标客户是那些对于DPU的需求量不小,但又不够支撑其自研的公司。这样对于客户和我们试错成本都比较低。我们的策略是不做定制,要做DPU产品服务提供商。”

大禹智芯、中科驭数都把自己定位为中立的DPU供应商提供领域通用的芯片,核心的原因还是看到了这一市场未来的前景。头豹研究院预测,中国DPU市场规模预计将在2025年达到37.4亿美元。全球DPU市场规模2025年预计将达到135.7亿美元。

中国DPU市场规模,2020-2025年预测,来源:头豹研究院

报告同时指出,数通市场是DPU最大的应用市场,其中裸金属服务其对DPU存在刚需。DPU在电信市场的应用主要为边缘计算场景,渗透率不足5%。针对智能驾驶领域的DPU仍在探索阶段,预计在2023年DPU才有望布局在智能驾驶领域。

Guido Appenzeller 认为“从根本上来说,运营模式类似云就非常适合采用IPU。”

“未来2-3年市场会爆发,因为现在各家公司的DPU从今年开始设计,硬件系统大概需要2-3年的时间。我认为近三年大家都没有竞争关系,是在比赛谁先把产品推向市场。”李爽表示。

鄢贵海同样认为,“2-3年后市场陆续会有DPU产品推出,那时候DPU的竞争会更强调先进制程、先进封装。我认为未来DPU的竞争一定是异构系统的竞争。

Guido Appenzeller 对于当下DPU市场的态度是,“有几家初创公司正在开发DPU,而且拥有许多有趣的技术和产品,这对所有厂商来说都是非常有益的。从长远来看,我认为云端的几乎每个服务器都会有类似 IPU 的东西,这显然是一个很大的市场。渐渐地,这不再是一个初创市场,而是由大公司主导的市场。

但除了传统的芯片巨头和初创公司,头部的云厂商们也在自研DPU产品。亚马逊云科技(AWS)2013年开始就开始研究将网络、存储等之前由CPU处理的任务卸载到网卡上,并推出了相应的产品。阿里云也在其神龙服务器核心组件中应用了专用芯片,统一支持网络、I/O、存储和外设的虚拟化。

此时,DPU的性能和成本优势都是竞争的关键。李爽预估,云服务提供商采用DPU后可以带来十倍的性能提升,TCO(总体拥有成本)能下降超过10%。鄢贵海在有很多限制条件下做出的预估更加乐观,TCO下降可以达到30%。

让人更加期待的是,当IPU/DPU让云服务提供商拥有更强的能力之后,未来可能创造的新产品和新应用。

资本在加持,玩家在增加,传统芯片巨头、初创公司、自研DPU的头部云服务提供商,谁会成为最终统治市场的2-3家DPU提供商?

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/pPrI3PQNZEbg2ZN6.html#comments Thu, 02 Sep 2021 14:03:00 +0800
英伟达预计9月初寻求欧盟批准,收购Arm或无法如期完成 //www.xyschoolife.com/category/chipdesign/3EIaKZNaJrsG4T6l.html 雷锋网消息,据路透社报道,知情人士透露,英伟达可能会在下月初寻求欧盟反垄断机构对其400亿美元收购Arm的批准,而欧盟监管机构预计将在初步调查后展开全面审查。

今年6月,有三位知情人士透露,由于欧盟反垄断机构提出的问题比英伟达预期的问题多得多,英伟达至今尚未向欧盟委员提出收购批准申请。同时欧盟反垄断机构的官员已经向英伟达表明,如果英伟达无法在月底之前提交批准申请,由于欧洲假期耽误,将要等到9月才能正常进行审查。

结合来看,这只是欧洲假期结束英伟达提出收购批准申请。

消息人士称,向欧盟委员会提出批准该交易的请求将启动为期 25 个工作日的初步审查。不过,英伟达在此期间不太可能做出让步,这将促使欧盟进行为期90个工作日的全面调查。

由此一来,英伟达可能无法在2022年3月的最后期限内完成交易。

当然,欧盟委员会并非英伟达收购Arm的唯一阻碍。Arm的总部位于英国,基于国家安全问题,英国竞争和市场管理局(Competition and Markets Authority)在今年7月20日向英国文化部长Oliver Dowden提交了一份报告书。

本月初,彭博社援引一位知情人士的消息,报告表示英伟达的收购对英国国家安全表达了担忧,英国目前倾向于拒绝收购。

另一位未透露姓名的知情人士称,出于国家安全考虑,英国可能会对这笔收购进行更深入的审查。

英伟达的一位发言人对此回应,“这项交易将有利于Arm、以及其客户。我们正在通过监管程序,期待与欧盟委员会合作解决可能存在的任何问题。”

实际上,英伟达这家全球最大的GPU和人工智能芯片提供商去年宣布将以400亿美元收购Arm的交易后就立即引发了半导体行业的强烈反对。

长期以来,Arm 一直是一个中立的芯片提供商,将关键知识产权授权给众多芯片公司,包括高通公司、三星电子和苹果公司等,其中一些是英伟达的竞争对手,高通就公开表示不支持英伟达收购Arm。

不过,这笔交易也有一些支持者,英伟达表示,它已经获得了 Arm客户博通、联发科和 Marvell的支持。

除了欧盟和英国,中国也是这笔交易能否达成的关键。今6月,一位中国的反垄断律师告诉英国《金融时报》,中国的调查可能会使这笔交易超过英伟达在2020年9月给出的18个月窗口期。

根据英伟达和Arm的收购协议,两家公司可以选择将最后期限延长至2022年9月。同时,在没有得到政府的许可的情况下,任何一方都可以宣布退出,终止协议。

参考链接:https://www.reuters.com/technology/nvidia-set-seek-eu-okay-54-bln-arm-deal-sources-2021-08-27/ 雷锋网雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/3EIaKZNaJrsG4T6l.html#comments Sat, 28 Aug 2021 12:31:00 +0800
自研IP出货将超1亿片,Arm中国秀出“涡轮发动机”XPU //www.xyschoolife.com/category/chipdesign/kXG3z8hhwffYRS6O.html 2018年开始独立运营的合资公司安谋科技(Arm China),三年后的今天在强调CPU+XPU“双轮驱动”战略的同时,发布了全新业务品牌“核芯动力”,为的是满足越来越多的智能数据流处理需求。

“核芯动力“的标志很像一个涡轮发动机,是我们希望通过技术给产业提供核芯动力的愿望。”安谋科技执行董事长兼CEO吴雄昂解释,“标志左边是一个A,代表了我们在Arm CPU架构上的传承。中间的X代表了XPU架构给产业提供更好的动能。A+X代表着我们希望提供完整的解决方案。同时,右边是很多的i元素,代表了创新、智能以及无限的可能,无限的合作伙伴。”

安谋科技的涡轮发动机,到底要驱动什么?

核芯动力是什么?

安谋科技作为合资公司,继承了Arm在中国的CPU业务,自2018年成立,帮助Arm CPU累计出货量超过200多亿片。同时,安谋科技的自研IP也取得成果,4条产品线全部量产,有上亿片的出货量,全国有90多家合作伙伴,29家实现流片和量产。安谋科技的员工数量也已经超过800人。

更具体地说,安谋科技在2018年的11月就发布了自主研发的AI专用处理器IP周易NPU,并且在2020年十月发布周易Z2。

安谋科技自研CPU 星辰在2020年实现量产。

自主研发的信息安全IP系列产品山海SPU的首代产品是安谋科技独立运营的第二年发布,并在2021年4月发布了第二代产品山海S12。

去年底,安谋科技又公布了全新“玲珑”多媒体产品线,包含玲珑ISP和玲珑VPU,搭载玲珑ISP的产品预计在今年底实现量产。

显然,安谋科技不仅从独立运营之初就开始布局自研产品线,从AI到视觉到安全,而且实现了产品的商用,自研XPU产品芯片出货量2021年将超过1亿片。但为什么选择在今年的这个时间节点宣布新的业务品牌,安谋科技并未选择回答雷锋网的这一问题,但可以从核芯动力的含义中找到一些答案。

摩尔定律的放缓,让所有类别的处理器想要借助先进制程提升性能的难度越来越大,但AI、智能汽车、高性能计算对计算性能的要求却越来越高,单一的计算架构已经很难满足不同应用,不同客户的多元化需求。

以自动驾驶为例,摄像头的清晰度每过几年就翻倍,从2K、4K到8K,摄像头数量也从2个、4个到8个、12个,这些摄像头产生的数据流都必须被实时性地处理,才能保障行车安全。而这些海量的数据流必须有一个全新的计算架构才能提供百倍算力的提升。

可以看到,英特尔已经通过收购拥有了全面的计算架构,并且在近几年一直在强调XPU战略。Arm在今年四月发布最新一代架构Armv9的时候,也非常强调全面计算的理念。安谋中国今天发布的核芯动力新业务品牌,同样也是要解决智能数据流计算的挑战,目标用开放的智能数据流融合计算架构,推动中国本土XPU生态的创新。

与英特尔的XPU定义有所区别,安谋科技对XPU的定义是“开放的智能数据流融合计算平台正”。更具体的说,是基于超域架构(xDSA)的XPU可以针对不同应用,将处理AI、视频、图像等功能的计算单元组成不同的解决方案,来解决海量智能数据流的处理效率和功耗问题,满足客户多元化的需求。

安谋科技新业务副总裁张晓波解释,安谋科技重新定义了新的融合计算架构,即超域架构,其中主要核心是以高密度数据流处理为中心的专有核心计算单元,同时域处理部分也引入了智能架构,另外,也会支持架构扩展进行算力的堆叠。

也就是说,安谋科技的XPU以及核芯动力新品牌,从整个业界的角度来说,并非一个全新的概念,而是顺应时代潮流的一个重要举措。当然,这其中也包含了这家国内最大CPU IP提供商自有优势的体现,还有对于未来的判断。

瞄准三大应用,开源NPU指令集建设生态

张晓波说,XPU的新架构具有灵活、高效、专用及支持丰富产品组合等特性。XPU产品构建出的子系统可以完美地支持智能物联网、自动驾驶及新型数据中心等。

安谋科技执行董事长兼CEO吴雄昂

“以往,客户需要从不同的IP提供商那里购买不同的IP再进行整合,这样面临比较大的挑战。我们的XPU不仅可以省去客户需要多方采购和集成IP的挑战,同时,针对场景优化的XPU能够提供更有竞争力的解决方案。”吴雄昂在发布会后的沟通环节表示,“针对场景定制和优化也是安谋科技XPU的不同之处。”

在整个芯片业界都在朝着XPU路径迈进的当下,谁能更好满足新兴市场的需求无疑能在未来的竞争中占有更多优势。AI作为当下最为关键的技术之一,如何用CPU+GPU+AI在众多应用场景中发挥出价值非常关键。

2021年7月15日,在中国半导体协会的指导下,安谋科技和上下游50多家企业成立智能计算产业技术创新联合体(ONIA), 共同发布全球首个开源的神经网络处理器指令集架构(NPU ISA)。

“这是中国首发、全球开源的神经网络处理器指令集架构。”吴雄昂说:“我们通过共建共享、开放创新的模式,希望形成产学研投的联动,推动自主核心技术的落地与演进。”

安谋科技预计,到2021年底,ONIA囊括中国集成电路产、学、研的会员单位将突破100家。

为了进一步支持创新,支持开源开放,安谋科技也会针对创新联合体的会员,提供周易NPU的免费授权。另外,还会联合安创加速器,孵化10家基于开源架构和XPU的创业企业。

“我们周易NPU的团队有100多人,在国内属于很大的团队,产品也非常领先。”吴雄昂也说,“国内也有许多公司有团队在做NPU,并且也有不错的产品。我们推开放NPU ISA的目的是希望整个业界能实现NPU ISA和工具自由,以更高的效率和更低的成本实现AI的更多落地。”

吴雄昂同时确认,开源并不适用于安谋中国的所有IP产品。而且即便NPU ISA开源,也可以给通过给客户提供定制化服务获得营收。

还有一点,安谋科技的XPU目前仅针对国内市场,暂时没有面向国外市场的计划。

这就不难看出,安谋科技开源NPU ISA只是想要借助开源的方式,和合作伙伴共赢,帮助需要NPU的客户以更低成本实现落地,在这个过程中安谋科技能够完善AI生态,实现在AI领域的领先。

雷锋网认为,学界对于安谋科技的开源NPU ISA会兴趣更大,但对于已有NPU以及希望在AI领域掌握核心技术的公司,很难被开源的NPU ISA打动。

小结

国内最大CPU IP提供商的光环,并非安谋科技完全靠自己努力获得的光环。因此,对于有更高追求的安谋科技来说,在XPU的时代,以自研的IP产品,通过开源的方式去吸引更多合作伙伴,建立真正自主的生态是一个非常巨大的机遇,也是一个明智的举措。

但如何把握好兼容Arm CPU和核芯动力之间的平衡,应该会是安谋科技未来会面临的问题。

Arm的NPU Ethos以及ISP IP产品,在国内的发展,是否会面临阻力?

注,文中配图来自安谋科技雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/kXG3z8hhwffYRS6O.html#comments Thu, 26 Aug 2021 18:30:00 +0800
发射全新架构“火箭”,英特尔两年“登月” //www.xyschoolife.com/category/chipdesign/1DLGukTafkS1x3fq.html 本周四,英特尔架构日用长达近两个半小时的时间介绍了其在架构创新以及相关新产品方面的进展。英特尔高级副总裁兼加速计算系统和图形事业部总经理Raja Koduri说:“架构是硬件和软件的‘炼金术’。”

英特尔高级副总裁兼加速计算系统和图形事业部总经理Raja Koduri

2016年,AMD发布全新CPU微架构ZEN,帮助其在桌面CPU市场几年间迅速接近甚至超越英特尔。今天,英特尔发布了全新的CPU架构和两个核心,将移动SoC中已广泛应用的CPU大小核(BIG.LITTLE)架构率先引入桌面级CPU中。

英特尔在升级“看家”产品CPU的同时,也带来了独立GPU更详细的信息。特别值得关注的是,英特尔首次展示了耗时近两年,堪比登月难度创新后的产品Ponte Vecchio GPU,包含1000亿个晶体管,这是英特尔迄今为止最高的计算密度产品,能提供业界最顶级的AI性能。

不止于此,英特尔还进一步介绍了全新的基础设施处理器(IPU)。

从CPU到GPU再到IPU,每一个新的架构和产品都是其XPU架构战略的体现,也用实际产品证明了芯片异构的时代,软件优先的重要性。无论如何,英特尔全新的CPU值得消费者期待,而其GPU以及IPU,也将成为竞争对手重点关注的产品。

4年处理能力提升1000倍

AI、元宇宙、AR,都需要超高性能的处理器。每一位追求创新的客户都给英特尔一个问题,到2025,英特尔能让我们的工作负载处理能力有1000x(千倍级)的提升吗?

“这个要求只给了我们4年时间,而1000倍可是摩尔定律的5次方。” Raja说,“为了在2025年满足1000x(千倍级)提升的需求,我们要在每个技术领域,实现至少4倍左右的摩尔定律提升,这些领域包括制程工艺、封装、内存和互连,架构是将它们与软件结合起来的‘炼金术’。这些技术的集合可以作为乘法因子,与4倍的提升相结合,就能提供处理繁重的工作负载所需的千倍提升,这同时例证了为何如今是成为架构师的大好时代。”

2019年,两位图灵奖得主 John L. Hennessy 和 David A. Patterson发表长报告展望,未来的十年将是计算机体系架构领域的“新的黄金十年”。

已经准备好先进制程(Intel7、Intel4、Intel3、Intel20A,以及外部代工厂),先进封装技术(EMIB、Foveros),内存(傲腾)和互联技术的英特尔,处理能力可以像火箭一样跃升吗?

这需要先看英特尔的看家本领——CPU。

要以大小核的方法,夺回CPU领先优势

“我们的首要目标是,打造世界上极高能效的x86 CPU内核。与此同时大幅缩小芯片尺寸,以便多核工作负载可以根据需要,使用尽可能多的内核进行拓展。我们还希望提供更宽的频率范围,以满足更高需求的工作负载。”英特尔院士,英特尔x86能效核的首席架构师Stephen Robinson介绍,

“基于全新的微架构,全新的CPU内核在多核性能方面实现了突破,首款产品是Alder Lake。”

Alder Lake是英特尔首个性能混合架构,采用Intel7制程,搭载两款新一代x86内核以及智能英特尔硬件线程调度器。

先看能效核,也叫E-Core。与英特尔迄今为止最多产的CPU微架构Skylake相比,其可在相同功耗下提升40%的单线程性能,或者在提供同样性能时,功耗仅为Skylake的40%不到。如果看吞吐量,与运行四个线程的两个Skylake内核相比,四个能效核在性能提升80%的同时功耗更低,或者在提供相同吞吐量性能时,功耗降低80%。

实际上,英特尔是利用各种技术,在不耗费处理器功率的情况下对工作负载进行优先级排序,并通过每周期指令数(IPC)改进功能直接提高性能,具体的功能包括:

  • 拥有5000个条目的分支目标缓存区,实现更准确的分支预测

  • 64KB指令缓存,在不耗费内存子系统功率的情况下保存可用指令

  • 英特尔的首款按需指令长度解码器,可生成预解码信息

  • 英特尔的簇乱序执行解码器,可在保持能效的同时,每周期解码多达6条指令

  • 后端宽度(Wide Back End)具备5组宽度分配(Five-wide allocation)和8组宽度引退、256个乱序窗口入口和17个执行端口

  • 支持英特尔®控制流强制技术和英特尔®虚拟化技术重定向保护等功能

  • 实现了AVX指令集以及支持整数人工智能操作的新扩展

再看性能核,也叫P-Core,这是英特尔迄今为止性能最高的CPU内核,它是一个更宽、更深、更智能的架构,展现出更高的并行性,提高执行并行性,降低时延,提升通用性能。

更宽、更深、更智能的性能核架构具体的体现是:

  • 更宽:解码器由4个增至6个,6µop 缓存增至8µop,分配由5路增至6路,执行端口由10个增至12个

  • 更深:更大的物理寄存器文件(physical register files),拥有512条目的重排序缓冲区

  • 更智能:提高了分支预测准确度,降低了有效的一级时延,优化了二级的全写入预测带宽

与第11代酷睿架构(Cypress Cove内核)相比,在相同频率下,性能核在一系列工作负载上平均提升了约19%。

拥有AI硬件加速器是英特尔CPU独有的功能,这一特性在性能核上进一步通过软件结合硬件来提升。凭借英特尔高级矩阵扩展(AMX)来执行矩阵乘法运算,AI加速可以提升约8倍(每个内核每周期可进行2048次int8运算)。AMX可是用过软件的方法,由此就不难理解英特尔一直强调软件优先的原因。

“能效核并不意味着性能就低,只是其优化的方向与性能核不同。”英特尔研究院副总裁、英特尔中国研究院院长宋继强告诉雷锋网。

拥有了不同的内核,就像是拥有了更多武器,能够充分发挥武器的杀伤力才是高手称霸的关键。所以,英特尔开发了独特的硬件线程调度器,能够从开始就动态、智能地分配工作负载,从而优化系统以在真实场景中实现更高的性能和效率。

“英特尔硬件线程调度器与其它调度器一个非常大的区别就是动态、智能地分配工作负载,在合适的时间把合适的线程分配给合适的内核,同时还与操作系统无缝配合。”宋继强指出。

全新性能混合Alder Lake架构CPU由于采用了单一、高度可扩展的SoC架构,这就让其可以支持从超便携式笔记本,到发烧级,到商用台式机的所有客户端设备。

全新的性能核微架构也会用于利润丰厚的数据中心CPU市场,也就是下一代英特尔至强可扩展处理器,代号Sapphire Rapids,其核心是一个分区块、模块化的SoC架构,采用英特尔的嵌入式多芯片互连桥接(EMIB)封装技术,在保持单晶片CPU接口优势的同时,具有显著的可扩展性。

可见,AMD用Zen赶超英特尔,如今英特尔要用Alder Lake反超。这也让我们更期待今年底将会出货的搭载Alder Lake CPU的PC产品。同样,英特尔捍卫其在服务器CPU市场的领导力,代号Sapphire Rapids的下一代至强可扩展处理器也非常重要。

再入独立GPU市场,挑战登月级难度

相比看家本领的CPU产品,英特尔过去两次挑战独立GPU市场,都以失败告终。再一次进入独立GPU市场的英特尔面临的是更大的挑战。

“我们面临的是将近持续十年之久的问题。英特尔在吞吐量计算密度和对高带宽内存的支持方面都落后。这两者都是 HPC和AI的基本指标,也是GPU架构的基石。”Raja给出了图表展示英特尔与业界领先水平的差距。

Raja还同时说,“当2017年GPU架构开始为AI数据类型的矩阵处理添加特殊引擎时,问题变得更糟。我们真的很想尽快缩小这个差距,所以我们需要一个堪比登月难度的创新产品。”

今天英特尔架构日上,详细介绍的全新的独立显卡微架构Xe HPG,采用新的Xe内核,聚焦计算、可编程、可扩展,并全面支持DirectX 12 Ultimate。基于全新独立显卡微架构Xe HPG的首款产品是Alchemist,Alchemist SoC能够提供出色的可扩展性和计算效率,并拥有以下关键架构特征:

  • 多达8个具有固定功能的渲染切片,专为DirectX 12 Ultimate设计

  • 全新Xe内核,拥有16个矢量引擎和16个矩阵引擎(被称为XMX,即Xe Matrix eXtension)、高速缓存和共享内部显存

  • 支持DirectX Raytracing(DXR)和Vulkan Ray Tracing的新光线追踪单元

  • 通过架构、逻辑设计、电路设计、制程工艺技术和软件优化,相比Xe LP微架构实现1.5倍的频率提升和1.5倍的每瓦性能提升1

  • 使用台积电的N6制程节点(通常叫做台积电6nm)上进行制造

与全新的CPU微架构一样,英特尔全新的GPU微架构也采用了软件优先设计的方法。

“英特尔很早就与开发者、API 和领先的游戏引擎厂商展开合作,共同为游戏发烧友设计英特尔新款独立GPU。这款全新可扩展Xe HPG架构,采用了软件优先的设计方法,从而为游戏玩家和创作者带来高性能表现并减少画面卡顿。” 英特尔CEO 帕特·基辛格表示。

雷锋网了解到,英特尔已完成了内核显卡驱动程序组件的重新架构,特别是内存管理器和编译器,使计算密集型游戏的吞吐量提高了15%(至多80%),游戏加载时间缩短了25%。同样能体现软件优先的特性是XeSS。

XeSS与CPU中的AMX一样可以进行AI加速,利用Alchemist的内置XMX AI加速,带来了一种可实现高性能和高保真视觉的全新升频技术,让那些只能在低画质设置或低分辨率下玩的游戏也能在更高画质设置和分辨率下顺利运行。

从正在试产阶段的Alchemist  SoC的演示视频可以看到,包括真实游戏展示,虚幻引擎5测试良好。想要用上英特尔全新的Alchemist GPU,最早一批要到2022年第一季度上市,错过了圣诞季的消费热潮,不知能否赶上春节。

除了确定性较高的Alchemist,英特尔还规划了Battlemage、Celestial和Druid 的消费级独立GPU产品,英特尔还为这一系列产品推出了全新的品牌名称锐炫。

但最能展现英特尔在独立、高性能GPU市场决心的产品还是基于Xe HPC微架构的Ponte Vecchio,这是英特尔迄今为止最复杂的SoC,包含1000亿个晶体管,提供业界领先的浮点运算和计算密度,以加速人工智能、高性能计算和高级分析工作负载。

“不到两年前,我分享了我们为Ponte Vecchio设定的目标。看到这样非凡的芯片工程以及雄心勃勃的软件计划在我们的实验室内成为现实,这对于我们来说是令人难以置信的时刻。对于我们来说,这已经不再是似乎不可能的登月难度的创新产品。”Raja同时也表示,

“整个项目尚未成功,我们还有很多工作要做。但是,我们迫不及待地希望大家加入我们的旅程,在明年初把这个架构带给所有客户。”

之所以说Ponte Vecchio的难度堪比登月,是因为要设计这样一款产品难在从无到有,面对的是新的SOC架构、新的IP 架构、新的内存架构、新的I/O架构、新的封装技术、新的供电技术、新的互连、新的信号完整性技术、新的可靠性方法、全新的软件、以及新的验证方法。

“保守地说,Ponte Vecchio是我在30年的芯片开发生涯中开发的最复杂的芯片。实际上,我甚至不确定把它称为芯片是否准确,它是包含诸多芯片的集合。”英特尔Ponte Vecchio首席架构师Masooma Bhaiwala感叹。

架构日上,Masooma Bhaiwala英特尔展示了早期的Ponte Vecchio芯片就已经显示出领先的性能,在一个流行的AI基准测试上创造了推理和训练吞吐量的行业纪录。基于Ponte Vecchio的A0芯片已经实现了超过每秒45万亿次浮点运算的FP32吞吐量,超过5 TBps的持续内存结构带宽以及超过 2 TBps的连接带宽。

雷锋网了解到,基础单元是Ponte Vecchio的连接组织,它是基于Intel 7制程工艺的大型芯片,针对Foveros技术进行了优化。Xe 链路单元提供了GPU之间的连接,支持每单元8个链路,该单元已被添加到“极光”(Aurora)百亿亿次级超级计算机的扩展解决方案中。

异构时代的IPU

IPU(基础设施处理器)是CPU和GPU之外,英特尔架构日的第三个重要产品。英特尔在不久前提出IPU的概念,这一产品的目标是使云和通信服务提供商减少在中央处理器(CPU)方面的开销。

英特尔数据平台事业部首席技术官Guido Appenzeller介绍,英特尔认识到单一产品无法满足所有需求,因此对其IPU架构进行了更深入的研究,并推出了以下IPU家族的新成员。目前的IPU基本上使用两类架构:一类是专用ASIC IPU;一类是基于FPGA的IPU。

基于FPGA的IPU能快速实施新协议,应对不断变化的要求或新协议。例如,在这些FPGA上实现未公开的专有协议。专用ASIC IPU可以实现性能和效率的最大化。

“两者实际上都不同于经典的SmartNIC,后者缺乏执行基础设施控制面的能力。对于不同类型的基础设施加速,没有适用所有情况的方案。因此,英特尔将继续投资于这两类IPU以及SmartNIC。”Guido Appenzeller同时表示。

Mount Evans是英特尔的首个ASIC IPU。据悉,这是英特尔与一家一流的云服务提供商共同设计和开发的,融合了多代FPGA SmartNIC的经验。

“接下来将迎来两款基FPGA的IPU新产品,分别面向云(Oak Springs Canyon)和通信(Arrow Creek)市场。” Guido Appenzeller介绍,

Oaks Springs Canyon是基于FPGA的IPU,采用了英特尔的Agilex FPGA 和至强D片上系统。还采用了英特尔开放式FPGA开发堆栈(英特尔OFS),这是一个可扩展、开源软硬件基础设施堆栈,能够满足新兴云服务提供商对于部署100GB工作负载的需求。Oak Springs Canyon还包括一个加固的加密模块,以线速性能保护所有基础设施流量、存储和网络。

Arrow Creek是一个加速开发平台,基于Agilex FPGA和e810 100GB以太网控制器。它源自英特尔PAC-N3000,后者目前已经被全球各地的顶级通信服务提供商所采用,Arrow Creek将帮助电信运营商提供灵活的加速工作负载。

成就异构芯片时代——oneAPI

“在软件领域,要开启堪比登月难度的创新计划。我们需要一个编程框架,让软件开发者在编程时无需考虑不同的CPU和加速器组合,很多人认为这是不可能的任务,我们创造了oneAPI,让开发者能够摆脱专有语言和编程模型。”Raja说,

“oneAPI行业计划提供了一个开放、基于标准、跨架构、跨矢量的统一软件堆栈。这个行业规范的第一个版本已于去年9月发布,其中规定了一个通用硬件抽象层、数据并行编程语言以及全面的高性能函数库,涉及数学、深度学习、数据分析和视频处理领域。

目前,NVIDIA GPU、AMD GPU和Arm CPU均有Data Parallel C++(DPC++)和oneAPI库。oneAPI工具包拥有超过20万次单独安装,市场上部署的300多个应用程序采用了 oneAPI的统一编程模型。

据悉,临时的oneAPI 1.1版已经在5月发布,增加了面向深度学习工作负载和高级光线追踪函数库的全新图形接口。预计oneAPI1.1正式版将在今年末之前完成。

写在最后

从CPU到GPU再到IPU,从微架构到封装、存储、互联再到软件,从六大技术支柱到异构再到软件优先。英特尔正在用全新的产品组合,技术路线和策略面对AI和5G时代的竞争。

接下来的市场竞争格局的变化,难以准确预测。但英特尔有勇气说出自己在技术上的巨大挑战,以及宣布IDM 2.0,都释放出积极的信号,一个更加开放的英特尔正在积极拥抱新的市场和竞争。

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/1DLGukTafkS1x3fq.html#comments Fri, 20 Aug 2021 21:08:00 +0800
小米 OV 集体自研 ISP 芯片的背后,真相并不简单 //www.xyschoolife.com/category/chipdesign/pJtIiR3lGWVkwLWI.html 过去十多年,中国的手机厂商们借高通和联发科的SoC芯片,推动了智能手机的普及,同时也跻身全球手机行业的前列。然而,随着手机市场竞争的加剧,以及消费者对手机使用体验的更高追求,通用的手机SoC成为了手机巨头们提升竞争力的瓶颈。

于是,小米、OPPO、VIVO相继走上了自研芯片的道路,他们的终极目标是自研SoC芯片,但当下都聚焦ISP(Image Signal Processor,图像信号处理器)的研发。手机巨头们为什么都选择从自研ISP芯片入门?消费者需求、手机厂商的技术积累、ISP的技术特性、手机市场的未来趋势等都是关键原因,这也是本文将详细解答的问题。

至于手机巨头们自研芯片能否成功?多位业内资深人士都告诉雷锋网,这在于手机厂商的决心。

图片来自techthelead

“困”在芯片里的手机巨头,踏上自研之路

2013年12月,中国开启4G时代。三年后的2016年,国产手机开始全面崛起,这一年,苹果和三星在中国的市场份额开始下降,华为、OPPO和VIVO的市场份额高速增长,小米也凭借超高性价比迅速占领市场。

两大市场研究机构Counterpoint和canalys 2021年第二季度的数据显示,小米、OPPO、VIVO位列全球五大手机厂商之列,分别排名第二、第三和第五位,合计市场份额超过35%。小米创始人董事长兼首席执行官雷军更是在近日放出豪言,“5至10年后,小米会成世界第一的手机公司。”

跻身全球前五的三大手机厂商们有一个共同点,每一代手机功能的重大提升都与高通、联发科当年最新的SoC的特性密切相关。这也让他们面临一个共同的挑战,在增长乏力的手机市场,想要实现性能和体验的差异被芯片制约。

自研芯片是一条被证明可行的路径,苹果、华为和三星都通过自研芯片实现了差异化,并成功占领了高端手机市场。实际上,要冲击世界第一的小米早在2014年就踏上了芯片自研之路,在2017年发布了首款手机SoC澎湃S1,但体验不尽人意。

有业内人士对雷锋网表示:“澎拜S1失败一个非常关键的原因是太急于求成。”

研发SoC受挫,小米又在2019年研发了一款ISP芯片澎湃C1,这款芯片与2021年3月发布的小米折叠屏手机MIX FOLD同时亮相,能够实现更好的3A(自动对焦,自动白平衡,自动曝光)处理,自研ISP+自研算法也顺势成为这款旗舰手机的一大卖点。

图片来自小米

这边MIX FOLD已经开卖,那边OPPO和VIVO也在自研芯片的道路上快步前行。

2019年9月,VIVO执行副总裁胡柏山透露其在2018年初就开始考虑深度参与SoC的设计中,并在当年年底发布了与三星联合研发的SoC芯片Exynos 980。虽然已经深度参与SoC研发,但自研才是VIVO的目标。界面新闻7月报道,VIVO内部代号“悦影”的首款自研芯片即将推出,可能也是ISP芯片,将会在X70系列手机上首发。

OPPO公布自研芯片的进展相对较晚,2020年2月OPPO CEO特别助理发布内部文章提出了芯片、软件开发、云服务的三大计划,其中芯片项目名为“马里亚纳计划”。有消息人士爆料,OPPO自研的首款芯片也是ISP芯片,将在2022年初上市的Find X4系列手机上首发。

这就意味着,“困”在第三方手机SoC里的三大手机巨头,明年将会进入新一轮的芯片比拼。但为什么是ISP芯片?

自研ISP的四大理由

自2017年全球手机市场增速开始下降,手机厂商们的竞争就愈加激烈。今日头条发布的2018年手机行业营销白皮书指出,2018年手机功能营销的竞争点趋于集中,AI类特性有8个、屏幕类5个、解锁方式和配色各4个,其中,AI功能又以AI拍照和摄影类居多。

此后的三年间,手机行业对于摄像头的关注只增不减,2020腾讯手机行业洞察白皮书指出,消费者对摄像头、用途和电池的关注度显著提升,其中摄像头的关注度增长率仅次于操作系统。

“影像系统其实是一个很长的链条,包括前端传感器、镜头、马达,承载图像处理的核心部件——ISP芯片,以及后端标定和调优等过程。”安谋科技高级产品经理柴卫华对雷锋网表示。

图片来自三星

“相同的镜头和传感器经过不同的ISP,也会有不同的效果。”爱芯科技ISP负责人、系统架构师张兴同时表示,“ISP的价值是提升图像质量。但ISP是非标准化的芯片IP,既有客观的性能指标,比如摄像头的数量、分辨率帧率、带宽、功耗、延迟等。也有比较难以完全客观化的图像评价指标,包括亮度指标(动态范围、对比度、曝光准确和速度等)、色彩相关指标(饱和度、色彩准确度、悦目程度等)、清晰度等。从经验中来,关于图像主观和客观的测试,大概有40-60种甚至更多。” 爱芯科技是一家AI视觉芯片创业公司,AI ISP是其自研技术之一。

虽然对于好画质很难有统一的标准,但亮度、色彩和清晰度也有一些客观指标,比如有标准的颜色模型衡量色差。“在客观指标达到一定程度之后,客户通常也会根据不同的需求去调整主观指标。ISP的一个特点是有很多的可调参数,工程师可以调整设计好的ISP硬件参数以适应不同的环境。一款好的通用ISP,要提供有足够灵活性和具备可扩展性。”柴卫华指出。

影像功能是消费者关注的重点,而ISP是实现差异化的关键,并且手机出货量巨大,自研芯片如果成功最终可以转化为整机的成本优势,这是手机巨头们选择自研ISP的初始动力,也是第一个理由。

“华为能够用自研的NPU+ISP实现独具特色的AI拍照功能,相比之下,使用高通和联发科SoC的手机厂商发挥的空间会受到限制。”耀途资本投资总监于光说,“由于硬件迭代的周期比较长,手机厂商的需求也不能被快速满足,特别是差异化的需求,自研ISP芯片实现硬件和软件的紧密结合是一个不错的选择。”

张兴进一步解释,ISP一旦设计完成,可供调的参数大致就确定了,但是这些参数是有限的,如果想要提供调试出所有风格的可调参数,芯片面积又会很大到无法承受,这中间需要进行平衡。

想要实现差异化的手机厂商们,在影像系统领域有了多年的积累,也就有了自研ISP的底气,这也是手机厂商选择自研ISP的第二个理由。

研发ISP芯片的可行性是手机厂商坚定迈入自研芯片之路的关键,也是第三个理由。亿智电子创始人兼CEO陈峰说:“由于ISP芯片更加专用,研发ISP在生态上的限制小很多。研发ISP的主要挑战主要有三点:由于图像算法每年都有新的方法,技术在不断迭代;另外,图像的效果需要在满足图像测试客观指标之外,也需要在主观效果可调整性上下功夫;最后是需要适应不同的场景,ISP要能够做到自适应调整好各个环境下的参数。”

芯片公司最宽的护城河就是生态,既然ISP芯片的生态限制相对较小,再加上手机厂商在算法以及对场景需求的理解上已经有丰富的经验,并且已经各有特色,特别是在场景适应方面,手机厂商都有丰富的经验。

手机厂商研发ISP,还有适应未来视频摄影+AI功能竞争的长远价值,这是第四个理由。

“手机厂商已经在拍照中享受到了AI算法带来的好处,包括超级夜景、AI美颜等功能,从趋势来看未来几年,AI拍照最火的几个功能会从拍照推向视频。这就需要一颗高效的AI ISP芯片,以及将AI算法和传统ISP进行更好的结合。”张兴认为。

柴卫华也认为:“随着短视频的需求发展,手机也越来越重视视频拍摄的性能。视频流对于ISP除了有画质的要求之外,非常重要的挑战就是实时性。要实时处理4K甚至8K视频的海量数据,呈现完美的影像效果,处理器性能、算法优异、存储带宽和与系统延迟都是挑战。”

AI是提升拍照和视频效果的关键。陈峰指出,目前AI与ISP结合主要有两种形式,一种是ISP For AI,这种结合方式主要用于检测或识别功能的产品,目标是保证检测或识别的准确率,比如人脸门禁以及辅助驾驶。另一种是AI For ISP,这种结合是用AI替换ISP中的一个或多个图像增强算法,在包括HDR(高动态范围)、夜景降噪、超级分辨率等方面有较好的效果。

近几年,手机业界发现在目前AI算力的支持下,AI算法已经超越了传统ISP算法的效果,因此目前主流的趋势是用AI算法替代一个传统算法,或者将AI算法与传统算法结合。张兴进一步表示,“要充分发挥NPU算力与ISP结合的价值,实现真正意义上的AI ISP,需要在设计的最初就将两个IP结合起来设计。如果是买来的IP,两者结合实现好的功能难度很大,即便实现,也会有大量的功耗和芯片面积的浪费。”

陈峰具体指出,“在视频应用领域,效果稍微好的AI降噪算法,实时处理1080p@30fps视频就需要10Tops以上的算力,目前这种应用方案还比较少。”

总体看来,消费者对手机更好拍照和摄影功能的追求是原动力,在手机厂商有手机多年影像技术积累的前提下,自研ISP芯片成为了手机厂商可实现的目标,而将AI+ISP的能力从拍照延伸至视频领域能够提升手机厂商当下和未来的竞争力。自研ISP芯片自然成了手机厂商们不约而同的选择。

冲击高端成败的关键在“决心”

接下来的关注点是,自研ISP芯片到底能带来哪些不同?已经发布的小米澎湃C1,官方的说法是自研ISP将数字信号处理效率提升100%,可以进行更精细、更先进的3A处理。

业内一位资深人士说:“澎湃C1实际上是一个协处理器,或者说Pre-ISP,在SoC ISP前进行图像处理,相对而言会比较容易处理,能够辅助处理一些特定场景的应用。不过,由于是在SoC外单独增加了一颗芯片,因此无论是成本还是功耗都会有所增加。”

至于实际的使用体验是否有明显的速度和质的提升,还需要更多的用户反馈。

手机厂商的自研ISP要从卖点真正转化为差异化优势,ISP团队非常重要。“ISP的发展一直在进步,远还没到成熟的阶段。要设计出有竞争力的ISP芯片,取决于队伍自身的成熟性。有公司做了十多年ISP,也没有进入行业的一流水平。当然,这也与一家公司对于ISP的认知以及投入有很大的关系。”张兴表示。

业内资深人士也表示,“手机厂商自研芯片成败的关键在于投入的决心,特别是SoC。”

但国内整个芯片行业都缺人才,想要组建有丰富经验的ISP团队挑战巨大。柴卫华说:“ISP研究与发展涉及到算法、电路设计、系统整合、器件调较、画质调优等多方面。因此相应的人才要求不仅专,而且广,除了需要掌握数学、物理、计算机、集成电路的知识,还需要有光学、颜色等学科知识。国内在这一领域的积累还比较有限,所以相关人才也比较缺乏。”

“国内在手机ISP领域有丰富经验的人才本来就比较有限,不过现在华为海思的不稳定,展锐也有一些相关的人才,这都是其它公司获取人才的机会。”业内资深人士表示。

“即便能设计出有竞争力的ISP。要让消费者对手机厂商的自研芯片有认知也需要时间,我认为这至少需要2-3代的迭代。” 一位芯片行业的分析师对雷锋网表示,“我认为小米和OPPO自研芯片从现金流的角度会更有优势,而VIVO挑战会更大一些。”

该分析师同时表示:“自研ISP主要会用于高端手机,因此对高通的影响可能会大一些。”

有意思的是,联发科在今年七月份发布了天玑5G开放架构的平台,基于其旗舰SoC为手机厂商提供更接近底层的开放资源,包括相机、显示器、图形、AI处理单元、传感器和无线连接等子系统。这既可以理解为顺应手机厂商自研芯片追求差异化的趋势,也可以理解为阻挡手机厂商自研SoC的举措。

无论如何,自研芯片都是手机厂商站上手机市场金字塔顶端的必选项,但这条路在时间、技术和资本投入方面都充满挑战,高通和联发科在手机SoC领域都有几十年的积累,苹果和华为也是经历十多年的努力和迭代才取得了如今的成就,而小米、OPPO、VIVO才刚刚开始。

小米ISP芯片架构师左坤隆在《强国基石》的纪录片中透露,ISP只是小米自研芯片的起点,其SoC同样也在研发中。

据悉,小米和OPPO都在上海大力招聘芯片人才,有消息称OPPO芯片团队的人数已经超过千人。他们是要直接要研发一款SoC芯片还是会研发其它单芯片?上述分析师认为电源管理芯片是不错的选择,因为快充也是手机的一大卖点。

于光指出,在电源管理芯片市场已经有一些不错的创业公司,手机巨头们在这一领域也已经投资了多家公司。

热闹过后,谁会是下一个拥有自研SoC高端手机玩家?

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/pJtIiR3lGWVkwLWI.html#comments Wed, 18 Aug 2021 14:06:00 +0800
嘉楠科技战略投资Pixelworks中国全资子公司,加强AI芯片生态竞争力 //www.xyschoolife.com/category/chipdesign/IVEcn8Gd2YT4PrnW.html 雷锋网消息,嘉楠科技今天宣布战略投资全球领先的创新视频和显示处理解决方案提供商Pixelworks在中国的全资子公司逐点半导体(上海)有限公司。据悉,此次战略投资还包括上海超越摩尔股权投资基金合伙企业(有限合伙)、青岛超越智芯创业投资合伙企业(有限合伙)、芯原微电子(上海)股份有限公司、和北京屹唐长厚显示芯片创业投资中心(有限合伙)四家公司。

上月,嘉楠科技创始人、董事长兼首席执行官张楠赓与雷锋网深入交流时就透露,嘉楠最早会在今年下半年公布在软件方面的合作进展。

显然,今天宣布战略投资逐点半导体(上海)有限公司正是嘉楠科技在算法、软件方面的重要布局。这一战略投资能够拓宽嘉楠科技在AI芯片领域的布局,尤其是结合嘉楠科技勘智AI系列芯片的功能和算法能力。

嘉楠科技在芯片设计方面有深厚积累,2013成立之后一直在芯片设计方面连续突破,设计了55nm、28nm、16nm制程芯片,2018年成为全球首家推出7nm制程芯片,目前正在推进5nm制程芯片的研发,成为全球为数不多能够设计最先制程芯片的公司。

2018年,嘉楠科技发布了第一款边缘AI芯片——勘智K210,在机器人、智能家居、STAEM教育、疫情防控等多个场景已经实现落地和商业量产。2021年7月,嘉楠科技又推出了新一代AI芯片勘智K510,目标场景主要是高清航拍器、视频会议、机器人、STEAM教育、工业相机和辅助驾驶。

不过,强大的硬件需要匹配的软件。张楠赓此前表示,他早已意识到缺乏软件人员的问题,但他并不打算采用大量招聘软件人才的方式解决这一问题,而是保持嘉楠硬件的基因,通过与更专业的合作伙伴共同解决软件方面的挑战。

Pixelworks能够与嘉楠科技实现互补,Pixelworks成立于1997年,2000年在纳斯达克上市,在视频与图像基本处理IP方面积累了300多项专利。不过,在显示和视频处理领域有超过20年的经验Pixelworks被众多消费者认识是因为其产品多次出现在智能手机中。

2020年,智能手机厂商纷纷推出支持HDR及高刷新率(90Hz及以上)的旗舰智能手机,包括OnePlus 8 系列、OPPO Find X2系列、黑鲨3系列等,这些手机都采用了Pixelworks的视觉处理器。最新发布的iQOO Neo5、OnePlus 9 系列,华硕ROG 5系列,TCL 20 Pro 5G,和OPPO Find X3等手机也都采用了Pixelworks的技术。

智能手机对显示效果更高的追求被更多的中国消费者认识,雷锋网此前的文章也介绍过Pixelworks的技术。当然,这家公司也很早就在中国设立了研发中心,2003年Pixelworks在上海张江成立了芯片设计中心,目前已经拥有130名员工。

可以预见,嘉楠科技与Pixelworks的合作能够进一步加强嘉楠科技在AI芯片生态布局,特别是在图像处理方面的研发和场景落地能力,进而提升勘智AI的整体竞争力,加速其商业化进展。

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/IVEcn8Gd2YT4PrnW.html#comments Wed, 11 Aug 2021 19:05:00 +0800
火爆TWS耳机芯片赛道里的“单项冠军” //www.xyschoolife.com/category/chipdesign/GO61qNVjZGCPJi1f.html 2016年苹果的秋季发布会,苹果的王牌产品iPhone7/7Plus没能让消费者眼前一亮,反倒是为配合手机上取消3.5mm耳机接口而推出的全新产品AirPods无线耳机引发消费者强烈的兴趣。

即便AirPods销售日期推迟,以及上市后需要等待至少一个半月时间才能收到新产品,也没能阻挡众多消费者对于这款无线耳机的购买热情。市场研究机构Strategy Analytics今年的报告显示,2020年真无线立体声(TWS)蓝牙耳机的销量超过了3亿,苹果AirPods的市场份额近一半。

图片来自苹果

“AirPods给用户更舒服的产品使用体验,大家迅速接受了这个新的产品形态。站在巨人的肩膀才能看的更远,我们当时义无反顾地进入TWS市场,确信这个市场一定能够成长起来,今天看来我们的预判是对的。”思远半导体总经理董官斌在公司10周年庆典的媒体沟通中这样说道。

思远半导体总经理董官斌

站在巨人肩膀上的思远半导体在今年也成为了TWS耳机电源管理芯片市场的冠军。旭日大数据发布的2021年3月TWS电源管理IC出货量排行显示,思远半导体当月出货2430万颗芯片,超过排名第二的德州仪器。

历经10年消费电子行业起落的思远半导体因TWS市场的火爆被更多人关注,但其“夺冠”的背后,有一段值得回味的往事。

TWS耳机里的“单项冠军”

在AirPods之前的无线耳机,并没有完全实现无线,这是由于技术限制,上一代无线耳机只能主耳机连接手机,再由线缆将音频信号传输到从耳机,产品形态就成了挂脖式。

图片来自高通

AirPods的革命性在于,解决了手机与蓝牙无线耳机之间的连接技术挑战,两只耳机可以同时与手机连接,左右耳不再分主从,实现了真无线立体声道无线分离使用,还能保持声音同步。

当然,AirPods获得消费者青睐还有一个关键原因,苹果测试表明AirPods搭配充电盒使用续航时间可超过24小时。

真无线立体声加上长续航,AirPods就这样引爆了TWS无线耳机市场。经历两年时间,2018年底开始,与AirPods售价相差十倍的TWS耳机开始推向市场,TWS耳机进入全民普及时代。市场研究机构Counterpoint的数据显示,全球TWS耳机市场在2020年销量达到2.33亿部,同比增长78%。Counterpoint同时预测,TWS耳机2021年销量将达到3.1亿部,同比增长33%。

图表来自Counterpoint

高速增长的市场给这一产业链上的公司带来了巨大机遇,比如影响TWS耳机体验的电源管理芯片,电源管理芯片在电子设备系统中的作用是对电能进行变换、分配、检测等,直接关乎整体的产品体验,电池供电的移动设备对于电源管理芯片的要求也更高。

“2017年市场还没爆发的时候,我们就义无反顾地进入TWS市场,今天看来这个预判是正确的。”董官斌说:“用户的使用习惯一旦形成,品牌客户一定会跟进。我们首先占领白牌市场,在白牌市场站稳脚跟后,迅速抓住品牌客户,最终形成了市场领先的优势。”

雷锋网了解到,思远半导体在TWS市场,芯片的出货量已经从白牌客户占比70%,过渡到品牌客户占比达到50%,接下来品牌客户的占比会超越白牌客户达到80%的出货量。

总体而言,思远半导体近两年在TWS耳机充电仓SoC市场累计出货7亿颗芯片,已经申请、获得了超过60项自主知识产权,市场占有率排名第一,客户包括小米、OPPO、一加、realme、传音、魅族、1MORE、百度、网易、漫步者、JBL、Anker、哈曼、摩托罗拉等。

对于今年三月份思远的TWS电源管理芯片出货超越模拟芯片龙头TI的成绩,董官斌谦虚地认为,可能是“老虎”打盹。他也同时指出了国内芯片公司的优势,包括本地化服务快速响应客户需求,充分满足客户需求,还有缩短产品上市时间。

“过去几十年,很多系统定义都由欧美企业完成。国产芯片想从根本上解决问题,还是要解决底层的系统问题。”董官斌对雷锋网表示:“过去十年,我们一直专注电源和电池芯片的开发,实现了基础关键技术的突破,几乎完成了所有相关基础技术架构的积累。”

单项冠军10年里的3次突破

董官斌2011年在深圳创立思远半导体的时候,其实是从零开始。那时候,国内的电源管理芯片公司并不多,但董官斌还是选择进入这个市场。“之所以选择电源管理芯片这个领域,是因为所有电子产品里都需要电源管理芯片,市场的量足够大。另外,这个市场不断变化会不断带来新的需求,机会一直都有。”董官斌解释。

董官斌最开始有创业的想法是受到复星创业故事的激励,创业之前,董官斌积累了十年,从研发到供应链再到销售。

“2011年我觉得准备的差不多了,创业对我来说是水到渠成。”董官斌回忆:“研发第一款产品的时候,我和研发总监每天工作到凌晨一点,持续了差不多一个月,才把产品的一个问题解决了。也正是凭着这样不放弃的精神,我们才能一个个突破,实现电源领域所有相关基础技术的积累。”

面对市场的变化,作为一家年轻的公司,每一次的突破都并不轻松,而过去的十年间,董官斌认为从市场维度,思远经历了三个关键节点。第一个关键节点是思远创立的前三年,他们只有一个客户,专为这个客户做定制服务,总共量产了将近60颗芯片。

“创业第四年,我们切入到了移动电源领域。但因为规格的变化,我们做了三次才成功,等我们成功的时候,市场也丢了。幸运的是,我们后来拿到移动电源市场第一个订单,数量是100万颗,让我至今也非常难忘,也让我相信只要做对了产品,客户就会愿意买单。”董官斌也同时看到了这样的曲折经历对于如今思远在TWS市场的价值。

“回头看,我们能在TWS市场持续抓住产品迭代的机会,还是来源于过去的经验积累,那段时间的磨炼让我们对产品迭代的速度、对市场的理解和客户的理解都更加深刻。”

到了2016年,思远在1A移动电源SoC市场出货量排名行业第一,此后的2017年,在移动电源芯片市场的出货突破了8000万颗。同样是在2017年,思远迎来了其第三个关键节点,也就是TWS市场爆发的前一年。

“进入TWS耳机市场,我们没有任何犹豫,并且认为一定可以在这个市场取得成功。”董官斌介绍,刚开始进入这个市场,他们和一个有较深技术积累的合作伙伴安特信多次探讨,一起定义产品,后来思远的产品在多家国内头部公司的关键项目上成功应用,帮助思远在这一市场站稳脚跟。

与此同时,思远也靠着率先捕捉客户需求和痛点,一点点建立领先优势。一个很好的例子就是TWS耳机的快充,快充在手机中已经普及,但TWS耳机还鲜有这项功能。“我们去年已经量产了第一代TWS耳机快充芯片,第二代产品即将推出。我们走在了国际大厂的前面,在体积、功率密度以及功耗方面都有优势。”董官斌表示。

通过10年的积累,董官斌认为思远拥有了三个核心竞争力,第一是有比较敏锐的市场洞察力,愿意倾听客户的声音,也愿意和客户一起解决问题,推动行业发展;第二是面对挑战不轻言放弃,直到找到方法为止;第三是持续的研发投入,愿意啃硬骨头。

下一个目标市场

消费电子市场的特点就是变化迅速,因此在这个规模巨大的市场里,保持持续竞争力的关键就是不断适应市场变化。董官斌分享,“据我们这么多年对消费电子市场规律的观察,消费电子产品的迭代周期是2年左右一代,差不多有3个迭代的周期市场完成洗牌,时间大概持续6年。TWS耳机市场还有3-4年的高速增长期。”

“我们已经开始着手布局其他穿戴类的产品,包括手表、VR等相关电源芯片的开发及市场推广。针对这些空间受限的产品,电源管理芯片需要更高的功率密度,更小的封装体积,超低的待机功耗。”董官斌透露。

当然,在消费电子领域取得不错成绩的思远电子也开始助手布局工业和汽车电子市场。这是因为在工业、汽车医疗等领域,国内芯片公司与全球领先的公司还有很大差距。

但董官斌也指出,“过去近20年中国的芯片行业可以持续的发展,核心原因还是系统厂商的发展,带动了国产芯片供应链的发展。当然,也因为先进的制造取得的成果,我们才能开发出更多高性能的产品。我相信对于汽车行业也是这样的一个过程,系统厂家一定要愿意给予国内的半导体公司机会,和大家一起成长,培养出自己的国内的供应链体系。”

“国产芯片还有很长的路要走,但我们对未来充满信心。”

还有非常关键的一点,相互信任和支持。“从2017年开始,我们就非常注重对市场总体的规划,而且每年承诺的量都做到,这个过程当中,大家建立起了信任关系。面对当下的挑战,整个产业链系协同,将芯片产能紧张的影响降到最低。”董官斌预测,目前来看芯片产能进账还会持续一段时间,明年第三季度可能会缓解一些。 

写在最后

相比国产高端数字芯片,国产模拟芯片的关注度低很多。实际上,模拟芯片最重要的细分市场之一正是电子产品都离不开的电源管理芯片,在这一市场,过去几十年间都被欧美巨头垄断,我们应该为有思远这样十年如一日坚守在电源、电池芯片领域的公司感到欣慰。

对于芯片设计公司而言,想要突破欧美巨头技术和市场厚厚的围墙,需要有完备的技术积累,也需要抓住快速变化的市场需求,更需要国内先进制造能力的提升和国内系统公司的强大。这背后,需要非常多思远这样有长期主义精神的公司,找对方向,逐个领域去突破,一步步实现国产芯片的领先。雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/GO61qNVjZGCPJi1f.html#comments Tue, 10 Aug 2021 14:54:00 +0800
美团联合领投,AI芯片公司爱芯科技完成A+轮数亿元融资 //www.xyschoolife.com/category/chipdesign/YT2syh3k8aqAdgTj.html 雷锋网消息,爱芯科技8月6日宣布完成A+轮融资,总金额达数亿元人民币。本轮融资由韦豪创芯、美团联合领投,GGV纪源资本、美团龙珠、冯源资本、元禾璞华、石溪资本、天创资本以及高德地图创始人成从武跟投,原有股东方继续投资,云岫资本担任独家财务顾问。

今年4月,爱芯科技也曾宣布接连完成Pre-A、A两轮融资,总金额达数亿元人民币。Pre-A轮由启明创投领投,联想之星跟投;A轮由和聚投资领投,耀途资本、万物资本跟投,原有股东方启明创投、沄柏资本、联想之星继续投资。

半年内两次宣布完成数亿元人民币融资的爱芯科技成立于2019年5月,主要研发高性能、低功耗的人工智能视觉处理芯片,并自主开发面向推理加速的神经网络处理器。爱芯科技今年完成的三轮融资资金都将用于产品研发、市场拓展、产品量产及业务落地等后续发展。

据悉,爱芯科技的核心成员均参与过10颗以上芯片的设计和生产,在产品规划和产品落地上具有丰富经验。CEO仇肖莘博士在芯片行业拥超过20年的从业经历,在创立爱芯科技前,曾任紫光展锐CTO、美国博通公司副总裁,并曾担任AT&T Labs首席科学家。

2020年12月爱芯科技自主研发的第一颗AI芯片——AX630A已实现量产,这一针对边缘侧、端侧应用的人工智能视觉芯片,在算法与硬件的深度结合下,可提供业界领先的视频图像质量,支持物体检测、人脸识别等多种AI视觉任务。继AX630A进入量产后,爱芯科技自主研发的第二颗芯片日前也已回片并成功点亮。

公开资料显示,爱芯科技AI芯片的目标市场包括智慧城市、智慧零售、智能社区、智能家居、物联网设备等多个领域。

“感谢A+轮投资人对爱芯科技的支持和信赖,爱芯作为聚焦在边缘侧和端侧的AI基础算力平台公司,会持续布局边缘计算应用领域,继续打造具有差异化的人工智能视觉芯片,并推动新款AI芯片的量产和落地,为合作伙伴提供稳定的货源保障和全栈式解决方案。”仇肖莘表示。

“未来,我们希望进一步赋能AIoT、消费电子、智能驾驶等多个场景,通过自主研发创新,满足中国‘新基建’建设过程中日益上扬的智能化升级需求,以‘视界’改变世界,成为智慧生活的赋能者。”

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/YT2syh3k8aqAdgTj.html#comments Fri, 06 Aug 2021 08:20:00 +0800
如何满足谷歌苹果的芯片设计需求? //www.xyschoolife.com/category/chipdesign/BnkMnEv87SV4kx83.html 前有苹果、谷歌,后有阿里、腾讯,科技巨头们自主设计芯片已经成了不可阻挡的趋势。不止于此,为了缩短芯片设计的周期,谷歌开始利用AI加速,其团队6月在Nature上发表的题为《一种用于加速芯片设计的布局规划方法》的论文指出,利用深度学习,人类工程师需要数月完成的工作,谷歌用AI仅需要6小时就能达到相同效果。

这表明,随着科技巨头们在芯片领域积累了更多经验,为了更高效地设计出更具差异化的芯片,科技巨头们需要更具效率的EDA(Electronic Design Automation)工具。这就要求EDA公司提供革命性的产品。

“无论是依赖传统的摩尔定律设计芯片的客户,还是已经超越摩尔用SysMoore从系统级别设计芯片的客户,我们都有志于用我们打造的解决方案帮助我们的客户提高1000倍生产率。”新思科技首席运营官Sassine Ghazi在新思科技上海办公室焕新暨媒体圆桌会中表示。

1000倍的效率提升,如何实现?能满足科技巨头们的需求吗?

科技巨头为什么自研芯片?

芯片是一个成熟的产业,且全球分工明细。在成熟的芯片产业链上,每一个环节都已经有领导者,比如芯片设计环节的高通、英伟达、AMD,代工环节的台积电、三星、中芯国际。

过去的几十年间,摩尔定律持续有效,通用芯片是市场的主流,英特尔的CPU、英伟达的GPU是典型的代表。在2005年之前,还有很多晶圆制造公司,但如今能提供先进制程的芯片制造商只有台积电、三星、英特尔等少数几家。

“我认为主要的原因有三个,系统的复杂性、系统的重要性,以及去研发和制造的成本。从众多芯片代工厂到现在只剩几家,表明了现在仅有为数不多的晶圆制造公司能够承担先进制程所需的复杂性、重要性和成本。” Sassine Ghazi表示。

与芯片制造一同变化的还有芯片的消费者。以前,做系统公司是芯片重要的消费者。如今,微软、谷歌、亚马逊、阿里、百度和腾讯成为了芯片重要的消费者。这是因为在数字化的趋势下,有三个重要的驱动力。

“第一是汽车的电气化和无人驾驶,第二是AI,第三是超大规模的数据中心。” Sassine Ghazi进一步表示,“这三个领域都希望找到差异点,拥有差异化的竞争优势。因此,这些领域的企业必须要寻求更好的晶圆,才能使他们的系统架构与众不同。此时,领域专用架构(DSA,Domain Specific Architecture)能够体现出他们的系统架构的独特优势之处。”

这就解释了科技巨头们自研芯片的原因,同时也让我们看到了转变之下的三个趋势。第一个趋势是做电子系统的公司希望定制系统级芯片,实现电子系统的差异化;第二大趋势是做系统设计的公司必须包括系统级芯片片上系统,实现系统和硬件的差异化;第三大趋势是如今的这些系统公司已不是传统意义上的系统公司,他们越来越像半导体公司。

如何满足科技巨头的芯片设计需求?

芯片行业一直在追求的是更高性能、更低功耗和更低成本。在摩尔定律有效的时候,芯片的性能持续提升,可以满足市场需求,但摩尔定律在2005年之后开始放缓。

“随着技术的演进,摩尔定律已经跟不上时代的步伐。这不仅仅因为技术上的瓶颈,还有非常关键的原因是,再遵循以前的摩尔定律会面临三大挑战:首先是预测性,因为预测性远远快于摩尔定律;其次是包括研发和其他方面的开支成本过高;最后是芯片设计的难度大幅增加。” Sassine Ghazi指出。

也就是说,在摩尔定律有效的时间里,主要面临的是在芯片中增加晶体管,以及复杂性增加的挑战。但如今摩尔定律的放缓,以及业界对芯片要求的增长,预测性、成本可负担性、设计的复杂程度都遇到了挑战。

“肯定要超越摩尔时代。” Sassine Ghazi进一步解释,“我们的CEO提出了一个新概念叫做SysMoore,指的是从系统的层面去解决问题,而不单单是在晶圆以及晶体管数量的层面去解决问题。只有站在系统的高度,我们才能更好地优化。”

“要两条腿走路,遵循原来摩尔定律的同时,还要超越摩尔定律。新思科技提供很多可以重复使用的IP模块,芯片设计者可以直接把它进行组合,既是摩尔定律又是超越摩尔的集成。” Sassine Ghazi同时表示,“我们有志于用我们打造的解决方案帮助客户提高1000倍生产率。”

雷锋网了解到,新思科技有一个叫做DTCO的解决方案,帮助客户做制程流程的建模、模拟、验证。这个方案对于使用先进制程技术的公司,可以实现设计、工艺的协同优化,改善设计。

数字化的融合设计平台显然能够带来更好的优化效果。“通过我们的融合设计+DSO.ai,能够帮助客户用AI系统进行芯片的开发和设计,达到最佳的效果,同时加速设计流程,缩短产品上市时间。” Sassine Ghazi表示。

“从系统层面,SysMoore提供了非常好的设计的基础架构,能够从系统级别在芯片设计完成之前就看到其中的一些流程。” Sassine Ghazi介绍,“新思科技加大了设计服务团队和解决方案的融合,帮助客户从系统和设计端打造成一个个组分和部件,再进行交付。”

新思科技全球资深副总裁兼中国董事长葛群也表示,“解铃仍需系铃人,从系统层级做优化,才能解决先进芯片设计面临的挑战。”

葛群用了汽车的例子来解释,通过从系统层级的优化,新思科技将三重左移Triple Shift Left的概念带到车企中,以前推出一个新款汽车的整个周期需要5到7年的时间,但是用了新思科技的硬件和软件结合的解决方案,三重左移能够帮助新车型的设计时间减少到3年。

谁能够领先?

当然,这些变化发生在云化和数字化的大背景下,因此,基于云和AI的EDA工具,也将让这个传统行业进入新的时代。

中国科学院EDA中心主任陈岚一次分享中提到,过去的EDA工具是满足高端通用的复杂的芯片设计需求,而未来更加开放的模式,可以快速地让新技术融入到EDA的流程当中,同时避免流程转化中的设计冗余,用更低的成本,让更多的用户使用,快速地对EDA进行验证与迭代,提高芯片设计的总体效率。

葛群也持同样的观点,“以后的EDA,很重要的一个改变就是降低芯片设计门槛,让更多人能参与到芯片设计的领域,满足人们不断发展的各种需求。”

在这样的趋势和机遇下,一些EDA行业资深行业选择创业,EDA行业正在迎来新一轮的竞争。

对于新的变化和竞争,葛群与雷锋网交流时表示:“我们过去几十年的发展中,也面临许多竞争,这对新思而言并不是新鲜事,我们积极拥抱市场的变化。与此同时,面对新的趋势和需求,我们也在加速创新,比如成立AI Lab,也在推动EDA上云。”

更为关键的是,了解客户需求并满足客户需求。新思作为一家全球公司,非常重视中国的本土化。葛群说:“新思给本土的团队足够多的权限和信任。2020财年,中国市场的营收已经占新思全球37亿美元营收的11.4%,这是了不起的成绩。中国团队的员工也已经超过1500名,覆盖研发、销售和应用工程师等所有的岗位。”

那么,在EDA的新时代,谁能领先?雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/BnkMnEv87SV4kx83.html#comments Mon, 02 Aug 2021 19:53:00 +0800
DPU芯片“国家队”中科驭数完成数亿元A轮融资,今年实现单季度千万级营收 //www.xyschoolife.com/category/chipdesign/87JD3plUUGSjqwG3.html 雷锋网消息,近日,自主研发芯片架构的DPU芯片设计公司中科驭数宣布完成数亿元A轮融资,由华泰创新领投、灵均投资以及老股东国新思创跟投。

中科驭数表示,本轮融资将主要用于第二代DPU芯片K2的流片以及后续的研发迭代。

DPU(Data Processing Unit)是以数据为中心(Data-centric)的专用处理器,门面向“CPU做不好,GPU做不了”,对高吞吐、低延迟有强需求的任务类型,是后摩尔定律时代重要的算力芯片,DPU、CPU、GPU将组成数据智能时代算力的“三驾马车”。

据中科驭数创始人兼CEO鄢贵海预测,未来用于数据中心的DPU的规模将和数据中心服务器等量,如同每台服务器都必须配备网卡一样,每台服务器都会配备DPU,预计未来五年市场对DPU的总体需求量将突破两亿颗。

中科驭数是国家高新技术企业,创始团队来自中科院计算所计算机体系结构国家重点实验室,成立三年来已获得50项发明专利授权。

中科驭数自主研发了KPU(Kernel Processing Unit)敏捷异构的专用处理器架构,目前已经抽象提取了网络、安全、数据库等五大应用领域共80多类功能核,可全面支持软件定义的加速计算平台,用先进的架构实现超高性能的敏捷异构芯片。

中科驭数表示,其基于KPU架构的异构加速卡产品和解决方案已经应用于多家头部证券公司的金融极速交易、金融风控、极低时延数据库异构加速等场景,且和金证股份、中移物联网等企业达成战略合作,并在今年实现千万级别的季度营收。

据悉,中科驭数将于8月发布新一代极低时延智能网卡,这将是国内唯一自主研发的TCP/IP协议栈全硬件卸载的智能网卡,其TCP最低转发时延可达到业界领先的1.2微秒。在此产品和技术的基础上,同时还将发布针对金融计算场景的极速行情解决方案。雷锋网雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/87JD3plUUGSjqwG3.html#comments Tue, 27 Jul 2021 11:36:00 +0800
龙芯首款自主指令集CPU发布!性能大涨50%,逼近市场主流桌面CPU //www.xyschoolife.com/category/chipdesign/mmqtfc7ezNUeLnpI.html 本周五,在国产CPU领域深耕20年的龙芯发布了首款采用自主指令系统LoongArch的处理器芯片,龙芯3A5000处理器,该芯片代号为“KMYC70”,以纪念抗美援朝70周年。

龙芯3A5000处理器主频为2.3GHz-2.5GHz,包含四个处理器核心,其中每个处理器核心都采用64位超标量GS464V自主微结构,包含4个定点单元、2个256位向量运算单元和2个访存单元。

另外,龙芯3A5000还集成2个支持ECC校验的64位DDR4-3200控制器,4个支持多处理器数据一致性的HyperTransport 3.0控制器。主要模块时钟动态关闭,主要时钟域动态变频以及主要电压域动态调压等精细化功耗管理功能。

3A5000包含的CPU核心、内存控制器及相关PHY、高速IO接口控制器及相关PHY、锁相环、片内多端口寄存器堆等在内的所有模块均由龙芯自主设计。集成了安全可信模块,支持可信计算体系。

国内第三方测试机构的测试结果显示,龙芯3A5000处理器在GCC编译环境下运行SPEC CPU2006的定点、浮点单核Base分值均达到26分以上,四核分值达到80分以上。基于国产操作系统的龙芯3A5000桌面系统的Unixbench单线程分值达1700分以上,四线程分值达到4200分以上。上述测试分值已经逼近市场主流桌面CPU水平,在国内桌面CPU中处于领先地位。

龙芯官方声称,与龙芯上一代处理器3A4000处理器,3A5000处理器在保持引脚兼容的基础上,性能提升50%以上,功耗降低30%以上。在处理复杂文档,浏览器打开、3D引擎加速、4K高清软解、以及各类业务软件处理等方面,龙芯3A5000电脑用户体验提升明显。

目前,与龙芯3A5000配套的三大编译器GCC、LLVM、GoLang和三大虚拟机Java、JavaScript、.NET均已完成开发。面向信息化应用的龙芯基础版操作系统Loongnix和面向工控及终端应用的龙芯基础版操作系统LoongOS已经发布。

从X86到LoongArch的二进制翻译系统LATX已经能够运行部分X86/Windows应用软件。统信UOS、麒麟Kylin等国产操作系统已实现对龙芯3A5000的支持。数十家国内知名整机企业、ODM厂商、行业终端开发商等基于龙芯3A5000处理器研制了上百款整机解决方案产品,包括台式机、笔记本、一体机、金融机具、行业终端、安全设备、网络设备、工控模块等。

与龙芯3A5000同时推出的,还有新一代服务器处理器龙芯3C5000L,通过封装集成4个3A5000硅片,形成16核处理器,基于龙芯3C5000L的四路64核服务器整机的SPEC CPU2006性能分值可达900分以上,全面满足云计算、数据中心对国产CPU的性能需求。

今年4月15日,龙芯发布完全自主指令集架构LoongArch,该架构从顶层架构,到指令功能和ABI标准,全部自主设计且不需要国外授权。LoongArch充分考虑兼顾生态需求,融合x86、ARM等国际主流指令系统的主要功能特性,实现跨指令平台应用兼容。

想要进一步了解LoongArch架构的深度解读以及研发背后的故事,可以阅读雷锋网此前发布的文章《20年“炼出”国内首个自主CPU指令集架构,龙芯凭什么?| 国产芯片四大件》,想要获取LoongArch指令系统手册可关注公众号“芯基建”,回复“龙芯”即可。

雷锋网雷锋网雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/mmqtfc7ezNUeLnpI.html#comments Fri, 23 Jul 2021 10:44:00 +0800
中国最大AI芯片问世!能组一个顶级超算集群 //www.xyschoolife.com/category/chipdesign/ZoDY4GkZ7HMyQpJq.html 今天,中国最大AI单芯片邃思2.0在上海正式发布,这款芯片面向AI云端训练,尺寸为57.5毫米×57.5毫米(面积为3306mm2),达到了芯片采用的日月光2.5D封装的极限,与上代产品一样采用格罗方德12nm工艺,单精度FP32算力为40TFLOPS,单精度张量TF32算力为160TFLOPS,整数精度INT8算力为320TOPS。

燧原科技创始人兼 COO 张亚林告诉雷锋网:“基于邃思2.0芯片打造的云燧T20加速卡支持的集群规模从上一代云燧T10的千张卡提升至8000卡,用云燧T20可以打造一个E级单精度算力集群CloudBlazer Matrix 2.0。”

E(Exascale)级计算也就是百万兆级的计算,是目前全球顶尖超算系统新的追逐目标。用一个不精确的说法来解释百万兆级计算,一个百万兆级计算机一瞬间进行的计算,相当于地球上所有人每天每秒都不停地计算四年。

那号称中国最大AI单芯片,有何特色?竞争力到底如何? 

燧原科技CEO赵立东(左)与 燧原科技COO张亚林(右)

中国最大AI计算单芯片的两个“首个”

2019年底,燧原科技发布了从启动项目研发到发布用时仅18个月的云端训练芯片邃思1.0,基于邃思1.0的云燧T10加速卡单精度算力高达20TFLOPS。时隔一年半,邃思2.0和云燧T20就推向市场。之所以说“就”,是因为云端训练这样复杂的超高算力芯片通常的迭代周期是两到三年一代,如果遇上特殊情况可能还会延迟半年。

“我们第一代和第二代产品的迭代节奏快于业内速度,主要有两方面的原因,一方面是首代产品落地后得到了用户的反馈,另一方面是我们内部技术和架构的更新,催生了第二代产品。”张亚林说,“从一开始我们就强调精准执行产品路线图,第二代产品精准符合燧原的产品路线图。”

至于燧原未来是否会保持云端AI训练芯片一年半一代的更新速度,张亚林表示目前暂不方便透露,但会精准执行其产品路线图。

想要在整个行业缺芯的大背景下精准执行产品路线图显然是一个巨大的挑战,雷锋网了解到,在2020年疫情开始的时候,燧原准备了两套方案,同时发挥团队成员超过15年以上行业经验的优势,以及第一代产品开发过程中建立的供应链关系,最终保证产品的如期推出。

张亚林说:“燧原的整个供应链非常稳健,客户不必担心燧原产品的供货问题。”

在路线图精准下,为什么要把芯片面积做大?张亚林解释,燧原做芯片是高举高打,做大芯片和高端芯片是我们追求的目标,芯片的尺寸大小背后代表的是科技含量,对于中国芯片行业的贡献才是更大的价值体现。

但更大的芯片面积,就代表着更高成本。对此,张亚林表示:“一个成熟的产品必须考虑回报率(ROI)。我们需要做的是在定义产品时,计算好这个产品在市场上的整体收入和销量,从整个产品的成本角度和能够带给客户的价值定义产品。所以我们会持续关注前沿技术,但不会一味追求最新的技术,依然从芯片的性能、成本、功耗三方面考虑。”

邃思2.0的特性中,有两个中国首个,一个是首个支持TF32精度的AI芯片,另一个是首个支持最先进内存HBM2E的产品。

AI业界一直在追求用更小的数据位宽实现更高的模型精度。因此,AI模型不断优化,数据类型不断推新,AI芯片作为底层支撑就需要在支持更多数据类型的同时消耗更低能耗。

TF32代表的是张量单精度32位数据类型,相比传统的FP32,TF32在位宽更大的同时,消耗的带宽以及计算资源显著更小,被业界视为能够取代全尺寸单精度数据的革新性数据精度。

目前业界的判断是,TF32对大部分AI场景都有应用潜力。我们紧跟国际创新者的步伐,很早就布局数据进度的研究和分析,所以才有了燧原第二代产品就支持TF32精度。”张亚林同时指出:“邃思2.0支持全精度AI精度范围,包括FP32、TF32、FP16、BF16和INT8。要用一个非常革命性的算力引擎囊括所有的精度,并且能够做到所有的精度的算力都有效,这是非常大的挑战。”

打破算力与存储之间的瓶颈,高效利用数据是AI芯片的另一大挑战。在国内最大的AI计算单芯片中,集成了4颗三星HBM2E,支持最高64 GB内存,内存带宽最高达1.8 TB/s。

“HBM2E是目前全球最快的存储芯片,通过集成4颗HBM2E,邃思2.0可以实现算力和存储带宽的匹配,实现更强算力。我们一直努力把理论算力和理论带宽匹配,有效控制整个产品的成本。采用最新的技术并不会使我们产品的整体拥有成本增加。”张亚林表示。

在燧原的产品理念中,更好的AI芯片只是构建AI系统的基础,客户最关心的并非底层AI芯片的参数。

AI芯片的比拼上升到系统级

客户并不会直接关心芯片层面的理论参数,AI落地的时候,他们更看重的是包括硬件、软件、互联的整体解决方案的有效利用率。所以我们已经从单芯片的维度升级到了更高的系统层面。这也是燧原推出整机多卡、多卡互联、分布式软件、云端部署的一整套交钥匙解决方案的原因。”张亚林说道,“我们也更强调通过低碳绿色化的云燧智算集群服务客户。”

AI芯片的比拼要升级到AI系统的比拼,从用户角度,对比AI系统的维度就会包含五个:软硬件一体的性价比、能效比、易用性、迁移成本、范化性。

既然是系统,互联技术非常关键。目前,业界通过不同的远程直接内存访问技术(RDMA)进行互联,比如InfiniBand、iWARP、RoCE。燧原采用的是自研GCU-LARE互联技术实现云燧AI加速卡的多卡集群互联,同时兼容业界其它RDMA技术便于与其它系统互连。

据介绍,燧原自研的GCU-LARE多卡集群互联技术,支持6个带宽50GB/s的卡间传输端口,总带宽达到300 GB/s。

GCU-LARE具备两大特色,一个是不需要传统互联技术的连接卡或桥接卡,可以直接通过线缆的方式直连,降低成本。另一个是能够根据用户的需求和机房的实际情况,定制不同的拓扑结构,能够轻松构建4000卡以上的大型训练集训拓扑,实现定制化集群产品CloudBlazer Matrix。

在云燧T20的发布会上,燧原发布了云燧智算集群 CloudBlazer Matrix 2.0,最高可实现1.3E(130000T)的单精度只能算力集群。

“云燧的互联接口在单口速度保持不变的前提下,接口数量从T10的4个增加到T20的6个,带宽提升150%。用云燧T20可以打造中国E级单精度算力集群。”张亚林表示。

“在软件易用性和迁移成本方面,我们投入了大量精力。”

与云燧T20一起发布的还有软件平台驭算2.0,进行了多方面提升,包括:为用户提供高度契合业界标准的编程接口,以支持高性能自定义算子开发;全面优化的动态性模型支持;引入业界先进的MLIR编译框架;基于启发式自适应方法的算子泛化实现以及图优化策略,可以广泛支持更多标准模型和自定义模型训练。

张亚林介绍:“驭算2.0的重点是提升易用和泛化,同时也能降低迁移用户的成本。我们的产品从第一代开始就采用的热启动的方式降低用户的迁移难度和成本,也就是在进行硬件架构设计的时候就已经考虑了客户的需求,在落地的时候得到了客户认可。如今第二代产品,同样采用热启动的方法,使用更多的用户反馈进一步降低迁移难度和成本。”

“在软件层面,现在业内比较通用的两个AI框架是TensorFlow和Pytorch,如果他们的模型完全基于框架开发,切换到燧原的产品只需要硬件切换,软件可以无缝切换。软硬件一定是一体化,也只有软硬一体化设计才对客户有更高价值。”张亚林进一步表示。

因此,驭算2.0还支持资源虚化、重组以及系统级设备虚拟化,使用户在业务部署和资源整合上可拥有更为灵活的方法;支持4000卡规模以上的集群分布式训练;升级系统兼容性方案、部署方案和RAS,支持主流操作系统最新发型版,开箱即用,简化客户定制系统集成,对客户的部署和运维更加友好。

实际上,芯片实力的比拼从来都不是单芯片的比拼,而是系统和生态实力的比拼。纵观目前全球前几大芯片巨头,持续迭代的芯片只是其保持竞争力的基础,围绕芯片的互联技术、软件栈以及不断拓展的生态才是竞争的护城河。

燧原既然已经从单芯片的能力拓展到系统层面,那如何挑战云端训练芯片的霸主英伟达?

聚焦三个业务群,与霸主差异化竞争

作为一个追赶或者新生者,差异化竞争是必然的。燧原进行差异化竞争时一直注重三个部分,第一是我们提供的算力性价比一定要越来越好,第二是中国有最丰富的业务场景,也有最丰富业务场景使用者,所以我们与最丰富的业务场景做更多深入的结合,并进一步做业务场景的泛化,第三就是本土化、定制化、客户的服务开发。”张亚林说。

据雷锋网了解,燧原从2020年公布第一个落地客户腾讯开始,一直坚持的是三条业务线:泛互联网、垂直行业(金融、交通、电力、医疗、工业等)以及新基建。

“我们在这三个业务线上不断发力,构筑整个业务群,三个业务群都已经实现客户接入,同时也拿到非常多的客户反馈。有了因第一代产品开拓的战略合作伙伴,利用第二代产品我们可以把这三个业务群的场景和客户群扩大,这也是燧原的生态护城河。”张亚林表示。

燧原科技CEO赵立东还宣布了燧原的异构计算生态——“燎原”计划,目标是以AI为起点构建通用异构计算生态,构建标准化技术体系,共建完整生态服务数字中国。

三个业务群对燧原的产品生态也有不同的意义。商业客户更看重整个业务,或产品的性价比。传统行业更多看重的端对端的解决方案,而不是一个简单的加速卡。

张亚林解释,燧原与商业客户一起打磨产品,建立原始创新生态。在传统行业客户端打磨端对端的场景生态。同时,燧原科技响应国家绿色化的号召,实现集群的功耗、能效进一步的优化,真正能够在新基建层面做出更加普惠的绿色算力,符合国家关于碳中和、碳达峰的政策导向。

“对于初创公司而言,刚开始需要尽快证明我们的执行力、产品以及商业化的价值,所以与一些战略伙伴展开了合作,但这并不代表我们的产品是专用的。随着我们第二代产品的推出,会进一步泛化场景和拓展客户,从一个点切开一条线最后达到一个面。并且,对于任何一家初创公司而言,智能计算的任何一个市场都已经足够庞大。”张亚林说。

除此之外,燧原还通过与之江实验室、上海交通大学、西安交通大学等高校的合作,构建生态的同时培养人才。

对于与国内和国际巨头的竞争,张亚林的态度是,“目前对国内芯片行业的发展是天时地利人和,我认为国内半导体和AI赛道百花齐放是好事,我们会坚持自己,志存高远、脚踏实地。追赶国际巨头,作为中国芯片公司有市场、政策和资金的优势,我们的普惠智能算力只是第一步,未来燧原会在异构计算领域不断拓展产品线,提供更多异构计算的整体解决方案。

小结

芯片性能参数的提升是最容易感知和理解的产品升级,但这却不是芯片公司最强大的竞争力所在,围绕芯片构建的接口、标准、互联技术,以及软件栈、客户认可、合作伙伴生态才是以芯片为核心构建竞争力公司的终极目标。

这也是在AI时代众多芯片初创公司宣称的算力超越行业领导者,却未能获得大量订单的关键所在。很好的现象是,已经有以燧原为代表的AI芯片初创公司,开始去强调AI算力系统的价值。

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/ZoDY4GkZ7HMyQpJq.html#comments Wed, 07 Jul 2021 17:30:00 +0800
RISC-V生态未来的三种可能 //www.xyschoolife.com/category/chipdesign/5pdQC7V6sXeGCvDF.html 诞生于加州大学伯克利分校的开源指令集架构RISC-V发展至今已有十年之久,在x86架构与Arm架构都需要向公司支付专利费用才可以商用的对比下,RISC-V的优势凸显,尤其是对于暂时还未有成熟自主指令集架构的中国而言,RISC-V似乎是一个不错的选择。

事实上,鉴于RISC-V的开源优势,近些年国内确实有不少企业和机构在积极拥抱RISC-V,且取得不错的成绩:

致力于RISC-V架构处理器内核IP研发及商业化的芯来科技,客户已经覆盖国内外超200家芯片公司和系统公司;

今年1月,赛昉科技推出全球首款RISC-V AI单板计算机,阿里平头哥成功将安卓10 系统在其玄铁910 RISC-V处理器上顺畅运行;

全球第一家用RISC-V指令集设计DSP的公司中科昊芯也在中国,并在今年3月底实现量产……

在RISC-V就快和ARM、x86形成三足鼎立局面的阶段里,我们迫切地期望能够透视RISC-V未来的生态发展究竟会走向何处,在上周举办的RISC-V 2021中国峰会上,雷锋网等行业内容平台同业内大咖进行交流,看见RISC-V生态发展的三种可能。

与X86“联盟”对抗ARM,在巨头推动下建设加速

本月中旬,彭博社报道称有知情人士透露英特尔提出以20亿美元的收购RISC-V领域的明星公司SiFive,虽然英特尔和SiFive均拒绝置评该收购交易,但这一传言依然在业内引发广泛讨论,不少人担心该笔交易可能会像英伟达收购Arm影响Arm的中立性那样,让原本开源的RISC-V新增专利壁垒。

中国科学院软件研究所副总工程师武延军认为,收购SiFive属于英特尔单方面的战略,”英特尔一直未能在移动终端、物联网端打开局面,英特尔可能希望利用SiFive在物联网方面的优势,弥补其在同ARM竞争中的劣势。

所谓竞争劣势,不仅仅是指X86架构难以进入对功耗要求更高的移动端和物联网端,还指ARM架构进军服务器也来势汹汹,基于ARM架构的华为鲲鹏处理器进入服务器领域、基于ARM架构自研的苹果M1芯片在PC端性能优异都是极好的证明。因此英特尔可能希望通过收购SiFive扭转X86受压制的局面。

“一方面RISC-V作为大家都看好的指令集,英特尔需要对其进行前瞻布局,另一方面英伟达收购ARM的计划正在推进,意味着英特尔与英伟达之间的竞争可能会进一步升级,上升到整个生态的竞争。”武延军如此理解英特尔收购SiFive的动机与原因。

在同英伟达竞争方面,武延军进一步解释,“看见英伟达从GPU转向CPU,我觉得英特尔可能也希望从通用处理器切换到专用领域,目前看来RISC-V是一个比较好的选择,无论是从架构上、还是技术上,都具有模块化和可拓展性,对于定制专用处理器而言非常便捷。”

这意味着英特尔希望通过收购SiFive联合RISC-V和X86,与ARM建立起的生态抗衡,同样也意味着RISC-V的核心专利可能会被英特尔一同收购,给予使用RISC-V的中国企业一定的打击。

“但总体上是利好的。”武延军和中国科学院计算书研究所副所长包云岗都这样认为。

利好原因有三

一是巨头想入局,证明了产业界对RISC-V的认可;

二是从英特尔大力投入推动Linux内核及社区发展的案例来看,过去二十年英特尔一直是Linux最大的贡献者,未来也可能成为RISC-V的最大贡献者,加速RISC-V的成熟度;

三是无论是在移动领域还是控制领域,RISC-V在中国的市场远高于其他国家,如果RISC-V想要打开市场,中国将会是首选。

与通用操作系统结盟是必然,但会比“Wintel”多一个“s”

英特尔收购SiFive尚未定论,但对于RISC-V的生态发展而言,无论是尚未有巨头涉足的“三足鼎立”,还是与x86共同抗衡ARM,RISC-V想要建成熟的生态,就需要像X86架构一样形成自己的“Wintel”联盟,或是像ARM架构一样形成自己的“Quandroid”联盟。

虽然目前RISC-V尚未与某种操作系统形成联盟,但是我们已经能够看到一些可能性。

“RISC-V时代很可能会出现一种Wintels,”武延军做出预测。

传统意义上,Wintel联盟代表通用处理器与通用操作系统结合的生态,RISC-V指令集的核心是基础指令集加上扩展指令集,也就意味着在扩展指令集层面会诞生各种不同领域的处理器,但每种处理器都去配备一套不同的系统软件或操作系统,维护代价非常高。

观察市场上使用RISC-V的厂商分布情况,可以发现,虽然RISC-V芯片设计厂商在前期拥有一定的成本优势,但由于后期的生态建设需要投入更多开销,让很多想要入局RISC-V的企业望而却步。

这里的生态建设开销,其中一部分源于尚未形成业界公认的基础软件和操作系统,开发人员或程序员需要不停地学习不同的操作系统适配不同的处理器,对厂商而言成本极高。

因此尽管RISC-V硬件生态多样化,但RISC-V要在未来形成健康的生态模式,拥有一套标准的系统软件是必经之路,而Wintels就是RISC-V未来与操作系统的结盟方式。

 “Wintels是指一套通用的操作系统搭配基于RISC-V指令集的不同处理器,这套系统软件最好是开源的,例如基于Linux的操作系统,可以适配不同的RISC-V处理器。”武延军解释道。

RISC-V生态建设不止在于RISC-V

值得注意的是,RISC-V生态建设其实也是中国半导体上下游产业链生态建设的好机会。

以芯片设计工具EDA为例,一直以来全球EDA市场几乎被美国EDA三巨头(Synopsys、Cadence、Mentor)分食,在制程先进的芯片设计领域,基本都逃不开使用EDA三巨头的设计工具。

而在RISC-V目前所面向的物联网场景,对芯片制程要求还不太高,未必需要用到5nm、7nm等尖端工艺,28nm、40nm足以满足需求,这正好为近几年国内新成立的一批国内EDA公司带来市场机会。

“需要EDA工具支持5nm、7nm难度非常大,但是以目前国内的能力,足以将28nm、40nm支撑好,我们甚至可以通过开源的方式建立EDA社区,加速整个EDA生态的发展。”包云岗说道 。

上海科技大学信息学院助理院长周平强也认为,基于RISC-V的开源特性,对应的EDA工具也有可能走向开源,国内EDA厂商如果要找到一条自己的发展路径,开源是一个机会。

“EDA跟RISC-V,我个人觉得其实是一个互相依赖、互相促进的作用。RISC-V如果发展的越好,对于国内的EDA来说可能机会就越大,”周平强说。

 雷锋网雷锋网雷锋网


]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/5pdQC7V6sXeGCvDF.html#comments Fri, 02 Jul 2021 17:00:00 +0800
IPU首度公开MLPerf成绩,性价比收益胜过英伟达 //www.xyschoolife.com/category/chipdesign/o223RWB5ALLohztf.html 本周四,MLCommons发布了最新MLPerf Inference v1.0基准测试(Benchmark)结果,英伟达GPU一如既往地表现不俗,但值得英伟达注意的是,其超大规模数据中心的竞争对手,Graphcore公司专为机器智能设计的 IPU也参加了此次基准测试。

MLPerf基准测试发布至今已有三年之久,此前英伟达、谷歌、阿里巴巴等大公司一直通过MLPerf跑分成绩强调其产品实力,能够挑战英伟达GPU的IPU为何今年才加入MLPerf基准测试?首次参加MLPerf测试的IPU,究竟表现如何?

首次提交两个模型,性价比收益胜过英伟达

在今年提交的MLPerf训练1.0版本任务中,Graphcore提交了两个模型:计算机视觉模型ResNet-50和自然语言处理模型BERT。

新一轮MLPerf基准测试结果(部分)

Graphcore高级副总裁兼中国区总经理卢涛称,之所以提交这两个模型,是因为这两个模型在相应领域里颇具代表意义且被广泛使用。

“许多骨干网络还是基于ResNet,BERT虽然有很多变种版本。但标准的BERT就还是大家比较认可的Benchmark基准。”

基于IPU-M2000,Graphcore用了两种配置的硬件进行基准测试,由4个1U IPU-M2000和1个双路服务器组成的IPU-POD16,可以提供4 PetaFLOPS的AI算力,由16个IPU-M2000和4台双路服务器组成的IPU-POD64 ,可提供16 PetaFLOPS的AI算力。

测试结果显示,在BERT模型训练中,IPU-POD16在开放分区(Open Division)的训练时间在半小时以内,约为27分钟,封闭分区(Closed Division)的训练时间为34分钟。两个分区的区别在于,在封闭分区中,需要完全按照规定的网络架构优化方式和硬件配置完成提交,而在开放分区拥有更多的自主灵活性。

同样的模型训练在IPU-POD64上,训练时间缩短3.5倍,且在开放分区的训练时间10分钟以内,这意味着相关科研工作者在模型训练过程中能够更快地得到研究结果。

在ResNet-50模型训练中,IPU-POD16的封闭分区训练时间为37分钟,IPU-POD64能在这一基础上能将时间缩短3倍。

一直以来将英伟达视为竞争对手的Graphcore这次也同英伟达基于DGX A100 640G提交的训练结果进行比较。基于DGX A100,其ResNet-50的MLPerf训练时间28分钟,BERT的MLPerf训练时间为21分钟,均高于IPU-POD16。

不过IPU训练时间更久并不意味着其AI能力就落后于GPU。

卢涛表示,一方面,ResNet、BERT等应用都是在过往基于GPU架构选择出来并深度优化的应用,对IPU可能并不是很友好,另一方面,对于最终用户非常关注“每花费一美金所能获得的训练收益”,如果将训练收益和目录折算成性价比,ResNet训练任务下,IPU-POD16相对DGX A100 640G版本的性价比收益有1.6倍,BERT训练任务下,IPU-POD16相对DGX A100 640G版本的性价比收益有1.3倍。

也就是说,如果单纯从性价比收益来看,IPU可能是更好的选择。

参加MLPerf基准测试,源于Graphcore 资源更加充足

事实上,Graphcore IPU与英伟达GPU跑分对比并不是第一次,不过当时并未选择在业内认可度和接受度更高的MLPerf。

去年8月,Graphcore通过参加谷歌发布的EfficicentNet模型、ResearchNEt模型以及NLP模型等基准测试且与英伟达A100 GPU对比。测试数据表明,多维度比较后,IPU的推理性能与训练性能均优于GPU。

为何当时未提交MLPerf的结果?“因为当时资源有限,更多地聚焦在对SDK的打磨、优化、功能开发,和头部客户及合作伙伴联合探索应用场景落地。”卢涛如此回答。

卢涛解释到,参加MLPerf Benchmark需要较大的投入,Graphcore十几个团队成员分别间接或直接参加了这一项目,且至少耗费半年以上的时间。“今天Graphcore整体软硬件,尤其是软件和生态,更加成熟完善,公司整体实力和之前相比更加雄厚。在几个因素叠加的影响下,我们参加了MLPerf训练1.0的Benchmark,后续也有持续投入的计划。”

选择在资源充足后参加MLPerf基准测试,同时也表明Graphcore对这一基准测试的认可。

“AI芯片产业的整体出发点是DSA(Domain Specific Architecture),与不论是在整体架构上还是计算机体系结构上相对比较类似的CPU相比,各个AI处理器的架构之间会有较大的差异。对于最终用户来说,就很难体现所选择的架构对于业务受益产生的影响。”

“我并不能说MLPerf代表了整个AI产业所有的任务,但是它代表了今天工业界比较主流部署的应用场景。我认为MLPerf是有一定指导意义的。”卢涛说道。

虽然基于GPU架构选择出来的应用模型对IPU而言并不友好,但Graphcore认为,需要积极参与产业标准的探讨,逐渐成为产业中有力的声音,才能影响产业标准的走向。

“之后我们会积极参与MLPerf的提交,提供一些不同的任务,让MLPerf的工作负载更具代表性。”卢涛说道。

文中图片源自Graphcore

雷锋网雷锋网雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/o223RWB5ALLohztf.html#comments Thu, 01 Jul 2021 01:05:00 +0800
百度再拆分,昆仑芯独立,估值130亿 //www.xyschoolife.com/category/chipdesign/Y4JBNWdWKcFIQmtn.html 雷锋网获悉,百度芯片业务将于近期成立独立芯片公司——昆仑芯(北京)科技有限公司,百度芯片首席架构师欧阳剑担任昆仑芯公司CEO。

早在今年3月,就有百度芯片业务拆分的消息传出。路透社报道,百度公司旗下人工智能芯片部门“昆仑”在3月完成独立拆分,并获得新一轮的融资,融资由中信产业投资基金管理有限公司(CPE)牵头,IDG资本、联想投资有限公司以及行业基金Oriza Hua跟投,估值约130亿人民币。

随后百度回应确认已完成独立融资消息,但就投资方与投资金额不予置评,称更多的信息将在未来陆续公布。

今日,百度公布融资细节,确认此次融资的领投方为CPE源峰,投资方包括IDG、君联、元禾璞华等,估值约130亿人民币。

欧阳剑表示,计算和半导体技术出现了前所未有的变革机会,数据中心、智能汽车、手机乃至PC等领域,对智能计算的需求空前旺盛,新的场景层出不穷,新的计算架构蓬勃创新。在这样的历史机遇下,百度基于过去10年在计算芯片领域的积累成立新公司,继续加大创新投入,在智能计算和半导体领域打造出领军企业。

2018年7月百度AI开发者大会上,李彦宏宣布百度将推出自研AI芯片昆仑。由于此前百度已经在用FPGA做AI加速,以及用软件定义加速器和XPU架构方面积累多年经验,在谷歌、亚马逊纷纷入局芯片之时选择自研芯片并不意外。

昆仑芯片的定位是通用AI芯片,2019年12月,百度对外宣布首款用于云计算和边缘计算的昆仑1代AI芯片完成研发。百度称,昆仑1在低于150瓦的功率下能够实现256TOPS的INT8处理能力,以及每秒260万亿次定数运算性能,与英伟达V100S和寒武纪同期推出的思远270相比,算力领先。

2020年年底,百度首席技术官王海峰透露,昆仑1量产超过2万片并实现规模化部署,预计昆仑2将在2021年上半年量产。不过,有业内人士对雷锋网表示,“昆仑第一代芯片并没有在内部大规模使用,2万片是百度内部下单的第二代昆仑芯片,但由于目前百度并没有公布相关数据,因此对百度自研的昆仑2芯片的性能无法做判断。”

实际上,百度近年来已经拆分了多个业务。2018年5月,百度宣布旗下金融服务事业群组(FSG)正式完成拆分融资协议签署,拆分后新公司将启用全新品牌“度小满”,实现独立运营。2020年9月30日,百度将旗下智能生活事业群组业务小度科技拆分,完成独立融资。

对于拆分昆仑芯片业务的原因,一位芯片行业资深专家认为:“百度陆续拆分非核心互联网业务,应该是公司的战略。去年百度本来计划拆分云智能业务,团队也走了不少员工,但后来拼多多切换到了百度智能云,拆分计划搁置。”

百度的这一策略可能也与近年来其主营互联网业务不够强势相关,百度的国外竞争对手谷歌是互联网公司自研芯片的代表,但目前尚未有消息表明谷歌有拆分芯片团队的打算。另外,包括亚马逊、阿里巴巴等科技公司的芯片团队仍然在公司内部。

“昆仑独立发展一个很重要的原因是做芯片非常烧钱,需要大量的外部融资。并且,昆仑成立独立公司后可以服务更多非百度用户,也更有利于昆仑的发展。”一位芯片投资人对雷锋网表示。

一位半导体资深分析师也看好昆仑独立,她也认为这样昆仑更容易成为平台型企业。“汽车需要通用的平台,但提供芯片不是昆仑的最终目的,百度肯定是为了做系统整合,他们独立或许可以做车的生态平台,然后进一步实现云端和边缘的结合。”

这位分析师同时表示:“拆分不仅可以和百度的核心业务区分,还能专注垂直能力。”

百度其实已经在对外提供芯片。除了云端AI芯片昆仑,百度也推出了面向消费电子终端及边缘计算的远场语音交互智能芯片鸿鹄。今年3月,百度与TCL合作,鸿鹄语音芯片首次在家电行业量产,TCL此前向雷锋网表示,与百度合作不仅是看好鸿鹄芯片,更是看中百度AI算法实力。

不过,上述芯片行业资深专家表示:“如果昆仑拆分后完全独立运营,我非常看好,毕竟百度的芯片团队有不少专家。但如果拆分不够彻底,我就不太看好。”

雷锋网认为,百度此举是押宝”计算+”。去年,李彦宏发起成立新公司——百图生科,全力进军生物计算。因此,将芯片业务独立出来,也是为了进一步延续“计算+”的逻辑。

和芯片一样,生物计算、自动驾驶等都需要长线投入。在今年百图生科举办的首届中国生物计算大会上,李彦宏就豪言,“在生命健康最关键的领域,哪怕投入再大,风险再高,周期再长,我们也要坚决的去做。”

但是,理想重要,对于一家上市公司而言,摆在投资者面前的财报成绩也很重要。将“烧钱”的芯片业务独立出来,让百度整体的营收压力会小很多。这也是芯片业务独立出来的一个重要考量。

回顾一下百度近年来的拆分动作,“有潜力”的项目——百度金融、小度、百图生科都陆续独立出来。展望一下,作为“百度王牌”的自动驾驶业务,是否也会面临独立出来?

对于无人驾驶何时能迎来规模化商用,李彦宏曾给出一个时间点:2020年9月,李彦宏曾表示,5年之内,无人驾驶技术一定会进入规模化的商用阶段。在这个时间周期内,自动驾驶是否也会面临与芯片一样的调整?

当然,一个有趣的现象是,与百度不同,BAT的另外两位(阿里与腾讯),酷爱拆分自己的“现金牛”,例如,阿里将蚂蚁独立出来、腾讯音乐被拆分赴美上市。巨头们的两条不同路线,到底哪一条才是正解?  

雷锋网雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/Y4JBNWdWKcFIQmtn.html#comments Fri, 25 Jun 2021 19:01:00 +0800
DPU在数据中心“上位” //www.xyschoolife.com/category/chipdesign/v9Wd2s0Z0FR3HGx0.html AI、5G、云计算技术的发展已经开始改变世界,数据中心作为承载这些技术,支撑数字化转型的重要载体,面临着众多挑战。这其中,已有的通用CPU和GPU不能完全满足快速变化的应用需求,性能更强大,更加专用,更加异构的芯片更能满足数据中心需求。

芯片巨头们都看到了这样的需求和趋势,通过收购或者自研拥有了更全面的芯片类型。雷锋网此前介绍过,在数据中心占有优势的英伟达先是在去年十月发布了首代DPU BlueField-2。今年4月,英伟达首席执行官黄仁勋在GTC 21上又宣布英伟达数据中心芯片战略升级为GPU+CPU+DPU,三类芯片,逐年飞跃,自研Arm架构CPU Grace也同时亮相。

DPU(Data Processing Unit)作为一个不被大部分人所熟知的芯片类型,其价值是什么?为什么DPU能在数据中心“上位”?数据中心的未来为什么是3U一体?

DPU的双重价值

了解DPU的价值之前,先解释为什么需要DPU。黄仁勋此前发布DPU时表示,当下的数据中心是由软件定义的,这使得数据中心更加灵活的同时,也产生了巨大的负担,数据中心基础架构的运行能够消耗20%-30%的CPU核,因此需要一种新的处理器,也就是DPU。

或者说,以CPU为中心的数据中心架构已经不能满足需求,以数据为中心才能更好满足市场和应用需求。英伟达网络事业部亚太区市场开发高级总监宋庆春在本周的一场沟通会中表示:“以前计算规模和数据量没那么大,冯诺依曼架构很好地解决了提高计算性能的问题,随着数据量越来越大,以及AI技术的发展,传统的计算模型会造成网络拥塞,继续提升数据中心的性能面临挑战。”

以数据为中心的架构,意味着数据在哪计算就在哪。宋庆春指出,以数据为中心的新架构可以解决网络传输中的瓶颈问题或丢包问题,典型通信延时可以从30-40微秒降低到3-4秒,有10倍的性能提升。

更具体地说,英伟达DPU属于SoC,集三个关键要素于一身:

  • 行业标准的、最高性能及软件可编程的多核CPU,通常基于广泛的Arm架构,与其SoC组件密切配合;

  • 高性能网络接口,能以线速或网络中的可用速度解析、处理数据,并高效地将数据传输到GPU和CPU。

  • 各种灵活和可编程的加速引擎,可以卸载AI、机器学习、安全、电信和存储等应用,并提升性能。

也就是说,DPU能针对安全、网络、存储、AI、HPC等业务进行加速,这是DPU的第一层价值。而DPU的第二层价值在于为以数据为中心的计算架构提供了创新的思路,能够实现以前难以或无法实现的功能。

以前的数据中心所有操作都由CPU完成,不仅需要很多CPU内核,效率也很低。如果将一些操作,比如OVS(Open vSwitch,是分布式虚拟多层交换机的开源实现)卸载到DPU上运行,不仅可以提升效率,减少CPU的利用率,还能实现业务的隔离。

宋庆春举了两个例子,在云场景下,英伟达和VMWare共同开发了Monterey项目,VMWare把它在Hypervisor里的一些功能卸载到DPU上,比如防火墙、存储、管理等,这样把业务和基础设施操作完全隔离,实现了高安全性,也实现了裸金属的业务性能。

“这是VMWare第一次把他的源代码开放给合作伙伴,共同开发基于VMWare企业级的云解决方案。”宋庆春强调。

另一个例子是英伟达与RedHat的合作。RedHat不管在数据中心运行容器还是虚拟化,即便使用所有的CPU核来运行虚拟化或容器,也没有办法达到100G线速。这时,采用DPU运行Hypervisor、OVS或容器操作,可以在不消耗任何CPU的情况下以实现100G甚至200G全线速,并将CPU资源全部提供给业务。

DPU能带来多少提升?

“我们最开始选择DPU,是因为遇到了传统服务器带宽瓶颈,我们想解决网络性能瓶颈的问题,也想降低成本。”UCloud技术专家马彦青进表示,“双方最开始都有相同的认知,那就是DPU可以实现硬件的卸载,软件和硬件的结合会成为未来的趋势。”

借助DPU和与之匹配的软件栈DOCA,UCloud实现了一系列的数据中心性能提升。

马彦青介绍,UCloud原先的网络架构使用的是VPC网关,作为裸金属服务器之间的VPC之间划分的方法,需要很多网关服务器集群来进行管理,集群服务器本身就带来了成本挑战(大概4-8台服务器是一个小集群),当跨网关的时候会有带宽瓶颈。有了DPU就可以将VPC管理集成到DPU内部,包括OVS包转发以及GRE封装都可以通过DPU硬件实现,大幅提高转发效率。原来10G的网卡升级到25G后,性能也大大提升。

这样的改进得到了客户的认可。“有DPU的解决方案已经在一些大数据、金融、数据库、容器云等业务中使用,他们的反馈非常好。比如一家做大数据业务的公司,VPC集群砍掉后,进行N对N数据计算,带宽和性能都有提升,维护成本也降低了。还有一家金融客户,采用原先的VPC架构,需要为他们部署四台服务器,这会造成资源浪费,有了DPU,几张卡就可以替代四台服务器。”

数据中心的存储也受益于DPU。过去,UCloud使用本地盘来存储,缺点是容易出现坏盘或者掉卡,维护非常麻烦,数据丢失想要恢复也非常困难。在新架构里,UCloud采用RSSD云盘作为后端存储机群,核心是基于DPU的NVMe SNAP功能,实现了计算和存储的解耦。解耦的优势包括用户可以免装机,实现分钟级交付,运维也减少了机型,磁盘可以按需使用,能够快速实现故障迁移,三副本也更加安全可靠。

DPU还让数据中心的安全性有显著提升。据介绍,过去数据中心经常使用CPU运行Hyperscan做深度包检测的政策表达式匹配。“借助BlueField-2,我们测试相比软件的Hyperscan有3.5倍的加速。”马彦青同时介绍,“加解密方面,DPU卡也可以对SSL、TLS进行加解密。IPSec的算法也可以实现硬件的卸载,把CPU的算力释放出来。”

UCloud的最终极的目标,是实现一张卡实现虚拟化和裸金属架构的统一。他们还在基于InfiniBand网络的DPU,探索如何加速AI和高性能计算。

DPU在数据中心上位的关键

数据中心和云服务提供商实现更多探索,发挥DPU价值的基础是英伟达DPU硬件的持续提升,以及DOCA软件栈的不断完善。根据英伟达的路线图,下一代DPU BlueField-4预计在2023年发布,将会是业界首个800G的DPU,也会集成GPU。

DOCA是专为DPU开发的软件包,就像CUDA对英伟达GPU的价值。DOCA通过软件定义,可以调用DPU里的硬件引擎,实现安全、网络、存储等性能的提升。

DOCA的软件栈一层是Driver和Runtime,主要进行调度硬件加速引擎。一层是DOCA Library,主要是针对业务提供接口。还有DPU管理对接上层,比如做编排(Orchestration)和服务部署(Provisioning)的时候使用DPU管理进行调用。

目前,DOCA 1.0正式版已经发布。

“我认为,云计算市场是DPU很好的突破点,能够解决合作伙伴遇到的瓶颈问题,让他们能够更加高效、安全、低时延的提供服务。” 宋庆春对雷锋网表示,“云原生超级计算机也应该会很快应用到DPU市场。因为随着超级计算的发展、算力已经变成了服务,如何提供一种安全的算力服务,DPU在这里面就会扮演非常的角色。最终,DPU也会在基础设施、数据中心、通信等领域成为一个核心部件。

当然,DPU的出现并非要替代CPU和GPU,而是更好地满足数据中心市场的需求。“3U(CPU、GPU、DPU)一体的架构将会让管理程序、调度程序都会变得非常容易。3U一体是要实现从边缘到核心数据中心,统一架构、统一管理、统一调度。”

想要通过3U一体满足数据中心等需求的不止英伟达,英特尔本周也发布了与DPU定位类似的IPU(Infrastructure Processing Unit),趋势已经非常明显,最终会带来哪些变革?

注:文中配图来自英伟达、UCloud 雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/v9Wd2s0Z0FR3HGx0.html#comments Fri, 18 Jun 2021 17:52:00 +0800
芯片行业将被苹果、谷歌等系统公司主导? //www.xyschoolife.com/category/chipdesign/v9G2zpEjktsTQ3kd.html 自从2010年iPhone 4上搭载苹果自研的A4处理器之后,苹果在自研处理器的道路上一路狂奔,2020年用自研M1芯片替换了Mac系列上的英特尔处理器。苹果的成功给系统公司选择自研芯片增加了信心。2016年,谷歌推出第一代自研张量处理器单元TPU,如今已经迭代到第四代。

此后,亚马逊、阿里巴巴、百度等也纷纷选择自研芯片。这些对芯片需求巨大的系统公司们自研芯片,必然会降低从英特尔、英伟达、AMD等芯片巨头购买芯片的需求,与此相伴的是,传统芯片巨头的话语权也将减弱。  

未来,芯片行业会被离用户更近的系统公司们主导吗?可预见的是,系统应用将是芯片设计的核心驱动力,这意味着,芯片设计和芯片制造的关键工具EDA(Electronic Design Automation)需要进行革新,以便支持系统应用提出的多元化、定制化需求。

芯华章运营副总裁傅强对雷锋网表示,面向未来的EDA 2.0将在2026年开启全新时代。而过去EDA每一次的突破都给芯片行业带来了革命性变化,这是否意味着2026年是系统公司主导芯片行业的起点?

系统公司“被迫”自研芯片

在国内,芯片行业依旧在高速发展,但全球芯片行业早已进入成熟期,从设计到生产,再到封装测试,复杂的芯片产业链已经实现了全球分工协作。2015年开始,摩尔定律开始放缓,通用芯片的性能提升越来越慢,但新一轮AI热潮对芯片算力的需求越来越高,物联网应用对芯片的需求越来越多样。

像苹果、谷歌这样大量购买芯片的系统公司对通用芯片性能的提升越来越不满,于是纷纷开始自研定制芯片。过去的几十年中,通用芯片从工艺和架构改进中带来的性能提升具有优势,定制芯片因为用量小,性能和收益比难以与通用芯片竞争。

然而,过去40年主宰芯片行业的摩尔定律逐渐接近极限,让业界对定制芯片的性能和成本要求逐渐放宽。同时,在大部分应用的需求被通用芯片满足之后,定制芯片的目的不再是简单追求高性能,而是为了实现功能、功耗、安全等的差异化,通过系统层级的协同优化,实现创新和独特的竞争力。

“现在是软件决定一切,既然系统公司掌握了软件,就会有很多想法,他们知道系统的最佳实现路径,但芯片公司不知道,EDA公司也是一样。”傅强指出。

苹果就是一个典型的例子,A系列处理器在自研的早期相比芯片公司的处理器性能差距明显,但通过苹果的系统级优化,在体验上并没有显著劣势。通过持续迭代,苹果的A系列处理器已经成为了业界标杆。不仅如此,通过统一内存架构等创新,苹果更强大的M1处理器实现了性能和能效的巨大提升,可以替代英特尔成熟的酷睿处理器。

苹果M1芯片,图片来自苹果

谷歌的自研TPU也很好地满足了自身地图、相册、搜索等业务,用更低的成本实现更差异化的功能和更好体验。展现谷歌自研处理器优势有一个量化的数据,其自研的视频编码单元VCU用于加速YouTube的视频编解码,有分析师预计,VCU将能帮谷歌替换3300-4400万个英特尔CPU。

成熟的芯片产业以及摩尔定律的失效,让系统公司走上了自研芯片的道路。但芯片行业有非常高的技术门槛,即便有成熟的芯片产业链分工,想要缩短芯片设计周期挑战巨大。

因此,谷歌已经开始用AI降低芯片设计的难度,近期还在Nature上发表了题为《一种用于加速芯片设计的布局规划方法》的论文,利用深度学习优化芯片的布局规划方法自动生成平面图,优化芯片的性能、功耗和面积。人类工程师需要数月完成的工作,谷歌用AI仅需要6小时就能达到相同效果。

实际上,谷歌的试验正说明当前的EDA需要更多的革新。

芯片行业需要“从头”变革

EDA过去几十年来已经成为了芯片设计模块、工具和流程的代称,芯片设计、验证的全流程以及工艺制造都离不开EDA。芯片设计工具的每一次突破,都会给芯片带来革命性变革。

1970年之前,集成电路设计是纯手动描绘版图。1970年计算机辅助设计(CAD)的出现,相对于手工设计方法是一个更大的改进。1990年代,EDA技术的诞生让工程师可以用硬件描述语言描述设计,通过仿真在流片前提前验证,提高效率的同时大大减少芯片制造的风险。

有20多年EDA行业从业经验的芯华章董事长兼CEO王礼宾说:“目前我们正在使用的EDA设计制造流程都是基于2000年左右开始形成的基础,我们可以称之为‘EDA 1.0’。之后20多年EDA的发展,都是在1.0上逐渐增加各种内容,比如基于FPGA的验证、低功耗设计、基于IP组件的设计复用等。这些叠加式的改进基于EDA 1.0,不断提升EDA设计的效率,但是从抽象层级、设计方法学角度看,没有出现很大的改变,可以认为一直到今天我们都还处于‘EDA 1.X’的发展过程中。”

芯华章发布的《EDA 2.0白皮书》指出,EDA 1.X有六大显著的挑战:

  • 应用需求分化:芯片应用场景更加细分,不能满足系统公司习惯的快速创新和迭代的要求。

  • 验证工作复杂:复杂的系统芯片设计验证工作越来越困难,验证的工作量往往需要独立团队耗费数个月才能完成,据统计,芯片制造过程中70%的时间成本都会消耗在验证上。

  • IP复用价值没有完全发挥:IP的选择和配置对SoC设计的影晌无法在前期确认,IP模块支持快速SoC设计的复用价值被削弱。

  • 人才不足:EDA是一个跨学科的复合型领域,因此人才的培养需要更多的时间和资源。

  • 开放性不足:语言、接口和数据的标准化或者开放还不够,很多环节缺少开放的功能和数据接口,不同工具之间往往无法直接互连,中间数据也经常是工具私有。

  • 历史包袱:EDA 1.X的工具是在二十多年的时间里渐进式发展起来的,这决定了它还背负了过程中的兼容性要求、历史代码、遗留架构等很多历史包袱。

要解决EDA 1.X的挑战,提升芯片设计效率,满足系统公司的需求,可以借鉴软件发展的成功经验。中国科学院计算技术研究所副所长包云岗表示:“我一直觉得软件领域有很多值得芯片行业借鉴的经验。有统计指出,超过90%甚至95%的企业,都是混合使用各种模块,已经在整个软件生态里发挥非常重要的作用,尤其在标准接口方面,EDA 2.0的开放和标准化路径可以对系统交互和先进芯片设计起到积极作用。”

开放和共享只是从软件发展过程中可以借鉴的一个重要经验。白皮书指出,今天软件行业和应用的蓬勃发展,离不开软件开发流程和工具抽象程度不断提高、表达形式从机器语言靠近自然语言、开发者从硬件和系统专家转变为应用和行业专家、工具不断自动化和智能化、最终不断提高软件开发效率的过程。

 “增加更多的中间表达层、尽可能形成模块和复用、开发效率为第一优先、推动智能化开发、充分利用最新的硬件架构、新的商业模式都是EDA可以借鉴的经验。基于此,我们认为EDA 2.0是后摩尔定律时代片设计发展的未来方向,实现EDA 2.0也不是一个0和1的状态变化,而是基于目前的EDA 1.X不断采用创新改进满足快速发展的芯片行业需求,是EDA行业长期发展的目标。”芯华章科技产品与业务规划总监杨晔表示。

五年后,EDA 2.0将开启芯片行业的新时代

“可能每个人心目中的理想状态都不完全一样,芯华章将EDA 2.0的核心目标定义为‘基于开放的工具和行业生态,实现自动化和智能化的芯片设计及验证流程,并提供专业的软硬件平台和灵活的服务,以支持任何有新型芯片应用需求的客户快速设计、制造和部署自己的芯片产品’。实现EDA 2.0需要全行业的共同努力,其中关键的路径包括开放和标准化、自动化和智能化、平台化和服务化三个方面。”王礼宾表示。

图片来自芯华章《EDA 2.0白皮书》

中国科学院EDA中心主任陈岚在《EDA 2.0白皮书》的发布会上提到,过去的EDA工具是满足高端通用的复杂的芯片设计需求,而未来更加开放的模式,可以快速的让新技术融入到EDA的流程当中,同时避免流程转化中的设计冗余,用更低的成本,让更多的用户使用,快速的对EDA进行验证与迭代,提高芯片设计的总体效率。

陈岚也强调,EDA是我们整个行业基础的牵引性技术和产品,与软件出现问题可以改漏洞不同,EDA作为工业软件,以开放与合作的心态推动产业发展的同时,也要保证使用EDA软件工具设计出来的芯片可以正常流片。

杨晔也对雷锋网表示,“EDA行业40年来发展的一些精标准与设计规则一定会继续长期存在于芯片设计行业,继续不断向更加精细化的方向演进,支持高端芯片设计的需求。进入到EDA 2.0时代,这些标准和经验将被提炼出来,成为模型、算法,或者自动化的流程,让系统工程师和软件工程师也可以参与到芯片设计中来,这不代表EDA的可靠性降低了,而是工具内部会比以往更加复杂,对于用户来说则是更简单了。

“2026年,我们将开启EDA 2.0的新时代。”芯华章如此准确的预测基于大量的分析和调研,也基于二十多年的行业经验,他们认为技术需要沉淀和准备,生态的培育也需要时间。

但即便2026年芯片行业进入EDA 2.0的时代,EDA 1.X与EDA 2.0仍将并存很长一段时间。

两个时代的长期并存,也是EDA 2.0解决挑战变革芯片行业的过程。

就开放和标准来说,傅强认为,“整体看EDA 1.X很多已有的标准没有得到厂商的统一支持,导致流程比较封闭和碎片化。其实,工业界没有哪个标准是一定要用,最终还是以价值为导向,提供给用户价值就会有人用,用的人多了就慢慢变成标准。未来EDA产业的开放和标准化将不仅仅由EDA厂商或标准化组织决定,而应该由产业链上游的EDA生态和下游的业界共同定义。

来自芯片设计公司的专家也表达了自己对于EDA开放和智能化的期待。他说:“以机器学习为代表的技术在芯片设计的空间探索、验证或者加速方面确实潜力巨大。虽然在EDA中引入AI没办法一蹴而就,但我希望EDA公司可以大胆或积极的尝试,在一些比较关键、成熟的技术中,引入AI相关的技术和算法加强EDA功能。”

“另外,我们发现在芯片设计中使用AI会面临一些算力瓶颈,所以希望在EDA中引入AI技术的时候,也能留有强化硬件的接口,这样在整个设计流程中会有更高的实用性。同时,现在的EDA更像是一个黑盒子,对于使用者而言很难理解底层的物理机制,因此也希望EDA工具更够稍微开放一些,把对芯片性能有很大影响的参数开放,有利于我们进行设计优化。”

杨晔补充,EDA 2.0时代的开放,包括工具软件接口(API)更开放、数据格式开放或数据访问接口开放、EDA软件针对更多硬件平台的开放、芯片内外部的总线和接口标准化、商业EDA与开源EDA的结合、更开放、便捷的IP模块。EDA 2.0中的智能,也不仅仅是狭义的加入AI,还包含流程的自动化等一切减少人力投入的改进。

至于EDA 2.0的平台化和服务化,则会带来这个行业商业模式的创新。傅强说:“EDA工具上云的尝试过去二十年不断有厂商在推动,但是到今天为止实际应用范围还不够广泛。EDA 2.0是满足不同规模和不同阶段的芯片设计有多样化的需求,结合云原生技术为用户提供近乎无限的计算弹性、存储弹性和访问便捷性,因此EDA 2.0应该与云平台和云上多样化的硬件结合,充分利用成熟的云端软硬件生态。”

在这种变化下,EDA 2.0还应该是产品和服务的结合。芯华章开创性提出的EDaaS(Electronic Design as a Service),用一个服务化、可定制的完整平台服务不同系统应用需求。

也就是说,EDA 2.0时代的到来,将给EDA公司带来更大的挑战,系统公司设计芯片的门槛将进一步降低,随之而来的,将会是芯片行业由上至下的一系列变革。

小结

摩尔定律成就了众多通用芯片公司,但随着摩尔定律接近极限,芯片行业正在进入新的时代,异构、定制化的趋势越来越明显。越来越多系统公司开始自研芯片,一方面是对通用芯片性能和成本的不满,另一方面是系统公司自身继续保持竞争力的不二选择。

但系统公司要更高效率、更低成本定制芯片,就需要最上层的EDA工具的突破。众多资深业内人士已经明确看到EDA行业正站在突破的拐点,这也是近年来众多EDA三巨头高管离职创业并获得资本关注的重要原因,当然也叠加了国内市场的需求以及政策利好的因素。

EDA 2.0的到来,是中国EDA实现换道超车,打造国产EDA全流程,为芯片产业发展与数字化时代发展注入新动力的必经之路。

芯片行业正在酝酿一场全新变革,谁将成为芯片行业新时代的主导者?

想要详细了解EDA的历史,EDA 1.X的挑战,以及实现EDA 2.0的关键,请在雷锋网公众号对话框回复 EDA 获取芯华章发布的《EDA 2.0白皮书》雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/v9G2zpEjktsTQ3kd.html#comments Thu, 17 Jun 2021 21:55:00 +0800
32位已死,对安卓和苹果意味着什么? //www.xyschoolife.com/category/chipdesign/OuhQzEMz6PDhG5Jp.html Arm宣布,从2023年起,其所有新智能手机CPU内核都将仅为64位,且没有32位兼容模式。2013年,苹果就在iPhone 5s中使用了64位A7处理器,我们开始拥有支持64位的智能手机处理器。不久之后,64位CPU同样出现在安卓手机中,不过所有这些CPU既能运行32位代码又能运行64位代码。

因此,我们从仅支持32位,到同时支持32位和64位,再到现在我们将要抛弃32位,进入只有64位的时代。这对安卓和苹果而言,又意味着什么呢?

从32位到64位的转变 

智能手机中,每个像素、通过互联网发送的每一个数据、存储在闪存中的每个文件、播放的每个声音以及屏幕上的每一次触摸都由数字表示和处理。依靠GPU等其他组件的帮助,大部分处理由CPU完成。

处理器以二进制形式存储这些数字,为它们分配的空间以位为单位。位由0和1的二进制表示,8位可以表示零到 255 之间的任何数字,16位的范围从0到65,535,而32位可以存储高达4,294,967,295(即 4GB)的数字。

Arm在其指令集架构的第8版(称为 Armv8)中引入了64位支持,并且在Armv9 中继续支持64位。这两者也可选择性地向后兼容以前的 32 位Arm 架构。这意味着原则上 Cortex-A 处理器可以运行32位代码和64位代码并在它们之间即时切换。用户不会注意到32位和64位代码之间的任何区别。事实上,三星的第一款 Armv8 SoC就是Galaxy Note 4 中使用的Exynos 5433 ,它有四个Cortex-A57内核和四个Cortex-A53内核,但仅用于 32 位模式。

多年来,事情变得更加微妙。Arm有一些基于Armv8的Cortex-A内核,其中某些只有 32 位(例如 Cortex-A32),另一些只有64位(例如Cortex-A34和Cortex-A65)。您可能没有听说过这些CPU设计,因为它们没有用于任何智能手机处理器。

从Cortex-53 到 Cortex-A75 的大多数Cortex-A处理器都支持32位和64位模式。Cortex-A76稍有改变,它支持32位模式,但仅适用于应用程序。这意味着您需要运行64位版本的安卓,但您仍然可以运行 32 位应用程序。如果您有 Snapdragon 855(或更高版本)处理器。或者基于 Kryo 4xx(或更高版本)的处理器(包括骁龙 480、骁龙 675、骁龙 720、骁龙 730、骁龙 765、骁龙 780G 等),那么处理器已经放弃了对 32 位操作系统的支持,而你没有注意到。

随着Cortex-X2和Cortex-A510对32位应用程序的支持的下降,你不得不运行64位操作系统和64位应用程序。Cortex-A710保持对32位应用程序的支持,这意味着任何无法脱离32位模式的应用程序都将被迫在A710核上运行。

到2023年,所有Cortex-A CPU都将只有 64 位

Arm就64位的转移发表了两项声明。首先,Arm谈到2022年它所有的大内核都将是 64 位的,然后几个月后Arm又谈到2023年它所有的内核都将是64位的。听起来不错,不过Cortex-A510(一个小内核)已经只有64位了,那么为什么是两个不同的截止日期呢?笔者认为,我们将在2022年看到支持 32 位的新的小内核,此后一切都将是64位。

值得注意的是,我们谈论的是Cortex-A处理器,即智能手机、平板电脑、Chromebook 等中的CPU,而不是在谈论Arm微控制器系列中的Cortex-M CPU。事实上,Armv8-M(M 代表微控制器)只有32位。

放弃32位对安卓影响不大

好消息是64位的安卓是一项成熟的技术,完全放弃32位支持不会有什么很大的不同。

第一个完全兼容64位的安卓版本是 Android 5.0 (Lollipop)。它于2014年发布,增加了对 64位Intel处理器以及64位Arm芯片的支持。自2019年8月起,所有Google Play应用都需要支持64位。为了帮助开发者支持64位,流行的游戏引擎都添加了支持:Unreal(2015 年)、Cocos2d(2015 年)和 Unity(2018 年)。从2021年8月1日起,Google Play将停止在支持64位的设备上提供没有64位版本的应用,这意味着这些设备上的Play商店将不再提供这些应用。

Google提供了不同的工具和大量文档,让应用程序开发人员为切换到64位做好准备。对于许多应用程序,实际上几乎没有什么可做的,因为那些用 Java 或 Kotlin 编写的应用程序不需要更改。但是使用游戏引擎或第三方 SDK 开发的应用程序需要确保使用最新的64位版本。 

由于搭载64位Android的设备现已上市多年,再加上Google努力确保Play商店中提供64位应用程序,因此最终只切换到64位将不会有太大的影响。

苹果更早放弃32位

自 iPhone 5S 以来,苹果一直在硬件和软件方面支持64位。早在2015年2月,Apple就宣布所有iOS应用程序都必须支持64位。之后在2017年,Cupertino宣布32位应用程序将无法在iOS 11上运行。那时,苹果就完全放弃了32位,从苹果A11(在 iPhone 8、iPhone X 中能找到)开始,所有处理器都只有64位。

macOS也有类似的故事。自10.7 Lion (2011) 以来,苹果的桌面操作系统一直是64位的。自2018年以来,所有提交到Mac App Store的新应用程序都需要支持64位,就像iOS一样,macOS放弃了对32位应用程序的支持(随着2019年macOS 10.15 Catalina的发布)。今天,macOS 11在Intel上是64位的,在Arm上也是64位,M1 处理器仅为 64 位。

未来是64位的

从 2023 年开始,所有Cortex-A处理器都将只支持64位。由于安卓支持64位,并且正在转向仅支持64位的应用程序且将转换地很顺利,因此您可能不太会注意到任何差异。如果您是苹果用户,那么在iOS和macOS上切换到64位已经有一段时间了。我没有听说过渡过程中出现任何重大问题。 

对于其他 CPU 架构和其他操作系统,如Windows和Linux,32位支持将持续更长的时间。既然Linux开源,那么32位支持很可能会持续几十年。对于x86-64处理器上的Windows,可能连一条清晰的道路都没有。

雷锋网编译,原文链接https://www.androidauthority.com/arm-32-vs-64-bit-explained-1232065/

雷锋网雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/OuhQzEMz6PDhG5Jp.html#comments Mon, 14 Jun 2021 14:21:00 +0800
英特尔为什么会对RISC-V明星公司SiFive感兴趣? //www.xyschoolife.com/category/chipdesign/IaSVNSvXXXg9xB9D.html 雷锋网按,昨日,彭博社报道SiFive收到了英特尔20亿美元收购的邀约。对于这一消息,英特尔和SiFive都拒绝置评。讨论收购能否最终达成为时尚早,但通过SiFive现任CEO James Prior对RISC-V进入AI、数据中心市场的看法,这或许能够部分解答为什么会出现这样的传闻。

如果场景定制的数据中心在短期内占据主导地位,那么RISC-V可能会大放异彩。虽然RISC-V最常与嵌入式设备相关联,但有人推动使用 RISC-V 作为 AI和数据中心的基础,成为这一架构进入更大系统的跳板。

到目前为止,RISC-V在数据中心取得的成果还很少,但它可以作为各种加速器的底层引擎。例如,人工智能芯片初创公司Tenstorrent的推理芯片基于RISC-V,而巴塞罗那超级计算机中心的一个雄心勃勃的项目将使用RISC-V(通过采用SiFive的RISC-V产品)来构建一个本地数据中心——从处理器到加速器。

在构建或购买CPU内核的选择相对多样的时代,RISC-V 进入数据中心的下一步是什么?

The Next Platform与SiFive的CEO James Prior进行了交谈,James Prior表示在未来五年内看到端到端的RISC-V数据中心的概率不大,但定制加速器肯定有很大的机会可以超越 Arm,特别是在软件、工具和支持方面。

“我们正在采用软件优先的方法来提供IP核。以一种对程序员有意义的方式,同时考虑内核开发软件和工具,而不是让程序员们把我们的内核清楚。”James Prior补充说。

“另一个不同之处在于SiFive可以在不与客户竞争的情况下做到这一点,因为他们不参与芯片设计业务。我们有一些董事让合作伙伴和公司在构建大型设计之前进行评估。英伟达对Arm的收购走上了RISC-V的轨迹并加速了决策——人们正在从询问他们是否应该制定RISC-V战略转向思考他们现在的计划。然后,我们可以成为商业RISC-V IP的领导者,并拥有共同开发满足特定需求架构芯片的经验。”

虽然SiFive的大部分商业RISC-V IP产品是嵌入式的,但在过去的六年里,他们的RISC-V CPU IP产品已经被80家公司采用,设计了200多个产品,其中包括出货量超过10亿颗的前十大科技公司中的七家。

“但随着我们的不断发展和进入应用的核心领域,我们正在通过更通用处理和特定功能的新产品线进入人工智能领域。”James Prior表示。

事实上,SiFive将AI视为一种特洛伊木马,可以大量进入数据中心。他们开发了一些定制IP,客户可以使用这些IP来构建他们自己的加速器,这种方法符合 SiFive对数据中心转向更多专用而不是通用的观点。

对于开发下一代 AI 处理器的开发者来说,James Prior表示,在具有矢量功能的特定应用处理器中拥有可以处理现代数据类型的软件和工具是关键。考虑到快速变化的AI模型,将其与用于预处理/后处理和AI数学的自定义AI加速器保持一致也更加灵活。“人工智能模型中有大量的变化,比芯片创建过程快得多,这意味着虽然你需要一块专用的芯片来提高加速效率,同时还需要在一组模型中具有通用的可编程性。”

虽然人工智能是数据中心设计获胜的一个很好的切入点,但James Prior表示,SiFive正在关注其他机会,从机架网络的边缘到顶部,所有这些都可以从具有一组通用编程工具的成熟生态系统中受益。

“如果你看看x86如何从简单的微架构扩展到复杂的乱序流程,再到多核,这需要很长时间。Arm刚开始也无人知晓,现在它无处不在,因为它们在我们的手机中。”

当被问及RISC-V与Arm有什么不同时,James Prior说,“杀手级应用即将到来,它将出现在人工智能和加速器中,甚至是专门构建的系统中。如果你看看数据中心是如何变化的,人们会说他们不需要一堆乏味的内核,他们需要在插槽中平衡的所有计算,这就是RISC-V可以提供价值的地方——即使主要操作系统上的处理器没有运行RISC内核,而是在执行加速的价值工作。”

雷锋网编译,原文链接:https://www.nextplatform.com/2021/06/08/ai-is-risc-vs-trojan-horse-into-the-datacenter/ 雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/IaSVNSvXXXg9xB9D.html#comments Sat, 12 Jun 2021 11:55:00 +0800
英特尔考虑20亿美元收购估值5亿美元的RISC-V明星公司SiFive //www.xyschoolife.com/category/chipdesign/aS0EseHARiHDtv2c.html 彭博社6月11日报道,知情人士透露,初创公司SiFive收到了英特尔的收购意向,英特尔提出以超过20亿美元的价格收购这家公司。

其中一名知情人士表示,除了收购邀约,英特尔也提出了投资邀约。不过,SiFive还收到了除英特尔之外的多方收购要约。

对于这笔收购交易,英特尔和SiFive均拒绝置评。

SiFive不被大部分人所熟知,不过其是新兴的RISC-V芯片领域的明星。这家公司成立于2015年,由自加州大学伯克利分校的三位研究人员Krste Asanovi、Yunsup Lee和Andrew Waterman创立。要知道,Krste Asanovi教授和研究生Yunsup Lee和Andrew Waterman正是启动RISC-V指令集研究的团队成员。

这三位研究员创立商业公司无论在技术、资本还是人才上都备受关注。SiFive目前的商业模式与Arm相差无几,都是向芯片设计公司提供IP。不同的是,Arm提供的IP基于自有指令集,仅Arm可以提供。而SiFive是基于开源指令集RISC-V,也就是说,SiFive会有很多同样基于RISC-V提供IP的公司。

得益于创始团队对这一指令集的了解程度,以及更早开始商业化,2015年开始就陆续发布了各种RISC-V CPU IP,其技术优势已经体现在商业上,在全球范围内已经有诸多公司都基于SiFive的IP设计了RISC-V处理器。

与此同时,SiFive也吸引了众多芯片行业的顶级人才。SiFive的现任 CEO Patrick Little 是2020年加入这个团队,曾是高通公司负责汽车业务的高级副总裁。编译器领域的大神Chris Lattner也于去年从谷歌离职加入SiFive,担任高级副总裁,领导平台工程工作。

资本同样也看好这家年轻的初创公司,自成立以来已经获得了超过1.85亿美元的融资。其中包括英特尔、高通、SK海力士等头部芯片公司,西部数据公司的风险投资部分也投资了SiFive。

2018年,SiFive获得5060万美元C轮融资,其中一大笔来自英特尔。2020年8月,SK海力士、沙特阿美(Saudi Aramco)等公司追加了投资 6100 万美元。

根据数据提供商PitchBook的数据,SiFive在2020 年最后一次筹集资金时的估值约为5亿美元。

至于英特尔为什么要以超过20亿美元的价格收购这家估值约为5亿美元,溢价三倍收购,一个合理的解释是为了其IDM 2.0战略。

雷锋网3月份的文章介绍,英特尔新任CEO帕特·基辛格(Pat Gelsinger)宣布了其IDM模式升级为 IDM 2.0,其中的三个关键:将投资200亿美元新建两座晶圆厂;根据需求混合使用内部和外部代工厂;同时,英特尔还会提供新的代工服务IFS,新成立的IFS事业部将提供差异化的代工服务,结合英特尔的制程和封装技术、在美国和欧洲交付所承诺的产能,并支持x86内核、Arm和RISC-V生态系统IP的生产,从而为客户交付世界级的IP组合。

SiFive提供的正是IP产品,如果收购达成能够丰富其IP库,能够帮英特尔提供差异化的代工服务的同时,也能够与Arm竞争。

CPU的指令集分为精简指令集(RISC)和复杂指令集(CISC),英特尔的x86是复杂指令集的代表,能使用x86指令集设计和推出CPU的公司为数不多。Arm的精简指令集虽然也封闭,但Arm公司对外授权的商业模式让全球大量的公司可以基于Arm的IP设计芯片,满足差异化需求。

RISC-V从指令集层面开放,理论上来说意味着可以满足更多的差异化需求,有更多的想象空间。如今,英伟达要收购Arm,通过专为场景优化的芯片组合抢占云计算、AI、5G等新兴市场。英特尔如果收购SiFive成功,也能拥有可以更好满足差异化市场的CPU。

当然,英特尔作为复杂指令集的代表,收购精简指令集IP公司,就足够让人意外。因此,讨论这笔收购的成败为时尚早,雷锋网将持续关注。

本文参考链接:雷锋网

https://www.bloomberg.com/news/articles/2021-06-10/chipmaker-sifive-is-said-to-draw-intel-takeover-interest

https://www.reuters.com/technology/intel-debates-buyout-sifive-bolster-chip-technology-against-arm-source-2021-06-10/

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/aS0EseHARiHDtv2c.html#comments Fri, 11 Jun 2021 17:25:00 +0800
谷歌AI新进展!芯片设计布局时间可缩短至6小时 //www.xyschoolife.com/category/chipdesign/guXyVTDfePqiksNL.html

日前,谷歌公布了用人工智能提升芯片设计速度的研究结果,发表论文刊登于Nature上。

该篇名为《一种用于加速芯片设计的布局规划方法》论文研究证明,一种基于深度学习的芯片布局规划方法自动生成的平面图,在包括功耗、性能和芯片面积等关键参数指标上,都优于或与人类芯片设计师所设计的规划图效果相当。人类工程师完成这项工作需要数月时间,而人工智能仅花费6小时就能达到相同的效果。

这并不是谷歌人工智能团队首次将人工智能用于加速芯片设计布局规划上,早在一年前,由谷歌人工智能负责人Jeff Dean领衔的团队就已经发表过一篇预印版论文提到这项技术。此次发布在Nature上的论文,是对该项技术进行微调之后的研究结果。

根据论文的描述,谷歌已将该技术用于下一代Google张量处理单元(TPU)加速器产品中,有望为今后每一代计算机芯片迭代节省数千小时人力。

如何让芯片设计更加高效一直是芯片设计工程师致力研究的命题。上世纪80年代,电子设计自动化(EDA)的诞生就是一个成功案例,开发人员利用计算机辅助设计软件(CAD),完成超大规模集成电路的功能设计、综合、验证、物理设计等复杂流程,以取代之前的人力手工设计。

在芯片布局规划方面,需要在几十到数百平方毫米的微芯片上,布局内存、逻辑系统以及计算单元等几十个模块,在严格的约束条件下用细导线将各个模块起来,同时实现更加优化的性能。经过50多年的研究,科学家们提出过基于区分的方法、随机/爬山方法以及解析解算器三大类方法,但最终都无法达到或超越人类工程师的布局水平,以至于芯片布局规划到目前为止依然未实现自动化,依赖人类工程师手工迭代数月完成。

具体而言,当下在进行芯片布局规划时,人类工程师需要使用工商业EDA工具迭代数月,将芯片网表的寄存器传输级(RTL)描述作为输入,在芯片画布上手动放置并等待72小时,让EDA工具评估若干模块的放置是否处于最佳位置。

在这一基础上人类设计师要么得出设计标准达到目标的结论,生成一个更新的层级平面图进行评估,要么得向上游 RTL 设计师提供反馈,然后上游 RTL 设计师修改低级代码以使放置任务更容易。

谷歌团队提出的深度强化学习方法,是一种具有泛化能力的芯片布局方法,通过领域自适应策略,跨芯片进行推广,能够自行从经验中学习,使芯片布局设计能力更快更好。

Nature认为,谷歌这一研究能够大大缩短芯片设计所需时间,帮助供应链,但技术专长必须广泛共享,以确保公司生态全球化。另外产业也必须确保节省时间的技术不会赶走核心技术人才。

论文链接:https://www.nature.com/articles/s41586-021-03544-w

雷锋网雷锋网雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/guXyVTDfePqiksNL.html#comments Thu, 10 Jun 2021 14:08:00 +0800
CPU与GPU、VCU的关系愈加“微妙” //www.xyschoolife.com/category/chipdesign/YGCUXJYnAc2XMP2c.html 一个GPU总需要一个CPU,但CPU的选择已经不再单一,GPU的功能也不再“简单”,曾经稳固的关系,不再是单纯的合作。

四月份,英伟达发布了采用Arm架构的首款数据中心CPU Grace引发广泛关注。本月,外媒Tomshardware报道,像CPU一样总需要一个CPU的谷歌自研视频编解码处理单元Argos VCU,预计可以替换3000-4000万个英特尔CPU。

依赖CPU的GPU和VCU为什么会有替代CPU的势头?芯片巨头与互联网巨头间的竞合关系,是如何加深的?

CPU市场的双重变化

回答CPU与其它依赖CPU处理器关系变化之前,不妨先了解CPU市场本身的变化。在很长一段时间,由于CPU的性能已经足够满足包括PC在内的各种应用需求,再加上内存和带宽成为CPU性能提升的瓶颈。CPU王者英特尔在提升CPU性能动力不足,以及先进制程工艺进展不如预期的情况下,连续多代CPU性能提升幅度不大,被称作“挤牙膏”。

英特尔在领先位置缓慢前进的几年间,AMD凭借Zen架构的迅速迭代以及台积电先进制造工艺的加持,性能迅速接近甚至超越英特尔酷睿和至强CPU的性能。“AMD Yes”表达了消费者对于AMD产品迅速提升的认可。

英特尔和AMD的x86 CPU是PC时代的标志,然而在性能提升陷入瓶颈,以及先进半导体制程提升难度越来越大的背景下,两家最具代表性的CPU公司表现相差甚远,并且开始在市场份额上有所体现。

依旧有领先优势的英特尔感受到了老对手带来的竞争压力,因此无论是产品性能提升还是市场策略都更加积极。然而,英特尔在服务器CPU市场除了要面临同为x86阵营AMD的竞争,Arm阵营的公司也来势汹汹。

Ampere董事长兼首席执行官Renee James说:“我们知道未来将与过去不同,因为软件环境变了,不再是关于PC和PC服务器的业务,而是围绕云和云边缘。现在,需要另一种不同的微处理器。”

Ampere基于Arm Neoverse N1内核,推出了80核的Altra CPU和128核Altra Max CPU,持续刷新服务器CPU核心数的纪录,突出与x86 CPU相比更高的核数以及在云原生市场的优势。

同样是强调差异化优势,英伟达的Grace主要是面向数据密集型HPC和AI应用。英伟达首席执行官黄仁勋称基于Grace的系统与英伟达GPU紧密结合,性能将比目前最先进的NVIDIA DGX系统(在x86 CPU上运行)高出10倍。

无论是Ampere还是英伟达,其差异化高性能CPU的基础都是Arm。而Arm也在今年三月推出了面向未来十年的新一代架构Armv9,Arm希望将其架构在智能终端的成功扩展到高性能计算市场,包括边缘、云端及5G等。基于Armv9架构的Neoverse N2正是Arm向高性能市场拓展的关键产品。

整体看来,已经在PC和服务器CPU市场大获成功的x86阵营正开始一场激烈的竞争。此时,面向云计算、AI的Arm架构CPU迅速发展,要在新兴市场分一杯羹。未来,RISC-V CPU会以怎样的方式参与到CPU市场的竞争,也让人充满期待。

异构时代,定制CPU优势突显

CPU市场发生双重变化的一个关键因素是市场需求,在市场的驱动下,CPU的价值也更多体现在异构系统中。英伟达在今年四月发布Grace CPU的时候,也同时将其数据中心产品路线图升级为GPU+CPU+DPU的三类芯片,逐年飞跃,一个架构的策略。在这个新的策略中,GPU和DPU性能的充分发挥依旧需要有CPU强大的性能,也就是说,CPU计算和控制的基础和核心作用没有改变。

变的是新兴应用对于算力的大幅快速增长,异构系统的性能是更重要的关注点。“目前市场上每年交付的3000万台数据中心服务器中,有1/3用于运行软件定义的数据中心堆栈,其负载的增长速度远远快于摩尔定律。除非我们找到加速的办法,否则用于运行应用的算力将会越来越少。”黄仁勋说,“新时代的计算机需要新的芯片、新的系统架构、新的网络、新的软件和工具。”

这也是英伟达推出DPU,并且将DPU归入其数据中心产品路线图的原因。“现代超大规模云技术推动数据中心从基础上走向了新的架构, 利用一种专门针对数据中心基础架构软件而设计的新型处理器, 来卸载和加速由虚拟化、网络、存储、安全和其它云原生AI服务产生的巨大计算负荷。BlueField DPU正是为此而生。”黄仁勋此前表示。

异构组合才能更好满足未来市场的需求,这也已经是业界共识,从英特尔拥有CPU+GPU+FPGA+AI加速器的完整芯片组合,到英伟达宣布收购Arm,再到AMD宣布收购赛灵思,芯片巨头们都希望通过不同类型的芯片组合满足云计算、AI等计算更加密集应用的需求。

在这种变化中,CPU的选择也会更加多样。Computex 21上,黄仁勋在回答雷锋网等提问时表示:“未来的世界非常多样,当然也会有不同的CPU,包括x86架构和Arm架构,大型CPU和小型CPU,面向边缘、数据中心、超算等CPU,我们的策略是在我们服务的市场,选择最合适的CPU,我们会继续支持x86 CPU。”

面向特定的市场,并非所有CPU都合适。因此在不同的市场需要不同的CPU,比如在笔记本电脑市场,英特尔的x86 CPU是不错的选择,在DGX系统中,AMD的CPU表现非常好。在5G基站中,基于Arm的Marvell CPU是一个理想选择。在云计算市场,Ampere的CPU性能出色。英伟达的CPU为的是解决AI推荐系统和自然语言理解这样大型AI模型的计算挑战。

“我相信未来既需要通用CPU,也需要定制CPU。支持Arm和x86对我们来说都是很好的战略。”黄仁勋表示。

CPU与GPU、VCU更加微妙的竞合关系

既有自研的Arm CPU,也支持x86 CPU,让英伟达与CPU巨头间的竞合关系中竞争的成分更高。在PC时代,芯片巨头间的竞争,是CPU公司或者GPU公司之间的竞争,CPU与GPU公司以合作为主旋律。

迈入AI时代,英伟达凭借其GPU硬件加上通用的软件,成为了AI芯片公司的代表,在AI市场成为了英特尔强大的竞争对手。面向市场空间巨大的云计算和5G市场,英伟达的GPU依旧离不开英特尔和AMD的CPU,但同时英伟达会更加注重Arm架构CPU的开发,芯片巨头间的竞合关系进一步加深。

这种关系变化更明显的转变在芯片巨头与互联网巨头之间。比如文章开头提到的谷歌Argos VCU,多年来谷歌都使用英特尔CPU中的视频编解码引擎,但随着视频内容越来越多,以及分辨率越来越高,谷歌需要性能更强但是功耗和成本更低的芯片。

定制的专用芯片性能往往会比通用芯片更强,通过自研核心功能加上集成第三方IP,能在规模应用中实现优势。谷歌表示,与英特尔Skylake驱动的服务器系统相比,其基于VCU的设备在性能、TCO(总体拥有成本)、计算效率方面实现了7倍(H.264)和高达33倍(VP9)的提升。

CPU、GPU 和配备 VCU 的系统离线双通道单输出 (SOT) 吞吐量

除了VPU,谷歌也已经通过自研的TPU减少了购买CPU和GPU。谷歌与芯片巨头们的关系,不再单纯是紧密的合作伙伴,在特定市场也成为了竞争对手。

对于这种转变,英特尔公司副总裁兼中国区总经理王锐此前对雷锋网表示,“竞争对手可以在某一参数或者是在制程上缩短与我们的差距。但要打造整个架构,在计算和AI的各个方面都要能够赶超英特尔,不是那么容易的事情。”

这是芯片巨头应对技术、市场变化的自信和底气,当然,芯片巨头们也需要更多地考虑与自研芯片的互联网巨头们的关系。

不要忽略,无论是芯片巨头们之间的竞争,还是芯片巨头与互联网巨头们之间关系的变化,本质上除了市场和应用变化的驱动,还有成熟的芯片产业链,包括成熟的设计工具、IP、代工厂和封装,很大程度降低了GPU公司设计CPU,以及互联网巨头设计定制芯片的门槛。

芯片行业的门槛还在进一步降低,这还会带来怎样的变化?雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/YGCUXJYnAc2XMP2c.html#comments Tue, 08 Jun 2021 18:26:00 +0800
让芯片设计更加敏捷的两个关键方法 //www.xyschoolife.com/category/chipdesign/MiO7qGPrgA3eiSRM.html 随着敏捷方法的建立提高了生产力和质量,业界对于硬件设计的兴趣正在增长。

尽管如此,人们普遍认为硬件领域的成功依旧是有限的。现实可能比想象要好一些,因为硬件中的某些敏捷性趋势没有明确标记。

例如,我们看到越来越多的努力将IP级设计和验证与SoC级设计和验证分离。在这种情况下,不同的IP团队都从SoC项目的“列车模型”上以异步的方式运行,当完成SoC设计时可以选择任何版本的IP。

虽然这种方法没有被贴上敏捷的标签,但这种方法确实符合敏捷哲学。 

敏捷设计发展的最大阻力——算力

芯片流片的高成本和流片后无法更改设计通常被认为是敏捷方法不能很好地映射到到硬件设计的关键原因。但是,流片后无法敏捷并不一定意味着我们不能在流片前更加敏捷。

在硬件设计中采用敏捷性设计最大阻力之一是硬件验证的复杂性。测试软件程序只需要执行该程序所需的计算,当然测试会全速运行。

测试硬件设计需要一个模拟器程序,该程序可以在软件中模拟芯片设计在硬件中制造时的行为。这个模拟器程序的计算非常昂贵,但其执行速度比它正在模拟的真实芯片的速度慢数千倍。

设计硬件的公司在测试其设计时会受到计算能力的限制。几家支持系统设计的公司都提供特殊的仿真加速器,它们使用专为仿真加速而设计的专用处理器或FPGA。这些系统的模拟速度比通用服务器上的模拟快数百倍,它们的成本也相应地更加昂贵。因此,设计团队发现他们在这些平台上的计算资源同样有限。

敏捷设计需要持续集成和测试,不仅是单元级别,整个系统级别同样如此。如果测试受限于计算能力,那么敏捷设计需要更高的计算效率,尤其是在系统级别。例如,一个典型的现代SoC需要在数千台机器的服务器群上进行长达五天的连续计算来完成一组基本的完整芯片测试。

在如此极端的计算背景下,设计团队如何才能让芯片设计变得更加敏捷?

解决敏捷计算挑战的两个方法

有两个关键方法可以推动解决敏捷硬件设计中的计算障碍:通过参数化减少设计规模和通过计算物流(雷锋网注,计算物流涉及使用计算和高等数学来规划和实施大型和复杂的任务。计算物流应用于许多领域,包括货物、服务和相关信息从原产地到消费地的流动和储存。)减少测试规模。

第一,参数化。复制在SoC设计中越来越普遍,无论是IP级复制(如多核 CPU),还是架构级复制(如GPU中的着色器内核或AI加速器中的MAC节点)。通过利用参数化,可以在某种形式的参数化下将更多相似但不同的事物融合在一起,从而显着增强复制的范围。

设计中的复制越多,自动生成设计的缩减配置的可能性就越大,这些配置更小但对测试仍然有意义。参数化的使用越复杂,在SoC级别最小化用于测试特定功能的设计尺寸就越灵活。

System Verilog等主流硬件描述语言(HDL)已经很好地支持复制和参数化,但可以通过采用更高级的语言作为HDL生成器来进一步启用它们。例如,SystemC、Matlab、Python或Chisel。与分离IP和SoC级设计的趋势一样,采用高级语言进行硬件设计也出现了类似的趋势。

至于计算物流,如果我们在敏捷设计方法下持续集成和测试,那么每次集成和测试都是对之前的集成和测试的增量。对于给定的增量设计更改,计算逻辑意味着自动确定最佳设计配置、测试集和测试配置,以便以最低的计算成本提供良好的验证质量。

可以将其视为一类新的EDA工具——一个引擎在完整的验证流程中控制所有其它引擎。

我们看到了通过计算物流提高验证计算效率的巨大潜力,特别是如果期待异构的、基于云的未来,在广泛的模拟和仿真平台上可以对无限使用容量进行计费。正如计算物流改变了UPS和FedEx等运输公司的包裹吞吐量一样,它也可以改变硬件设计中的验证吞吐量。

总结

硬件设计已经变得更加敏捷,但仍有很大的改进空间。与软件验证相比,这种改进的一个关键障碍是硬件验证的巨大计算成本。

通过利用复制、参数化和高级语言作为HDL生成器,我们可以最大限度地减少测试中的设计尺寸。通过采用计算物流,我们可以最大限度地减少测试工作量并进一步优化测试中的设计尺寸,尤其是在支持云的未来,以及基于使用无限制验证计算的可用性。

本文作者 Paul Cunningham 是 Cadence Design Systems 系统和验证组的高级副总裁兼总经理。雷锋网

雷锋网编译,原文链接:https://www.eetimes.com/agile-verification-for-soc-design/

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/MiO7qGPrgA3eiSRM.html#comments Sat, 05 Jun 2021 11:51:00 +0800
谷歌自研芯片替代上千万颗英特尔CPU //www.xyschoolife.com/category/chipdesign/s2FIAB3LQ0aiG4yS.html 雷锋网按,伴随着新兴应用的兴起以及数字化程度越来越高,已有的成熟处理器在性能、效率以及成本上的优势相较自研芯片的优势越来越小,因此借助成熟的第三方IP以及EDA工具和代工厂,科技巨头们纷纷开始自研芯片,其中最有代表性的就是谷歌TPU,除此之外,谷歌Argos VCU也值得关注。

谷歌设计了自己的新处理器Argos 视频(转)编码单元 (VCU),其目的只有一个:处理视频。高效的新芯片使这家技术巨头能够用自己的芯片替换数千万颗英特尔 CPU。 

多年来,英特尔内置于其CPU中的视频编解码引擎一直主导着市场,因为它们提供了领先的性能和功能,并且易于使用。但是定制的专用集成电路 (ASIC) 的性能往往优于通用硬件,因为它们仅针对一种工作负载而设计。因此,谷歌转而为YouTube的视频处理任务开发自己的专用硬件,并取得了很好的效果。 

不过,英特尔可能会利用其最新技术来赢回谷歌的专业视频处理业务。 

谷歌为什么自研VCU?

数据显示,用户每分钟向YouTube上传超过500小时的各种格式的视频内容。Google需要将该内容快速转码为多种分辨率(包括144p、240p、360p、480p、720p、1080p、1440p、2160p和4320p)和数据高效格式(例如,H.264、VP9 或 AV1),这需要强大的编码能力。  

过去,谷歌有两种转码/编码内容的选择。第一个选项是英特尔的视觉计算加速器(VCA),它包含三个Xeon E3 CPU,内置Iris Pro P6300/P580 GT4e集成图形内核和先进的硬件编码器。第二种选择是使用软件编码和通用英特尔至强处理器。

谷歌认为,对于YouTube的工作负载来说,这两种选择都不够节能。视觉计算加速本身就相当耗电,而至强CPU的数量本质上要增加服务器的数量,这意味着额外的功率和数据中心占用空间。因此,谷歌决定采用自研的定制硬件。 

谷歌的第一代 Argos VCU 并没有完全取代英特尔的CPU,因为服务器仍然需要运行操作系统并管理存储驱动器和网络连接。在很大程度上,谷歌的Argos VCU就像一个总是需要一个CPU的GPU。 

谷歌的VCU与GPU中的流处理器不同,它集成了10个H.264/VP9编码器引擎、几个解码器内核、4个LPDDR4-3200内存通道(具有 4x32 位接口)、1个PCIe接口、1个DMA引擎和1个用于调度目的的小型通用内核。

VCU除了自研的编码器/转码器外,大多数IP都从第三方获得许可,以降低开发成本。每个 VCU还配备了8GB的可用ECC LPDDR4内存。  

实际上,谷歌研发VCU的理念是将尽可能多的高性能编码器/转码器放入单个硅片中(同时保持节能),然后将VCU的数量与所需的服务器数量分别扩展。谷歌在一块板上放置两个 VCU,然后在每个双插槽英特尔至强服务器上安装10个卡,大大提高了每个机架的解码/转码性能。

VCU加速替代CPU

谷歌表示,与英特尔Skylake驱动的服务器系统相比,其基于VCU的设备在性能、TCO(总体拥有成本)、计算效率方面实现了7倍(H.264)和高达33倍(VP9)的提升。这样的提升带来的成本优势(VCU与英特尔的 CPU 相比),使得 VCU 成为视频巨头YouTube的更好选择。 

 

CPU、GPU 和配备 VCU 的系统离线双通道单输出 (SOT) 吞吐量

从谷歌分享的性能数据看,很明显单个Argos VCU仅比H.264 中的2路Skylake 服务器CPU快。但是,由于可以在单个服务器中安装20个VCU,从效率的角度来看,VCU胜出。但对于要求更高的VP9编解码器,谷歌的VCU似乎比英特尔的双路至强快五倍,有令人印象深刻的效率优势。 

自从谷歌拥有Argos VCU,它用自己芯片取代了许多基于至强的YouTube服务器。很难估计谷歌实际更换了多少至强系统,但一些分析师认为,这家科技巨头本可以将3300-4000万个英特尔CPU换成 自己的 VCU,即使第二个数字被高估了,单位仍然是数百万个。  

由于谷歌的其他服务需要大量处理器,因此该公司从AMD或英特尔购买的CPU数量可能仍然非常高,并且不会很快减少,因为谷歌自己的数据中心级芯片的使用需要数年时间。

还值得注意的是,目前谷歌为了尝试使用创新的编码技术(例如,AV1),YouTube 需要使用通用CPU,因为Argos不支持新编码技术的编解码。此外,随着更高效的编解码器的出现,这些编解码器对计算能力的要求往往更高,谷歌将不得不继续使用 CPU 进行部署。

但具有讽刺意味的是,专用硬件的优势在未来只会越来越大。谷歌已经在开发支持AV1、H.264 和VP9编解码器的第二代VCU,因为它需要进一步提高其编码技术的效率。目前尚不清楚谷歌何时会部署新的VCU,但很明显该公司希望尽可能使用自己的处理器而不是通用处理器。 

英特尔并未停滞不前

不过,英特尔并没有停滞不前。该公司 基于DG1 Xe-LP的 四芯片SG1服务器卡可以解码多达28路4Kp60流以及同时转码多达12路。本质上讲,英特尔的SG1与谷歌的Argos VCU 所做的工作完全一样:将视频解码和转码性能与服务器数量分开,从而减少用于视频应用的数据中心所需的通用处理器数量。  

凭借即将推出的Xe-HP GPU,英特尔将同时提供10个高质量4Kp60流的转码。请记住,某些Xe-HP GPU将扩展到四个区块,并且每个系统可以安装一个以上的GPU,英特尔在领先的媒体解码和编码能力市场只会变得更加稳固。

总结

Google 已成功构建了出色的H.264和支持VP9的视频(转)编码单元 (VCU),与英特尔现有的CPU相比,它可以在视频编码/转码工作负载方面提供显着更高的效率。此外,VCU 使 谷歌能够独立于服务器数量扩展其视频编码/转码性能。  

然而,英特尔已经拥有Xe-LP GPU和SG1卡,它们也提供了一些重要的视频解码和编码功能,因此英特尔仍将在具有繁重视频流工作负载的数据中心取得成功。此外,随着英特尔 Xe-HP GPU的出现,该公司有望巩固其在该市场的地位。

雷锋网编译,原文链接:https://www.tomshardware.com/news/intel-replaces-xeons-with-custom-vcus 雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/s2FIAB3LQ0aiG4yS.html#comments Fri, 04 Jun 2021 17:07:00 +0800
推出全球首款云原生服务器CPU的Ampere,明年将再破核心数纪录 //www.xyschoolife.com/category/chipdesign/JudXM1PVHUv6WiRV.html CPU市场竞争格局的变化,将让我们看到30年来最有趣的CPU市场竞争。x86阵营英特尔和AMD的竞争加剧,Arm阵营摩拳擦掌增强攻势,RISC-V也跃跃欲试。

今年3月,AMD发布了最新一代服务器CPU EPYC,最高 64 核 128 线程。紧接着,4月英特尔发布第三代至强可扩展处理器,核心数是40核。

在两大CPU巨头竞争越来越激烈的时候,2017年10月注册成立的Ampere(安晟培)在2020年投产了采用Arm IP的80核业界首款云原生服务器CPU Ampere Altra,今年第三季度,Ampere还将按计划投产128核的云原生Ampere Altra Max 服务器CPU,再次刷新服务器CPU核心数纪录。

势如破竹的Ampere明年还将发布基于自研核心的5nm云原生服务器CPU,核心数将再创纪录。Ampere能否用核心数来打破服务器CPU市场的竞争格局?Ampere每年更新一代产品的节奏能延续多久?

为云而生,专注云原生CPU

“创办Ampere的初衷是探索如何利用现代工具快速创新和新方法去创造无限可能。”Ampere董事长兼首席执行官Renee James说:“我们知道未来将与过去不同,因为软件环境变了,不再是关于PC和PC服务器的业务,而是围绕云和云边缘。现在,需要另一种不同的微处理器。”

有意思的是,Renee创业前在英特尔任职了28年,负责英特尔研发工作,并担任多个管理职务并领导了全球制造组织。另外,Ampere的首席技术官兼首席架构师Atiq Bajwa在加入Ampere之前曾担任英特尔产品架构副总裁兼总经理。Ampere的首席产品官Jeff Wittich也曾在在英特尔不同部门工作超过 15年,所领导的产品开发团队研发英特尔至强处理器。

乍一看,这是英特尔出来的团队创业挑战CPU巨头的核心产品。情况并非如此,Renee对雷锋网表示,“我们的团队只有很少一部分成员来自英特尔,还有许多来自高通、AMCC、Marvell等的成员,绝大部分工程师团队其实都是来自Arm相关的社区和公司,很多具有丰富的经验。”

Renee强调,Ampere只专注于未来,专注于云,而非继承传统。

由此看来,Ampere确实与英特尔有竞争关系,但是在新兴的云计算市场。并且,Ampere的核心创始团队之所以选择创业,很大程度也得益于他们多年来在计算领域的经验,看到了未来趋势。

“我们正处于计算的第三阶段,也就是后大型机、后PC阶段。进入云端时代,AI和数据中心计算需要新的创新。”Renee表示。

但创新从来就不是一件容易的事情,需要人才,需要积累,更需要时间。Ampere采取的策略是保持每年一代的产品更新速度,用快速的迭代加速产品的成熟。同时,专注数据中心的云原生市场而非整个数据中心市场。

“为云计算的未来进行发明创新是一个有野心的目标。”Ampere的首席技术官兼首席架构师Atiq Bajwa说:“为了以我们期望的规模和速度进行创新,需要四大关键因素。首先需要有才华的发明家,他们有专业的技术知识和对行业趋势的洞察力。然后要用使命激发他们的热情,释放创造力。接下来需要敏捷的协作环境,推动行业的快速创新。最后还需要远景和战略,让团队成员将自己的才华和创造力集中在最关键的事项上。”

技术的选择上,Ampere选择用有良好基础的Arm开发产品,并从最初就确定了自研核心的路线。Atiq表示,Ampere把注意力放在对云最重要的因素上,不必受到传统软件堆栈和其它细分市场的影响,打造一个专为云计算优化的CPU内核。

目标明确,路径明晰,接下来要看执行力和实际产品。

连续刷新服务器CPU核数纪录 

“我们通过愿景的几大关键要素提供差异化的价值,并在创新上努力,覆盖软件、设计方法、封装、大批量生产、平台设计。” Atiq介绍,“我们摒弃与云计算无关的功能,并根据Arm数据中心普遍的工作负载,有选择性地优化了ARM指令集的性能,还优化了云环境中的性能和功率。”

2020年,Ampere推出了业界首款云原生服务器CPU Ampere Altra,单个芯片核心数最高可达80核,为云计算提供更高的性能,包括在单线程或vCPU层面,在单芯片性能上有更佳表现,同时实现可扩展至大量线程的性能,稳定一致的性能,可预测的性能,能避免安全漏洞,高能效的性能,提供每核最低的功耗和每瓦最高性能。

Jeff告诉雷锋网,对云原生服务器CPU非常重要的是可预测的高性能、可扩展性、功耗效率。可预测的高性能不仅可以在性能上超越x86,还能以独特的云端特征超越它。性能的稳定性可以保证即使同时有很多用户,并且有许多不同的工作负载,也可以流畅运行。可扩展向云服务提供商提供所需的弹性。功耗效率可以带来成本优势。

基于Arm Neoverse N1内核,Ampere推出了80核的Altra CPU和128核Altra Max CPU,持续刷新服务器CPU核心数的纪录,也实现更高性能。“Ampere的产品搭载这么多的内核,其原因就是追求卓越的性能。” Jeff表示。

要通过增加核心数来实现性能的线性增加和稳定的性能是非常巨大的挑战。Jeff Wittich介绍,“拥有这么多内核自然是一件好事,但是更重要的是,如何用这些核实现高性能。与在PC上运行少量的核心非常不同,云端运行要求每个线程之间有更多的间隔,缓存层次结构不同,有复杂网状结构用来连接内存和I/O。为此,我们一直在利用自己的内核架构来保证可预测的线性扩展性能。”

Ampere Altra每个核都经过了专门的优化,确保在不同的工作负载中都能保持稳定的高性能。

“当然,高带宽也非常重要,它可以支持内核与I/O和内存间的数据传输,数据可以从CPU中导出。这涉及到CPU的平衡,只有很好平衡才能解除这些瓶颈,使CPU有更高的数据流。因此我们需要配备最大的I/O的通道,内存通道,使用最新的技术,例如PCIe Gen4,DDR4等。” Jeff同时指出。

另外一个重要的技术挑战,是将上百个计算核心集成到一颗芯片上。目前业界比较热门的技术是小芯片(Chiplet)。不过Renee透露,“我们的Altra CPU都不是Chiplet。有很多不同的解决问题的方式,有时候不需要太多的相互连接,Ampere采用分割的办法,我们认为这种解决方法能够保证芯片和服务器的芯片,拥有更少的相互连接,实现更低的延时。”

“我们会保持每年一代的更新速度,2022年,我们将推出核心数更多的云原生服务器CPU,采用5nm工艺和最新的平台技术,增加内存带宽和I/O网络带宽,并且采用Ampere自研的核心。” Renee同时透露。

Jeff解释,“Altra、Altra Max采用的Arm Neoverse N1内核表现非常出色。但我们开发的产品是专门面向云计算,而不是数据中心的其他应用。因此最重要的一点就是给客户提供专门定制化的服务,打造客户所需求的功能。只有我们建立从微架构,向上自己研发产品,才能满足客户的需求。”

雷锋网了解到,采用Ampere自研核心的云原生CPU将会兼容Arm。

Ampere云原生服务器CPU迅速赢得科技巨头认可

Ampere的技术优势转换为最终的性能优势具体体现为,Ampere Altra Max的性能比传统的x86服务器高1.55倍,可以保证云的安全性。媒体编码,如视频会议应用程序中使用的编码也越来越重要,Ampere Altra Max可以比传统的x86服务器多编码1.45倍的视频流,提供更高的云工作效率。

所有网络服务的核心都是像NGINX这样的软件,它们负责处理所有传入的用户请求,Ampere Altra Max可以比传统x86服务器多处理1.63倍的网络请求。

Jeff介绍:“事实上,Ampere Altra系列除了能提供超过1.6倍的性能之外,还能以仅为3/4的功耗,提供传统x86服务器的峰值性能,领先的性能和超高效率能够让每台机架比传统x86服务器处理多1.8倍的网络请求。”

“CI/CD是云原生计算的一个主要部分,Ampere在研发过程中充分利用每天晚上的时间,在大量的操作系统、编程语言和应用程序中进行回归测试确保Ampere处理器的开箱即用性能,不会因新代码发布而倒退。”Jeff还表示。

5月25日,Ampere也与Oracle合作,推出了全球首个正式全面启用Ampere Altra的云平台,通过Oracle Cloud Infrastructure(OCI)面向用户开放。 Oracle谈到“在CI / CD方面,我们已经与GitLab,GitHub和Jenkins等关键提供商合作,提供了可通过单击即可部署的经过测试的Arm解决方案,实现持续交付基金会Continuous Delivery Foundation(CDF)所推动的开放交付方式。”

为了提高对用户的透明度,Ampere每天在其解决方案网站上公布测试结果,持续致力于优化Ampere处理器应用,确保已有和未来的处理器产品都能在确保兼容性的前提下以最高性能运行。

“Ampere向来是一家开放的公司,我们应云而生,使用开源软件、参与开源项目,并通过云与大家分享我们所有的产品信息。”Renee表示。

目前,Ampere已经与微软合作,帮助他们优化产品,带来更有的可扩展性、性能能效,以及硬件安全性和无痕维护的改进,也能帮助微软实现2030年碳负排放的计划。

Ampere也非常重视中国市场,Renee称:“从创立的第一天起,Ampere一直秉承着‘中国第一’的发展战略,我们不仅在上海建立了办公室,而且在全国多地都有我们的销售团队。未来Ampere在中国的销售团队也会越来越大。”

这一策略已经收效,腾讯云、字节跳动,UCloud、金山云、美团等都是Ampere的客户,并且和浪潮合作开发服务器。

小结

云计算带来了全新的计算模式,让DevOps能够无缝地部署和扩展服务。只有更高性能、可扩展性、稳定性、安全性的处理器才能更好满足云计算客户的需求。看到这一市场的广阔前景,以及对创新的期待,Renee选择从英特尔离职创立了Ampere,专注云计算市场,推出全球首款云原生服务器CPU。

专注云计算细分市场的创新,提供定制化产品帮助仅成立三年半的Ampere迅速获得了头部大客户的认可,但想要保持持续创新满足客户需求,是Ampere团队的巨大挑战,也是其愿景所在。

“Ampere的客户都是全球极具创新性的公司,他们的要求非常高,不仅要求处理器性能优秀,能够引领市场创新,而且希望每年都有新产品落地,产品研发的节奏也非常快。这极具挑战,但同时也是最有趣的部分。”Jeff表示。

注,文中配图来自Ampere

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/JudXM1PVHUv6WiRV.html#comments Mon, 31 May 2021 10:54:00 +0800
刁石京替换李云鹏,天数智芯彻底“巨变” //www.xyschoolife.com/category/chipdesign/GgFpJg0QIDNXf4jB.html 雷锋网5月27日消息,企查查最新消息显示,国内初创芯片企业天数智芯的法定代表人由李云鹏变更为刁石京,并由刁石京担任董事长兼总经理。同时,天数智芯创始人兼CEO李云鹏已不在该公司高管之列,不再是企业受益股东。

图片源自企查查

相关消息显示,刁石京在 ICT(信息、通讯与技术)领域拥有超过30年的行业工作经验,曾任我国工业和信息部电子信息司司长,核高基重大专项实施管理办公室常务副主任、国务院信息化工作办公司综合组副组长。

天数智芯现法定代表人刁石京

此外,刁石京之前也曾在紫光集团任职,2018年起任紫光集团联席总裁,3个月后紫光国微董事长,还担任紫光展锐执行董事长、长江存储执行董事和紫光集团DRAM事业群董事长等职务。直到2020年7月27日,刁石京因工作需要辞去紫光国微董事长一职,离开紫光集团。

天数智芯是一家在AI热潮中创立的芯片公司,于2015年成立于南京,其创始人兼CEO李云鹏2002年从南京大学计算机系毕业后到美国威斯康辛州大学麦迪逊校区(University of Wisconsin-Madison)攻读计算机硕士学位,2005年毕业后他选择在硅谷工作,并在美国甲骨文工作了10年。2015年,李云鹏看到国内在基础软件方面对海外的依赖程度高,选择回国创业,天数智芯就此诞生。

天数智芯创始人李云鹏

在李云鹏的带领下,天数智芯靠AI软件算力平台实现营收,之后成立自己的芯片团队,于2019年10月发布了面向边缘推理的首款AI芯片Iluvatar CoreX I,官方当时称这款芯片具备高精度特性,峰值算力的能效比主流竞品提升10倍,应用迁移仅需1-2周(其它芯片需1-3个月),并且是工业级的解决方案。

产品发布不久后,天数智芯就发生了重大变化。企查查显示,2020年1月,天数智芯在南京雨花台区行政审批部的迁出准核下,从南京迁移到上海,并由“南京天数智芯科技有限公司”变更为“上海天数智芯科技有限公司”,且其在南京、杭州、深圳等地投资的子公司均处于注销状态。

据雷锋网了解,一系列分公司注销也伴随一些人事变动。

今年3月,天数智芯再次发声,正式发布完全自研的高性能云端7nm GPGPU芯片BI,并称之为是国内第一款全自研、真正基于通用GPU架构的GPGPU云端高端训练芯片。

这次法定代表人变更为刁石京并担任董事长,不知天数智芯还会有什么新变化。创始人为何离开自己一手创立的公司?新总经理又能带来什么?

雷锋网雷锋网雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/GgFpJg0QIDNXf4jB.html#comments Thu, 27 May 2021 16:23:00 +0800
Arm全面计算战略重磅升级!Armv9架构CPU一键三连 //www.xyschoolife.com/category/chipdesign/e9D5enCzEsx8rejg.html 雷锋网消息,今年三月,Arm推出了面向未来十年的新一代架构Armv9。今天,Arm发布新一代CPU、GPU产品和互联技术,Arm要用全新的全面计算产品组合,应对智能手机、高性能PC、可穿戴等众多应用的计算需求和设计挑战。

全新的CPU内核包括高性能核心Cortex-X1的升级版Cortex-X2,Cortex-A78的继任者Cortex-A710,时隔四年后升级Cortex-A55的全新小核心Cortex-A510。

三款全新的CPU核心都基于今年三月份推出的Armv9架构,可谓一键三连,因此在改进性能和效率的同时,也将拥有扩展的SVE(可伸缩矢量扩展)、机密计算架构、内存标签扩展特性。

Arm新一代Mali GPU产品包括高端系列Mali-G78的继任者Mali-G710,中端系列Mail-G57的后继产品Mali-G510,以及高能效产品Mali-G310。

全新的GPU系列依旧采用2019年发布的Valhall架构,这一架构2019年被Mali-G77首次使用,去年发布的Mali-G78进行了小幅升级,麒麟9000、Exynos 2100以及MediaTek天玑都使用了Mali-G78。

Arm高级副总裁兼终端设备事业部总经理 Paul Williamson告诉雷锋网,“之所以引入新的产品命名规则,主要是因为引入了Armv9架构,希望用新的命名表示这个新架构将会给市场带来的变化。”

除了全新CPU和GPU,Arm还发布了CoreLink CI-700 一致性互连技术和 CoreLink NI-700片上网络互连技术与Arm CPU、GPU和NPU IP搭配,可跨SoC解决方案增强系统性能。

Armv9架构三款全新CPU,性能平均提升超30%

2023年完成向64位应用程序过渡

雷锋网此前文章指出,Armv9架构有三个系列,分别是针对通用计算的A系列,实时处理器的R系列,微控制器的M系列,预计未来两代移动基础设施CPU的性能提升将超过30%。首款基于Armv9架构CPU的移动处理器最快将在今年底问世,可能来自MediaTek。

全新Cortex核心首先需要关注的是兼容性问题。自谷歌2019年宣布Google Play商店要求开发者上传64位应用程序之后,业界就开始向64位应用程序过渡,并且,谷歌表示将在今年夏天晚些时候停止64位设备对32位应用程序的兼容。

Arm则表示,为了支持生态系统对于性能的需求, 2023 年将仅提供 64 位的移动应用大核和小核。因为在Armv9架构的全新三款CPU中,Cortex-X2和Cortex-A510只支持AArch64微体系结构,它们不再能够执行AArch32代码,而Cortex-A710仍将支持AArch32。

Arm解释称这主要是为了满足中国市场需求,由于中国移动应用市场缺乏像Google Play商店的同类生态系统,中国的供应商以及应用程序需要更多时间过渡到64位应用程序。

这意味着,在采用Arm全新Cortex内核的SoC上如果要运行32位的应用程序,只能运行在Cortex-A710核心。

仍要看到的是,全新的Armv9架构的产品X2和A710总体保持着X1和A78的目标,X系列愿意在合理的范围内折衷功率,通过微体系结构提高性能。A710则更着重于PPA(性能、功耗、面积)的平衡,通过更智能的设计提高性能和效率。小核A510是四年来的首次更新,是一种全新的小巧设计。

Cortex-X2性能优势进一步扩大

Cortex-X2进一步扩大了与Cortex-A710的性能和功耗的差距,Arm称X2除了可以用于智能手机SoC,也可以用于大屏幕计算设备和笔记本电脑等对性能要求更高的终端。基于Armv9架构,X2核心从前端分支预测改进、调度优化到后端的管道等都进行了诸多改进。

就单核性能而言,在SPECint2006测试中,在相同工艺制程和频率下,X2相比X1的集成性能提升了16%,机器学习性能提升高达2倍。但由于Arm是将8MB L3缓存设计与4MB L3设计进行比较,6%的性能提升到底是较大缓存还是核心性能提升暂不清楚。

性能和功耗曲线来看,想要实现16%的性能提升需要付出更高的功耗,这将给三星和高通等手机SoC设计公司带来更大挑战。

Cortex-A710能效提升30%

由于同样采用了最新的Armv9架构,因此Cortex-A710同样从核心的前端到后端也进行了改进,不同的是A710还支持AArch32。

经过优化的结果是,Cortex-A710相比Cortex-A78实现了最多10%的性能提升和30%的能效提升。同样,10%的性能提升也是在8MB L3缓存设计与4MB L3缓存设计的比较。由于Cortex-A710可用于中端或低端SoC,这就意味着会使用较小缓存,10%的性能提升可能不容易实现。

相比性能提升,稍微降低频率可以带来很大的功耗降低。Arm称,在性能相同的情况下,A710的功耗比Cortex-A78少30%。这将有利于适中频率的Cortex-A710 “中间”核心实现持续的性能和电源效率。

总体看来,X2和A710的性能和功率指标都很适中,提升也是近几年来最少的。Arm解释称,由于向Armv9的迁移而进行了较大的体系结构更改,因此对通常的效率和性能改进产生了影响。

X2和A710都是该奥斯汀微体系结构家族的第四代产品,因此我们正面临着不断减少的收益和成熟的设计壁垒。

四年来首次更新Cortex小核

小核心是时隔四年终于迎来更新,因为上一代小核心Cortex-A55早在2017年就发布。全新的Cortex-A510来自Arm剑桥团队,使用了很多已经在较大核中使用的技术。Arm称Cortex-A510新内核与此前的旗舰内核Cortex-A73的单核性能和频率非常相似,但功耗却低很多。

据悉,Arm采用了一个被称为“合并内核”的设计方法,这是一种非常复杂的方法,最多两个核心对,它们共享L2缓存系统以及它们之间的FP / NEON / SVE管道。

Arm指出,共享管道对硬件是完全透明的,并且还使用了细粒度的硬件调度。在同时使用两个内核的实际多线程工作负载中,与为每个内核专用的管道相比,性能影响和不足仅占百分之几。

乍一看,Arm的做法与AMD十年前在其Bulldozer内核中对CMT(集群多线程)所做的改进有一些非常相似,但是在某些重要方面却有很大不同。

从性能指标看,将Cortex-A55与32KB L1、128KB L2和4MB L3与具有32KB L1、256KB L2和8MB L3的Cortex-A510比较。在核心频率相同的情况下,SPECint2006性能提升35%,SPECfp2006性能提升50%,提升非常显著,但从年均复合增长率的角度看,提升并不那么令人印象深刻。

比较IOS功率和性能,Cortex-A510性能提升10%,功耗可以降低20%。

值得注意的是,A510与A55的曲线在较低工作点几乎重叠。尽管A510总体上具有更好的性能,但这似乎主要是将效率曲线扩展到更高的功率水平的结果。实际上要在任何结构化的基准测试中重现这些更真实的工作负载是极其困难的。

需要注意,Armv9-A CPU群集(cluster)的支柱是新款的动态共享单元( DynamIQ Shared Unit)DSU-110,DSU-110 具备可扩展性、可支持最多八Cortex-X2 内核配置,同时确保效率表现。

Paul Williamson称:“通过共享系统级缓存最多可以降低15%的能耗。”

旗舰Mali-G710 GPU是关注重点,中低端GPU性能大跃升

新的GPU系列延续采用Valhall 架构,旗舰产品Mali-G710是Mali-G78的继承者,目标是相对简单的代际演进,这是Arm的架构师在Mali GPU中实现的最高性能。

Mali-G610对于Mali GPU的品牌有积极意义,G610继承了 Mali-G710 的所有功能,微体系结构相同,但价格更低。G610配置低于7个内核,可以帮助合作伙伴更好地区分旗舰产品与“高端”产品。

AnandTech指出,新的G710微体系结构看起来非常有趣,尤其是要解决与Arm的Mali GPU的API开销相关的一些弱点。如何发挥作用还有待观察,但从性能和功耗的提升来看,这似乎是一个稳健的进步,即便这不足以改变移动市场的竞争格局。

总的来说,对于大部分消费者而言,此次Arm升级的三款GPU关注的重点仍然是旗舰GPU Mali-G710。作为Valhall GPU架构的延续,新款G710执行引擎的与上一代Mali-G77和Mali-G78大致相同。与前一代Mali-G78 GPU相比,Arm承诺的改进是性能提高约20%,功耗有望降低20%,机器学习性能提升35%。

Mali-G510和Mali-G310是在前代G57和G31产品的基础上迭代升级。Mali-G510是Arm中端产品组合的重大升级,G510可从2核扩展到6核,可以在端智能手机、旗舰智能电视和机顶盒上实现 100%的性能提升以及22%的节能优化,延长了电池续航。

新的Mali-G310是基于Valhall的新低端产品,瞄准的是以低面积效率为重点的市场,包括数千亿的低成本设备和其他嵌入式市场,例如入门级智能手机、AR 设备和可穿戴设备。G310一个关键的价值是代表了Mali GPU架构从Bifrost架构到新的Valhall设计的重大转变。

这些新设计代表了微体系结构中新的重大突破,让Arm的中端和低端产品实现了显著的性能提升。G510相比G54性能提升了1倍,能效提升22%,机器学习性能提升了1倍。G310相比G31图形变形性能提升4.5倍,Vulkan性能提升4.5倍,Android UI性能提升2倍。

有意思的是,Anandtech认为由于缺少更大的幅度变化或步进功能升级,Arm的高端GPU前景看起来并不十分理想,三星已经确认在下一代Exynos GPU中采用AMD RDNA GPU,海思麒麟SoC被按下了暂停键。联发科成为最后一个会采用Mali高端GPU的公司,但他们至今还未推出真正的旗舰级SoC,所以有可能看不到高端Mali-G710产品。

Arm Mali GPU设计哲学一直是一把双刃剑,特别是它们正试图通过非常相似的微体系结构来满足如此广阔的市场。高端市场看起来有些暗淡,但中端和低端产品看起来非常有前途。

Arm表示,到2020年,他们已经出货了超过10亿个Mali GPU, DTV市场份额为80%,智能手机市场份额超过50%。

全面计算时代系统性能更加重要

Arm在2019年首次提出全面计算战略,随着全新架构产品的发布,Arm的全面计算战略也进一步升级。Arm认为全面计算设计战略的三大关键原则是——计算性能、开发者可及性和安全性。要同时满足这三大关键原则,需要提供出色的性能、安全性、可扩展性和效率。

“我们正致力于将 Armv9 技术引入到各个领域,以系统级设计最大程度地提高性能。基于 Arm 架构的计算技术正在构建超越智能手机市场以外的领导地位,借助移动生态系统带来的巨大规模优势,在笔记本电脑、台式机、云等应用领域打造领先的解决方案。这些灵活的解决方案将被应用于Arm 合作伙伴的各种应用中,开启新一代沉浸式的交互体验。”Paul Williamson表示。

全面计算对于移动设备、有丰富功能的AI产品都非常重要。因此,既需要Arm的Cortex CPU和Mali GPU,还需要全新的互联技术,这对于提高系统性能至关重要。

Arm今天推出的CoreLink CI-700 和 CoreLink NI-700 对新的 Armv9-A 功能提供硬件级支持,如内存标签扩展(Memory Tagging Extension),并支持更高的安全性、改进的带宽和延迟。

Paul Williamson指出,“以往算力用基准测试来衡量,但全面计算的时代PPA的重要性越来越低,交付更好的用户体验和更高的系统性能将变得更加重要。Arm 全新的全面计算解决方案采用系统范围的整体优化方法,横跨硬件 IP、物理 IP、软件、工具和标准,满足所有终端细分市场的应用场景和成本区间。”

对算力需求越来越高以及应用越来越丰富是可以看到的趋势,在变化越来越快的5G、AI和数字化时代,芯片巨头都已经转向多芯片组合竞争的时代,更加灵活的产品组合能够满足不同应用的性能需求。当然,与之相对应的还有制程、异构集成、封装等一系列的问题,需要整个产业链共同面对。

Arm的全面计算策略能获得多大的成功?

注,文中配图来自Arm

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/e9D5enCzEsx8rejg.html#comments Wed, 26 May 2021 18:24:00 +0800
为应对缺芯,高通骁龙7系采用三星5nm和台积电6nm“双芯”策略 //www.xyschoolife.com/category/chipdesign/glLYhmQtmMJukAMN.html 全球范围内的缺芯仍在持续,整个芯片产业链都在积极解决。全球最大的手机SoC供应商高通在次旗舰骁龙700系列上采用了双晶圆代工厂的策略应对芯片供应紧张的挑战。继今年3月推出基于三星5nm工艺的骁龙780G 5G SoC后,高通今天又推出基于台积电6nm工艺的骁龙778G 5G SoC,主打影像、AI和游戏体验,高通称其为三项全能。

“为了能够进一步满足OEM和消费者的需求,我们秉持多供应商的策略。”高通公司产品市场总监马晓民告诉雷锋网:“我们对晶圆厂没有偏向,只是希望能够在不同档位都能满足客户和消费者需求。”

由于不同晶圆代工厂技术之间的差异,同时也为了满足不同客户的需求,骁龙780G和骁龙778G的CPU、GPU和连网性能方面都稍有差异。

荣耀、iQOO、Motorola、OPPO、realme和小米搭载骁龙778G的高端手机即将面市。

骁龙7系列的双供应商策略

CPU的差异主要体现在频率上,新发布的骁龙778G采用的是与骁龙780G相同的Kryo670,不过主频性能相比骁龙780G略低,整体性能相比骁龙768G提升40%。

此前发布的骁龙780G的Kryo670 CPU,包含1个频率为2.4GHz的Cortex-A78大核,3个频率为2.2GHz的Cortex-A78中核、4个频率为1.9GHz的Cortex-A55小核。

GPU方面,骁龙778G的GPU是Adreno 642L,图形渲染速度比上一代768G提升40%,骁龙780G集成的是Adreno 642,比骁龙768G提升50%,这意味着骁龙778G的性能比骁龙780G也略弱,但都支持10bit HDR游戏。

全新的骁龙8系列和7系列ISP都升级为三ISP,功能相同,只是在处理性能上有所区别。骁龙778G的Spectra 570L支持最高144Hz的FHD+显示屏,ISP支持1.92 亿像素的单摄像头,或3600万 + 2200万像素的双摄像头,或2200万像素的三摄像头。

相比之下,骁龙780G的Spectra 570L ISP可以支持1.92 亿像素的单摄像头,或6400万 + 2000万像素的双摄像头,或2500万像素的三摄像头。

连接性能方面,虽然骁龙778G和780G都采用骁龙X53 5G调制解调器及射频系统,但骁龙780G只支持5G Sub-6GHz频段,骁龙778G则同时支持5G Sub-6GHz以及毫米波频段,峰值下载速度均为 3.3Gbps。

“这是因为客户有毫米波的需求,因此骁龙778G支持了毫米波。”马晓民解释。

Wi-Fi性能也有所差异,骁龙778G搭载的是高通 FastConnect 6700 移动连接系统,骁龙780G则是集成FastConnect 6900移动连接系统,两者的主要差别是FastConnect 6900的Wi-Fi 6E速率可以达到3.6 Gbps,FastConnect 6700为2.9Gbps。

AI性能则没有明显差别,骁龙778G和骁龙780G都集成高通第六代AI引擎,AI性能达到了12TOPS,并集成了高通第二代Sensing Hub。

对于大家都关心的功耗问题,马晓民表示,整体而言骁龙778G和骁龙780G的功耗水平相当。

雷锋网认为,采用三星5nm工艺的骁龙780G和基于台积电6nm工艺的骁龙778G在性能上有一定的差别,除了有不同晶圆代工厂制程技术的差别原因外,骁龙778G支持毫米波频段或许也是需要其他性能权衡的重要原因。

另外,进行幅度不大的性能调整也能提供差异化的平台,更好满足客户实现终端差异化的需求。

影像、AI、游戏三项全能

将硬件参数和性能转换为更容易感知的体验,骁龙778G强调的是影像、AI和游戏性能。影像方面,得益于ISP的三重并发性能,可以实现多摄像头视角。同时支持计算HDR视频拍摄。

在夜间拍摄时,借助算法优化,颜色和噪点的处理都可以达到比较好的效果。

而这些图像的智能优化,越来越离不开AI。马晓民强调,“高通的AI引擎能够同时运行多个神经网络。”这就意味着,OEM可以根据其产品定位和需求选择合适的算法供应商,实现更多有趣和有价值的应用。

手游作为持续增长的市场,高通近年来也非常注重处理器的游戏体验。骁龙778G主打游戏性能,自然支持高通Elite Gaming。马晓民表示,“在不到两年时间,已经有超过170款骁龙7系列终端支持Elite Gaming。”

骁龙778G的Elite Gaming有两个值得关注的特性,一个是Quick Touch。马晓民介绍,根据测算,骁龙778G的触控响应速度提升了20%以上。另外,骁龙778G上拥有了骁龙888的旗舰游戏特性可变分辨率渲染,性能有30%的提升。

小结

全球5G手机SoC的提供商所剩不多,但在这个高速发展的市场里竞争越来越激烈。上周四,MediaTek发布了全新900系列的首款产品6nm天玑900,希望能够站稳5G SoC中高端市场。

今天发布的骁龙778G以及两个月前发布的骁龙780G正是高通面向高端市场的产品。

有意思的是,骁龙778G和天玑900都采用台积电6nm制程,在产能紧张的大背景下,高通和MediaTek定位相似的产品不仅要在性能上比拼,还要争抢台积电的产能。

谁将获得更多的市场认可?

注,文中配图来自高通雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/glLYhmQtmMJukAMN.html#comments Wed, 19 May 2021 23:07:00 +0800
平头哥玄铁处理器出货量已超20亿!新成员玄铁907发布 //www.xyschoolife.com/category/chipdesign/XpujdSDQ5l13gW7a.html 雷锋网消息,在距离平头哥发布能够应用于5G、人工智能以及自动驾驶等高性能场景、实现性能的突破玄铁910不到两年的时间里,全志科技、卓胜微电子、中科蓝讯等200多家企业都在采用玄铁系列处理器设计芯片,平头哥旗下玄铁处理器出货量已超过20亿。

5月18日,平头哥玄铁系列处理器又添新成员——玄铁907。

据平头哥官方介绍,与传统芯片架构不同,玄铁907对开源RISC-V架构进行优化设计。具体而言是对开源RISC-V架构进行了扩展增强,采用5级流水线设计,最高工作频率超过1GHz,单位性能可达3.8 Coremark/MHz;该处理器还首次实现了RISC-V 最新的DSP指令标准,拥有出色的计算能效,适用于存储、工业控制等对计算性能要求较高的实时计算场景。

兼顾高性能及低功耗的玄铁907可应用于MPU(微处理器)、智能语音、导航定位、存储控制等领域。据透露,该处理器已向多家企业授权。

由于开源RISC-V解决了传统IP授权模式下芯片设计成本高昂、灵活性差等问题,RISC-V已经成为成批产业链比较主流的选择,此前,平头哥已推出基于RISC-V架构的玄铁902、906及910等多款产品。作为最早布局RISC-V的企业之一,如今平头哥的玄铁系列产品线已经全面覆盖高性能、低功耗场景。

平头哥副总裁孟建熠表示:“RISC-V架构芯片在AIoT场景的优势逐渐显露,平头哥希望通过技术及产品的创新推动RISC-V生态的发展,进一步降低企业设计芯片的门槛。”

封片图源自平头哥官方

雷锋网雷锋网雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/XpujdSDQ5l13gW7a.html#comments Tue, 18 May 2021 16:23:00 +0800
谷歌要用SoC代替主板了吗? //www.xyschoolife.com/category/chipdesign/z6Mgq8VxMHevj0vE.html 最近,谷歌的系统基础设施副总裁阿米特·瓦达特(Amit Vahdat)在一篇博客文章中表示, 谷歌将会用“位于同一芯片上或一个封装内的多个芯片上的SoC”,去逐渐替代“组件集成在一块用几英寸长的电线隔开的主板”,“SoC就是新的主板”,这个方向将是“谷歌的下一步”。

Amit这么一说,听起来好像谷歌还在用着20年多前的计算机,主板上有各种各样的分立功能芯片,谷歌急需提高系统集成度来降低主板上互联电路的成本,提高性能。但实际情况真的是这样吗?

下图是一块几年前的Intel Xeon服务器处理器的单socket主板,可以很清楚的看到,除了中间占了最大面积的处理器槽位以及网络芯片外,整个主板上只剩下各种物理接口、电源管理、电阻电容等辅助器件。而中央的Xeon内部集成了多核处理器、显示控制器(GPU)、PCIE控制器、DDR Memory控制器,处理器核也集成了对多媒体、压缩、加密的专用指令模块,几乎所有的纯数字电路逻辑,都已经集成到Intel处理器内部。

这难道不是一个SoC -- System on Chip吗?无论什么样的SoC,主板和物理信号接口总还会是存在的,服务器级别的大容量内存目前也很难完全集成到芯片或封装内部,所以我们看到的已经是一个高度集成、基于SoC处理器的服务器系统。

很显然,“SoC就是新的主板”的说法并不准确,而“用SoC代替主板上分立的功能组件”是一个早就发生了的事实,那么Amit提到的谷歌SoC创新到底指什么?

让我们再看看Amit的博客文章,他提到了2015年开始的谷歌自研TPU芯片项目( Tensor Processing Unit ,面向AI加速,目前已经发展到第三代),2018年谷歌的VCU项目(Video Coding Unit,面向视频流加速处理),以及2019年的OpenTitan项目(开源安全芯片,基于Titan芯片),从这些项目中诞生的,恰恰是Amit所提到的“主板上分立的功能组件”,也就是独立的功能芯片。

谷歌已经从TPU等芯片的大规模应用中尝到了甜头,结合谷歌的软件和AI算法之后,目前谷歌翻译、谷歌Colab、谷歌图像、部署在谷歌云上的各类客户应用等都在大规模使用TPU芯片。

当这样的功能组件芯片取得大规模应用的成功之后,谷歌下一步要干什么?当然是像过去20年业界一再发生的一样,将这些新功能组件集成到处理器SoC内部,进一步降低成本和功耗并提高集成度。在通用处理器市场还牢牢掌握在Intel等厂商手中的情况下,谷歌必须考虑设计自己的SoC处理器来完成它的目标。

这就很清楚了:Amit所指的SoC创新,并不是指简单地用SoC电路去替代主板上多个分立功能单元,而是从谷歌的应用需求出发,超越现有的通用服务器SoC去定制符合特定应用需求的多样化SoC处理器,我们可以称之为“定制SoC处理器”。类似的,Nvidia公司在2019年收购的Mellanox,其长远目标同样是将Mellanox公司所创新的SmartNIC功能模块集成进自己的新一代SoC处理器。同样,亚马逊、微软、华为、阿里巴巴等云厂商也都已经或布局了自己的SoC芯片产品和研发团队。

为什么这些系统产品巨头们都把眼光投向了小小的芯片?因为未来的产品创新和竞争都会紧密围绕定制SoC芯片展开,在一颗芯片或封装内的完整系统才有最优化的性能和功耗,再加上跟软件系统的紧密配合,会给系统产品厂商带来最大的竞争优势,这里最典型的例子就是芯片、硬件系统、操作系统直到应用系统全面开花的苹果公司。跟我们过去已经习惯看到嵌入式系统领域有大量的定制SoC一样,桌面电脑、云计算和服务器领域同样会诞生更多的定制化处理器。

定制SoC处理器代表了整个芯片行业的未来:从应用系统需求诞生出创新的功能芯片,然后功能芯片被定制SoC处理器吸收进去,甚至新的创新功能被直接集成进SoC处理器,这个过程将会一再重复而且周期越来越快。同时,近年来逐渐放慢的通用处理器性能进步,也让业界对定制SoC处理器的性能优势要求逐渐放低,类似更贵的石油会推动新能源的发展是同样的道理。但是,定制SoC会要求芯片设计周期和设计成本要求不断优化,因为终端产品公司的创新是基于软硬件协同的系统级优化,这种创新带来的成本降低比深度优化芯片设计潜能更大,所以芯片快速、低成本地实现并部署到产品内更加重要。

上面提到的这些需求,对芯片设计和制造产业链提出了更高的要求,对芯片产业链上游的EDA厂商也提出了更高的要求。如何大幅改进目前的EDA流程,减少对人工投入的依赖,加速芯片设计流程,降低芯片设计成本,这正是中国EDA公司的机会。雷锋网

本文作者芯华章科技产品营销总监杨晔,雷锋网授权转载雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/z6Mgq8VxMHevj0vE.html#comments Mon, 17 May 2021 18:29:00 +0800
6nm天玑900亮相,MediaTek 5G SoC“九箭齐发” //www.xyschoolife.com/category/chipdesign/UtBRN1Mz9eqac7Ij.html 雷锋网消息,MediaTek今天发布全新5G SoC天玑900,这是MediaTek天玑品牌继天玑1000、天玑700、天玑800后的第四个系列产品,也是天玑品牌2019年11推出后的第九款产品。

天玑900基于台积电6nm工艺,采用8核CPU设计,4核GPU,集成MediaTek第三代APU,支持1.08亿像素摄像头、5G双全网通和Wi-Fi 6 连接、旗舰级存储规格和120Hz的FHD+超高清分辨率显示。

MediaTek希望天玑900能帮助其站稳5G SoC的中高端市场。

5G SoC的玩家全球已经仅剩5家,但高速发展的市场也带来了一些变化。市场研究机构Omdia数据显示,2020年联发科手机芯片出货量为3.52亿片,与2019年的2.38亿片相比增长48%,市场份额达到27%,比高通25%的市场份略高。

今年1月CINNO Research发布的最新统计数据显示,2020年下半年MediaTek市场份额爆发式增长,超越高通和华为海思,首次成为中国国内市场最大的智能手机处理器厂商。

Counterpoint Research今年预测,MediaTek和高通等手机芯片制造商将继续主导市场,MediaTek将获得相对高通的优势。

Counterpoint Research 2021年4月发布的5G手机芯片市场预测

去年,MediaTek预计其天玑系列产品出货超过4500万套,对于这样的成绩,MediaTek无线通信事业部产品行销总监何春桦在今天发布会后的交流中表示,整体情况超出了原来的预期。

原因是多方面的,包括5G产品组合,技术以及市场策略等。就产品而言,CINNO Research认为天玑800和天玑720对于MediaTek在5G市场的突围功不可没。

何春桦也表示出货相对更多的是天玑800和700系列。

MediaTek 无线通信事业部副总经理李彦辑指出,“我们今年的研发投入预计将达到30亿美元,会更加注重先进制程的开发以及对新技术的投入,在5G市场的策略也会更加积极。”

今天最新推出的天玑900,从命名上就能看出MediaTek会将更多旗舰级1000系列的部分特性下放到新产品上。首先是制程方面,天玑900采用的是台积电6nm工艺,与今年1月发布的旗舰平台天玑1100和天玑1200相同。不过从CPU和GPU的核心选择上,雷锋网认为天玑900更偏重能效比而非高性能。

CPU方面,天玑900采用的8核设计,包括2个主频2.4GHz的Arm Cortex-A78大核和6个主频2.0GHz的Arm Cortex-A55高能效核心。GPU是4核Mali-G68。AI处理器是MediaTek最新的第三代APU。

天玑900 Arm Cortex-A78大核性能

除了制程,天玑900支持了旗舰级LPDDR5内存和UFS 3.1存储,这是天玑系列首款支持LPDDR5的产品。

MediaTek还将最新的Wi-Fi 6技术也下放至900系列,Wi-Fi性能相比天玑820的Wi-Fi 5传输速度增加最多38%。

天玑900的其他特性还包括:

  • 网络连接:集成5G调制解调器和Wi-Fi 6,支持5G Sub-6GHz全频段和5G 双载波聚合技术,可实现高达120MHz的频谱带宽,同时支持SA/NSA组网、5G双卡双待、双全网通和双卡VoNR服务,结合MediaTek 5G UltraSave省电技术,可进一步降低5G通信功耗,延长终端续航。

  • AI性能:搭载MediaTek第三代APU,具备INT8、INT16和FP16运算的浮点精度优势,能够提升AI拍照应用体验,支持AI白平衡、AI自动对焦等拍摄功能。

  • 影像:支持MediaTek Imagiq 5.0图像处理技术,采用多核ISP,搭载独家的硬件级4K HDR视频录制引擎,结合3D降噪(3DNR)和多帧降噪(MFNR)技术,支持1.08亿像素四摄组合。

  • 游戏:支持MediaTek HyperEngine游戏引擎,支持来电不断网技术,支持游戏通话双卡并行,拥有5G高铁和超级热点游戏模式。

MediaTek预计,搭载天玑900的终端设备将于今年第二季度上市。

随着新产品的推出以及上市,MediaTek希望借此稳固中高端市场,并且是在高端突破。李彦辑表示:“高端旗舰SoC一直都是我们的目标,今年对于MediaTek是站稳高端市场的关键一年。”

想要站稳高端市场,在提供通用平台的基础上与OEM更深度的合作实现产品的差异化是一个机会。

何春桦说:“我们认为做有差异化的5G手机是未来的方向。MediaTek提供一个通用的平台,和开放的软件平台,通过与客户在算法和软件层面更深度的合作,帮助客户实现产品的差异化。我们和Redmi已经有这方面的合作产品,未来会有更多类似的合作。”

5G技术的发展虽然仍然处于早期阶段,5G SoC的玩家也所剩不多,但高手间的竞争更加精彩。雷锋网

]]>
芯片设计 //www.xyschoolife.com/category/chipdesign/UtBRN1Mz9eqac7Ij.html#comments Thu, 13 May 2021 20:07:00 +0800