雷峰网

AI如何走进传统行业的最后一公里

Fri, 18 Mar 2022 17:00:00 +0800

人工智能的概念在过去几年里已经从理论变成了现实。从软件的推荐算法到人工智能语音助手，AI的种子已经在我们的生活中发芽。如今，AI的力量正慢慢发展壮大，走进传统行业，向着规模化的方向前进。

AI走出实验室

在AI技术借由电子产品走入我们的视野后，我们不断探索着人工智能更多的可能性。尤其是探索将人工智能与传统行业结合，希望AI能够为传统行业的发展注入新的能量。

但人工智能在传统行业的落地似乎没有人们设想的那么容易。人工智能领域知名学者吴恩达去年就曾在一篇文章中提出了疑问：在互联网行业中被应用得“得心应手”的人工智能，为什么会在传统行业中“水土不服”？为何AI技术在传统行业的应用速度和范围远不如消费互联网等行业？

一方面，人们对人工智能的认识还有不足。在传统行业中合理地利用人工智能能力需要创新和不断探索。只有当某个合适的应用场景出现后，人工智能的相关应用才会应运而生。

随着疫情的爆发出现的无人配送机器人、消毒无人机、无接触体温检测设备就是很好的例子。疫情出现时，创造了传统行业新的应用场景，对应的人工智能应用也就应运而生。

人工智能作为新鲜事物在传统行业中的潜力还亟待在实践中挖掘。

另一方面，人工智能目前已经普遍应用的场景不同，传统行业具有规模化，产业化的特点。这就要求人工智能完成“工业化”，告别“小打小闹”，真正走向规模化。而目前这一过程还面临着人才储备、软硬件生态等多方面的挑战。

走向规模化，AI落地的“工业革命”

目前，AI在向真正的大规模应用转型上还面临着一道难题：AI目前的入门门槛并不算低，尤其是对传统企业来说。当前许多传统企业虽然对于人工智能颇感兴趣，但在人才、能力、经验上的积累都比较薄弱。这导致这些传统企业无法真正做到将想法落实到到实践中。

这样的情况下，虽然传统企业迫切地想进行AI方面的尝试，AI方案的提供商也想尽可能地扩大自己的业务范围，但双方存在着信息障碍。

一方面AI方案的提供商与企业之间存在隔阂，无法确切的知道企业的需求，无法根据具体的需求来设计优化方案。另一方面开发者也无从知悉提供商在开发工具和开发方案上的最新成果。

为了解决这一问题，一些AI方案的提供商开始致力于创新共享和生态开放。英特尔推动的“AI实践日”就是与AI方案提供商与开发者直接交流的一种尝试。

在2022年3月15日线上进行的“英特尔拥抱广大开发者软硬件协同创新生态加速AI落地”活动上，英特尔首席工程师、人工智能技术中国首席架构师夏磊介绍了AI实践日的相关情况。

夏磊就是AI实践日的发起者之一。他表示，两年前创办AI实践日的初衷是希望英特尔能够通过有效的途径将自己投入了大量精力取得的创新传递给开发者。希望能够缩短从英特尔到市场、客户之间的距离。

在这个过程中，英特尔成功地推动了一些人工智能项目在传统行业落地。

英特尔与能源领域的金风慧能合作，利用英特尔的AI技术，构建了一套对风能进行精准预测的模型。风力发电一直存在着发电量不稳定的问题：风力大了，发电量就大，风力小了，发电量就小。

风电输出的这种起伏不仅会产生很多弃电，造成能源浪费，还会影响电网的稳定。所以风力发电要求比较准确地预测整个风电场的电能输出，这样有利于风力发电并网。

据夏磊介绍，英特尔的AI方案使得金凤慧能的准确率达到了80%，比之前提高了20%。这意味着每天发电过程中能够减少120吨的碳排放。一年将能减少2.4万吨树木的砍伐。

无独有偶，英特尔在医疗领域和卫宁的合作也让人工智能在精准医疗上大显神威。在医疗领域，根据每个人的身体情况不同给药量也应该不同。随着现代医学的发展，骨龄测试正帮助医生做到因人而异的精准给药。

英特尔和威宁合作搭建了一个基于英特尔至强平台的骨龄检测AI方案。能够将处理一张图像的时间从原来的11秒降低至6秒，效率提升接近一倍。

随着英特尔和开发者交流取得了愈来愈多的成就，AI实践日的性质也悄然发生着变化。

谷歌、亚马逊、百度、阿里等厂商也纷纷加入到生态共享的行列中来，利用英特尔的AI实践日同业内交流。AI实践日已经从英特尔为业界提供实践机会的活动变成了业内生态共享的平台。

夏磊还提到，英特尔下一步将对AI实践日的受众进行细分。面对关注不同领域的开发者，英特尔会从算法创新、快速部署等方面进行分类，更精准的提供不同群体感兴趣的信息。同时也会为不同领域的开发者开启专场，以更精准的为开发者提供方案。

AI走向规模化，产业化的今天，日渐完善的生态和开放的交流环境正在使得AI落地加速。也许不远的将来，AI能够向人们期待的那样，在生活的每个角落里都可以发挥它的作用。雷峰网

腾讯AI手语解说亮相冰雪赛事：业务能力媲美真人

Thu, 10 Feb 2022 17:45:00 +0800

2022北京的冰雪赛场热闹非凡，相信即使没有看比赛这几天来你也一定被金牌、谷爱凌等热词刷屏了。

而和我们一起在屏幕前关注中国健儿们表现的还有一群处于无声世界中的特殊人群，尽管他们能够看到赛场上的精彩画面，不过对于赛场细节的解说却无法传入耳中。这些听障人士了解世界、对外沟通主要借助手语，以往我们经常能够看到央视等电视台的新闻节目中伴随的手语播报。而为了提升听障人群的观赛体验，手语解说这次也应运而生。

在日前央视频APP的赛事视频中，一位担任手语解说的漂亮小姐姐出现在画面下方，见证了中国队夺金的各场比赛。与过往那些经验丰富、身经百战的手语老师们不同，这是她首次进行手语解说工作，却有着完全不逊于前者的准确度和反应速度。

仔细了解后才知道原来这次为央视频提供手语解说服务的并非真人，而是由腾讯打造的3D手语数智人“聆语”。

业务水平高超，“聆语”是怎样炼成的？

如你所见，“聆语”有着高度接近真人的面部形象以及肢体动作，这为其塑造了与真人手语翻译无异的亲和力，在手语表达能力上，“聆语”具备以下四大特性：

一是语言翻译准确，能够将健听人语言准确翻译转化为聋哑人所能理解的手语，可懂度可达90%
二是结合了逼真的面部表情唇动，更有助于观众理解语义
三是手语动作连贯自然，除了能够准确表达手语词外，不同的手语词间也能够实现顺畅过渡
四是能够快速迭代新词、热词，及时理解和更新比赛相关词汇，“小栓子”、“谷爱凌”都能准备表达

为了打造这样一个具备拟真形象和高超手语翻译能力的数智人，腾讯云小微联合了腾讯PCG AI等技术团队，综合运用了3D数字人建模、多模态交互技术、机器翻译、语音识别和自然语言理解等技术。

比如“聆语”的外观形象和动作便依托了3D光照扫描还原、面部肌肉驱动、表情肢体手势捕捉等技术，做到了高度还原真人发肤，动作自然不生硬。

在最关键的手语表达上，“聆语”基于《国家通用手语词典》的标准手语，和深度的机器学习训练，以及针对体育、艺术等专业领域的优化补充，目前共掌握约160万词汇和语句。在解说比赛时，会先通过机器翻译将比赛解说的健听人语言低延迟转化为高准确率的手语语言表征，再运用腾讯多模态端到端生成模型，进行联合建模及预测生成高准确率的动作、表情、唇动等序列，实现自然专业且易懂度高的手语效果。

并且“聆语”具备快速学习补充新词热词、根据业务场景快速学习专业用语的能力，像应对本次赛事手语解说就针对体育赛事方面的用语做了定向优化，覆盖了超过15000个相关词汇。

赛事解说之外，手语数智人前景可期

投入多部门的技术力量打造服务于少数弱势群体的手语数智人，除了基于腾讯“科技向善”的理念和愿景外，也有手语翻译/解说在现实运用层面的需求。

虽然手语是听障人士沟通和理解事物所依赖的重要方式，但由于精通手语翻译的人才偏少，在面向大众的视听内容中手语翻译覆盖范围低，以往国内多数电视新闻、文娱节目无法保证能配备同步的手语翻译，更遑论网络视听内容；同时手语存在较大的区域方言差异，国家在2015年推出的通用手语，仍需要持续的推广，传媒节目由于需要对大量复杂语句进行肢体动作上的实时表达，往往准确度、可懂度并不高，也依赖于全国性的媒体节目进行手语“普通话”的持续普及。

而像“聆语”这样以数智人形象呈现的AI手语翻译出现，正有利于解决上述的两大困难。作为AI产品的“聆语”能够几乎无限制地广泛部署，解决专业手语翻译数量不足的问题；而其基于机器学习的表达能力随着时间推移相比真人也会更为精确可懂。

2021年10月广电总局在《广播电视和网络视听“十四五”科技发展规划》也提到，要推动虚拟主播、动画手语广泛应用于新闻播报、天气预报、综艺科教等节目生产，创新节目形态，提高制播效率和智能化水平。

因此可以预见的是，在国家及相关企业推动下，未来“聆语”及类似的AI手语翻译、手语主播将会被部署运用在体育赛事之外的其它视听节目当中，给予听障人群更友好的观看体验，在大型会议、活动直播、影视作品等方面的运用也有着可期的前景。

值得一提的是，AI手语主播只是腾讯在数智人业务探索方面的其中一个方向，据了解腾讯云小微联合PCG AI、AI Lab等团队打造了多个数智人方案，涉及金融、传媒、政务、家居、教育、展会等多个领域。

比如用于为在线客户进行智能化服务的银行数智员工，用于引导开户的证券交易客服，协助旅客查询信息办理业务的民航数智地勤，以及展会导览助手、景区导览助手等，这些数智人都有着强大的AI能力，未来在各行业中无疑将扮演越来越重要的角色。

雷峰网雷峰网雷峰网

杨植麟：选择创业，是为了从「组织架构」上解决AI落地难题

Thu, 13 Jan 2022 15:54:00 +0800

在刚刚过去的2021年里，中国人工智能界最受人瞩目的一件事，莫过于被誉为「AI四小龙」之首的商汤科技在香港联交所成功上市，成为「中国AI第一股」！

对于许多正在奔跑的「AI科创家」来说，这无疑是一个振奋人心的消息——它让人们看到，AI创业并非登不上台面的儿嬉戏语，也全非「寒冬」一说。早年间创立的「AI四小龙」，在摸爬滚打中尝到的，也不仅是开辟AI产业化的苦果，还有AI落地先锋的甜头。

2018年「深度学习三巨头」Yoshua Bengio、Yann LeCun与Geoffrey Hinton获得图灵奖后，人们普遍认为，未来十年，人工智能领域不会再出现重大的理论突破；相反，人工智能的发展将越来越多地体现在AI技术的应用及其与产业的结合上。

换言之，「AI 能赚多少钱」成为了新的关注点。而随之出现的，是越来越多的AI创业公司。

与老一辈以「AI四小龙」为代表的80后创业者相比，新一代的90后青年科学家在AI创业上有些许不同之处。

比方说，投资环境。老一代频频赶上AI投资热潮，而随着深度学习的瓶颈突现、AI技术成果转化难等等问题的出现，新一代创业者在找钱的问题上越来越多地遇到投资者的质疑与防备，同时也面临越来越多的竞争对手。

技术发展上，原先AI的落地集中在感知智能上，后来AI兼并了更多领域的知识（图形学、统计学、强化学习、演化计算等等），新一代科学家的创业方向也开始更加多元化。除了计算机视觉，还有语音识别、自然语言理解、图形学、芯片……

为此，我们策划了「AI科创家」系列，邀请年轻一代的AI创业者与我们分享他们的创业故事。第一位创业者，是一位在学术界与工业界均十分有名的90后青年学者，他就是循环智能（Recurrent AI）的联合创始人、Transformer-XL与XLNet一作杨植麟。

1、「激进」的AI落地法

「我想有一条更激进、更彻底的路径去打破学术界与工业界的壁垒。」被问及创业的原因时，杨植麟这样答道。

在投资人的眼里，杨植麟与循环智能的其他创始人一样，有一份绝对拿得出手的光鲜履历：

本科就读于卧虎藏龙的清华大学计算机系，师从IEEE Fellow唐杰，2015年以年级第一名的优异成绩毕业；

随后，赴自然语言处理（NLP）研究全球排名第一的卡内基梅隆大学语言技术研究所（LTI）攻读博士，师从知名学者Ruslan Salakhutdinov与William Cohen；

博士期间，他与图灵奖得主Yoshua Bengio合作发布「火锅问答」数据集HotpotQA，又以一作身份发表的 XLNet 与 Transformer-XL在NLP领域产生重要影响，成为 NeurIPS 2019 与 ACL 2019 的最高引论文之一，谷歌学术引用次数直接破万……

图注：杨植麟的谷歌学术论文被引主页

一般来说，卡内基梅隆大学计算机专业的博士生往往要经过六年的学习才能毕业，而杨植麟只用了四年（2015-2019）就从CMU出师，一度成为学术圈的风云人物。

作为一名佼佼的青年AI学者，杨植麟确定自己志在推动人工智能技术在现实生活中的大规模应用。

一般来说，年轻博士生参与技术落地的途径是进入资金雄厚、牛人云集的大厂，在其中谋得一官半职，比如他的两位博士导师Ruslan Salakhutdinov与William Cohen并分别在搞学术之余担任苹果 AI 研究负责人与谷歌首席科学家。

但杨植麟认为，「科学家加盟大厂」的模式在组织架构上存在局限性，并不能令他更深入地参与到AI落地中，也无法从根本上解决工业界进行AI落地的瓶颈：

「我觉得AI行业面临的共同问题是学术界与工业界之间的Gap。我们看到老师们在工业界有一些title，但其实本质上他们还是在做研究工作。基础研究固然重要，但无法打破这种壁垒，研究内容与实际落地之间还有很多步骤。」

具体的表现有：一，高校教师往往更偏向学术研究，与工业界的联系较少，也缺少工业界落地的思考与驱动力；二，与此同时，虽然许多互联网大厂也会招入杰出的科学家去解决技术难题，但它们的首要出发点是赋能业务，而非推动AI落地。

从大厂运作的组织架构上来说，这些杰出的科学家没有足够的资源或权利去推动产品落地。公司的业务方向会调整，即使科学家有意愿去推动一项产品的落地，成本与代价也会大幅增加，技术的转化率与效率也会受到企业组织架构的影响。

在杨植麟看来，这是一个非常大的限制，这也造成了在大厂中，许多AI技术的落地周期十分漫长，也不够敏捷。因此，2019年博士毕业时，他拒绝了谷歌、Facebook与华为等大厂的高薪offer，选择了回国创业。

图注：杨植麟与两位博士导师Ruslan Salakhutdinov（最右）、William Cohen（最左）合影「创业的好处是我们可以自己决定公司的组织架构。人生苦短，精力有限，优化公司的组织形式可以有效减少中间损耗，缩小技术转化与社会价值之间的距离。」杨植麟谈道。

杨植麟对AI科技评论回忆，他的本科与博士导师都十分看重技术的实际价值，这给他带来了很大的启发。不同的是，他会更激进地去追求落地的结果，深入业务中进行研究。他的计划是同时进行学术研究与技术落地，并同时取得成果。

循环智能成立于2016年。也就是说，杨植麟从博士二年级开始就一边搞学术研究、一边创业。

正是有感于「大厂科学家」的尴尬处境，他一直强调「我们需要新的思考」。在循环智能，他不仅是AI技术负责人，还是产品经理，这无疑是一个「范式层面的革新」，是他心中能够有效打破技术与价值之间壁垒的最优途径：

「一方面，我们会去做基础的研究，如预训练、多模态等；另一方面，我们也要去进行落地。这两个事情可以互相提升与促进。」

2、研究与落地，双轮驱动

循环智能最早的三位创始人陈麒聪、杨植麟与张宇韬相识于清华大学的知识工程实验室，都有一股「用AI创造社会价值」的热血。三人都是技术出身，后来因为业务发展，循环智能在2018年又引入了另一位擅长技术产品运营的「第四把手」揭发。

自成立以来，杨植麟就是团队的核心技术骨干。2016年与2017年，他与陈麒聪、张宇韬开始摸索技术的应用方向。

对新一代AI创业者来说，2017年是一个重要的时间节点。

那一年，谷歌团队在“Attention is All You Need”一文中提出Transformer模型，该模型没有采用卷机网络与以往RNN的时序结构，采用编码机制，编码端同时包含语义信息（Multi-Head Attention）和位置信息（Positional Encoding），能够并行计算，大大提升了语言模型的训练速度。

对于专注技术落地的创业者来说，这无疑是一项利好消息，能够减少预训练的时间，节约研发成本，加速技术与场景的匹配速度。Transformer的出现，打破了计算机视觉凭借深度学习在AI创业圈一统天下的垄断局面，使一大批基于NLP技术的创业公司开始崭露头角，循环智能便是其中之一。

循环智能的主要业务是运用NLP、语音、多模态、大模型等人工智能技术打造「销售科技」方案，帮助企业的销售团队提升销售业绩。

杨植麟谈道：「我们认为，AI产生价值的过程可以分为几个阶段，而其中一个阶段就是帮助每个人变得更好，提升人的能力，从而提升整个社会的运行效率。这个Vision（愿景）是我们公司成立之初就有的想法。」

据他介绍，循环智能选择将AI用于「提升人的沟通能力」，也是经过了很长时间的探索，与客户交流、不断迭代才确定。最终，他们抉择的原动力是客户的诉求，以及对整体市场的判断。比如，根据CB Insights的数据统计，2016年销售科技初创企业的投资额就超过了50亿美元，此后逐渐递增。这也表明了市场对这个赛道的信心。

图注：Gartner的销售科技（SalesTech）技术成熟度曲线2021显示，销售赋能一支已经渡过「技术萌芽期」（Innovation Trigger），进入「期望膨胀区」（Peak of Inflated Expectations）

如前所述，杨植麟认为，AI系统的组织架构会影响产品的能力，而组织架构的灵活设置可以帮助他们以一个更好的模式去推进产品落地。在创业的过程中，杨植麟实现了学术研究与工业落地的双轮驱动模式。比方说，他被 ACL 2019 接收 Transformer-XL 一文，早在发表之前就已应用在了循环智能的 ASR 产品中。

对于这项基础技术的快速转化，杨植麟引以为豪：

「在预训练的过程中，我们将技术部署在产品系统上，让它能以实际数据集的运行效果为最终目标，驱动中间的研发过程。在将挖掘系统落地时，系统也是以最终的业务结果为目标进行学习与优化。同时，中间过程又可以迭代出很多AI问题与基础技术，使得之后的产品可以进一步改善。」

AI模型的落地中，一个常见的问题是数据集的真实性与完备性。

一般来说，研究者在改进模型时，往往是基于特定的、人工创造的数据，但这些数据也许并无法完整、正确地描述模型在实际场景中遇到的情况。因此，尽管预训练的若干技术都已在学术界的许多数据集上得到了测试，且性能优异，但在实际应用中，却仍需要非常多的技术改进才能部署落地，因为模型会遇到更多更复杂的问题。

目前，在解决这一问题上，学术界仍未有突出进展。但在创业的过程中，由于杨植麟与团队的预训练技术研究从一开始就是在实际的数据集中测试，直接与AI产品框架匹配，因此，类似的落地问题便能从根拔起。

3、谈谈「NLP+销售」

除了2017年的Transformer，近年来，人工智能领域又涌现出了许多基于Transformer的大规模预训练语言模型，比如Bert与GPT-3。此外，还有许多新兴技术对AI创业者产生了积极影响，比如少样本与零样本的研究突破。

从NLP技术落地的角度来看，这将是一个个革命性时刻。因为通过将这些研究成果有机结合，AI模型的效果与效率能够得到大幅提升。在某些场景中，研究者甚至只需要通过非常少的样本、甚至零样本就可以取得跟以往一样好的效果。

对于循环智能来说，这意味着，在用AI提升销售转化率的过程中，他们能够做到很多以前做不了的事情，比如会话洞察与分析引擎。随着NLP落地技术的逐渐成熟，加之企业服务在全球范围内成为新的投资热点，杨植麟与团队憧憬，通过「NLP+销售」的路径，循环智能也有成为「中国Gong.io」的可能。

具体来说，用人工智能提升销售效率的过程可以分为三步：一是对销售与客户之间的会话数据进行采集；二，对有价值的会话内容进行挖掘并建模，将非结构化数据转为结构化数据；三，分析会话数据，找出销售人员在与客户沟通的过程中存在的问题，更精确地分析客户意愿，并给出解决问题的关键要素。

归根到底，就是对大规模的文本数据进行高效分析。

听来简单，但事实上，「AI+销售」是一条同时具备市场刚需与高技术壁垒特征的赛道，因为这要求AI系统具备综合分析的能力，除了算法，会话洞察能力、数据分析能力、行业营销知识等等也缺一不可。这很符合循环智能创始团队的创业风格：既要创造价值，也要拥有一定的技术门槛，提高竞争难度，减少对手。

从刚需的角度来看，业绩增长是每一家企业的发展根基。销售作为市场营销中的一环，其会话流量的转化率对业务目标的影响至关重要。据杨植麟观察，流量转化率在许多行业中都是一个突出的痛点问题，尤其是金融行业。

他们曾接触过一个国内的头部保险公司X，旗下有一家分公司Y。Y的销售困境是：虽然Z的销售团队卖出了许多保单，数量远远高于X位于邻城的另一个分公司Z，但所收的保费总和却比Z要低。经过分析，原因很简单：因为Y的均件保费远远低于Z。

这时，他们需要通过分析手中已有的数据，来找到拯救萎靡业绩的方案。而回顾已有数据，企业的唯一法宝，是保存了大量的沟通语音或文本数据。

对于计算机来说，未经解码的语音数据犹如黑盒，同时是非结构化的。这时，NLP与语音技术的结合可以对这些非结构化数据进行高效解析，并管理一个企业销售团队的沟通过程。换言之，此时AI产品还是一个「管理抓手」的角色，分析销售人员与客户的沟通情况，洞察客户需求，提高销售管理能力和销售团队的工作效率。

「我们提供的产品可以把每位销售人员在每一天的开口率以非常清晰的、精确的方式呈现出来。它能定位到每一个团队成员的每一通电话、每一次沟通，据此便可以做很多报表分析，从而知道每个团队的问题在于何处。」杨植麟介绍。

图注：循环智能AI产品的原理示意图

根据实战的结果，循环智能打造的AI系统每天可以处理超过 1 亿次的对话数量，帮助Y将保单的均件保费提升了大约20%。目前，他们已与数十家销售人员超过一千人的企业合作，主要覆盖银行、保险、房地产、汽车等四大行业。

杨植麟解释：「这几个行业都有一个共同的特点，就是对销售技能的要求高，销售过程非常复杂。同时，相对来说，这些行业有精细化运营的需求，它们的精细化程度达到了一定的阈值，足以支撑他们应用AI系统来优化效率。」雷峰网

在这个过程中，他们的AI系统后台也积累了数千个来自不同行业的语义模型，构成了循环智能AI大脑的强大知识库，有利于NLP模型的进一步落地。去年，他们与华为云合作，开发了大规模中文模型「盘古」，在部分实际场景中达到了优于Bert与GPT系列的效果。

目前，循环智能已进行到B轮融资，连续三年实现了超200%的营收增长。不过，杨植麟谈道，创业必须深入业务：「我们现在还属于将产品打磨成熟的阶段，主要任务是扩展与提升销售沟通场景的覆盖面。」

4、创业感想

杨植麟认为，决定一家技术创业公司是否能立足的两个因素，一是具备多维度的综合能力，二是深耕行业，能够将通用产品与细分的行业方案进行有机结合：

「当我们拥有了一个通用的技术品牌后，我们可以用较低的边际成本将其扩展到新的行业、新的公司与新的细分场景中。因此，我们需要一个成为『行业专家』的团队，能够提供专业的行业方案，再用这个专业方案包装产品，进行落地。」雷峰网

循环智能拥有明星创始人团队，在吸引综合人才方面并不难。杨植麟也强调，打造用于提升销售的AI系统并不能仅靠一群「NLPer」或「CSer」的力量，还需要有硬件人才、营销人才、行业分析师等等。

在科技赋能数字经济的进程中，NLP的核心价值往往体现在最后一公里。对于任何行业来说，只要有沟通数据与文本数据的场景，NLP技术就可以发挥价值。传统的NLP场景最大的瓶颈是规模化，但随着Transformer、少样本/零样本学习等研究的突破释放了极高的边际价值，杨植麟相信，在未来几年，NLP的规模化赋能将成为可能。

创业五年，杨植麟总结了自己在技术以外的成长：一是有机会学习到商业逻辑，加深了对行业与场景的认知；二是学习到如何建立与运营一家公司；三则是能有一种更彻底的方式缩短了技术与价值之间的鸿沟。

十年前，也许很多人会认为，进入大厂才是研究实用AI的最佳途径。但随着近一两年来越来越多的技术大牛从互联网大厂离职，或回归学术界，或自主创业，人们开始意识到：要推动人工智能技术的大规模落地，需要一种新的运作模式。从这点来看，杨植麟的选择颇有先见之明。

据了解，目前，杨植麟除了在循环智能创业，同时也在清华大学、智源研究院等机构主导了多个AI研究项目，继续践行他对如何打破研究与应用之间壁垒的思考。在创业与学术的双轮驱动下，杨植麟等新一代实干家，给中国人工智能的未来带来的不仅是「激进」的应用，还有培养从研究端就开始思考技术转化的青年人才。

薪火相传，未来可期。

参考链接：

1. https://www.gartner.com/en/documents/4004056/hype-cycle-for-crm-sales-technology-2021

2. https://mp.weixin.qq.com/s/huaJLRecOoV-gWzL0ZjEAQ

清华AIR和亚信科技等联合发布《通信人工智能赋能自智网络》白皮书

Thu, 30 Dec 2021 19:18:00 +0800

雷峰网消息：2021年12月30日，亚信科技携手清华大学智能产业研究院（AIR）、中国移动、中国电信、Intel联合发布《通信人工智能赋能自智网络》白皮书，向业界分享在自智网络领域的最新经验与实践成果。中国工程院院士、清华大学智能产业研究院（AIR）院长张亚勤教授，中国移动研究院副院长段晓东，中国电信研究院副院长陈运清，亚信科技首席技术官、高级副总裁欧阳晔博士出席并致辞。

清华大学智能产业研究院（AIR）副院长刘洋教授，中国移动研究院副院长段晓东，中国电信研究院副院长陈运清，亚信科技首席技术官、高级副总裁欧阳晔博士、Intel中国运营商事业部总监侯志强、中国科学院大学教授陈曙东作为代表共同对外发布了白皮书。

图：发布会启动仪式照片

自智网络（Autonomous Networks）旨在构建通信网络全生命周期的自动化、智能化运维能力，面向消费者和垂直行业客户提供“零等待、零接触、零故障”的网络服务，打造“自服务、自愈合、自优化”的通信网络。

本次发布的《通信人工智能赋能自智网络》白皮书基于国际标准对网络智能化等级划分和工作流定义，聚焦自智网络的实现框架与实施路径，提出独具特色的“自智立方体”，有力支撑通信运营商的自智网络目标从概念设计向实际落地迈进。白皮书提出，网络数据中台、通信人工智能、网络数字孪生将成为驱动自智网络发展演进的三大关键技术。

基于自智立方体体系及三大关键技术，白皮书例举了通信人工智能赋能自智网络的相关典型案例。

图：张亚勤发言照片

中国工程院院士、清华大学智能产业研究院（AIR）院长张亚勤教授表示，希望在后续的工作中，能够跟亚信科技、中国移动、中国电信、中科院等合作伙伴们进一步加强合作，发挥 AIR 的科研优势，继续在 AI+通信的赛道上，研发出更多面向国家和产业需求的成果。

图：欧阳晔发言照片

亚信科技首席技术官、高级副总裁欧阳晔博士表示，随着本次白皮书的发布，我们坚信通信人工智能将进一步推动运营商自智网络等级向高阶持续演进。面向未来，亚信科技将携手清华大学、中国移动、中国电信、Intel、中科院等合作伙伴，共同加速推进通信运营商数智化转型。

亚信科技作为5G时代数智化转型的领先者，对通信人工智能与5G网络智能化领域有深入的研究和探索。亚信科技与清华大学智能产业研究院成立了5G智能联合实验室，共同完成了“5G网络智能化系统研发与产业规模化应用”并通过国家相关科技成果鉴定，整体达到国内领先、国际先进水平；与中国移动研究院和中关村创新院成立了智慧内生网络联合实验室，聚焦6G应用基础研究与B5G技术产业化；与中国电信研究院在随愿网络领域开展联合创新，并在ONAP开源社区取得丰硕成果。

亚信科技5G网络智能化产品，覆盖网络生态系统智能化演进全景，形成了5G生态系统的整体性“注智”与“融智”解决方案，已在我国5G网络建设中大规模商用，直接支撑三大通信运营商面向5G的通信软件生态系统构建，以及面向6G网络智慧内生的技术演进。帮助运营商应对网络云化和软件化趋势下的业务快速上线、网络规划优化、网络稳定运行、客户感知和体验管理等挑战，大幅提高运维/运营工作效率，降低运维/运营支出，提升客户满意度。

白皮书下载链接

「发展」的AI伦理治理观：既要「扬善」，也要「除恶」

Tue, 14 Dec 2021 12:32:00 +0800

在中国的交通历史上，有两个看似荒诞、却极有启示意义的著名事件：

1865年，清朝同治四年，英国商人杜兰德在北京宣武门外铺设了一条长约500米的小型铁路。这是中国的第一条铁路，很快引来了围观人群的惊呼声。人们看到一个庞大无比的蒸汽机头带着几节车厢缓缓驶来，无需人力拉动，着实神奇。雷峰网

但对蒸汽机头的一无所知还是使人们心怀恐惧，清廷官员更是吓得一身冷汗，跑去向慈禧告状，言杜兰德所修的庞然大物乃是一条铁龙，能上天入地，破坏大清朝的龙脉！慈禧一听，也吓得不轻：“这是要亡我大清！”立即下令拆除。雷峰网

除了「无知」，按照两广总督毛鸿宾的说法，反对修建铁路还有另一个原因，就是火车会挤掉马车的生存空间，从而中断民间的贸易：“此（铁）路一开，遂为外国火车独行之路，中国马车既难与之并驾齐驱，更不堪其横冲直撞，势将断绝往来商民交割。”雷峰网

此乃事件一。

近一百年后，江苏常州也发生了类似的工具迭代竞争事件：

1946年，江苏常州计划在城区推行公交汽车，但此时城内仍有3000名黄包车车夫。城区公交汽车的推行必然威胁到黄包车车夫的生存空间，因此，3000名黄包车车夫发起大罢工游行。

当年10月，罢工游行事件到了白热化的节点。10月25日下午，聚众车夫前往市政府抗议，途径府桥时，与一辆红头雪佛莱公共汽车相遇。情绪中的车夫众人拦下公交车，往车上扔掷石块，双方乱成一片，最后护车士兵在混战中开枪射击，造成一人当场死亡，三人重伤不治，当地政府不得不紧急叫停城区公共汽车。

如今回顾，这两件事看起来十分不可理喻，但在人工智能时代，它的启示（或教训）仍是深刻的：第一，不要低估大众对未知新兴科技的担忧与抵触；第二，一项技术在人类社会的全面开花，必须考虑、保护甚至提升人类的自身权益，以人为本。

近日，商汤科技所提出「发展」的AI伦理观，也是从人的角度出发。

与早期的「AI伦理」不同，商汤所提出的发展AI伦理观，不仅强调对技术负面影响的约束，还强调人工智能对社会与个人的正向价值。

更重要的是，商汤认为，在发展与落地人工智能技术的过程中，「AI伦理」要考虑行业变革的飞快性，在技术发展的不同阶段采取不同治理框架，实现社会的发展平衡。

简而言之，就是：紧跟时代，以人为本，既要「扬善」，也要「除恶」。

1、AI治理的复杂性

近几年，随着人工智能在日常生活中的不断渗入，这项神奇的技术也逐渐向世人展示了自己的正邪两面。

先看「善」的一面。

这两年，新冠疫情爆发，被广泛使用的无感测温、无感通行，便是基于感知识别的人工智能技术。嫁接于各个计算机软硬件的AI技术，如智能图像处理、便捷支付、对话机器人等等，也极大地便利了人们的日常生活。

举个例子。此前商汤也研发智能避障眼镜，帮助视力障碍者在户外行走时获得交通信号、环境障碍物等语音提示，改善视障人士的生活。

人工智能不仅在实际的应用中带来了极为直观的价值，在学术研究上也产生了令人瞩目的影响。比如，前段时间，DeepMind用机器学习证明了两大困扰人类科学家数十年的数学猜想，登顶Nature。人工智能学家将AI与物理、生物、化学等基础研究相结合、并取得卓越成果的例子亦不胜枚举。

但与此同时，由于深度学习算法的「黑盒子」特征，以及人工智能系统在现实生活落地中所体现的不稳定性、不可控性等，误用、或滥用人工智能给人类社会带来的伤害也不容小觑。

在这样的背景下，建立AI的伦理体系实为大势所趋。为了促进AI技术的良性发展，各方力量承担起了不同的角色。比方说，据联合国统计，全球目前一共出台了超过150份有关AI治理的报告方案，学术界也掀起了「可信AI」、「负责任AI」与「AI向善」等多个新兴话题的研究热潮。

那么，科技公司应该如何承担起AI可持续发展的责任？作为AI产业的先行者，商汤有自己的思考。

首先，AI技术要不要发展？答案无疑是肯定的。正如商汤科技副总裁、商汤人工智能伦理委员会的主席杨帆所说：

「解决技术伦理最简单直接的方法，看起来似乎是不搞技术创新，那么自然就不会存在数字科技的诸多问题。然而，国家要发展，社会要进步，人们的生活质量要改善。前沿科技的发展对家、国、天下都非常重要。如果有顾虑就放弃发展，就是因噎废食。」

「技术发展与技术治理，本身就是制约与平衡的关系，缰绳勒得太早、勒得太死，会制约技术的发展；在技术演进的过程中，适时地收一收绳子、收住技术的底线和边界，才能让技术发展与应用，走得快、走得远。如今，AI已经走出实验室，随着AI通用大装置的日渐发展，机器猜想将带给我们更多的可能，伦理治理由此将更为重要。」

杨帆还表示：「没有理论可以完美得解释技术，但我们要了解技术应用的边界。通过AI伦理治理，既是规避AI技术的负面影响，引导技术的正向发展，推动公司与行业的可持续发展；同时，这也是业内领先公司、以及所有AI从业者们所应当承担的社会责任。」

从成立之初，商汤的使命便一直没有改变：坚持原创，让AI引领人类进步。也就是说，在商汤将AI落地的过程中，AI的服务对象不应该局限于一个特定的群体，而应该面向整个人类社会。

杨帆提出，AI治理是一个多目标、多维度的平衡过程。比如，防疫期间，保护集体利益的目标与尊重个人行程隐私的目标要权衡；健康码快速人群分类进行针对性防治与老年人数码产品使用问题要权衡等等。

多维目标的权衡，意味着AI治理的难度在增加。为此，商汤伦理委员会整理国际主流的治理观点、以及产业一线的实践经验，提出了AI治理的三大核心：技术可控、以人为本与可持续发展。具体来说，每个核心的表现大约如下：

可持续发展：保护环境、保护和平、包容共享、开放协作、社会认知、敏捷治理……

以人为本：保护人权、保护隐私、人类可控、公平无歧视、造福人类……

技术可控：可验证、可审查、合法性、可信任、可解释、安全可靠、公开透明、负责任……

2、制度式的「技术可控」

值得注意的是，商汤科技在「AI伦理」的参与过程中，不仅是停留在倡议或报告类的书面工作上。商汤的「关键行动」，是率先将「AI伦理」的治理工作贯彻在产品与业务的运营过程中，使之成为商汤企业管理中的一环。

2020年1月，商汤成立了人工智能伦理委员会，从企业的组织架构上渗透「AI治理」的观念。

对内，委员会审核商汤的所有落地产品线，对员工进行伦理通识培训，提高员工在日常工作中的伦理意识；对外，与其他组织合作，共同开展AI伦理的研究工作。

图注：商汤伦理委员会的职责介绍

另外，该委员会的成员不仅包括商汤内部的核心骨干，还有许多外部专家参与其中。而且，为了保证委员会所作决策的客观与中立，该伦理委员会有一条硬性规定，即外部委员不能少于1/3的席位。

今年上半年，该委员会上线了伦理审核系统，从实际的运营「把关」中践行了「技术可控」的核心AI治理原则。

该线上系统的设置，结合参考了国内外在技术伦理方面众多的政策制度和研究成果。审核体系从数据风险、算法风险与社会风险三大维度出发，设置十余个板块，近30道题目，从尊重人权、向善性、无偏性、隐私保护、可靠性、透明及可解释性、问责性等等角度，对项目进行详细拆解，考察其伦理水平。

图注：商汤伦理审核系统的运维

目前，伦理审核已经嵌入商汤立项审核流程，进行线上评审，并根据评分对被审核的产品进行风险等级划分。对于伦理风险较高的产品，该系统会予以驳回，提出中断开发、下线或整改的要求。若无法通过整改，则不予以立项上市。

图注：商汤伦理审核流程

比如，曾经有「AI算命」的客户需求找到商汤，提出用计算机视觉技术识别人体特征、手掌掌纹等信息，自动给出用户的人生运势等预测。识别这些信息和特征，技术上来说并不难，但这显然不符合商汤的价值观，即使预见可以有所收益，这样的项目也无法立项成型。

杨帆的看法是：「技术有所不为，而后才能有所为。」虽然一个高盈利的AI产品可能会因为风险问题被淘汰、从而对公司营收会造成直接影响，但从长远的角度来看，这是必要的。

目前，这套系统已经全面覆盖商汤存量产品与新增申请立项产品，形成了内部的产品项目从立项、发布、运营全生命周期的伦理风险控制机制。伦理审核结果会伴随产品研发和发布的全过程，若发布阶段产品有重大变化，则需要重新审核说明。

据商汤披露，从该系统上线至今，已有 10% 的产品被责令整改或下线；在对新增项目审核中，有 5% 的项目被打回整改，或驳回立项，累计放弃价值数百万的商业利益。

「光有概念、有想法是不够的，AI伦理治理既需要高屋建瓴的指引原则，也需要具体而微的评估指标。系统的建立就是根据这些指标维度建构人工智能伦理风险评估体系，将指标具体化、操作化，为企业的技术治理与风险管控提供支持。」杨帆表示，

而在实践中，AI伦理管理系统，通过系统的方式将风险识别、评估、处理、监控及汇报等各环节都进行了覆盖，明确各产品全生命周期中各个主体的风险管控责任，让技术可控有章可循、有规可依、有据可查。」

今年11月，商汤因伦理方面前瞻性思考和实践，获得了《哈佛商业评论》2021年度拉姆·查兰管理实践奖。这也是国内首个因为在技术伦理与治理方面的实践而获得的顶尖商学院媒体授予的企业。

3、「发展」的AI伦理观

「技术可控」并非目的，而是手段。

说到底，人工智能企业在技术创新中「有所不为」的最终目标，不是为了停止人工智能技术的研究与创新，而是以一种良性的、可持续的方式在现实生活中发展人工智能，紧跟时代需求，使其为人类、为社会造福。

今年，在伦理审核之外，商汤也继续保持其在人工智能技术上的创新，推出AI大装置等人工智能基础设施，「伦理治理」与「技术创新」双管齐下，为行业做贡献。

「无论是技术本身、还是技术治理上，商汤都是开放而坚定的长期主义者。AI伦理治理是一个需要持续关注与投入的话题。人工智能伦理的发展，需要多方合作、共同探索。」

据了解，目前，商汤科技已与清华大学人工智能国际治理研究院、上海交通大学、上海人工智能实验室、上海科学学所、数据法盟等共10家机构展开合作，围绕敏捷治理、数据安全、人工智能算法的可解释性等方面开展联合研究，平均每年推动五个专项课题的研究，产出10+专项研究报告。

当越来越多力量参与其中，「AI伦理」就不再只是一句口号，而会演化成实际的行动，贯彻人工智能的发展始终，最终推动人工智能在人类社会的全面落地。

彼时，人类与AI才算得上是真正的「和谐共存」。而这，也正是「发展」AI伦理观的愿景所在。

笔者注：

恰在笔者行文期间，美国财政部以所谓“侵犯人权”为借口将中国、俄罗斯等五个国家15名个人及10个实体列入制裁名单，其中包含商汤科技。这也是继2019年被列入“实体清单”后，商汤再度遭到美国无端打压——尤其，该项决定的宣布日期就在商汤原计划的香港上市发行定价日。这样对商汤精准的打击，其用心不可谓不明显。美国财政部的这一行为，将正常的商业和科技活动政治化，严重破坏了正常的市场规则与秩序。

此时再想到商汤科技伦理委员会主席杨帆所说：“要不要发展AI？当然要。国家要发展，社会要进步，人们的生活质量要改善。前沿科技的发展对家、国、天下都非常重要。”愿中国硬科技发展崛起！

参考链接：

1、https://www.sensetime.com/cn/news-detail/41164352?categoryId=72

2、https://mp.weixin.qq.com/s/FOxOhEkWIXv5ypzHPkXIWw

独家 | 对话陈云霁：深度学习处理器之外，用人工智能指导芯片设计也渐成趋势

Tue, 23 Nov 2021 15:46:00 +0800

11月初，2020年度国家科学技术奖励名单发布，陈云霁主持的「深度学习处理器体系结构新范式」项目获得国家自然科学奖二等奖。

该获奖项目的参与人均来自中国科学院计算技术研究所，除了陈云霁研究员，还有陈天石研究员、杜子东博士、孙凝晖院士与郭崎研究员，可以说集结了人工智能与高性能计算双领域的两派高手。

计算机领域无人不知：陈云霁与陈天石等人开发出国际首个深度学习处理器芯片寒武纪1号，引起全球范围内的广泛关注，陈云霁与陈天石也因此被国际科学顶刊Science刊文评为AI芯片的「先驱者」。

传统上认为，处理器芯片的研究创新偏向「从无到有」的发明系列。而这次计算所团队的工作获得的是处理器芯片领域历史上首个国家自然科学二等奖。国家自然科学奖是中国五个国家科学技术奖之一，授予在基础研究和应用基础研究中阐明自然现象、特征和规律、做出重大科学发现的公民。

因此，AI科技评论第一时间联系了陈云霁本人，就本次获奖项目与深度学习处理器的相关研究内容与陈云霁教授进行了较为深入的交流。

据陈云霁介绍，他们本次获得国家自然科学奖二等奖的项目主要是从理论上阐明了深度学习算法在硬件上执行的共性基本规律，从而形成了深度学习处理器这样一种体系结构新范式。

例如，他们发现深度学习在计算上的五个最基本算子：向量、矩阵、距离、非线性函数与排序。如同乐高拼插件，基于这五个算子设计出的深度学习处理器，可以处理成千上万、不断演进的深度学习算法。这为后来者在深度学习处理器方向发力做出了重要的指导作用。

此外，陈云霁介绍，这十多年来，他们主要在做两件事：一是开发深度学习处理器助力人工智能计算，二是反过来，用人工智能方法指导芯片的设计，该方向也日益受到学者们的关注。

1、获奖项目详情

AI科技评论：能否介绍一下这次获奖项目（「深度学习处理器体系结构新范式」）的研究背景？

陈云霁：人类社会开始逐渐进入智能时代，其中最核心的技术之一就是深度学习。深度学习对计算量的需求非常大，因为里面的模型往往是一个大规模的多层人工神经网络。一般来说，模型的规模越大，层数越多，潜在的表达能力就越强。某种意义上来说，计算量与智能水平之间的关系是正相关的。那么，这就带来一个问题：传统的芯片不一定适合深度学习的计算模式。所以我们提出了深度学习处理器这样的新体系结构范式，用来应对深度学习的任务。

所谓「范式」（paradigm），就是「受到广泛认可的模式」。比如说，CPU（中央处理器）就是一种范式，有很多企业参照 CPU 这个范式做出了各种各样的 CPU 来。GPU（图形处理器）也是一种范式，AMD、英伟达也是根据 GPU 这种范式去设计GPU芯片。我们提出来的深度学习处理器，也是一种范式，大家可以参照这种范式去设计各种各样的处理器芯片。

AI科技评论：深度学习处理器是您与陈天石教授共同提出来的，大概在2014年前后。这个项目也是沿袭了当时的研究吗？

陈云霁：对，是一脉相承的。最开始我们是设计了一个具体的深度学习处理器结构，比如2014年的DianNao，是我们跟法国INRIA（法国国立计算机及自动化研究院）合作的。但一个架构背后的基本规律与范式是什么？就是我们这个项目的贡献。雷锋网

图注：国际首个深度学习处理器芯片寒武纪1号

AI科技评论：您是说理论上的研究突破吗？

陈云霁：对。所谓的「范式」，就好比一个模板。具体的深度学习处理器架构，是可以根据这个模板去衍生出来的。过去我们设计一个具体的深度学习处理器，当然也很有意义，但可能会更偏向发明。而我们这次的工作，最主要是找到了深度学习处理器架构背后的共性范式，有了这个范式后，其他高校与企业都可以参照这个范式去设计自己的芯片。雷锋网

AI科技评论：能否具体讲讲范式的内涵？

陈云霁：我们最主要是找到了深度学习算法在硬件上执行的共性基本规律，包括计算、访存和通信。

以计算为例。我们发现，你要设计一个深度学习处理器，可以设计成各种各样，但必须至少支持五种最基本的算子：向量、矩阵、距离、非线性函数与排序。只要你支持好这五种算子，就可以支撑成千上万种深度学习算法。雷锋网

就好像乐高积木。乐高积木就是通过基本的接插件去拼出各种各样的城堡、飞机等等，我们相当于找到了最基本的乐高接插件。深度学习可能会不断演进或产生新的深度运算，但没有关系，我只要用这五个小乐高就可以把它给搭出来。所以这是我们在自然科学规律上的一个发现。

AI科技评论：这个项目大概是从什么时候开始的？

陈云霁：最早是2008年。当时我们开始探索人工智能和芯片设计的交叉研究。我从2002年开始做芯片设计，我弟弟陈天石从2005年读研开始研究人工智能算法。所以我们就一起探讨人工智能与芯片设计的交叉结合。雷锋网

AI科技评论：我们看到这个项目中还有杜子东博士、孙凝晖院士与郭崎研究员，他们是从什么时候开始加进来的？

陈云霁：最早是我和陈天石，后来孙凝晖院士、杜子东博士与郭崎研究员陆续加进来。深度学习处理器是一系列的工作，我们每个人都在其中做出了自己的贡献。

我跟陈天石可能参与得多一点，方方面面都参与了。杜子东也是比较早参与到这个工作中的，从他读研时开始，在算子之间的融合运算模式中起到了非常关键的作用。郭崎也是从2008年就开始参与，那时候他还是一个博士生，主要是在访存方面做了一些工作。

孙凝晖院士既是我们研究所（中国科学院计算技术研究所）的学术所长，也是我们计算机体系结构国家重点实验室的主任。我们这个工作是一个体系结构的工作，孙院士在计算和通信的体系结构规律的探索上都作出了很重要的贡献。雷锋网

AI科技评论：深度学习处理器是不是高性能计算与人工智能的结合？

陈云霁：我觉得它在很多思想与方法上将这两个方面结合到了一起。如果时间倒退到十多年前，大家可能会觉得高性能计算与人工智能之间没有什么直接关系，因为那时候深度学习方法还不是那么流行。当时人工智能的主流是支持向量机之类的方法，需要的计算量比较小，模型也比较小。

但现在不是这样的。有一个非常有名的例子：2012年，谷歌大脑用1.6万个CPU核去做深度学习训练，教系统如何识别人脸、猫脸等。

这是一个明显的、高性能计算与人工智能汇聚在一起的例子，而芯片又是高性能计算中最关键的部分。

这也与我们计算所的长期渊源有关。上世纪80年代末，李国杰院士从国外回来，成立了国家智能计算机研究开发中心。李院士是第一任主任，后来孙院士是第二任主任。我们这些研究实际上也是沿着这个脉络流传下来的。这使得我们的成员对人工智能的发展脉络有比较清晰的理解，其次是启发我们去思考人工智能算法共有的计算模式是什么样的。

AI科技评论：与寒武纪相比，这个项目更多是一个学术研究项目，还是一个工业研究项目？

陈云霁：这完全是一个基础理论研究项目。国家自然科学奖都是面向基础科学研究。基础研究的一个特点是要促进整个人类的进步，尤其是对于计算所这样一个国立科研院所来说，它应该是通过技术研究，能够让国内同行、国外的同行乃至整个社会从中受益。当然，寒武纪1号芯片也受到了这个项目论文的影响。

理论上的指导非常重要。举个例子，如果没有爱因斯坦的质能方程（E=MC^2），所有的核电站都是不存在的。所以，需要有一个基本的理论，然后大家根据这个理论去设计各种各样的具体芯片。所以，它的目标还是推动整个社会的进步。

2、深度学习处理器研究观察

AI科技评论：根据您的观察，应用于深度学习的处理器在体系结构上有什么特点？与用于通用计算的处理器有什么相同或不同之处？

陈云霁：从计算和访存两个维度上来说吧。

从计算维度上看，通用计算最主要是做加减乘除，但对于深度学习处理器来说，最基本的是我刚刚讲的五个算子。

从访存的角度来看，通用 CPU 在访问内存时是一个通道，而深度学习算法有一个共性，是里面的数据可以分为三个流，就像小朋友放学回家、会自动排成三个路队，比如说输入神经元、输出神经元与连接权重。

基于这些客观规律，我们在设计深度学习处理器的部件时，就会针对性地去设计。在计算层面，我们也可以把它拆解成五种共性的基本算法。在访存层面，它可以抽象成一个访存数据流，最后自动聚成三个流。

从实践的角度，具体的芯片你想怎么设计都是可以的。原先你可以把大家强行按在一个通道里。但我们把理论上的客观规律告诉学术界和工业界之后，大家一般就会设计三个独立的通道，兵分三路，那么效率肯定会提高。

AI科技评论：据您了解，您的团队所提出的理论影响的设计芯片的公司有哪些？

陈云霁：引用我们的发现的单位非常多。我们这里有一个大概的统计，说现在全球有5大洲、30个国家/地区、200个机构在引用或跟踪我们的工作，其中接近一半是美国的机构，引用者包括15位中美院士和120余位ACM/IEEE Fellow。全球前一百的大学（QS排名）一大半在引用我们的工作，包括哈佛、斯坦福、麻省理工、普林斯顿等等。很多业界顶尖的芯片公司，包括英伟达、谷歌、华为、联发科、英特尔、三星、IBM、高通、微软、台积电、苹果、AMD等，都在引用我们项目的成果，开展相关研究。

所以深度学习领域最权威的教科书《Deep Learning》（又称「花书」），由图灵奖获得者Yoshua Bengio所著，也引用了我们的工作。

我记得有位院士说过，做科研就两个目标，一个是进教科书，一个是进货架。能实现哪一个都是很好的。对我们计算所来说，我们最期望的事情是进教科书里。过去我们基础理论的工作能够进教科书的还是不多的。

AI科技评论：所以您是更关注它在学术上的突破对吗？

陈云霁：对。学术的突破也会受到我们国际同行企业的关注。举个例子，光英伟达就引用了我们的工作超过50次，英伟达的首席科学家 Bill Dally 在他的一些核心研究中也多次引用我们的工作，而且明确地指出他们的方法跟我们之前的工作类似。包括谷歌做的第一篇深度学习处理器论文，里面的作者有一位图灵奖得主和三位美国工程院院士，也引用了我们这个项目里的多个成果。

AI科技评论：您在深度学习处理器上的研究是否主要分为体系架构设计阶段与理论完善阶段？还是有其他分法？

陈云霁：应该不是这样划分。我们从2007年、2008年开始，就是将理论与实践紧密结合。中科大的校训就是「理实交融」。一方面，我要设计一个具体的芯片，但另一方面，我们也要找出芯片背后的规律是什么。

就拿冯诺依曼体系结构来说。它是怎么出来的呢？是美国造了第一台通用计算机，叫「伊尼亚克」（ENIAC）。设计ENIAC的两个工程师，一个叫John Mauchly，一个叫Presper Eckert。造ENIAC的人当然有很多宝贵的经验，但也有很多地方没想清楚，所以在初步建成ENIAC后，他们就请了冯·诺依曼来当顾问。

图注：第一台通用计算机ENIAC

冯·诺依曼仔细分析了这台机器的优劣之处，然后提出了冯诺依曼架构，在此之后，我们造计算机都按照冯诺依曼机构来。所以从某种意义上说，没有ENIAC，就没有冯诺依曼架构。但如果没有冯诺依曼架构，不做理论突破，只照着当年的ENIAC，就没有现在的计算机，因为当时的ENIAC有很多问题。

我举个例子。如果你想听歌，听完歌后看电影，换个App就行，不需要将手机拆开、电路板拆开重组。但那个时候的ENIAC不是这样的。你想让它干别的事，得把机器里面的电线管子拔来插去，弄半天才能换个任务。然后冯·诺依曼总结了ENIAC的得失，进行了科学探索，形成了冯·诺依曼架构，才形成了我们现在计算机的最基本范式。

AI科技评论：所以从2008年开始，你们就是理论与实践双管齐下。

陈云霁：对，我们一直都是这样。理论与实践要相互印证。我记得毛主席的实践论里面就谈到，认识的第一次飞跃是从感性认识到理性认识，然后第二次飞跃再从理性回到实践中，如此螺旋交替上升。理论与实践是密不可分的。

AI科技评论：您会怎样划分您在深度学习处理器上的研究内容？

陈云霁：这十多年来，我们其实就干了两件事，一个是开发深度学习处理器来帮助人工智能处理，另一个是用人工智能来帮助芯片设计。

现在这个问题（用人工智能帮助芯片设计）也很热门。比如，我们在设计一个具体的芯片时，里面有很多参数，我们不知道哪一个选择是最好的，就可以用人工智能方法帮我们挑出来。还有布局、布线问题。现在谷歌也在用人工智能去做芯片的布局与布线（Placement & Routing）。一个芯片里有几十亿甚至上百亿个晶体管，要用线将它们连接起来，那么某个晶体管应该放在什么地方？它们之间怎么连线？这是一个非常复杂的问题，全靠人工去做不太现实。

AI科技评论：你们的一个标志性工作在2014年拿了ASPLOS最佳论文奖，所以从2008年到2014年间主要是做了这两件事对吗？

陈云霁：是的。这个过程其实非常痛苦，挑战性也比较大。在当时，我们做人工智能和芯片设计的交叉研究，就像在一个迷雾森林里，不知道东西南北，甚至不知道有没有出口，很茫然。当我们告诉大家我们做了一个深度学习处理器的时候，其实最艰难的地方已经过去了。最难的时候，我们甚至不知道自己在干什么，只知道想把人工智能与芯片设计结合起来，那结合起来到底会产生什么？我们不知道。

AI科技评论：那是在哪一个节点稍微感觉有头绪了呢？

陈云霁：可能是2012年左右开始有一点感觉了。

AI科技评论：当时是取得了哪些突破、让你们感觉没那么茫然吗？

陈云霁：这个没有。我们不是坐在那突然灵光一现，都是慢慢摸索，有很多小的成功，最后汇成了一个大的突破。

在2014年以前，我们最大的挑战可能是，我们在做的这个研究在当时的学术界是不认可的，工业界是不关心的，然后做这个（深度学习处理器）也发不了论文、申不了项目。但是，我们相信自己的学术理想，所以最后能够坚持做下来。

其实世界上聪明的人很多，只要你看准了一个方向，能够坚持做起来，我觉得基本上都能够看到成果。

AI科技评论：2014年获得ASPLOS最佳论文后，你们的研究内容有变化吗？

陈云霁：2014年之后，我们还是在这方面继续做了一系列工作。比如，我们开发了国际上第一个深度学习处理器的指令集 Cambricon，发表在了ISCA 2016上（获得最高分）。我们获得国家自然科学奖的成果，有很多是从那篇文章（如下）体现出来的，因为它归纳了一些最基本的计算与访存知识。

论文链接：https://max.book118.com/html/2019/0610/8003056114002027.shtm

AI科技评论：您在刚刚工作的时候就去做这种交叉研究，还是非常有勇气的。

陈云霁：是的，我现在想想也是挺无知无畏的。

我觉得当时最主要是有一个比较好的环境。坦率来说，现在国内学术界的青年科研人员的压力其实非常大，一会要评副高，一会要评正高，一会要评博导，在这么大的生存压力下，他们还有没有勇气去做一些国际主流学术界不认可的方向？反过来说，你想做一个国际上原创性的工作，那么在这个工作做出来之前，它一定是不被认可的。

去做一个全世界不认可的工作，然后通过自己的努力让这个工作被国际学术界认可，而且成为国际学术界的主流，这是最理想的情况。这条路的风险非常大，所以现在大部分青年科研人员只能屈从生存压力，在国际主流学术界已经认可的方向上做一些添砖加瓦的工作，比较容易发文章，评职称的风险会小一点。

但真正具有原创性的创新工作，往往是一个年轻博士在刚毕业时做出来的。比如，爱因斯坦提出狭义相对论的时候只有25岁。那现在我们25岁的人敢不敢去做这样的大问题？这是个问题。

不过人非圣贤，肯定都要考虑自己的实际生活。我觉得还有一种选择，就是青年科研人员能有一半的时间做国际主流的研究，再拿出一半的时间去做一些非共识的研究，能够平衡一下风险与收益。当时我们也是这样做的。

AI科技评论：您当时除了做深度学习处理器，还有做其他研究吗？

陈云霁：对。我从刚毕业到2012年评上研究员、博导之前，主要的工作是做龙芯的通用CPU。当时胡伟武老师让我担任龙芯3号的主架构师，做的是传统的芯片。所以我相当于大部分精力是花在了这上面。

AI科技评论：如果当时是all in的话，可能也受不了。

陈云霁：对。我一个刚刚毕业的博士生，一篇论文发不了，就算计算所不会把我怎么样，我自己也会感觉不踏实。但是你不能说一个人等已经评上了教授，再去做真正原创性的创新。雷锋网

AI科技评论：您刚刚谈到冯诺依曼体系架构。上世纪90年代，国际上也曾经有过一阵研制神经网络计算机的热潮，现在的深度学习与神经网络处理器研究与当年相比有什么突破？解决了哪些当年无法解决的问题？

陈云霁：在上世纪90年代，不说国外，国内像李国杰院士、陈国良院士都做过这方面的工作。但当时最主要的问题是，他们那个时候能处理的神经网络规模很小，一般来说几层神经网络，1000个神经元。

在深度学习时代，我们要处理的神经网络是没有上限的，理论上可以达到几百层，几十亿个神经元，这就带来了一个质变：你怎么样用一个有限规模的硬件去处理一个无限规模的算法？这是上世纪90年代那些工作不一定能解决的。

AI科技评论：你们提出来的深度学习处理器可以解决多大的神经网络？

陈云霁：不受规模限制。雷锋网

AI科技评论：现在大模型预训练已经成为一种潮流，但由于对计算资源要求高、运行时间长、成本高，中小企业难以接受。您如何看这种趋势，您的研究是否可以补上中小企业AI研究的短板？

陈云霁：我觉得随着计算技术的不断发展，大模型会逐渐进入到每个企业、每个人所能达到的范畴里。就像视频编解码。在上个世纪，视频编码也是只有很大的机器才能做的事情，也就是只有大的企业去做。但现在我们的手机就可以视频编码，你随便拍一个视频，然后它在手机上给你编码好。所以我对大模型是很乐观的，只是需要时间，遵循「摩尔定律」。摩尔定律还是很强的。雷锋网

图注：英特尔联合创始人戈登·摩尔（Gordon Moore）在1965年提出摩尔定律，认为「集成电路芯片上所集成的晶体管数量每隔18个月翻一番」，带来芯片算力的指数增长，也促进了通用计算机的飞速发展

AI科技评论：不是说摩尔定律已经失效了吗？

陈云霁：我上大学的时候就说摩尔定律要失效了，现在还没有失效。还有很多晶体管结构、封装、器件材料上的创新，有可能再延续摩尔定律更长的时间。我上大学的时候还听过一个说法，说地球上的石油还有XX年就用完了，但现在大家说还有很多（石油）。雷锋网

AI科技评论：在您所设想的通用智能处理器体系结构中，深度学习处理器、CPU与GPU等分别扮演什么角色？

陈云霁：它们的目标领域不一样。GPU是面向图形处理，DSP是面向信号处理，深度学习处理器是面向智能处理，CPU是什么都干。在现代计算机体系结构里，CPU就像一个司令官，它不再以计算为主要职责，更多是扮演一个管理调度的角色。

3、AI芯片的人才培养

AI科技评论：据您观察，近几年AI芯片的人才缺口方面有没有改善？

陈云霁：我们国家现在有很多高校成立了人工智能专业，或人工智能学院。但据我过去观察，人才培养上还是有很大的缺失。不光是数量上的缺失，还有培养方法上的缺失。大家都是培养学生怎么写人工智能算法，或写人工智能APP。雷锋网

我们的一个长期问题是「头重脚轻」，应用层做得非常好，但软硬件根基层上一般，基本不培养做核心软硬件的人才。这是一个很大的趋势。有一年，斯坦福大学邀请我去开一个关于智能计算系统基础软硬件的短期课程，我在网上查了一下才发现，斯坦福也没有这样的课程，所以它才会找我去（讲课）。然后国内也没有这样的课程。雷锋网

我当时就在想，我们是不是应该做点什么事？所以，2019年，我们就在中国科学院大学开设了国内第一门《智能计算系统》课程，希望培养一批对人工智能的基础软硬件有融会贯通的理解的人才。

AI科技评论：目前课程还在开设吗？有取得成效吗？

陈云霁：这门课程现在还在进行中，近年来还是取得了比较好的成效。现在全国已经有 80 所高校都开设了这门课。我们把教材写好了，教案写好了，PPT也写好了，MOOC也做好了，而且全部放到了网上。我们还搭了一个大的云平台，供大家做实验。雷峰网

从数据观察，我们现在已经培养了大约1.3万名学生。这门课程已经被国科大、中科大、北大、清华、北航、复旦、上交等学校列入了他们的本科生或研究生培养计划里。我们还举办了多次导教班/助教班，培养了180余所学校约1200位老师和约200位助教。雷锋网

AI科技评论：在人才培养上，您的建议与看法是什么？我们还需要加大哪些方面的投入？

陈云霁：还是要理论与实践相结合。不能光教理论，一定要让学生动手做实验。我们程序员行业里面有一句著名的话：Talk is cheap. Show me the code.（话语是廉价的，给我看你的代码。）如果你没有真正动手去写代码，你就不能理解一个真正的智能计算系统如何运转。雷峰网

想征服精密光学的AI团队，差点被一个隐形二维码拦住

Fri, 12 Nov 2021 16:52:00 +0800

10月中旬，AI科技评论报道了《虚拟在左，真实在右：德国学者用AI合成一亿像素逼真3D图像，可任意旋转》一文，有技术爱好者感叹：

「原来计算机视觉也还没有内卷到无可救药的地步。借助计算机图形学与其他学科知识，计算机视觉的发展也有望取得进一步突破，更上一层楼。」

事实上，除了研究成果的创新，计算机视觉的商业落地也一直是产学研三界的热门话题。长久以来，人们也一直对计算机视觉存在或多或少的误解，其中一个最常见的问号是：除了人脸识别，这项技术还有什么用？

在决策智能的话术逐渐占领传播的高地后，感知智能的声音开始减弱。与此同时，随着「AI寒冬」的舆论对深度学习的批判，基于神经网络的视觉研究在商业前景上也跟着被「唱衰」，一度成为枪口的正中点。

不过，决定创业的贾佳亚并不太在意这一点。2019年年底，从腾讯离职的他，在香港科技园创立思谋科技，宣布进场，没多久就完成了IDG资本领投的数千万美元融资。今年6月，思谋科技又获得2亿美元的B轮融资，人员规模也在一年内从最初的个位数扩展到超过600人。

计算机视觉领域顶尖专家、IEEE Fellow、香港中文大学终身教授等头衔，无疑为之加持，但无论是贾佳亚本人，亦或外界，都认为思谋能在AI落地的急流中「站稳脚跟」，除了深厚的技术积累，也离不开正确的赛道：工业制造。

沈小勇是最早跟随贾佳亚创业的学生之一。他对AI科技评论表示：「我认为思谋科技不是一家AI公司，而是一家『工业制造+AI』的公司」。换言之，思谋科技的模式不是「AI+」，而是「X+AI」，其中的「X」，就是行业。

比如，他们发现，在他们与国际头部光学厂商合作的镜片隐形二维码识别项目中，最大的「助攻技能」竟然不是超强的算法，而是光学系统的设计。这个在计算机视觉领域有多年积累的创业团队，也不得不面临的「心理落差」是：要取得客户的信任，除了算法能力，还要打好行业根基。

1、入场

公元二零二零年十二月，广州黄埔区北边知识城内的一家厂房内，经过一番激烈的比拼、与数位顶尖同行切磋较量后，思谋科技战略客户经理刘浩然走出思绪纷飞的房间，心满意足地吸了一口南方的冷空气。

在这场方案的提交之战中，他所代表的思谋科技PK掉了其他同台竞争的厂商，取得这家有着超过175 年历史的全球顶尖光学厂商（以下暂且起代号为「Z」）的信任，拿到了思谋创业一年后在精密光学领域的第一份合同。

这也意味着，在接下来的4-5个月内，思谋科技要研发出光学领域第一台由人工智能初创企业开发的镜片隐形二维码识别设备。

在此之前，思谋多是将计算机视觉用于3C消费电子产品的零部件瑕疵检测。但对于一个从创业之初就渴望成为「中国IBM」的团队来说，思谋还想挑战更高难度的落地。所以，能够拿下这家500强巨头的订单，对思谋来说，确有几分里程碑式的意义。

图 / 新广州知识城

刘浩然不惜口舌之战拿下的光学项目，是思谋科技毅然入场「工业制造」的一个缩影。

思谋科技的创始人贾佳亚是计算机视觉领域的知名学者，谷歌学术被引数超过36000次，曾培养出多位人工智能领域新秀，包括商汤科技的联合创始人兼CEO徐立。在进入工业界之前，他所创立的视觉实验室便已在图像滤波、图像稀疏处理、多频段图像信号的融合以及增强和逆向视觉问题解法等方面有了深厚的技术积累。

因其在计算机图像去模糊技术方向做出的贡献，他在2018年当选了IEEE Fellow。

图 / 贾佳亚

在创立思谋科技前，贾佳亚的第一段工业界之旅是在腾讯优图实验室（X-Lab）。

2017年5月加入腾讯时，贾佳亚带了两位想跟自己到外面「闯一闯」的学生，沈小勇就是其中之一。那时，沈小勇刚毕业没多久，对研究落地也很感兴趣，于是就跟着导师加入了X-Lab担任研发负责人，并迅速成长为当时腾讯最年轻的T4科学家之一。后来，2019年，贾佳亚决定离开腾讯、创立思谋，没多久，沈小勇也跟着离开，成为了思谋科技的联合创始人兼CEO。

图 / 沈小勇

据沈小勇介绍，他们在腾讯时就已经有过将计算机视觉在工业生产上落地的探索：TCL旗下液晶面板生产子公司华星光电的面板缺陷检测。

华星光电的液晶面板生产涉及上百道工序，生产过程中可能出现的面板缺陷种类多达120种，贾佳亚带领团队设计出人工智能质检设备搭载在生产产线上，可以在5秒内识别出面板缺陷，产线所需的质检人员只需原先的50%。

正是有感于计算机视觉在工业生产优化上的神奇作用，贾佳亚在启动思谋科技时，就确定了接下来的赛道：工业制造。

从18世纪60年代开始，工业革命对人类历史的进程产生了重要影响。如许多前沿学者一样，贾佳亚也相信，人类历史的当下正处于「工业4.0」时代：

「工业1.0」是机械制造，即通过引入机械设备实现工厂机械化的制造时代。上世纪40年代进入「工业2.0」，电气与自动化时代开创了产品批量生产的高效模式。70年代开始并持续至今的信息化则是「工业3.0」，通过数字化的技术将信息存储起来，方便工厂的决策者管理。而如今的「工业4.0」时代，是智能制造时代，对生产力提出了更高的要求，背后的动力极有可能是如今蓬勃发展的人工智能技术。

前三次工业革命，中国都没赶上。18世纪，中国处于闭关锁国的封建时期；上世纪 40年代，中国处于动荡之中；70年代，中国则刚刚起步发展。因此，对当下的中国来说，国泰民安，人才培养增多，资源丰富，抓住「工业4.0」的智能制造时代机遇至关重要。

智能制造的核心在于「智能」：智能并不是简单的自动化，而是让制造拥有「大脑」和让大脑决策的各种「神经系统」。

沈小勇介绍，本质上，计算机视觉要解决的是「看得清」与「看得懂」的问题，也就是看完后还要进行分析，对应人的眼睛与大脑。只有拥有敏锐的「眼睛」与聪明的「大脑」，才能最大化发挥自动化「手臂」的作用，而AI正是让制造拥有会思考的机器设备的核心所在。

思谋的创始团队相信，新一代AI将贯穿于设计、生产、管理、服务等生产活动的全链条，使制造具备自感知、自学习、自决策、自执行、自适应等功能的新型生产方式。

在2015年提出的「中国制造2025」计划中，工业计算机视觉应用占了重要位置。

从人脸识别到工业智造，计算机视觉的落地目前已跨越了半导体、汽车、航空、新能源、精度光学等行业，如镜片分拣、轴承检测、特种条码设计与识别、偏光弯膜、模具检测、AVI检测等。以芯片检测为例，基于深度学习的计算机视觉算法就有可以完成亿级晶体结构的全自动聚类分析：检出率超过99.99%、单流程处理效率提高96%、AI自动化全检处理效率提升90%。

传统制造业在国家经济中的占比，就是智能制造未来的市场容量。据国家统计局数据显示，2019年、2020年，中国工业增加值的规模均超过了31万亿。工业领域1-2%的效率提升就意味着数千亿级的经济增值。

在此背景下，自然不止思谋科技这一家AI出身的团队盯上「工业制造」与「数字转型」的赛道。

但在了解计算机视觉赋能工业制造的雄心前，我们无法逃避面对的一个事实是：无论是「工业」，亦或「工厂」，都是一个极其庞大的存在。这也意味着，计算机视觉算法只是繁杂工艺中的一环，要嵌入完整的生产线上，必然会遇到与其他环节合作的挑战、甚至与工业本身的相互磨合。

2、乐起

仔细说来，这并不是一个多么跌宕起伏的故事。

简单来说，在与Z的合作中，思谋科技要做的事情，就是设计一台能够智能定位识别及读取不同度数的镜片上的隐形二维码设备（Enigma Reading Machine），安装在Z的产线上，方便Z在生产的全过程中把控镜片的质量，实现防伪功能。

我们可以将这个二维码理解为「普通」的二维码，只不过它由0.125毫米点阵组成，载体是一个个曲面镜片毛胚（我们日常戴的近视眼镜镜片原材料），并且是「隐形」的。

这个设备的工作步骤也很简单，只有两步：一，对整个镜片进行完整拍摄；二，在1-2秒内成功读取镜片上的隐形二维码，并自动将数据上传到Z的内部质检系统中。

但、就是这么看似简单的两个步骤，却难倒了这家头部光学厂商的几乎所有供应商。在Z抛出这个问题时，也曾有许多工业视觉或AI整体解决方案的公司尝试迎接挑战，但都以失败告终。

识别镜片中隐形二维码的难度极高，难点主要体现在三个方面：

（一）只有从特定的角度往镜片上打光，隐形二维码才有可能显现。而为什么只是「有可能」呢？因为Z使用了先进的镀膜工艺对镜片表面做了高透设计，即使从完全相同的角度打光，隐形二维码的读取也可能失败。换言之，读码率的稳定性极低。

（二）镜片的度数、厚度与品类（如近视眼镜与墨镜）不一，造成光线的反射率也不一样，因此隐形二维码的嵌入方式与位置也会有所差异。

（三）镜片的材质是透明玻璃，会反光。即使是没有任何折射角度的无度数镜片，机器也不一定能在透明的介质上自动识别到隐形二维码。更严峻的现实是，镜片分为凹透镜与凸透镜，度数不一，光线折射的角度也不一。

图 / 镜片中的二维码极小，只有在特定的角度与光线上才能显现

思谋科技的解决方案架构师周工介绍，识别隐形二维码的技术难度绝对处于金字塔的顶尖级别：

「就打光来说，它就已经完全颠覆了传统的视觉打光方式。传统的打光方式是被测物体与打光镜头基本成一个相对位置，比如被测物垂直于光源，直接受光。而在隐形二维码的识别技术中，被测物的点阵二维码的呈现是通过思谋自研光源发出光束穿过镜片直接照射到膜材、然后反射回直径小于0.125毫米的一群小光束的原理。」

借用贾佳亚对半导体产品缺陷检测难度的表述，要在曲面类型多样的玻璃镜片上准确识别直径只有0.125毫米的隐形二维码，难度绝对比「在整个广东省内，一秒钟内定位出一个有轻微故障的红绿灯」还要高！

这不仅要求研发团队具备算法能力，他们还要精通光学原理与膜材设计。

换作普通的光学厂商，一遇到这么棘手的问题，可能早就摆手不干、寻找其他性价比更快的替代方案了。但Z这样历史悠久、实力雄厚的企业不同，他们作为标杆，凡事追求「最好」，毕竟具备足够的技术创新条件。而不断追求技术实力甩对手几条街的理念，也正是他们能够伫立国际市场多年而不倒的根源所在。

所以，即使难度重重，Z也不惜克服万难，寻找可以定位并识别隐形二维码这一「小滑头」的方法。

此前，Z识别隐形二维码的方法主要有两种：

第一种是「源头管控」，开模时就预先在模具上刻出隐形二维码，在镜片成型时将二维码一同印在镜片上，然后通过模具的编号进行镜片追溯。这种方法的短板是只能在源头管控。

隐形二维码就相当于一个镜片的「身份证」，每完成一道生产工序就要进行一次识别，以证明该二维码「顺利」地走完了所有工序。因此，如果只是在源头管控，就相当于只监测到了最开始的开模工序，无法通过在全产线中追踪该二维码、以把控每一个生产环节的质量。

第二种方法是高价购入一台德国隐形码识别设备。但很遗憾，这是一台单体设备，只能人工手动检测，识别的速度慢，价格也十分高昂。此外，由于设备从德国进口，受知识产权的保护，Z只能购买标准的模块，无法集成其他设备，也就是无法配合他们的产线进行定制化设计。

3、副歌

当时，作为一家刚成立不到一年的「小厂」，思谋科技选择挑战Z的这个项目，更多是想要抓住一个重要的「成长机会」。

他们的目标阵地是工业产品的外观检测，如果能成功突破镜片隐形二维码识别的技术，那么对他们进军精密光学领域自然大有帮助。

所以，在刚接到任务时，他们也是心情澎湃，撸起袖子就准备大干一场。

但理想很丰满，现实很骨感。很快他们就发现：事情没有那么简单。

虽是「识别」，但他们要攻克的技术却不只是机器的「眼睛」，还有目标识别物背后的光学原理。而且，后者才是他们要面对的「大boss」。

所幸，思谋有先见之明，在刚成立时就为进军工业赛道筹备了两大团队。在工业产品缺陷检测中，核心技术有两个：一是视觉算法，二是光学成像。所以，除了贾佳亚、沈小勇带领的CV能人，思谋在一开始就成立了一个光学实验室，并招募了一批经验老道的光学系统研发人才。

机器要识别的隐形二维码大小为2mm*2mm，其中，每一个小方块（即「点阵」）的直径则是0.125mm。

从光学的原理来看，在打光时，镜片的膜材料必须将光源分解为一束束直径比125μm还小的光束，隐形二维码才能显现出来。这是因为光束通过微小间隙后的传播不一定是线性的，如果同时通过两个小孔，就会产生衍射条纹。而衍射条纹并不是固定的，就会导致检测失败。

此外，镜片是一种三层结构，即「空气-膜-玻璃」。光的入射角、膜的厚度与折射率等等都会影响光的传播，某些角度下甚至可能在膜里产生全反射，导致隐形的二维码无法被检测。

也就是说，思谋要用计算机视觉算法成功识别镜片上的隐形二维码，最大的难题其实是找到一种高透光度、高光洁度、耐高温、满足高精度陶瓷刀具加工强度的特殊膜材料，并且能够兼容不同曲率、不同折射率的镜片，使光束能从不同的方向平行射出。雷峰网

在4个月的项目期里，除了开发算法与制造设备，他们花费了超过一半的时间与精力在寻找适合「机器识别」的膜材料上。

为了弄明白如何使隐形二维码的成像更清晰，他们推理膜材料的加工原理，买来了各种原材料进行验证。周工对AI科技评论回忆：「我们做了不下100次的实验！单单光学原理验证，就花了3个月。」

功夫不负有心人。最终，他们选择了多面体微钻石结构的光源反射膜，但所需的膜材料十分特殊，市场上没有，所以他们需要自己研发设计。雷峰网

「这一环消耗的时间最多，因为加工的膜材料要求纳米级的精度，刀具要从日本定制。」

在这个过程中，他们频繁地与国内外的光学厂商、高校研究团队交流，「最常交流的是原材料厂商，因为他们会知道膜材在什么温度下的加工效果最好，透射率与折射率如何达标等等。」周凯鹏谈道。

经过100多次的膜材开发与反光测试，就像在上课铃响的1秒钟冲入教室一样，今年4月，他们终于在约定交付日期的前两天解决了膜材料问题，并完成生产加工。交付时，Z所提供的44片100-700度的镜片样品全部扫码成功，令Z的代表十分惊喜。雷峰网

最后，思谋科技自研的膜材料可以做到：无论镜片是凹是凸、度数多少，机器都可以将镜片上的隐形二维码完整识别出来。度数越低，识别的速度越快，500度以下的镜片甚至可以在50毫秒内识别出来。

图 / 思谋科技的视觉检测软硬件一体化设备

纵观计算机视觉在工业上的落地，他们的此次探索对于透明介质产品的缺陷检测具有划时代的意义。除了玻璃镜片，他们的方案也可以拓展至面板类产品的裂痕检测与缺陷检测中，比如车灯透镜与手机摄像头的瑕疵检测。

但很显然，从上述的故事中，我们看到的似乎更多是沉闷的、陌生的光学难题，而不是AI的「大力出奇迹」。

一位精密光学领域的行家告诉AI科技评论，在工业生产中，材料、方法与环境往往占主导位置，基于神经网络的视觉算法只是众多方法中的一个组成部分，甚至在大多数情况下，「不一定需要多复杂的算法，而是更多地受到其他现实因素的影响。」

因此，AI在工业上的落地，更偏向于高速视觉识别或精密视觉识别的范畴。计算机视觉团队要想取得突破，难点也自然更多地落在了「成像」与「控制」，而不完全是「算法」。

4、尾声

一个有趣的视角可能是：在AI、甚至任何一项技术的落地中，任何强大的科学家都不再是「科学家」，而是「技术供应商」。最终，决定科学家创立的公司是否能在市场竞争中存活的，也许不是学术积累的深度，而是技术落地的实力。

计算机视觉在精密制造中的落地，是一个科学/工程探索过程，不仅需要先进的深度学习算法，还要深谙光学原理与材料工艺，掌握多学科、懂机理、能实现的技术。

沈小勇谈道：「别人问我科学家创业的问题与挑战时，我回答比较多的是，最难的是在将商业价值最大化的情况下形成技术到产品、再到市场的闭环。」

此外，技术的落地，也许无法避免采取「以点带面」的策略。对于大多数工业制造厂商来说，他们对AI技术并不精通，在传播深度学习视觉算法的优势时，往往要先通过一个项目合作来呈现、渗透，然后再去展示人工智能在工业制造与数字转型上的力量。

这个项目完成后，他们继续与Z开展了其他合作，让计算机视觉与其他机器学习方法在精密光学领域有了更多的应用。除了镜片隐形二维码的识别，Z又向思谋提出了更多生产线上的需求，包括难度极高的AR镀膜工艺大数据分析。

而与Z的合作，也让思谋有一个深刻的体会：「只有创新，才可以创造价值。」

对于一个精通深度学习的视觉算法团队来说，所谓的「创新」，大约就是不断挑战算法与行业结合的技术边界，掌握更多算法以外的工业制造知识，从而实现「X+AI」的蓝图。

而这，也是AI落地的时代所趋。雷锋网

（文中刘浩然与周工为化名，李扬霞、刘杏花对本文亦有贡献）

参考链接：

https://baijiahao.baidu.com/s?id=1670795055818283346&wfr=spider&for=pc

IEEE Fellow姚新：在多目标动态优化问题中，演化计算仍有独特优势

Thu, 11 Nov 2021 16:38:00 +0800

隔多年，再看图灵在1948年撰写的报告——《Intelligent Machinery》，我们仍然会为这位数学天才对智能机器的想象与痴迷所折服。

在这份报告中，图灵将婴儿的大脑皮层比喻为一台「无组织机器」（an unorganized machine），如同婴儿在后天的教育（或「干预」训练）中能逐渐成为一个「有组织的」成年人，行为规划符合社会人类共识，无组织机器也能通过外界的信息交流干预（「paper interference」），成为一台具有人类特征的、甚至会思考的「有组织机器」。

在第16页，图灵抛出一个观点：

从进化与遗传学的角度来看，将大脑皮层看作「无组织机器」的设想是非常令人满意的。

图灵将机器看作一个生命。如同物种在大自然中经历「优胜劣汰」的选择般，图灵设想了一种「智能搜索」（intellectual searches），在解决包含多类型问题的大类问题 n 时，通过淘汰的方式选出适合的方案：

……按顺序取整数并测试每个整数是否具有所需的属性，直到找到具有某属性的整数... 在各个阶段，下一步的选择可能都不止一个。不过，我们可能会将所有可能的选择按顺序排列，直到机器证明一个定理，并能按自己的方式验证该定理以给出问题的解决方案。

在这份仅有20页的报告中，图灵的许多观点成为现代人工智能的基础。比如，无组织机器的进化思想，便奠定了后来「演化计算」（Evolutionary Computation）的学科基础。演化编程、遗传算法、演化硬件等等不可思议的概念，均沿袭于此。

不过，在90年代以神经网络为代表的连接主义兴起后，演化计算逐渐成为计算机科学、甚至人工智能领域的一个小众分支。从2003年创办至今的CNCC，也是在今年才首次开设了以演化计算为主题的分论坛。

该论坛名为「下一代演化计算发展趋势」，由南方科技大学计算机科学与工程系的系主任、IEEE Fellow姚新出任主席，并请到了徐宗本院士、焦李成院士、丁进良、唐珂与罗文坚等学者作演讲。

图注：姚新

姚新的本科就读于中国科学技术大学少年班，师从陈国良院士与李国杰院士，从上世纪90年代博士期间开始研究演化计算，至今已有三十多年，是我国少数研究演化计算的国际知名学者之一，也是历史上首位获得神经网络最高奖「IEEE Frank Rosenblatt Award」的华人学者。

AI科技评论有幸邀请到姚新教授作为「Fellow来了」系列的第 02 期人物，与我们分享演化计算的研究特点、发展现状与研究意义，尤其是演化计算与神经网络的结合。

1、什么是演化计算？

简单来说，演化计算是一种基于自然选择和遗传变异等生物进化机制的全局性概率搜索算法，能够在不要求函数连续、可微与单峰的情况下，找到问题的近似全局最优解。

基于这些优点，演化计算被广泛用于NP与NPC难题求解、神经网络优化、多目标优化问题求解与其他众多领域。

图注：演化计算示例，通过程序迭代模拟，将要解决的问题看作一个环境，在一些可能的解组成的种群中，通过自然演化寻求最优解。

追溯历史，演化计算与人工智能的发展历程很相似。

1958年的达特茅斯会议被称为「人工智能」的起点，而演化计算方向的许多奠基性工作也是在上世纪60年代末、70年代初出现。继图灵讨论「无组织机器」如何成长后，1966年，Lawrence J. Fogel 在其著作《Artificial Intelligence through Simulated Evolution》中提出「演化编程」，基于有限状态机，用演化计算的方法设计一台学习机，预测1、3、5、7、11……中的下一个整数是不是素数。

「这（预测素数）在数学界都是一个巨大的挑战，但 Fogel 在66年就已经想出用机器来预测，而不是靠人来算。」姚新感叹。

图注：Lawrence J. Fogel

1964年，德国柏林工业大学的两位学生 Ingo Rechenberg 与 Hans-Paul Schwefel 提出进化策略（Evolution strategies）；1975年，美国密歇根大学的 John Henry Holland 借鉴了达尔文的生物进化论与孟德尔的遗传定律思想，提出「遗传算法」（Genetic algorithms）。两者后来均成为演化计算的重要分支。

尤其是遗传算法。在《Adaptation in Natural and Artificial Systems》一书中，John Holland 十分强调「适应性」（adaptation），以及如何用遗传算法来研究计算程序的自适应与自动搜索。基于达尔文物种选择理论的问题分析方法，遗传算法开始于一定数量的初始点，每一个节点均具有随机生成的特征，成功生成的节点会被合并、生成新的「智能体」，该「智能体」具有双亲的特征。

遗传算法的高明之处，一是提供了研究进化论的空间与研究自然现象的独特方法，二是利用进化论的思想进行计算机函数优化，让计算机开始具有通过「繁衍」来适应与学习的机制。

图注：John Henry Holland

不过，由于当时计算机的容量小、运算速度慢、符号AI研究火热等因素，演化计算的这些早期理论并没有引起太多人的注意。

直到80年代，传统人工智能的解题局限性开始凸显；与此同时，计算机的速度得到显著提高，演化计算开始被用于解决实际问题，在机器学习、工程优化与过程控制等领域取得了极大成功，重新吸引了研究者的目光，在许多国家掀起了演化计算的研究热潮。

2006年，NASA的ST-5航天器便使用了演化算法来设计空间、自动寻找更高效的X-band天线设计方案。由两种进化算法（实值参数向量与树结构生成表示）「繁衍」出的性能最优的天线经过构造与测试，均优于手工设计的天线。而且，只需要调整适应函数，他们就可以在不到一个月的时间内快速进化出一套新的天线（如下图）：

此外，2008年北京鸟巢体育馆的钢结构在设计的过程中也使用了演化计算，通过遗传算法迭代而成，整体结构十分稳固：

「而演化计算的最近一次大发展，是在2015年以后。」姚新指出。深度学习崛起后，演化计算与人工智能的其他分支结合，形成新的研究方向，比如「演化神经网络」、「演化机器人」。

姚新指出，学习与进化是生物适应的两大基本形式，两者理应相互增益。他解释：

「大多数深度学习模型首先是设计一个结构，然后训练权值，但实际上，没有一个生物的大脑在学习的过程中是结构固定、权值变化的。所有生物的大脑学习都是结构上的学习，而不是调调参数。从上世纪90年代开始，研究演化算法的人就强调，神经网络的学习应该是结构与参数的同时学习，而不是先设计一个结构、然后再去做参数的优化。」

演化计算至少有4个主要分支：遗传算法、演化编程、进化策略与遗传编程。此外，演化计算中还有一些「小而美」的分支，比如共生演化、差分演化、蚁群算法和粒子群算法等等。姚新指出，AlphaGo与对抗学习的许多思想，与80年代末、90年代初演化计算研究者所提出的对抗性思想完全是同源而生，只是实现的手段不一样。

除了对抗性思想，演化计算在多目标优化与决策问题上也有着独特的优势。比如，将一个大规模的深度学习模型安装在手机上，目标1：高性能；目标2：模型安装要控制在手机耗电量可承受的范围内；目标3：安全…这种场景与运筹学中常遇到的优化问题相似，但是，多目标演化算法可以在一次运行中找到整个Pareto front的近似解集，而不仅仅是一个解。这样可以为决策者提供不同的折衷方案并方便决策者比较各种方案。传统方法的缺点之一就是每次算法运行只能找到一个解。

此外，演化计算还擅长处理不确定环境中的学习与优化问题（又称为「动态优化」问题）。比如，在机器人/自动驾驶车辆的研究中，目标方向是往正北走，但由于传感器或机械臂的操控缘故，机器人的行走方向可能出现偏离，那么，机器便要进行动态优化，适度调整，如将可能偏离45度的方向盘调整为0.0001度。在算法层面上，这样的调整并不是一件容易的事，而演化计算可以通过迭代模拟，找出近似最优的方案。

2、第一届中科大少年班学生

姚新从上世纪80年代末开始研究演化计算，一直坚持到今天。

1978年，在诺贝尔物理奖华人获得者李政道的倡导与邓小平、方毅等国家领导人的支持下，一个特殊的教育班级在中国成立。

如李政道设想，它参考招收与培训芭蕾舞蹈演员的方法，从全国选拔极少数年龄在13岁左右的优秀少年到大学接受教育，目的是培养一支「少而精的基础科学工作队伍」。这个班级，就是后来大名鼎鼎的「中科大少年班」，而姚新是当年（1978年春）全国选拔的21位智商过人的少年之一。

图注：部分中科大少年班首届学生留影

本科毕业后，姚新听从赵振西老师的建议，先是去了北京华北计算技术研究所（即「电子部15所」）攻读硕士、以积累工程经验，「因为中科大偏理论，而赵老师认为，做研究缺乏工程知识总是不好的。」在15所，姚新研究了三年微程序设计。

1985年硕士毕业，姚新读博，又回到中国科学技术大学，师从陈国良院士。陈国良是我国并行算法与高计算计算专家、中国科学院院士，在1995年创建了中国第一个国家高性能计算中心——国家高性能计算中心（合肥）。

读博期间，姚新跟着陈国良学习，中间也花了许多时间到中国科学院计算技术研究所跟着李国杰院士做研究，是李国杰回国后带的第一个学生。姚新回忆：

「两位老师对我的帮助都非常大。在中科大，要上基础课，还有讨论班。我从博士论文开始研究模拟退火和演化计算，后来，陈国良老师还专门写了《遗传算法及其应用》（1996年）一书。

到了计算所跟着李国杰老师后，李老师的博士论文与博士后阶段都是做组合搜索，是现在人工智能中很火的领域。那我想，李老师做组合搜索，我肯定比不过他，那我研究演化计算或模拟退火也挺好，李老师当初也同意，所以我的博士论文是关于模拟退火遗传算法。」

图注：用模拟退火算法解决旅行商推销问题（TSP）

1990年，姚新到澳大利亚国立大学计算机科学实验室（Computer Sciences Laboratory）担任博士后，继续从事模拟退火与演化计算的工作。也是从那时候开始，姚新开始研究遗传算法与神经网络的结合，相关工作发表在1991年澳大利亚神经网络的年会上，引起了许多参会者的注意。

「不久后，昆士兰又有一个小型的论坛，叫『AI and Creativity』。里面有个做人工智能的、偏哲学的英国教授叫Margaret Boden，跟我聊了很多，真的是坚定了我将演化计算与神经网络结合起来的研究方向。一些生物的知识书也是她推荐我去读的，我也是看了这些书才知道，哦，原来生物大脑中的学习不是调参数，而是讲突出的连接在那里变来变去。」

1991年，姚新加入澳大利亚最大的国家级科研机构 CSIRO 担任博士后研究员；1992年开始，分别在澳大利亚国防军学院与新南威尔士大学计算机科学学院担任高级讲师、副教授；1999年，他又去了英国伯明翰大学计算机学院担任讲席教授，直到2016年，在南方科技大学的邀请下回国、参与创立南科大计算机系并担任系主任。

姚新在澳大利亚所结识的另一位人工智能华人先驱张成奇教授在南科大的办公室，便与他在同一栋楼。

在研究上，姚新喜欢聚焦于具体的问题，以实际问题来驱动学术研究。

1999年，姚新提出了具有开创性的快速进化编程（fast evolutionary programming，“FEP”）方法。

进化编程（EP）方法原先用于人工智能的问题研究，后被用于解决数字与组合优化问题。在解决多模态优化问题上，EP方法的优势之一是可以通过缓慢的收敛得到一个出色的近似优解。与经典的EP方法相比，姚新所提出的FEP方法擅长在一个大的领域进行搜索，对黑箱优化有优独特优势，后来被广泛应用于神经网络结构学习、最优路径规划、数字滤波器设计以及新材料的设计，单篇谷歌学术引用次数接近4000。

论文地址：http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.45.1830&rep=rep1&type=pdf

2000年，基于对约束条件处理的考虑，姚新与合作者又开发了一个随机排序方法，将传统的、看似复杂的惩罚函数与拉格朗日方程简化为简单的排序，在牺牲些许数学收敛性的情况下取得了很好的实际应用效果，是姚新在研究生涯中的一个阶段性成果。雷锋网

论文地址：https://www.cs.bham.ac.uk/~xin/papers/published_tec_sep00_constraint.pdf

凭借在演化计算上的一系列开辟性成果，姚新在2003年当选 IEEE Fellow。

除了早期的两大重要成果，姚新还提到他在2006年将演化计算应用于撒盐车调度的项目。撒盐车的调度涉及到车辆数量、每辆车的吨位、调度范围等等，原属于运筹学的研究范围，但在实际的运行中，假设车队有11辆车，载重范围为2.5吨到9吨，重量不固定，那么传统的数学方法便无法假设一个数值来进行计算，也难以设计算法。雷锋网

「现实生活中的调度问题与书本上的非常不一样。首先路况是随时间变的，车辆行驶速度也不固定，车有可能抛锚坏了，等等。」姚新解释，「对于这类充满不确定性的优化问题，相对传统的数学或运筹学方法，演化计算是有优越性的。它能在复杂的动态环境中找到近似最优解。」

从这个项目开始，姚新一直致力于将演化计算用于在不确定性的环境中做动态优化。除此之外，他与团队着重于研究演化计算如何应用于多目标优化决策。

姚新设想，计算机系统应该是一个可以长期演化的系统：「我可以做初始化的设计，等初始化设计完成后，通过与环境交互，这个系统的软件与硬件应该会一直进化下去，（就像生物一样），在不同的环境中就会进化成不同的系统。」雷锋网

能够进化的系统，听起来天方夜谭，但在许多场景中是刚需。比如外太空设备。从地面发射信号到外太空，需要好几分钟，但在地面的遥控者无法预测这几分钟里所发生的事情。这时候，如果系统具备自适应、自演化的功能，就能处理未知的、不确定的环境。再比如无人区的基础设施维护，如果设备具有自适应功能，能够自动更新与重组，那么就可以免去人工检测的成本与风险。

问及系统自动进化的前景，姚新颇有自信地答道：「我觉得在不久的将来就可以部分实现，尤其是在软件层面。现在很多东西都是『软件可定义』，这实际上对演化计算是一个利好消息，就给我们一个发挥能力的基础设施，通过修改软件就能修改硬件的配置。」

3、CNCC分论坛：演化计算的下一代发展趋势

不可否认，目前演化计算在国内仍是一个小众方向。

从本质上看，一个研究方向的规模大小与其在商业上的成功有着莫大关联。比方说，深度学习兴起的最大推手就是企业，深度学习之所以能成功，是因为其在产业中孵化出许多应用，能给企业带来经济效益，而演化计算对产业的影响力有限，「即使用演化计算设计天线，也只是设计直径为1cm的天线，而不是所有天线。」

而第二个原因，是了解演化计算的人不多。姚新感叹：「演化计算在许多场景中适用，但大家一般是先尝试了许多其他方式、发现行不通了，才会想到演化计算。」

为此，作为演化计算的忠实研究者，科研之余，姚新也将一部分的精力放在了演化计算的「布道」上，让更多人了解到研究演化计算的重要性：

在图灵发表于1948年的报告中，他就专门花了2页的篇幅探讨演化计算的思想，这也说明从很早开始，演化计算就已经是计算机科学与人工智能中不可分割的一部分。一直到2015年，Nature推出人工智能专刊时，收录了6篇长文，其中1篇（如下）就是专门讲演化计算。

论文链接：https://research.vu.nl/en/publications/from-evolutionary-computation-to-the-evolution-of-things

姚新介绍，演化计算与机器学习的关系，就相当于自适应的两个基础模式。机器学习是个体学习，研究如何在最短的时间内适应一个训练集，时间粒度比较短，而演化计算是群体学习，通过对解空间采样、做比较与淘汰，时间粒度比较长，两者互补，对人工智能缺一不可。

「在研究演化计算时，你是避不开机器学习的，因为从一开始，演化计算就包含在机器学习领域。早期的演化计算论文也是发表在与机器学习相关的会议与期刊。」姚新回忆，「我与张成奇认识，就是因为参加了他1993年在澳大利亚举办的全澳人工智能会议。」

姚新认为，在未来的人工智能发展中，当个体的快速学习已经研究得差不多时，人们迟早会意识到，个体的学习距离通用人工智能是有一定距离的。这时，人们一定会考虑其他的途径，演化计算便是其中的一个选择。

比方说，南京大学的周志华团队虽然一直研究机器学习，但近年来也在演化计算上有所造诣。2019年，周志华便与他的两个学生（钱超、俞扬）出版了《演化学习：理论和算法的进展》英文版一书。

除了周志华团队，中国研究演化计算的学者还有西安电子科技大学焦李成的研究团队、徐宗本院士团队、原先武汉大学康立三教授的部分学生，以及中国科技大学陈国良院士与王旭法教授所带领的学生。

在即将召开的CNCC分论坛「演化计算的下一代发展趋势」中，姚新便邀请了数位能到现场作演讲的嘉宾，包括徐宗本、焦李成、唐珂、丁庆良等学者。

据姚新介绍，此次论坛的演讲内容颇符合李国杰院士所提出的「顶天立地」的口号。徐宗本院士主要从基础理论出发，解析演化计算与机器学习的关系；丁庆良介绍如何将演化算法应用到工业控制中，解决实际问题；唐珂探讨如何用演化计算自动设计算法，而焦李成则从理论到实践系统地研究演化计算及其应用。

论坛的时长只有3个小时，姚新明白，一次「布道」并不能将问题真正吃透。所以，他更希望这个论坛是一次「播种」，将「演化计算」的种子播撒在参会者的心里。

就姚新个人而言，国内演化计算研究发展的关键点有两个：

一是做有影响力的应用，解决实际问题。与此同时，也要找到适合演化算法解决的问题，「比如2006年NASA的研究员想到用演化计算来设计直径1cm的小型卫星天线就很巧妙。当一个问题无法用数学方程描述、只能通过采样的方法做模拟优化时，演化算法的优越性便显示出来了。」

「我经常讲一个可能不是很恰当的比喻：最适合用演化计算的实际问题，是一些特别难的问题，难到其他方法都觉得毫无头绪，这时，演化计算的相对优越性就出来了。不是说演化计算更好，而是有相对的优越性。」姚新谈道。

其次，演化计算要在理论上有所突破。如周志华团队所做的努力，从理论上分析演化计算的优越性与不足之处，从而对整个领域的发展与应用起到指导性的作用。姚新自己也与合作者在演化算法计算复杂性分析方面耕耘多年，仍在继续努力。

4、结语

国内演化计算的圈子本来就狭小。

问及当年决定回国的原因，姚新谈道：

「做学术的人总想做点更有影响力的工作。南方科技大学地处深圳，IT企业众多，学校希望建设一个有特色的计算机科学与工程系。一张白纸总是画起来更方便。

南科大老师说：你的余生有两个比较大的方向，一是继续留在伯明翰，发论文、培养博士生，二是去创建一个新的计算机系，把你的理念传给本科生，按你的想法做一些你在伯明翰没那么容易做的事情。这一点很吸引我。

做没有做过的事情、从本科阶段就开始培养学生做研究，这对姚新来说都是前所未有的挑战，而按照他的说法，「喜欢科研的人都喜欢面对挑战。」

所以，2016年，姚新选择回国。当年年，南科大就设立了计算机科学与工程系，开始招生，如今已培养出数批计算机专业的本科毕业生。他一边授课，一边带领学生从事演化计算与可信AI的科研，在演化计算与神经网络的结合上继续研究。雷峰网

作为国内研究演化计算的先行者之一，姚新在科研上严格遵循李国杰院士的四字信条——「顶天立地」。另一方面，他也十分推崇博士后导师Richard Brent的独立科研精神，鼓励年轻学者做自己感兴趣的研究，独辟蹊径。雷锋网

从上世纪90年代末起，姚新便开始从事演化计算与神经网络的结合研究，远早于深度学习的兴起之时，曾因此工作获得2001年的 IEEE Donald G. Fink Prize Paper Award。那么，在深度学习如此火热的当下，演化计算是否还能给人工智能带来新的启发？亦或者，在人工智能领域，演化计算如何找到自己在新时代的位置？雷峰网

静待2021年12月17日CNCC分论坛「演化计算的下一代发展趋势」。

参考链接：

1、https://weightagnostic.github.io/papers/turing1948.pdf

2、https://wenku.baidu.com/view/13713b7ba26925c52cc5bfd0.html

3、https://www.alanzucconi.com/2016/04/06/evolutionary-coputation-1/

4、https://ti.arc.nasa.gov/m/pub-archive/1417h/1417%20(Hornby).pdf

5、https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.493.6049&rep=rep1&type=pdf

6、https://www.cnblogs.com/tsingke/p/11252203.html

不一样的科大讯飞，他们把计算机视觉踢进“世界杯”

Tue, 02 Nov 2021 15:30:00 +0800

科大讯飞的标签，多了“计算机视觉”。

作者 | 青暮

编辑 | 岑峰

人工智能技术从开始到真实产生应用的突破是以时间为代价的。需要无数的科学家带着甘做冷板凳的决心潜心钻研，一坐就是十年、二十年。

而技术一旦突破，便有了改变世界的力量。

从1956年Dartmouth会议上第一次提出人工智能的概念到2006年深度学习概念首次问世，神经网络从诞生到真正意义上拥有了深度，经过了超50年的时间。

随着大数据和算力发展的助推，深度学习爆发出巨大的威力，一轮又一轮的研究热点在各项领域开花结果，全社会都热血澎湃地张望未来。

2010年，人类尝试复刻人脑聆听和处理人类语音的方式，DNN（深度神经网络）在语音识别方面出现革命性的突破。2012年，CNN（卷积神经网络）在图像识别上大获成功。至此，人工智能多项技术到达真正意义上“可用”的阶段。

从技术转向产业，2010年前后同样是个值得书写的年份：移动互联网时代来到发展的沸腾临界点，BAT格局已然成形，而后被无数资本追捧的AI四小龙，也都在2010年后相继成立。

而彼时，殷保才和吴嘉嘉还是两名就读人工智能相关专业的学生，在代码、公式和论文交错的实验室里，痴迷地探索着计算机视觉领域里一切可能的方向。

从校招入职，到如今成为科大讯飞AI研究院计算机视觉方向（CV）的领跑者，吴嘉嘉正带领着团队攻克图文识别领域内喜马拉雅山式的挑战——篇章级公式识别，并不断将技术扩展到更加复杂和深入的应用场景；殷保才牵头视觉领域的最前瞻技术探索，从视觉交互、遥感图像到多模态感知、3D感知，用自由的眼光看更远的未来。

因名字中的“才”和“嘉”，在科大讯飞研究院里，大家都津津乐道地称他们为“才”子“嘉”人。和他们一起的，是科大讯飞超百人规模的计算机视觉团队的研究员们，带领着科大讯飞计算机视觉多项技术保持着国际领先水平。

后来被问到，为什么在那个计算机视觉领域风起云涌的时代选择加入一家以人工智能“语音”技术而闻名的公司时，他们都给出了相似的答案：“发挥自己的作用，让科大讯飞的计算机视觉技术也达到国际领先水平。”

如今，从国际医学影像领域权威评测LUNA上刷新世界纪录、在计算机视觉顶级会议CVPR 2019和文档分析与识别顶级会议ICDAR 2019上的多项评测任务中获得冠军、到刷新目前公认自动驾驶领域内最具权威性的图像语义分割评测集Cityscapes全部两项子任务的世界纪录，无一不在向世界宣示着，科大讯飞早已不是那个只做“语音”的公司了。

而这一切的背后，是这群对技术无比热爱之人的初心坚守。

AI研究院计算机视觉的“才”子“嘉”人

因为从小就是典型的理科生，殷保才自觉对文字表达不感兴趣，思维比较发散，难以集中注意力，连小说都读不进去。在他的大脑里，似乎只有数学符号和图像是可理解的，“算是一种空间型思维吧”。

就连在职期间继续攻读中科大的博士学位也是院长费了好大力气劝说后才去的，因为“就是不想写论文”。

同样，在与吴嘉嘉交流的过程中，我们也发现了类似的特点。

只要我们说出文本行识别、公式识别这些词，他立马会连珠炮弹般把整个技术链路里里外外介绍一遍，尽管我们当时问的是“这项技术背后有什么故事？”。多次提醒后，他依然沉浸在分享这些细节中。这些精微的技术细节，仿佛才是他眼中的事件记忆。

“不想写论文”、“不会讲故事”的他们痴迷于技术本身。在他们的思维里，故事不是被抹杀了，而是在一个抽象空间里，将所有的累积汇聚成一体。在思维成形之前，空间里只有无逻辑关联的碎片。一旦关键的碎片找到后，思维成形，便是“灵感爆发”时刻。

殷保才

这种空间型思维，让他们与计算机视觉结缘。

尽管都是空间型思维，但这对“才”子“嘉”人也有着不同的思维习惯。

殷保才偏好直觉，比如在带领团队参加LUNA比赛时，创新性地采用了3D框架，“几乎是一瞬间就想到了。”

吴嘉嘉则偏好逻辑，比如在解释技术的时候，每一次都像是在发送逻辑缜密的文档，还是当场生成的。

吴嘉嘉

接下来，就让我们深入科大讯飞这对计算机视觉领域“才”子“嘉”人的更多亲身经历，一探科大讯飞计算机视觉技术之究竟。

探索与投入

或许是语音的标签太过耀眼，科大讯飞在计算机视觉方向上的发展并不为外界所熟知。

2008年以前，科大讯飞的技术储备还是集中在与语音相关的技术方向上，从语音合成、语音评测到语音识别技术，科大讯飞在全球语音技术领域内已是全面领先地位。

而2008年，几位探索计算机视觉领域内图文识别（OCR）技术方向的研究员们已默默的开始了漫长的征程。从探索、沉淀、到全面爆发，一等就是十年。

“OCR一开始在研究院是一个很小的方向。当时很多人不理解，大家觉得OCR就是识别字符，落地的场景就是类似街边的街景字符的识别。回头来看，随着信息化时代的到来，OCR应用的场景非常广泛，带来的社会价值是巨大的。”吴嘉嘉说道。

比如在教育领域，差不多也就在2013、2014年左右，我们非常清楚地看到了人工智能在教育里应用的潜力，从智能阅卷、评分测评、到现在“因材施教”的个性化教育，OCR技术几乎是所有教育应用的入口。

“OCR技术一定要结合实际场景的需求，定义OCR技术问题也必须来自于实际场景的重大刚需问题，只做技术是不行的，这也是人工智能落地里科大讯飞探索出来的方法论。”

2014年，吴嘉嘉开始攻关文本行识别技术，在此之前，吴嘉嘉已率先尝试用深度学习的CNN技术来做孤立字识别，识别精度相对基线版本大幅提升了30%，并在讯飞输入法上得到了很好的落地。

但后来他发现，孤立字识别技术根本不适应文本行识别问题，文本行识别的一个常规思路是首先对字符进行切分，然后进行单字符识别。由于涉及手写字体，很多人写字会习惯性地连笔，这就让切分变得困难了。

也许，图像识别的答案要在计算机视觉之外去寻找。

吴嘉嘉工作照

技术的创新常源于灵感的瞬间爆发。

在投入语音识别技术的时候，很少有人能想到语音识别技术的逻辑和方式能够被同为模式识别分支的字符识别所借鉴。

语音技术深厚的积累给团队带来了无尽的宝藏，在文本行识别的研究中，他们找到了融合的契机——语音识别要将连续的波形转化出分离的字符，而波形和手写字类似，也是无法拆分的。

这几乎是完美的答案。

AI研究院的小伙伴们快速完成了语音识别到计算机视觉之间的算法框架迁移和借鉴，将语音识别中的HMM模型框架引入到文本行识别，精度大幅提升。

吴嘉嘉开始形成自己的方法论——他山之石，可以攻玉。

技术的进步常比想象中走得更快，而在发展之前，则是默默耕耘与长期投入。

在OCR生根发芽之际，科大讯飞又开启了计算机视觉领域其他技术方向探索的征程，从人脸识别、医学影像到辅助驾驶、虚拟形象。

科大讯飞对于新方向的探索多是从参与国际顶尖比赛开始的，探索技术的可达性。

2016年，人工智能+医疗概念逐步兴起，作为医疗影像领域最具代表性、最受关注的国际测评任务之一，LUNA（LUng Nodule Analysis）测评吸引了大批国内外学术界和产业界的团队参与。但 LUNA任务的难度系数极高，核心原因在于肺结节检测输入的信息量巨大，而目标非常小。

参与LUNA比赛是殷保才投身医疗后的第一个任务。

几乎所有参赛团队都采用了2D或2.5D的解决方案，其中2D方案就是只处理单张影像；2.5D则是通过纵向、斜向地对整个影像序列切割出2D数据，再进行处理。

“但这些方案都不可避免导致原始信息的丢失，必须用3D模型。”

殷保才工作照

因为LUNA所要处理的数据是3D数据。所谓3D数据，即CT影像是一个数百张影像的集合，每一张通过扫描身体部位的一个断层得到。所谓3D框架，指的是其专门用于处理3D形式的数据。在竞争榜单上，殷保才是少有的熟知尚不成熟的3D图像识别技术的人。

不难看出，这种解决方案简单直接，与问题本身天然匹配。

在这场比赛中，殷保才团队开发的框架最终获得了94.1%的召回率（召回率高意味着对阳性患者的漏诊率低），这一成绩也刷新了当时的榜单世界纪录。

“才子”的这种源源不断的直觉，其实离不开长期的技术积累沉淀。

深度融合与厚积薄发

时间到了2017年。

吴嘉嘉团队此时已解决了文本行识别，正在为突破公式识别而努力。传统文本行识别都是非常定式的从左到右、从上到下的识别顺序，模式比较单一。而公式会有各种嵌套结构、左右上下的杂糅。

分数加法算式就是一个左右上下混合的简单例子，比如1/5是一个上下结构，1/5+2/5又是一个左右结构。

嵌套结构则包括指数、连根式、连分式等等，“这种式子没有最复杂，只有更复杂，比如连分式可以是无穷嵌套的。”

比起文本行识别，问题难度又上升了一阶。团队在起初用了很多传统方法去做结构的分析。比如在两个分数的加法中，先将字符单独识别出来，再分析字符间的空间关系等等，“一般就是多阶段模型，最后会变成非常复杂的系统工程，泛化性也不好。”

后来源于科大讯飞研究院在机器翻译上的技术积累，他们发现公式识别任务和机器翻译任务很像，因此可以把基于注意力机制的Encoder-Decoder模型运用到公式识别上来。

在语音识别技术和自然语言理解技术领域所使用的序列建模和神经网络中的注意力机制，成为OCR技术“灵感的缪斯”。进一步地，团队联合NELSLIP基于Encoder-Decoder模型构建了新的无切分公式识别算法。

不到一年的时间，吴嘉嘉团队在公式识别上已经达到了96%的准确率。

随后，在国际顶级手写公式识别挑战赛中，团队先后获得2019年ICDAAR CROHME、2020年ICFHR OffRaSHME多个国际冠军。

同样地，在OCR技术应用在教育领域的过程中，这对“才”子“嘉”人也发现图文分析任务与其他计算机视觉任务的一致性，殷保才基于早期在计算机视觉任务上的积累，很快将多种技术方案应用到了文档图像处理及版面分析任务中。

现在这对“才”子“嘉”人也正在联手打造全链路的图文识别技术，实现Read Anything的目标。

OCR的不断突破，来自于技术间的跨领域创新式与交汇融合式的思想迁移。而人工智能助力行业的发展，则来源于厚积薄发式的积累和沉淀。

2020年疫情爆发初期，殷保才接到了紧急通知，要针对新冠疫情开发医疗辅助系统，帮助医生诊断肺炎症状。

疫情期间影像科医生的压力是巨大的。每诊断一个病例，影像科医生需要对CT的数百张切片逐层分析，需要大约为5至15分钟时间。而针对新冠确诊患者，医生还需要回顾患者历史影像，阅片量至少再翻一倍。

三天后，第一个版本的系统正式上线。之后一个月，殷保才团队每天都会将系统更新一个版本。通过系统可在3秒内完成一例病例辅助诊断，极大提高了医生工作效率，也有效降低漏诊误诊。

与时间赛跑，与病毒较量，殷保才团队也充分发挥技术优势，为疫情防控贡献科技力量。

殷保才做事雷厉风行，擅长突发式攻关。

但突发式攻关的背后，殷保才直觉的来源，是多年的经验与知识的积累，是那段少有人知的刻苦经历。

曾为落地胸科诊断技术，殷保才多次登门拜访向专业医生寻求数据标注的建议。“结合专业知识在AI医疗影像中是非常关键的部分，耗费成本也很高。同时，3D数据标注更为复杂，不同医生的标注也有方差。”奈何医生太忙，每次只落下零星几句话，然后甩给他一本上千页的胸科诊断指南。

殷保才只能自学医疗知识，开始探索这条少有人走的路，“不仅数据少，现有的代码也少。”如今，他早已成为了人工智能领域里的半个医学专家。

但有厚积，才有薄发。

无论是交汇融合式的思想迁移，还是厚积薄发式的灵感闪现，殷保才和吴嘉嘉都在一步一个脚印，在正确的方向长期投入和无悔坚持。

AI研究院：顶天是为了立地

这份热爱，既源于他们自身，也在科大讯飞AI研究院的支撑下，源源不绝。

科大讯飞AI研究院分为计算机视觉、认知、语音三个大方向，"但在这里，你可以随意和任何一个方向的人聊技术，每个人都很乐于分享，只要你够主动。"

“我们内部有很多基于深度学习为主的研究方向，这些不同的领域之间可借鉴性很强，不同方向之间互相借鉴然后做一些跨领域、融合式的创新是我们AI研究院所擅长的。”殷保才说道。“比如我们首席科学家魏思在多年前就发起了'王牌飞行员'计划，加强不同团队的沟通交流，促进内部的信息交流和技术迁移应用，当然也为了培养一批批的'科学家'。”

研究院简单真诚的氛围"就和在学校里差不多，大家都非常纯粹。"

这份纯粹让他们自由而一往无前，技术水平更具前瞻性，使得公司不受外界干扰而保持战略的定力。

科大讯飞AI研究院首席科学家魏思曾经说过，"在整个工业界里去做研究这一块的工作，科大讯飞AI研究院不输于世界上任何一家研究机构。"

他们也并不害怕承认——研究院并不对发论文有狂热的偏爱。

殷保才说道，"在我们看来，技术核心在于能不能为社会真正创造价值，能否立足场景解决刚需问题。"

这与李开复在《AI未来》一书中的观察不谋而合：

西方国家点燃了深度学习的火炬，但最大的受益者将会是中国，这种全球性的变化是由两方面的转变引起的：从发明的年代转变为实干的年代；从专家的年代转变为数据的年代。

此外，一位ACM高级科学家曾经告诉我们，现在AI学界研究的风气大变，灌水现象也特别严重，"将从学界拿到的论文用于技术落地时，对其结论首先都要打一个问号。"

业界做AI学术被质疑理论不够扎实，学界在缺少资源的情况下，亦难以研究大规模的问题。或许两者汇集之后我们才能提出更好的基础研究问题。

"我们也发现了一个现象：在企业研究院发论文对于学生而言很有吸引力，能为他们的简历增光。但这个现象持续下去，是否对整个行业有促进作用，值得探讨。"殷保才补充道。

企业研究不仅需要在技术水平上"顶天"，又要在技术价值上"立地"。这其实也正是科大讯飞AI研究院一直秉承的价值观——顶天立地。

在资源投入上，科大讯飞以市场导向分配"弹药"，遵循"721研发投入模式"。

"我们每年拿出20%以上的营收投入到研发中，其中70%的资源投入当前的主导产品，20%投入战略新产品，10%投入探索型的、不追求一定要有回报的方向，它可以很自由地探索未来。”而殷保才主要就在负责2和1的部分。

指尖交互、手势交互、多模态识别、遥感方向、智慧畜牧等都是他将投入的方向。

"视觉前瞻的每一个尝试，基于我们的业务需求、未来趋势判断以及扩展研究院的能力建设，但最终都是为了能够拓宽整个视觉领域的应用边界。"殷保才补充道。

吴嘉嘉则将继续深耕OCR，打通OCR技术链路。在整个职业生涯中，吴嘉嘉前三、四年聚焦于钻研技术，带团队之后，开始思考整个技术链路的问题。

从孤立字识别到文本行识别，是从1到10的阶段跨越；而从文本行识别到公式识别，则是从10到100的飞跃。

如今，团队正在攻关一个“300”难度的任务——篇章级公式识别，"当然，说不定是1000。"

从孤立字识别、文本行识别、公式识别到篇章级识别，是一场从点到线到面再到网络的升维进化，科大讯飞亦在OCR领域建立起了较高的技术壁垒。在实际应用中，以教育为例，学生作业试卷文档存在版面结构复杂、书写风格差异显著等难点问题也变得可解。

如今作为OCR条线的负责人，面对团队日渐增长的团队规模，他也有了新的梦想，“保持核心技术的领先水平，屹立于世界的前沿。同时让人工智能技术应用到更多的领域内，让科技所带来的改变惠及大众。”

科大讯飞——自成神经网络

这对“才”子“嘉”人在科大讯飞的成长故事，也是科大讯飞不断扩展的缩影。

专注AI多年的科大讯飞，自身已成一个神经网络——很宽、很深的生成式神经网络。

一个典型的生成式神经网络包括了输入层、编码层、输出层。对于一个AI企业而言，输入是AI三要素：算力、数据、算法，输出是技术和产品，编码层则是企业的组织方式和技术方法论，以及企业的人才。

各个节点并非孤立，紧密链接，由此在“技术顶天”与“应用落地”这一天地两端，用人工智能建设美好世界。

雷锋网雷锋网雷锋网

成立十年，这家由中科院孵化的超算中心如何荣登中国高性能计算机Top100榜单第三名？

Sun, 31 Oct 2021 14:02:00 +0800

在2020年中国高性能计算机性能Top100的排行榜中，部署在国家超算中心（无锡）的「神威·太湖之光」依然稳居第一，国家超算中心（广州）的「天河二号升级系统」位列第二，而荣登榜眼的，却是此前名不见经传的北京超级云计算中心A分区。

这一排名，让许多此前并不知道北京超级云计算中心的朋友大吃一惊：「超级云计算」是什么？北京超级云计算中心的「A分区」究竟实力何在？

尽管大家对A分区的研制厂商戴尔（DELL）多有耳闻，但对A分区所部属的北京超级云计算中心却几乎一无所知，顾名思义，更容易将其与国家超算中心混淆。

这座超算中心成立于2011年，虽由中国科学院计算机网络信息中心孵化、北京怀柔区政府支持成立，但却不在国家的8个超算中心之列。

众所周知，我国第一个国家超算中心成立于2009年，由天津滨海新区与国防科技大学合作共建，斥资6亿。此后，国家又陆续在多个东部城市建立了超算中心：济南、深圳、广州、长沙、无锡、郑州、昆山……

其「政府+高校」的合作模式虽与国家超算相似，但自创立之初，北京超级云计算中心的核心理念便注定了它的不同。

从2011年到2020年，北京超级云计算中心何以从一个籍籍无名的超算中心，成为跻身于中国高性能计算机Top100榜单一员、并仅次于两个国家超算中心的明星超算呢？

在中国高性能计算盛会CCF HPC China 2021中，我们有幸见到了北京超级云计算中心的CTO郭宇，与他一同探究该中心的「成名之路」。

从建设的模式来看，北京超级云计算中心与国家超算中心有许多不同之处，其中，最大的不同便是：国家超算中心注重科研支持，而北京超级云计算中心的核心理念是超算商业化。

按照郭宇的话说，是「像设计产品一样设计超算。」

被誉为「国之重器」的超级计算机，向来是大国之间的必争之地。长久以来，这也形成了国家超算独当一面、民间超算不为人知的局势。然而，任一行业的发展，必然是多方势力的融合与交汇，百花齐放，从而共同推进领域的前进。

那么，在中国的超算领域内，北京超级云计算中心的位置在哪里？优势是什么？

1、超算市场的形成

回顾2011年北京超级云计算中心的成立节点，除了两个国家超算中心（天津与济南）的成立所带来的信号，超算市场的爆发早在过去的五年便有了行业的铺垫与基础：

2005年以前，CPU处理器处于「单核时代」，一个CPU只有一个核心。如果一台服务器上有两个CPU，那么，搭建一个1024核的CPU则需要512个节点，12个机柜，因为一个机柜最多只能装满42U。而每个机柜的宽度为60公分，12个机柜则是7.2米，相当于一个普通教室的宽度。更重要的是，仅依靠提高主频来提高计算效率的方法，

但从2006年开始，CPU处理器开始进入了「双核」、并逐步拓展到「多核」时代。双核处理器的出现，也奠定了基于x86的计算架构，英特尔与AMD在CPU帝国中的主导地位也就此形成：

2006年年中，AMD率先推出AM2平台。两个月后，英特尔发布Conroe，性能直接提高40%，与此同时，功耗也降低了40%。但英特尔并不「就此罢休」，同年11月又直接推出全新的四核处理器Kentsfield，直接把CPU推进了「多核时代」。

与单核的CPU相比，多核CPU的并行处理能力更强、计算密度也更高，并大大减少了散热与功耗。后来，CPU出现了8核、12核、16核……目前一个CPU最高已能达到64核。对于许多关注高性能计算的行业从事人员来说，他们认为，多核CPU必然会带来计算与任务的并行化，也就是说，超算市场在未来会迎来爆发。

因此，回顾超算市场的发展历史，在CPU进入「多核时代」后，北京超级云计算中心的成立，是卡在了爆发的起点。但当时，北京超级云计算中心还未正式开始商业化的探索，前期工作也主要以维护中科院计算机网络信息中心的超算集群，支持科研项目为主。

除了技术的加持，国家超算中心的陆续成立，也逐渐在国内孵化了一个算力的市场。

据北京超级云计算中心CTO郭宇介绍，国家超算中心的建设模式是：科技部与地方政府各出一部分资金建设好国家超算中心后，在运营阶段，超算中心的部分运营费用由地方政府的财政补贴，同时，向部分高校科研人员开放课题申请，由高校科研人员从课题经费中支出部分资金、到国家超算中心去采购计算资源。

在这样的模式下，国内逐渐形成了一个商业循环的算力市场。随着国家超算中心的出现，科研院所与高校逐渐缩减自建超算的规模，增加对外部超算资源的采购。如此一来，超算市场的用户越来越多，对超算的需求也不断增加。当市场扩大到一定的程度，必然会出现分化，分为高端市场、中端市场与低端市场。

对于国家超算中心来说，服务如此分化明显的市场并不是一件易事，且国家超算中心存在的目的主要是支持国家大课题（如航空、宇宙、气象等）、推进科研进步。这就造成了超算市场的服务缝隙：部分需要超算资源的小课题用户在提出需求时，并不能得到满足。

正是看到超算市场的这一缝隙，2018年，北京超级云计算中心开始了计算商业化的探索，希望能够提供「随需扩容」的计算服务，满足尖端超算以外的大规模通用超算市场。

2、探索计算的商业化

中国高性能计算机Top100的榜单排名由计算机的计算能力决定，而计算能力主要由计算机的单节点性能与集群规模构成。

北京超级云计算A分区的Linpack测试性能达3.743PFlops，计算峰值性能达7.035PFlops，CPU核数达到192000，几乎是第四名往后的计算机的三倍及以上。

据郭宇介绍，A分区从2019年年底开始建设，原先只有200个节点，而后在2020年年中扩容到3000个节点，背后的原因并不是为了争夺Top3，而是为了满足客户的需求。

在郭宇看来，国内的超算市场可以大致分为三类：尖端超算、通用超算与行业超算。其中，国家超算中心所服务的需求，便主要是尖端超算，以难度高、设计性能平衡为主，要兼顾计算、访存、通信与I/O等，服务对象是国家级的科研项目，重点是出成果，而不是盈利。

而北京超级云计算中心的目标市场是通用超算，主要面向万核以下（尤其是千核以下）的应用规模，为需求不一的海量用户提供租赁式超算服务。对于北京超级云计算中心来说，他们的目标是超算的商业化运营，实现超算业务的盈利，反哺到中心建设的投入中，实现自给自足、灵活外延的正循环。

「让计算不排队」，是北京超级云计算中心的核心理念。

从2011年成立至今，北京超级云计算中心经历了两个主要的阶段：

刚成立的几年，北京超级云计算中心以运营中科院体系内的超算为主，包括中科院计算机网络信息中心在2014年推出的超级计算机「元」、2015年的「元」二期等等。在这一阶段，北京超级云计算中心的建设模式、运营模式与国家超算中心的体系有许多相同之处。

到了2017年，他们逐渐发现了上述所说的国家超算中心无法满足的外溢市场需求。随着国内科研发展的深入推进，高校教师对计算的需求越来越大，超算的用户类型也越来越多，应用越来越复杂，用户对计算机的服务要求也越来越高。

比方说，有些用户做计算，并不是简单地将一个程序放到超级计算机上就可以直接运行，而是需要在Linux命令行窗口下将源代码进行编译、调优、集成甚至更复杂的适配移植，这对广大只熟悉Windows操作系统的用户来说过于复杂。

国家超算中心的主要任务是支持重量级的科研项目，取得出色的学术成果（比如获戈登贝尔奖），如此以来，国家超算中心的计算资源自然会优先分配给重要的科研团队，这就导致了许多中小用户享受不到好的服务，出现「排队计算」的情况。

基于这一行业需求，北京超级云计算中心便思考从商业运营的角度去解决国家超算中心的这部分外溢需求，通过灵活的方式将计算资源提供给超算市场的中小微「散户」。

于是，2018年，北京超级云计算中心发布了「中国科技云·超算云」，开始了计算商业化的探索征程。

他们以云服务的方式输出超算，注重商业化运营，遵循「随需供应」、「按需扩容」的理念，在两年间占领了一定的超算市场，赢取了客户的信任，在吸引更多中小用户的过程中对A分区进行了扩容与提升，最终在2020年赢得了中国高性能计算机Top100排行榜的第三名。

郭宇表示：「赢得Top3是结果，不是目的。我们打造超算，本心是为了服务客户，获得该荣誉是锦上添花。」

相对于聚焦Top3的排名，郭宇更希望大家看到A分区背后的北京超级云计算中心及其独特的建设模式。

3、关于「计算」模式的新思考

郭宇提出了一个有意思的观点：作为一种「产品」，计算的独特之处在于，在用户购买计算资源时，用户需要的并不是计算资源，而是想要解决问题。就像人们在购买电钻时，他们想要的并不是电钻，而是电钻在墙上钻出的洞。

所以，在市场上推广计算资源时，北京超级云计算中心往往是强调「客户服务」，而不是中心的资源情况。

从A分区来看，我们不难发现，北京超级云计算中心与国家超算中心的模式多有不同：

首先是建设周期。国家超算中心由科技部或地方政府出资，超级计算机的项目申报需要经过层层审批，建设周期一般为3-5年，而A分区由北京超级云计算中心内部「拍板决定」。此外，A分区的建设主要基于市场上已有的技术设备，减少了技术攻关的时间成本。

比如，A分区从2019年年底开始建设，从一个试验性的小集群到面向用户开放，2020年年中扩容，只用了3周便从200个节点扩容到3000个节点。

其次是分布位置。从地图上看，我们不难发现，国家超算中心基本分布在东部城市，而北京超级云计算中心的超算系则主要分布在中西部，尤其是西部。A分区便是分布在宁夏。计算中心是「耗电大户」，从商业运营的角度看，西部的电价明显更低。以北京为例，北京的电价每度为9毛钱，而西部城市只有不到3毛。

在建设A分区的时候，国家还没有发布十四五计划，「碳达峰」与「碳中和」的概念还未兴起。郭宇谈道，从北京超级云计算中心的角度来看，他们在建设A分区时，主要是遵循商业运营的逻辑，而今年「双碳」热点出现后，他们意外地发现，自己的路线竟契合了国家的「双碳」战略。

「西部有风力发电、光伏发电，能源丰富，而且年平均气温比较低，十分适合计算中心的生存，所以我们将西部作为主要的据点。而且超算业务对实时通讯的需求不高，用户更关心的是产品的价格，至于机器是在Ta的本地城市、还是在几千公里以外的西部，他们并不关心。」郭宇解释。

北京超级云计算中心面向通用超算，用户数量大，符合长尾效应。郭宇谈道：「有这些特点的市场，是比较适合用互联网的方式去服务的。一是降低单用户的成本，二是贴身服务。」

所以，无论是计算选址的确定，还是「超算+云服务」的互联网运营模式，都体现了北京超级云计算中心在计算供应中注重灵活与性价比的特点。

从A分区所搭配的CPU来看，也可窥见北京超级云计算中心的商业运营理念：

A分区采用的是AMD在2019年推出的第二代EPYC（霄龙）服务级处理器，代号罗马（Rome），基于7nm工艺，搭载64核心128线程，每一个核心的内存为4GB，在提升核心的同时也提升了时钟速度，加速频率可达3.4GHz。

从计算机的角度来看，计算总共可以分为4种类型：计算密集型、访存密集型、存储密集型（I/O密集型）与网络通信密集型。北京超级云计算中心的主要客户是访存密集型的应用，这决定了A分区的特点是：计算规模不大，成本低。而罗马处理器主频适中，计算性能适中，能耗低，性价比高，显然更有利于商业运营。

郭宇坦言，北京超级云计算中心的目标从来不是打造出像「神威·太湖之光」或「天河二号升级系统」这样各方面性能均衡又出色的超级计算机，而是找到自己的市场定位，为目标用户提供适合他们的超算方案。

根据处理器的类别，北京超级云计算中心的超算分区可以划分为四大系列：

• 基于AMD芯片的A分区与M分区，以及A分区的加强版「A6分区」

• 基于英特尔芯片的T分区与L分区

• 基于国产芯片（如海光x86 CPU）的先导一号

• 基于英伟达芯片的AI智算云，比如N17、N19区

根据不同用户的需求，北京超级云计算中心设立了不同的分区去满足这些需求。比如，荣登2020年中国高性能计算机Top100榜单的A分区便是专门针对计算密集型与访存密集型的用户，存储性能加强的I/O分区专门面向I/O密集型，等等。

「中国科技云·超算云」汇聚了国家超算中心、互联网云计算中心等资源，可以为用户提供定制化的计算服务。同时，他们揭掉了高性能计算的「神秘面纱」，为用户提供运行问题解答、参数配置优化、定制化脚本编写等一系列服务，更有一对一专属微信群、7×24小时人工值守与5分钟快速响应等机制。

4、自主研发离不开计算

近年来，越来越多企业高举「自主研发」的旗帜。与此同时，产品的迭代周期加快。为了快速满足市场的需求，研发人员会越来越多地利用数字化技术进行模拟仿真，其间产生大量数据，对计算的需求也会越来越多。

事实上，从2010年以来，许多企业也陆续建立了计算中心，但他们同样面临建设周期长、内部计算资源协调难、计算排长队的现象。企业一般是基于项目的优先级进行计算资源的分配，但人工协调的效率较低，限制了研发项目的进展。

郭宇认为，随着人们对云计算优势的认识加深，云计算的市场也在不断扩大。在新基建中，「数据中心」对应的便是云计算，云计算是数字化转型的基础。同时，随着「双碳」规划的推进，碳排放指标也将成为自建超算中心发展的限制因素之一。而北京超级云计算中心在分布位置上的先见之明，无疑将在未来的逐鹿上优势渐显。

作为国内第一家成规模的、市场化运营的超算中心，北京超级云计算中心的建设模式，启示了中国超算市场的发展现状：除了国家超算中心，越来越多由地方政府支持、民间创办的超算中心展示了其在推进中国超算发展上的独特优势。

比如，在2020年中国高性能计算机Top100的榜单排名上，除了北京超级云计算中心A分区获得佳绩，内蒙古和林格尔新区的内蒙古高性能计算公共服务平台（青城之光）位居第四。

除了尖端超算与通用超算，中国的超算市场还有一股重要的力：公有云厂商，比如阿里云、华为云与亚马逊云（AWS）。北京超级云计算中心的另一块重要业务——行业超算，便与这股力量有所交织与重叠。

行业超算更注重实际业务，应用规模为单核到几千核不等，超算只是业务中的一环。比方说，在基因测序的过程中，基因测序仪产生大量数据，这时候，如果数据存储在云上，使用云的存储、网络与计算资源等等服务进行基因的测序与分析，那么整个业务流程就会十分顺利。

对于这类业务流程，郭宇自认为，单靠通用超算是很难满足的。从北京超级云计算中心的角度来看，他们会考虑将通用超算与云厂商的云服务资源相结合。除了核心的计算业务，公有云厂商还提供丰富的云服务组件，能更好地解决用户的问题。

「对用户来说，解决问题最重要。至于计算资源来自哪里，他们并不在乎。我们就是要把各种优势的资源组合在一起，满足客户的需求。」郭宇谈道。

从2018年至今，北京超级云计算中心已服务超过15万用户，2019年便开始实现了盈利。

比如，北京超级云计算中心曾支持中科院力学所研究中速磁浮列车的空气动力学外形优化设计。中速磁浮列车气动外形优化研究需要针对一系列优化外形进行数值模拟研究，对计算资源的要求较高，单工况网格量约6000万左右，流场特性研究及外形优化研究中产生的计算工况上百计，单工况并行计算核数约200个。

在这个项目中，北京超级云计算中心提供了可灵活拓展的大量计算节点，保证了多任务的提交计算。最终，他们确定的最优化流线外形，相对于原始外形，头车气动升力系数增加了33.25%，尾车气动升力系数减少了1.78%，整车气动阻力系数减小了4.44%，大幅提升了中速磁浮列车的气动性能。

「从用户的角度看，建设几千核的计算资源，先不说时间，就投资成本来讲，现在的主流服务器，一个节点大概是40核心，如果他用的是5000核的计算资源，那么就需要125个节点，125个节点大概需要投资1000来万，但他们的项目时长只有两个月。」郭宇介绍。

因此，从投入产出比来看，对一些短期的项目来说，直接采购计算资源显然更划算。

5、计算紧跟时代

在郭宇看来，目前国内的超算市场展示了以下三个趋势：

趋势一：国内的企业越发重视自主研发，计算需求增加，同时也越来越愿意接受云计算的模式。

趋势二：国产化的推进加深。在超算体系中，芯片、操作系统、应用等等方面的国产化趋势将越来越明显。

趋势三：计算体系架构正在革新。随着人工智能、加速计算的兴起，以异构计算、加速卡为引导的GPU力量正在崛起。

郭宇谈起，他在2019年去美国参加全球超级计算大会（SC）时，席间与美国高校的老师聊天，得到的讯息便是：「在现在的环境下，如果你没有搞点GPU的加速计算，文章都难发。从学术的角度看，CPU体系已经研究地差不多，下一个重点就是GPU。」

2021年正好是北京超级云计算中心成立的十周年。作为一家商业运营的超算中心，郭宇介绍：「我们肯定会坚定不移地走计算商业化的道路。与此同时，他们也会与时俱进，根据国内超算市场的发展趋势，制定新的发展方针。雷锋网

紧跟学术界的研究趋势，北京超级云计算中心也加大了在GPU计算领域的投入，建设基于GPU加速卡的计算分区。随着人工智能计算的兴起，以及异构计算模式的变化，他们也顺势建立了「AI云·智算云」，以满足部分从事人工智能研究的学者需求。雷锋网

相应地，针对企业的自主研发需求，北京超级云计算中心也逐步推出了一系列面向企业的计算资源，比如针对CAD三维设计和中小规模CAE仿真计算的设计仿真云，支持海量中小企业实现“云上研发”，可以极低成本起步，推动中小企业高速发展，为国家中小企业发展打造坚实云上研发平台。针对超算体系国产化的趋势，他们也建立了基于国产芯片的集群（先导一号），与国产软件厂商合作，通过云化的方式，帮助国产应用更好地触及用户。雷锋网

在郭宇看来，「让计算不排队」不仅是一句口号，更是切实、坚定的实践。

瑞莱智慧完成超3亿元A轮融资，加大AI安全、隐私计算等平台产品研发投入

Thu, 28 Oct 2021 11:11:00 +0800

10月28日，北京瑞莱智慧科技有限公司（简称“瑞莱智慧”）宣布完成超3亿元人民币A轮融资，投资方包括蚂蚁集团、达泰资本、考拉基金等多家机构。

据雷锋网了解，瑞莱智慧于2020年底刚完成数千万美元的Pre-A轮融资，由前海母基金、达泰资本、基石资本投资，老股东卓源资本、松禾资本跟投。

截至目前，瑞莱智慧已完成四轮融资，估值达数十亿人民币。据悉，本轮融资将用于继续加大AI安全、隐私计算等安全可控人工智能基础设施平台产品的研发投入，同时进一步深化战略布局、加强团队建设等，推动规模化场景落地。

瑞莱智慧RealAI是清华大学人工智能研究院于2018年7月发起成立的科技成果转化企业，是全球领先的安全可控人工智能基础设施和解决方案提供商。团队由中国科学院院士、清华大学人工智能研究院名誉院长张钹和清华大学计算机系教授朱军共同担任首席科学家，清华大学计算机系博士田天出任CEO。团队博士占比超30%，累计获得各项知识产权百余项，授权发明专利近五十项。

近年来，人工智能安全治理问题日益引发关注，数据安全、算法伦理、技术合规等话题成为我国人工智能产业的关注焦点。

9月26日，国家新一代人工智能治理专业委员会发布了《新一代人工智能伦理规范》，对算法偏见等技术治理问题予以关注，加之《数据安全法》、《个人信息保护法》于今年9月和11月相继施行，隐私保护和数据安全的重要性被前所未有地强调。政策风向之下，人工智能企业在融资上市阶段也越来越重视数据安全与算法合规等问题。

当前人工智能产业正摆脱“野蛮生长”，逐步进入高质量发展的新阶段，其中“安全可控”成为一项必要的基础能力，解决算法公平透明、安全可靠等瓶颈性难题，保证应用合规、隐私数据安全等成为行业共同关注的方向。

瑞莱智慧自成立之初就聚焦于这一前沿领域，围绕算法可靠、数据可用、应用可控三大方向打造多款AI基础设施平台，平衡AI创新发展与监管治理，为AI产业化开辟了一条全新路径。

在算法方面，瑞莱智慧专注研究AI对抗攻防技术，开发和制定相关基础设施平台和技术标准，推出业内首个针对AI系统的防火墙和杀毒软件产品人工智能安全平台RealSafe，提供模型安全性测评及防御加固的端到端解决方案。

同时联合国家工信安全中心制定我国人脸模型算法安全领域的首个行业标准《信息安全技术人脸比对模型安全技术规范》，参与承担科技部主导的“科技创新2030重大项目”中的人工智能安全国家级平台任务。

在数据方面，瑞莱智慧基于安全多方计算、联邦学习、匿踪查询等技术打造了数据安全共享基础平台隐私保护计算平台RealSecure。区别于市场上众多的隐私计算产品，瑞莱智慧在底层原理和技术架构层面开展了大量工作，主要聚焦于三点：

自主研发联邦AI编译器实现了机器学习和分布式联邦学习生态的统一；
持续优化高效加密算法使性能较业内平均水平提升数十倍；
提供全方位的安全评估验证能力，可细粒度展示执行流图，并将协议与实现解耦合。

在具体案例上，瑞莱智慧于此前公开消息中标中原银行联邦学习项目，标志隐私计算正式从功能论证阶段迈向业务落地闭环。该案例中，一方面通过匿踪查询实现了各家中小银行间的黑名单安全共享，另一方面通过横向联邦帮助银行实现欺诈样本的安全共享与模型共建，帮助银行在数据不出库、客户隐私不泄露的情况下，拓展数据样本规模与维度，提升整体风控水平。

在应用治理领域，针对“AI换脸”等深度伪造技术滥用现象，瑞莱智慧秉承“科技向善”的理念，先后推出深度合成内容检测平台DeepReal与深度合成内容制作平台，前者支持对多种格式与质量的视频和图片进行一键真伪鉴别，检测准确率达业内顶尖水平，后者是一款支持定制化人物面部替换、表情修改等的音视频合成产品，推动深度合成技术在影视、媒体融合等领域的正向应用。

截止目前，瑞莱智慧已经在政务、金融、能源、互联网等领域落地，服务于中国石油、中国电建、国家电网、浦发银行等在内的数十家大型企业机构。2021世界互联网大会期间，瑞莱智慧自主研发的“安全可靠可控的新一代人工智能平台”入选十四项全球领先科技成果之一，作为唯一创业企业与华为、阿里、高通、安谋科技等国内外顶尖科技企业同台。

成立至今，瑞莱智慧在技术、产品、市场等多个维度实现突破，成为c，获得多家顶级投资机构的青睐，这背后不仅是对瑞莱智慧深厚技术底蕴的认可，也是对瑞莱智慧独到的市场前瞻性与快速商业化能力的充分肯定。

蚂蚁集团投资部认为，随着全球人工智能规模化建设和应用加速发展，保证技术“安全、可靠、可信”成为人工智能未来发展最重要的趋势。瑞莱智慧作为最早一批入局者，在贝叶斯理论和AI模型对抗方面研究深入，斩获多项国际竞赛冠军，具有领先的科研成果和独特的先发优势，并在应用端致力于通过人工智能和隐私保护技术来提升用户安全及体验。我们相信，凭借领先的技术、产品和商业创新经验，瑞莱智慧将在未来的产业变革中发挥越来越重要的引领角色，推动人工智能产业新浪潮。

考拉基金合伙人赵山利表示，AI落地中，安全保驾护航已经迫在眉睫。瑞莱智慧团队正是在这样的行业发展契机中，将清华大学人工智能研究院多年一流的技术积累，精准的融入到众多AI落地场景中，通过独特的AI基础设施安全技术，助力国家数字经济健康发展。我们期待瑞莱智慧的技术成果和商业成果，考拉基金也将基于自身优势和理解，助力更多科技成果完成优质商业转化。

达泰资本合伙人姚承表示，2011年以来人工智能迎来蓬勃发展周期，这十年人工智能跨越了科学与应用之间的技术鸿沟，从实验室逐步走向产业。但在享受科技便利的同时，人工智能的潜在风险也被迅速放大。

瑞莱智慧依托清华的深厚技术积淀，适逢其时的在信息安全、数据安全领域开发出市场亟需的解决方案，已经在多个细分场景成为龙头。我们持续看好瑞莱智慧的研发能力和落地能力，也希望达泰在人工智能、大数据领域的生态布局为公司助力，期待团队保持高速增长，引领第三代人工智能的前沿趋势、创新实践和生态融合。

天使投资轮卓源资本创始合伙人兼CEO林海卓博士表示，瑞莱智慧是在人工智能基础设施安全可控层面全球的开创者，我们长期看好瑞莱智慧及清华大学人工智能研究院在该领域的领导地位，相信瑞莱智慧将快速成长，全面引领可解释、可推理、无监督第三代人工智能在全球范围的商业化落地。

逃离 AI 赛道的投资人：做局失利、破局无力

Wed, 27 Oct 2021 14:23:00 +0800

作者 | 杨丽

编辑 | 王亚峰

一、“中国早期的VC圈像巨婴国”

“国内早些时候的风投圈，像是一个巨婴国。”一位退隐江湖的知名投资人任天扬（化名）向雷锋网感慨道。

这个圈子表面风光无限，剥开皮瓤都没熟透：缺少独立思想、模仿抄袭、乱搅行业、长不大……

唯独靠时代红利，赚的盆满钵满。

大家投移动互联网时，盛行的投资逻辑叫押赛道。

何为押赛道？说好听些就是判断出前景不错的方向，投资大量公司，几十个矮子中成一将军，便可把风险对冲掉，还能获得千百倍回报。

“但押赛道说句难听话，不过是看到欧美哪些企业增长迅猛，照猫画虎投几家有着美国企业影子的中国公司，和抄袭无异。”任天扬笑着说。

那时候的投资逻辑，和深度学习的技术原理相似。

设定好目标，采集大量相似样本（项目），加大算力（资金），暴力试错，最后等待一个最优结果出来。

“你说它中间有什么技术含量吗，有是有，但没什么难度，唯一的含量就在调参。在投资上，调参就是做局。”

压赛道式投资，马太效应严重，赢者只有少数人。

直到2016年阿尔法狗出世后，局面大变。

某种程度上讲，AI投融资，应该是国内VC第一次表现得不那么像巨婴的领域。

欧美至今未出现过互联网般成功的AI投资案例。

而国内投资人在没有任何参考坐标的前提下，毅然进入这个领域，掏出全球最多的2000亿去重仓AI。

“往好里想，国内这一批VC不再是巨婴，能勇敢地踏入无人区，并且形成了一套领先世界的AI投资方法论。投资人们也能真正下沉到田地里，去了解传统产业，去学习技术。这非常好。”

“以前的投资人是财务专家、做局专家、运气专家，现在不得不先成为行业专家。”

但坏事是，这次果敢行为背后的试错代价，过于巨大：企业死伤无数、欺骗者无数、投资人和企业之间的矛盾无数……

甚至一度让部分投资合伙人发誓永久性退出人工智能领域。

什么原因？

技术不成熟？产品不落地？赚不了钱？

是，也不全是，上面三个原因只是表象，人人都能以此津津乐道，谈出个所以然。

但背后的本质是“投资人做局”和“创业者破局”的失利。前者在给后者做局，后者觉醒后不断在破前者做的局。

二、受伤的投资人：做了个大局，投了个寂寞

什么是做局？

这个充满东方智慧和神秘色彩的词汇，经常出现在北京创投圈里。

局，简单来说，就是身边各种资源之间相互关联和作用的一个场景。管理学家宁向东曾总结，人只要想做事，就会发现自己处在一个“局”里。

身边包围的所有资源，都跟你有了关系。有些资源支持你，是“正资源”。

有些资源阻拦你，是“负资源”。

人或企业，之所以被困在一个局里，就是拦你的负资源太多，冲不出去。想办法移走负资源，冲出围城，就叫“破局”。

而一个投资人特意给被投企业和其他投资人，部署一定比例的正、负资源，让企业按照自己的意思走，这是“做局”。

破局本质上是改变资源的性质，让负的变成正的。

投资人做的局，看似给企业布了很多正资源，但在企业的真实发展道路上，可能是“负资源”。

投资人做局：不是你想成为什么，而是我想让你成为什么？

早期，一批刚毕业不久的名校AI博士们，凭借良好的学术背景和大好时代，进入到投资人的视线。

在投资人眼中，自己好比是艺术家杜尚。

只要时代发展足够快，他们给一个物品或一个人，赋予一段故事，一个符号，就能成为无价的艺术品。哪怕是一个小便池。

杜尚经典作品《泉》

AI纵使有着无比巨大的市场。

可寻找AI宝藏的路径，没有人知道。每走错一步，都要绕不少弯路。

投资人寻宝的方式依旧沿用了互联网的方法论，形成“低成本复制的规模化”效应。

于是事先预设好目标，根据故事所需的资源，进行资源整合和资源设计，开启做局之路。

“由于只懂技术的年轻创业者，并不懂得如何在AI商业世界行走。所以混迹江湖多年的投资人们，自以为很聪明，把手伸的无比长，主导着公司的战略和节奏。”创业者高松（化名）告诉雷锋网。

最早期，投资人一致认为AI是个高科技产业，围绕技术大牛来做局，是企业破局的关键。

于是把自己投的很大一笔钱，用在招募大牌科学家上，另一部分钱，把有着学术背景的创始人进行包装。

雷锋网《AI冰与火》系列上一篇文章《AI人才越来越不值钱了吗》中详细分析过，AI科学家其实和互联网大厂，有着天然的耦合性。

但在中小企业和传统IT企业，引入AI科学家所带来的组织矛盾隐患，些许时候要比他能解决的实际业务问题的价值更大。

但错误并不在AI科学家身上，而在大部分企业并不具备消化科学家的组织能力。

讲科学家故事的悖论

那个时期的创业者和投资人，都对AI科学家有着过分的期望和神化，默认有他们驻场，任何目标都可实现，毕竟这批科学家已在细分学术领地里完成过其他人无法实现的成果。

但这时候，出现了两个问题。

一是投资人并不能很好的判断，哪些人是优秀科学家。

做局选错主角，后患无穷。

“个别公司引入了三流学者，对外却吹着超一流的牛，全然不知把自己置身于大型打脸现场。而这些不入流的学者在企业吹捧下，会潜移默化地把自己当大师。被同行冷落后，还厚着脸说，我和那帮整天写论文的人有别，我是实干派。”多位学者向雷锋网批评了当下的风气。

不少学者进入工业界后，在高薪资、高话语权、高频吹捧后，变得盲目自大，自我认知障碍。

“有些人完全不知，自己处于一个投资人设计的局里，这个局中，你不过是一个符号，一枚棋子。从公司经营角度讲，多数公司用不着科学家。但有些自大的科学家被捧起来后，又偏偏喜欢刷存在感。高高在上地怼业务部和工程部的高管。自己做不好的事，总认为是业务部给的数据不够，质量不高，配备的人手不行。让公司乌烟瘴气。”

可笑的是，一些所谓的科学家离职后，CEO和投资人才后知后觉反应过来问询圈内人，自己家的科学家到底什么水平。

“还是有那么些企业，在欺世盗名的三流科学家身上栽了跟头的。没栽跟头的企业，做局做的也挺痛苦。”

找到货真价实一流科学家的企业，在庆幸之余，要面临一个难题：怎么用他。

“如果你想让他们帮客户解决实际业务问题，可行性并不高。同时能在学术、工程、产品领域有杰出实战能力的企业科学家，在国内甚至都不超过五个。同样是IEEE Fellow级专家，有些人能拿到三、四千万的年薪，有些几百万，这就是差距。前者真的是凤毛麟角。”一供职于大厂的IEEE Fellow告诉雷锋网。

那怎么办？用于务虚。

只要把明星科学家和明星创业团队的故事讲圆，下一轮会有VC愿意为之买单。

这种手法，在2016年-2018年间效果显著，企业只要把科学家的故事讲好，融资不成问题。

VC尝到甜头后，亲自出马，为所投企业，找FA，约投资人，为下一轮融资画饼造星，同时费尽心思拉拢明星投资人上船。

而被拉拢的明星投资人，也成了局的一部分，能够号召更多人入局。

最后，AI投资成了一场局中局，杠杆撬杠杆，不断循环。

局的尽头还是局。

看不到产品，也不见商业化。

三、创业者冲不破投资人做的局

过高的估值迫使创业者不得不做看似很有想象空间，但又异常形而上的产品和技术，以便支撑下一轮的好故事和高估值。

创业者在不断成长，他们愈发对投资者做的局中局感到不安。

于是想破掉投资者的局，专注真正符合当下商业规律的事情，撸起袖子，挽起裤腿，承接不再高大上的业务，先成外包，成为集成商，去赚些钱。虽很土，收效甚微，但每一步都无比踏实。

当AI创业者真正踏入到局外的土地时，被两股力量挡在了前面。

“一股是投资人，自己辛辛苦苦做的高大上的局，就这么给埋汰了。另一股是行业里的老牌玩家，扎根很深，很难撼动。”一位切身做过局的AI投资人讲述道。

那怎么办，企业祭出两套方法论：一是田忌赛马，二是师夷长技以制夷。

田忌赛马，用自己的长处对别人的短处，拿自己的最短处，成为别人长处的炮灰。

新兴AI公司相比老牌厂商的优势是什么？很多人说是技术。

不全对，而是高成本优势。

很多人不能理解，高成本何时成了优势？

传统IT公司在ToB/G市场的成功，简单来说，就是把“成本三低”做到了极致：

平均人力成本低
运营成本和销售成本低
产量扩大后的边际成本低

大型IT公司之所以能在定制化赛道里存活，很大部分原因在于人效的极致追求，说得不好听，就是用更低的成本，去省出更多的利润空间。

而AI公司的高成本打法，单从获客角度来说，颇有好处。

一套造价昂贵的系统以白菜价出售，客户新鲜感一来，自然会一试。毕竟AI公司们名声响亮，科技感十足，也能提升自己的技术形象。

AI公司的这种手段，早期卓有成效，收获了第一批客户，也成了他们出去吹案例的资本，但现实情况多是饮鸩止渴。

“AI某小龙，曾为了拿下客户，给销售的激励是每谈下一家公安，就给他发一百万的奖金。于是销售们疯狂地推，不管产品是否好用，不管产品单价是否过于便宜，只要能占一个坑，就是成功。”业内人向雷锋网爆料。

像极了互联网的补贴大战手段。

“高昂的人力成本、研发成本、销售成本、运营成本，每一处成本，肉眼可见远高于老牌IT企业。连自身都做不好降本增效，给别人降什么本增什么效？”集成商项目负责人李成告诉雷锋网。

AI公司把互联网的作风带到传统行业，早期也曾让海康这类老牌公司焦虑过。

海康高管曾讲过一句非常经典的话：我们做不了用1块赚100块的生意，但在用1块赚1块的生意上，没有人能做得过我们。

而这一次，以海康为代表的老牌公司，陷入了迷茫。

“这不是不按套路出牌，而是直接乱出牌，这波操作直接把我们这波老IT人给干懵了。”海康一区域销售负责人笑道。

“虽然AI公司体量都不大，但如果十几二十家公司都这么玩，而且有资本势力撑着，说不准行业里能烧出来个滴滴、美团这样的公司。当时我们确实有担忧，也在思考要不要顺着他们的套路一起下水。”

然而就在老牌IT企业，流纠结入不入场的时候，做局的投资人，按捺不住了。

“眼看自己投的钱，大把花在不是他想要的地方上，哪个投资人不着急？”一位有着切身体会的投资人谈道。

投资人原本想做用一块赚一百块的生意，而AI公司做着花三块只收回来一块的买卖。

虽然一块赚一百很难，但至少和买彩票一样，投入可控，还能买个好盼头。

“投资嘛，本身就是一场赌博。”

如果按现在这样高成本的烧，那就是个没有想象空间的无底洞。

“很多投资人反感被投企业做比较重的项目，认为这样走下去顶多能发展成个集成商，虽营收可观，但无法撑起估值，上市非常困难，投资回报率极低。”

所以每当企业的动作有些许变形，投资人们就把手伸入至战略、管理、人事、财务、公关当中，控制企业走向。

两种经营理念的冲突，在2018年左右开始爆发了。

爆发的结果是，那些没有说服投资人的公司，干脆死在路上，成了第一批炮灰。

而说服了投资人的公司，走向更激进的道路：师夷长技以质疑，做大厂最擅长的硬件。

AI企业自知关公面前耍大刀不可取，但走到这一步，不得不做。

以AI四小龙们为例，做硬件有一合理之处，可让硬件更适配算法，提高产品的综合性能，自主可控。

可弊端是，如果硬件只自给自足，产量显然无法做大，生产成本压根降不下来。

何解？于是先生产一大批摄像机，满足自用后，再找经销商和代理商帮他们去销售剩下的摄像机。

“这就属于不合情了，在太岁爷头上动上了土。出来卖要低调，和经销商一起悄悄赚些小钱，大家都睁只眼闭只眼。关键是，你一边卖一边肆无忌惮的喊着要颠覆人家。”一经销商老板吐槽。

“AI公司高调的做法，给我们这些渠道商带来了不少压力，我们的大客户都是老牌头部公司，如果AI公司叫嚣的很大声，会迫使渠道商不得不站队。我们肯定站在大客户这一边，所以只能把AI公司的单子放弃掉。”经销商爆料说，“某小龙至今压着小几亿的货卖不出去，传统产业，讲究个人情世故，大家都容不得高调的人跳出来捣乱。”

AI公司万万没想到，跳出投资人设计的局之后，又跌落至老牌玩家的死局中。

老玩家们趟坑二十几年才扛过来，初出茅庐的创业者显然很难从泥潭从轻松抽离。

而此时，公司内部也在两种局的拉扯中，陷入自己的困局里。

两种局的背后，是这两种经营文化，一种是资本导向的经营逻辑，一种是实打实业务导向的经营逻辑。两者并不兼容。

当两种文化冲突愈发激烈时，派系便会形成，内耗会加重。

这也是引发第二批AI公司死亡的重要原因。

而活着的公司，投资人眼看做了五六年的局，不见开花结果，不得不揠苗助长，把企业推向了似乎更为艰难的IPO之路。

走在十字路口的投资人和创业者，到底该如何达成共识，双双破局？

四、投资人和创业者破局的第一性原理

AI公司的来回拉扯，缘由商业目标的不清晰。

“目标不清晰带来的后果是迈出的步子，分成了两种极端：要么搞浮夸的形而上，只见开花不见果；要么跟风老牌企业曾经验证过的步伐，蜗牛行走。”高松回忆起了那段艰难的创业往事。

两种选择，都有问题。

在《AI商业模式的脱靶、崩塌、救赎》一文中，我们深入分析了未来商业模式的三种范式：

范式一：重定制集成项目实施→ 数字化咨询 → 咨询业务反哺重定制实施 → 与大型客户建立高粘性和系统不可替代性
范式二：重定制集成项目实施 → 进入非标市场的标准市场（AI芯片、自动驾驶） → 形成标准化产品 → 低成本规模化复制
范式三：做AI开源工具，占位国产化高地。

除此之外，人工智能的商业模式路径也可分为四个象限：分别是向下、向上，向前和向后。

向下做重、向上做轻、向前咨询、向后运营

向下，现在90%的AI公司走的模式，即客户需要什么，便提供什么，做高定制的软硬一体解决方案。

这条道路最稳健，虽没什么利润，但营收数字勉强糊口。只不过缺少大的想象空间，30亿市值是第一道天花板。

要突破30亿的天花板，需从定制化的方案中，凝聚抽离出通用的中间件产品。

这条路最需要的就是时间和耐心。SAP花了二十多年才走通，从大客定制，不断剥离，让自己成为一家纯软件企业。为此，在二十多年的标准化过程中，还设计出ABAP低代码语言，并且建立起了战略/IT咨询、集成、部署、数据清洗、运维等第三方合作生态，去让自己的标准化软件，有生态去支撑落地。

标准化的过程，从来没有一蹴而就过，时间和技术的投入，充分且必要。国内的投资人是否能够等待二十年？

向上，进入标准化、可规模化复制的领域，比如芯片、开源框架、小微SaaS等，前两项想象空间很大，但难度颇大，风险指数更高。而创业公司在国内做小微SaaS，短时间内来看是个伪命题，头部厂商顶着投资人压力不得不做大客，能说明第一定问题。

这两条道路，是绝大多数企业布局和VC投资的象限。

而向前和向后，鲜有人问津。

向前，则是数字化咨询，从顶层设计出发，反哺解决方案的实施，这一方向，金融和零售领域已出现了一些吃螃蟹者。当然目前中小企业提供的咨询服务，多数在亏钱。但这里咨询的重点，在于对数字化解决方案实施的反哺，而非咨询本身。

向后，则是当前AI行业缺少运营服务商的角色。好比老牌硬件公司是地产开发商，AI软件企业是装修公司，但现在AI行业唯独缺少第三方物业公司，这一模式，雷锋网将在未来的文章中展开讲述。

咨询和运营服务，既不会过重，也不会太轻，离客户很近，且合规性较高。

尤其当今的环境下，一种模式能否做大，很多时候取决于领域本身合规属性的高低。

过去AI最赚钱的两个方向，其一是安防，其二是数据服务。

前者很好理解，涉及到硬件采买，营收额自然高于所有行业，但没有利润。

第二种则是数据服务，模式最轻且营收可观，通过联合多个三方数据机构，做脱敏数据服务的买卖，以兜售用户信用评分卡、用户标签等形式，获得ROI远高于技术实施带来的收益。

这两种模式有个共同的特征，便是在合规的标准线上游走，一种是隐私信息的使用，另一种是脱敏隐私信息的间接买卖。

随着数据安全法的逐步落实，风险指数高的领域，定时炸弹随时会在部分企业头上引爆。更多内容，可关注雷锋网持续发布的《数据安全隐私计算·五问》和雷锋网在Bilibili上的视频节目。

避开一部分可以预见的高风险，是风险投资的基础。

回到向前咨询和向后运营的模式。

“这两赛道不仅相对安全，而且咨询和运营两赛道跑出新晋独角兽的概率很大。”任天扬也强调到，未来赛道里还会催生出一批押赛道的VC，一家机构同时投资多家竞品企业。

五、“AI投资人要局气，不要鸡贼”

“面对这类鸡贼的VC，创业者要敬而远之。SAP花了二十年才成为了标准化软件公司，人工智能和企业服务都是一条漫长且成功率颇低的道路，需要创与投之间十年如一日互相信任，互相陪伴，相濡以沫，为你带来更多的客户和合作伙伴，而不单纯是财务投资。”

AI领域如同打牌，多数投资人手中都是烂牌。

当投资人没有运气摊到好牌时，能做的只有尽可能地做好局部优化，把自己的烂牌，每一步打得比其他人的烂牌好那么一点点。

AI投资人要局气，也有创业精神和企业家精神。

无论手中有什么牌，都会坚持进行资源调配，在其他牌手都弃牌或没耐心的情况下，坚持把牌打完，哪怕不是第一名，也一定能有自己的位置，获得可观的回报。

如果你是局气的投资者，或想成为这样的投资人，希望我们可以在第二期《AI冰与火系列·五问》中见面，一同为行业提供有价值的信息和投融资服务。

本期《AI冰与火之歌·五问》已正式完结，感谢各位关注。第二期正在筹备中，详情可咨询总策划人王亚峰，微信 wangyafeng123456

最后，12月9日-11日，雷锋网将在深圳承办第六届GAIR全球人工智能与机器人大会。

那些用推荐引擎改变世界的人

Fri, 08 Oct 2021 09:48:00 +0800

总有些人，让我们热泪盈眶。

阿北和王守崑要用推荐引擎改变世界

不知道现在的年轻人还玩不玩豆瓣，他们应该不会知道，豆瓣是最先提出“推荐引擎改变世界”这句口号的公司。

不过，他们对中国头号文艺青年+理想主义者“豆瓣阿北”或许还有印象。

阿北（杨勃）1998年加入发明计算机的IBM做顾问科学家，两年后出来参加了一个Python邮件组，并且从中发掘出积极分子洪强宁。

2005年底，阿北创办豆瓣后，打算将洪强宁拉入伙，于是给他出了一道解BUG的面试题，洪强宁用Python完成后成为豆瓣2号员工。

洪强宁对雷锋网回忆过当日见面的场景：“哈哈，阿北原来是用Java的，但是做豆瓣时他说自己恨死Java了，所以我们豆瓣一开始就用Python。”他后来主动降薪加入豆瓣，做到首席架构师，也是中国早期杰出的Python布道者。

在拿到融资前，整个豆瓣就阿北一个老板带着洪强宁一个正式员工（负责社区管理的Brant当时还是兼职），两人每周在咖啡馆见面一次，聊到深更半夜，然后各自回家干活，直到2006年6月他们才搬到北京798艺术区旁边的办公室里。

网上一直盛传豆瓣得名于公司所在地“豆瓣胡同”，洪强宁却跟雷锋网说，自己只是路过那里，并没待过，只阿北在那里曾短暂居住。

从豆瓣成立第一天起，阿北要解决的问题就是信息过窄，他非常清晰的认识到推荐是一个行之有效的解决方案。

阿北和后来的张一鸣一样，自己动手写了第一版推荐引擎，这也是中文互联网世界的第一个推荐引擎。

单从推荐效果来看，这个推荐引擎其实已经相当厉害。当时豆瓣的主要用户都是热爱读书创作的硬核文青，他们非常需要一个探索发现新书的工具。阿北帮助他们解决了这个需求，所以豆瓣开始风靡博客圈，也因此获得许多流量。

但是从运行效率来看，阿北这个纯Python的推荐引擎也同样渣渣，随着用户的不断涌入，很多时候运行一整天才能算出结果。

不过阿北并不像张一鸣那样为技术不足忧愁，因为他有王守崑这个多年老友相助。

事实上，王守崑当时手里拿着两份offer，一份是世界第一有钱的电商公司亚马逊的，另一份就是世界第一有情怀的豆瓣的，这两份offer需要他做的事都一样——那就是推荐算法。

这并不是一个需要考虑的抉择，因为王守崑义无反顾站到了阿北一边，原因仅仅是豆瓣看起来更有意思。

王守崑老师对雷锋网回忆了刚加入时的工作：“我作为四号员工入职后，头两个月只做了一件事，就是把阿北的纯Python版本改成纯C版本，然后推荐效率就大概提升了十几倍的样子。”

按照王守崑的说法，阿北的版本仍然是非常好的，他认为自己做的主要是优化性能的工作。

同样是2005年，同样出身IBM，同样觉得推荐有意思的徐易容创立了抓虾，他聚拢了30位工程师，抓取了500多个博客和新闻频道的13亿篇文章，他计划将机票、招聘、教育、餐饮通通容纳进自己的抓虾阅读器，他甚至开始评价当时正在创业的师兄李彦宏“也没什么了不起”。

如果用后来移动互联网时代的说法，徐易容想做的抓虾就是主打信息分发的推荐引擎，不过他始终没有真正建立起一个推荐工具，从头到底采用的仍然是传统的关键词规则匹配方法，主要是依靠好的产品体验获取客户。

另外，徐易容的想法太大，做的也太早，抓虾最后抓瞎，只能卖给豆瓣。抓虾虽然没有为豆瓣带来多少技术，却也贡献了不少内容资源。

在此之后，豆瓣开始做一个叫“豆瓣猜”的推荐产品，豆瓣内部将书籍、电影、音乐称为钉子，推荐引擎称为锤子。阿北的任务是带队找钉子，王守崑的任务招人做锤子。

2007年，豆瓣第一个定义并且提出招聘“算法工程师”这个职称。在此之后，广大推荐算法人才终于有了自己独特的岗位。

2007年谷文栋从北京航空航天大学博士毕业，他敲响了王守崑的面试大门，虽然阿北和王守崑都觉得他是少见的推荐人才，但是谷文栋最终决定创业，王守崑没能招纳到谷文栋，只好保持长期联系。

一年后的夏天，国人的目光都集中在奥运盛典上时，谷文栋却醉心于经营自己讨论推荐算法的邮件组和博客，很多推荐技术爱好者都是其忠实粉丝。

又过了一年，谷文栋和还在读博的项亮一起成立面向推荐领域的专业社区ResysChina，并且计划办一场“ResysChina推荐大会”，将大家弄到一处好好聚聚，但是他们连个场地都没有。

这时候，阿北和王守崑对两人伸出了援手。

2009年12月19日，豆瓣支持谷文栋搞起了第一届ResysChina推荐大会，不仅给大家提供点心饮料纪念品，而且贡献王守崑担任主讲人上台演讲，国内推荐技术爱好者纷纷报名。

不久前，谷文栋和雷锋网回忆那天时说：“阿北当时非常激动，他说了好多好多话。”

王守崑上台分享了很多豆瓣猜经验。

迅捷英翔的孙超和刘凯义讲了怎么做推荐产品。

百度的张栋当时正在搭建凤巢系统，有非常丰富的大规模机器学习经验，整段演讲高屋建瓴而且故事性强，每一段话都妙趣横生，将大会推向高潮。

以至于，后来谷文栋再办推荐大会时，又再次找他。

张栋和宿华的意外之旅

张栋是中国搜索引擎界的卧龙凤雏，当前国内能叫得出名字的搜索引擎大多和他有关。

他1976年出生，硕士毕业于中科院，博士毕业于瑞士联邦理工大学和美国麻省理工大学。

2006年底张栋加入谷歌，从事推荐引擎技术的研发。两年后，作为第一个从谷歌加入百度的员工，张栋担任了百度凤巢广告系统架构师，是最早将大规模机器学习核心算法应用在中国互联网产品的先行者。

多年后的一个寒夜，张栋吃完火锅后这样告诉雷锋网：“当前人们提到人工智能，首先想到的是战胜国际象棋大师的 AlpahGo，人脸识别、自动驾驶等。但是我认为，人类迄今最大的人工智能应用就是互联网搜索引擎。”

在张栋眼里，离开百度可能是他做过最错误的选择，从他后来的创业来看，他骨子里仍然有很强的搜索情节。

时间回到2009年，张栋这年不仅在豆瓣的推荐大会上做了分享，而且还干了另一件影响深远的事，他把自己在谷歌的好友宿华拉进了百度。

两个人分工是这样的，张栋擅长算法，所以能够设计算法框架，宿华擅长系统优化和工程，能做很多工程实现。

张栋那时候对宿华评价非常高，每次见到谷文栋，都会忍不住自夸：“卧槽，哥们，我这边有个天才程序员。”

张栋将百度凤巢做起来后，百度收入飙升，净利增165%，这也是百度领先腾讯阿里两家的高光时刻，以后再也没有这样的机会了。

不得不说，谷歌对中国互联网的发展真是影响深远。

从根子上说，张栋在百度凤巢做的大规模矩阵分解，和他前同事王益后来在腾讯广点通做的大规模语义分解，其实大同小异，都是谷歌大规模并行化技术的发展。

谷歌间接给百度和腾讯送来了最强营收算法。

有人说，张栋并没有将算法看得很重，他在第二届ResysChina推荐大会上甚至提出了一个观点，这个观点被人解读为“算法无用论”。

2010年的ResysChina推荐大会是在淘宝举办的。

这里有两个背景：一是当时淘宝事事向亚马逊看齐，亚马逊有个说法——他们35%的交易是推荐驱动的，淘宝自然也开始重视推荐算法；二是当年淘宝双11交易额达到9.36亿的天文数字，这都是靠人工运营做出来的，阿里人很想知道还有没有进步空间。

淘宝赞助谷文栋搞ResysChina大会的目的非常明晰——那就是搜罗推荐人才。

本来，这次推荐大会最受期待的嘉宾是谷文栋请来的以色列人Yehuda Koren，此人在之前的奈非推荐大赛上击败项亮团队，获得全球第一名。

甚至可以这样说，这次大会之所以如此火爆，一半的原因都是Yehuda Koren会出席。

可惜Yehuda Koren这个人表达不行，现场效果一般般，反而是张栋在会上提出的4321模型反响热烈，后来被广泛引用。

黄建军就曾经说过：“推荐系统作为一个整体，包括UE/UI、数据、行业知识和算法，我比较信奉百度张栋的说法。”

王守崑也曾经在知乎里给人家安利张栋的框架。

那么张栋的4321模型是怎样的呢？

公式大抵如此：UI/UE占40% ＞数据占30% ＞知识占20% ＞算法10%。

这个说法提出后，有一段时间内被解释为“算法无用论”，人们诧异于搞出百度凤巢的张栋怎么会提这样的观点。

在雷锋网向张栋求证了4321的说法，张栋说了这么一句话：“推荐引擎大战就好比奥运会百米赛跑，前面90%大家都能跑，剩下10%决定胜负。”

对推荐系统来说，10%算法是更珍贵的，因为这是做推荐系统的第一步，如果没有这个，后面90%的实现问题都没有机会解决。

这里接着说完第二届推荐大会的故事，在这次大会上，阿里的人向谷文栋提了个问题：

“以阿里的体量搞一个推荐引擎，至少需要两三百号人，而且都是价格不菲的顶级工程师，如果再考虑试错成本，这个投入值得吗？毕竟阿里现在双11已经很猛了，真的有必要再搞推荐引擎吗？”

谷文栋正面没有回答，而是反问了阿里的人两个问题：“一、你们相不相信阿里业务还会爆炸增长？二、你们认不认可数据驱动的价值观？”

后来的事情证明了阿里的选择：IBM出来的袁泉被谷文栋鼓动去了阿里，并且受到重用，袁泉开创了淘宝推荐算法。

2013年双11期间，淘宝光是靠推荐引导的交易额就达到56.8亿。

与之相对照的，当当技术总监王洪涛那时候也在搞推荐，可惜李国庆俞渝内乱太严重，公司的技术革新也处在矛盾对立中，于是一步落后步步落后，从此与推荐无缘。

事实上，阿里面临的问题也是现在很多互联网公司面临的问题——大公司在行业已经占据很大份额，是不是还有必要搞推荐这么昂贵的东西？

有些东西虽然正确，但到底值不值得，这真是一件不好抉择的事情。这就好比美国经济已经傲视全球，是不是还有必要搞高铁和特高压输电？

历史进程给大国家、大公司、大人物的机会窗口，其实都是很有限的，抉择甚至大于努力。

参加完推荐大会的张栋，也同样面临着是否留在百度的抉择。

张栋做起凤巢之后，在百度立下大功，也应该获得奖励晋升。

一位凤巢前成员曾经告诉雷锋网，他们当时认为：“张栋做不了百度CTO，做百度的首席科学家还是可以的吧。”

不过，李彦宏显然没有同意这个要求，而是打了个大大的折扣任命他做凤巢的首席科学家。（百度的隐秘故事可以参见科技史新书《沸腾新十年》，加下方小编微信可抢购预售。）

事实上，到这个时候，凤巢团队的人已经不太满意了。毕竟老大上不去，下面的人也很难上的去。

为了安抚凤巢团队，李彦宏特设百度最高奖，既然给不了精神奖励，给些物质补偿还是必要的。

李彦宏将百万美金的奖励颁发给了凤巢团队。

可以这么说，这个奖一开始几乎就是为张栋团队所特设，后期需要奖励别人，就延续了下来。

但是兑现时又出了岔子，张栋后来发现这个奖是分4年兑现的，于是愤而离职，其团队内包括宿华在内的一批牛人也是那时候离开了百度。

2010年谷歌退出中国大陆留下巨大空白市场，百度在国内搜索引擎中一家独大，其他巨头也想来分一杯羹。

周鸿祎在360找来了两个团队来赛马，一支是董毅团队，另一支是张栋团队。

张栋对做搜索引擎可以说是驾轻就熟，而且在算法方面的积累和资源远远超过其他人，几乎是不可战胜的。

董毅是360老将，曾经一手做出360最核心的杀毒技术QVM人工智能引擎，帮助360在极短时间内击败各大国际杀毒巨头。

董毅团队的人后来这样向雷锋网回忆：“我们在搜索方面的经验和能力远远落后于张栋，没人、没钱、没资源，但是董毅这哥们脑袋真特么灵活，他一开始就定下来一条路：不比算法，比想法。”

那“比想法”是怎么做的呢？

董毅当时的搜索团队只有8个人，不可能像张栋那样搞机器学习，但他非常懂杀毒。

他就专门搞了一个程序放在用户电脑上，记录用户搜索日志，用户点击，用户访问了哪些网页，然后把这些数据建成一个大的数据库，并且进行排序，转化成索引。

这样做的效果就是，当用户下次搜索的时候，在没有网址导航的情况下，之前搜的网页会排的最靠前，给用户带去了极佳的用户体验。

360搜索上线一周就超过了搜搜、搜狗，后来最多时占据了国内35%的市场份额。

周鸿祎果断裁掉张栋团队。

不过，张栋团队的成员们也不算倒霉，他们都被张栋推荐给了宿华。

2013年宿华在晨兴资本张斐的介绍下认识人人网出来的程一笑，两人一拍即合，将GIF快手改造成基于推荐的短视频社区。

张栋推荐过来的人，很多都成为了快手的早期员工，所以快手短视频早期才能在推荐算法方面爆发出惊人的战斗力。

张一鸣和杨震原的趣味饭局

2014年，张一鸣打算收购快手，但是宿华太贵，只好转头收购了一家叫图吧的公司。

图吧的创始人是从猫扑出来的，她的名字叫张楠。

张楠之前每天在微博上给女儿写一段话配一张图，因为听闻微博超过3万条就会删除多余微博，于是创业做起了图吧。

图吧会根据用户浏览记录分析用户兴趣，算是有点推荐的影子。

张一鸣后来对雷锋网回忆了决策收购的场景：

“那天我和陈林从图吧公司回来路上，陈林说快手太贵了。那时候快手已经接受了1000万美金投资，如果要收购至少需要几千万美金。我们就讨论说，还是别收快手，收张楠团队吧，让他们进来尝试下这个方向。”

后来大家都知道，张楠成为了抖音的创始人。不过这已经是几年后的事情了，张楠当时完全无法替代宿华，因为字节很长时间的大窘境就是没有好的推荐引擎，抖音崛起有不少的功劳在推荐引擎身上。

从字节创立第一天起，张一鸣就在为找技术负责人这件事发愁。

早年在酷讯时期，张一鸣就常年潜水于ResysChina社区，他是见过高峰的人，所以也渴望高峰，但是公司早期太小，实在难容大佛，以至于张一鸣养成了这样的挖人习惯——即当时没挖成，之后一两年还是给人打电话约吃饭，然后问工作情况。

当时，张一鸣曾经找过亚马逊推荐团队出来的林承仁，想要收掉林承仁的无觅团队（该团队不少亚马逊工程师），不过对方创业兴致正浓被婉言拒绝。一年后，林承仁因为做出现象级产品无秘名声大振，之后就转向陌生人社交赛道，直到多年后才又回到个性化方向，这已是后话。

还有一次，张一鸣好不容易挖来百度技术委员会主席廖若雪负责技术，可惜廖若雪只干了一个月觉得没戏就走人，张一鸣只好又重头开始。

2014年，张一鸣终于请到百度大搜副总监杨震原吃饭，在这次饭局上，张一鸣没有谈技术，而是大谈对产品的理解，他跳出互联网产品的角度，从产业的维度谈起对信息分发的理解。

张一鸣对产品的理解让杨震原佩服的五体投地，他后来私下表示，张一鸣的理解超过了他见过的所有人，所以他才愿意到头条来试一试。

杨震原加入字节，直接带动大量百度人相继加入，其中就包括朱文佳等人。

朱文佳是杨震原一手培养起来的推荐天才，在百度时候已经是架构师，到字节后长期负责算法工作，和项亮一起算是杨震原手下的推荐双璧。

在抖音崛起的过程中，朱文佳就是那个向上的转折点。

2016年末，张楠做起抖音后，经过强运营确实在微博上小火一把，但是之后就陷入了增长瓶颈，而且这时候出现了更大的危机——内容严重同质化，如此长时间下去用户一定会流失。

张一鸣找到杨震原，要求调朱文佳去负责抖音推荐，却遭到了拒绝，因为他此时正支撑着今日头条的DAU和广告营收。

张一鸣从战略的角度看到了抖音的重要性，于是三番五次找杨震原聊天，最后终于将他说服。

朱文佳负责抖音算法后，抖音迅速焕发出强大的生命力，进入用户爆发期。

这里还有一个例子可以旁证推荐引擎对于短视频社区的关键性：

Musically创始人阳陆育曾经告诉雷锋网，抖音和Musically产品上非常相似，但是推荐算法做得内容泛化更好，他如果不把Musically卖给字节，至少还需两年时间才能追的上，那时候肯定已经晚了。

2018年抖音海外版Tik Tok合并Musically，之后三年下载量成世界第一。在产品出海这件事上，字节终于为中国互联网打了一场胜仗。

其他人的故事

时间再次回到2012年，回到谷文栋办的最后一届ResysChina推荐引擎大会上。

这次的大会时Hulu赞助的，会场在清华科技园紫光国际交流中心，地方大很多，本来预备的200人席位远远容纳不下想要参会的观众。

谷文栋不得不在宣传栏里写下“为了保证良好的讨论氛围，优先考虑团队报名”这个要求。

大会的演讲嘉宾非常豪华，谷文栋甚至请到了Facebook核心的华人推荐算法leader石言心。

当时Facebook正是牛气冲天之时，挖了大量谷歌、亚马逊的核心算法人才，准备大举进军推荐领域，对外其实是相当保守的。

站在企业的角度来看，这也完全可以理解，因为当时谷歌和亚马逊等国外巨头也整天盯着Facebook，非常想要知道Facebook的具体执行策略。

石言心在这种情况下能够参加ResysChina推荐引擎大会，并且分享的主题就是“Facebook的推荐系统”，这对于国内推荐人进行前沿探索起到重要作用。

石言心讲完后，其他人也都倾其所有。

百度的刘其文讲了“百度推荐系统的探索过程”，腾讯广点通的王益讲了“推荐系统实践”，Hulu的郑华和项亮也做了分享。

没错，这位项亮正是谷文栋一起创办ResysChina的好友，此时的他已经是Hulu推荐算法负责人。

前文一直在刻意忽略项亮，并不是他不重要，而是因为他作为中国推荐引擎的关键人物，值得重笔讲述。

石言心和项亮正好代表了中国推荐算法的两个阶段：一、跨国大公司中的华人华侨群体将推荐算法带向中国；二、中国自己培养的人才长成后是对外竞争的关键力量。

项亮在推荐引擎圈成名非常早。

早年奈非为了改善电影推荐系统算法，于是悬赏一百万美元办了场推荐大赛，吸引了全世界186个国家的数万支队伍参赛。

当时项亮刚刚从中科大毕业进入中科院自动化所，其导师杨青就大力支持他参赛。

比赛开始后，项亮的模型和当时以色列Yehuda Koren团队的模型在很多重要指标上都不相伯仲，双方都远远领先其他团队。

这时候，以色列团队开始拉拢四个排名靠前的团队搞模型融合，获得了非常好的效果。项亮也反应过来，开始跟其他的团队也进行合作。

这一比赛就比了三年，最终项亮虽然在成绩上和Yehuda Koren团队一样，但因为比对方晚提交了2小时20分钟，排名只能屈居第二。

经此一役，项亮在推荐算法上的能力得到大幅度提升，也成为国内推荐圈子的先锋人物。

在此之后，项亮进入阿北、徐易容、袁泉都曾经供职的IBM实习，并在这里和袁泉一起发过KDD论文。

在第二届ResysChina推荐大会上，项亮见到了CSDN总编刘江，刘江跟项亮说，国外已经有了讲推荐系统的专业书，国内还一本没有，他们图灵出版社希望能出版一本，这相当于在跟项亮约稿。

项亮做完博士论文不久，对这方面的研究还很有热情，于是答应下来，然后就开始写作《推荐系统实践》一书，这一写就写了半年。

在写书期间，项亮进入Hulu郑华手下任职，主要工作就是利用大数据做推荐系统，虽然遇到了Hulu全球副总裁张小沛这个好领导，但是Hulu这种长视频应用，并没有办法充分发挥推荐的作用。

这就来到著名的“借书事件”，这年头条刚创立不久，刚刚起步的张一鸣找正在巅峰的项亮要没出版的《推荐系统实践》书稿，项亮不给他，最后张一鸣只能自己边学边写，搞了个渣渣推荐引擎。

2013年，项亮、郑华跟随张小沛跳槽宜信大数据中心，做出了姨搜和反欺诈图谱；11月，谷文栋加入宜信担任创新中心副总经理；一年后，豆瓣洪强宁也加入宜信。

宜信一时间成为算法人才高地，可惜它仍然没有足够的用户场景释放这些推荐人才的创新力。

2017年项亮离开宜信加入快手，虽然得到了宿华本人的足够重视，但非常不适应快手的企业文化，而且，他当时最想做的视频理解项目也没有发挥空间，所以并没有待多久。

外界对快手有一种推测，宿华带进快手的清华派自视甚高，外部加入的人才往往会遇到非工作的麻烦。快手老员工朱蓝天在内网文章《谈谈快手的病》中也将“派系林立”列为大问题，不知项亮是否受到影响。另一位算法天才盖坤跳到快手还过得不错，其清华出身起了很大作用。与之相近的还有个例子，推荐引擎领域的另一条超级大鱼赵世奇离开百度加入了华为鸿蒙。

张一鸣没有在第一时间知道项亮离职这件事，以至于被快手抢了先机，但他并不打算放过这个机会，于是多次游说项亮，终于将其招至头条，颇有一种历尽坎坷，终归明主的感觉。

项亮归入字节跳动旗下，先是在AILab研究视频理解，之后担任推荐系统的负责人。

近两年字节跳动开始做TO B的火山引擎，最大卖点之一莫过于世界级的推荐系统，其背后的就是项亮。

头条快手之后，几乎所有内容社区都有了推荐这个必选项，知乎周源引入李大海主持内容泛化，小红书毛文超找到郄小虎进行推荐升级，头条产品的创始人黄河出来和李金波做了最右App，陈睿开始用推荐武装B站从二次元社区变成YouTube。

在这篇文章发布前，王守崑老师在电话中跟雷锋网说，建议技术创业者和媒体应该多关注下怎样将推荐技术与隐私保护结合，甚至提到了一个前沿概念“数据税”，即哪家厂商要用用户数据，就要额外付出成本。他自己目前也在和很多学者研究这些问题。

在很多推荐大神看来，推荐引擎的发展至今仍属早期，必然要经历暴露问题的阶段，从业者们只有从伦理规范角度做好管理，只有不断探索如何保护好用户隐私，才是推荐引擎技术长久发展之道。

自1994年中国接入互联网，到2009年之前的十余年里，中国互联网人最成功的创业模式几乎只有一种，那就是将国外（主要是美国）的互联网产品搬到国内，百度之于谷歌，阿里巴巴之于亚马逊，腾讯QQ之于ICQ，新浪微博之于推特，优酷之于YouTube，人人网之于Facebook，无不是如此。

但这并不是因为中国互联网人缺乏创新力，而是我们开眼看世界之时，人家已经有了几十年的发展经历，无论基础设施，还是用户认知，国际互联网生态都更加先进。

摸着美国过河，是那个时期中国草莽创业者肉眼可见的最佳路径，互联网行业也同样如此。

但是，学人者生，似人者死，中国互联网如果一直亦步亦趋，那永远都不会有出头之日，也只能被嘲笑是躲在防火墙后面的抄袭者。

中国互联网人必须得有自己的杀手锏，这把锏可以继承自师父，但必得经过数代人才的精心打磨，才能成为与残酷世界竞争的绝招。

现在看来，这杀手锏的名字就是推荐引擎，今天的中国互联网已经进入了推荐引擎大时代。

如果有一天，中国互联网真正追上乃至超越世界互联网，人们不应该忘记这件事是从哪些人开始的。

是哪位大佬怂恿起3Q大战，是哪个百度人开启字节视频产品线，是什么原因导致腾讯字节纷争，想知道更多互联网传奇人物故事，了解更多BAT隐秘真相，请扫描下方海报二维码，来看互联网科技史新书《沸腾新十年》。

雷锋网雷锋网雷锋网

继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

Thu, 30 Sep 2021 12:02:00 +0800

近年来，世界模型（World Model）在机器人、模拟与强化学习中均取得了出色的研究结果。

2018年，Jürgen Schmidhuber 与 David Ha 首次以无监督的方式训练世界模型，使模型能快速学习环境中的压缩时空表征，再将世界模型中的特征作为智能体的输入，训练出了一个非常压缩与简单的策略来解决模拟2D赛车等任务。

今年2月，Google AI 也用世界模型，在 Atari 游戏中实现了达到人类水平的表现。

但是，相比简单的游戏环境，现实的世界环境要复杂得多。

不久前，在发表于 ICCV 2021 的一篇工作（“Pathdreamer: A World Model for Indoor Navigation”）上，Google AI 团队提出了一个世界模型，叫作“Pathdreamer”，可以仅基于有限的种子观察与原先计划的导航路线，生成一幅智能体“肉眼”不可见的建筑物区域的、360º 高清摄像。

论文链接：https://arxiv.org/pdf/2105.08756.pdf

Google AI的团队将Pathdreamer应用于机器人导航任务中，成功率高达50.4%！仅比ground truth设置低了 8.6%（59%）！

1、什么是世界模型？

世界模型（World Model）首次由 Jürgen Schmidhuber 与 David Ha 在 NeurIPS 2018中提出，主要出发点是打造一个通用强化学习环境的生成神经网络模型，为强化学习技术的落地提供完美的模拟环境。这篇工作入选了当年 NeurIPS 的 oral paper。

论文地址：https://arxiv.org/pdf/1803.10122.pdf

世界模型的灵感来源于心理学上的“心理世界模型”（mental model of the world）。

在人对世界的理解过程中，我们往往是以有限的感官所能感知到的事物为基础，形成一个心理世界模型。我们所做的决定和行动都是基于这个模型。雷锋网

为了处理流经我们日常生活的大量信息，我们的大脑学会了信息的空间域和时域的抽象表示。我们能够观察一个场景并记住其中的抽象描述。雷锋网

图注 / 世界模型示例，源自 Scott McCloud 的《理解漫画》一书

证据还表明，我们在任何时刻所感知的，都是由我们的大脑根据我们的内部心理模型对未来的预测所决定的。雷锋网

心理模型不仅仅是预测未来，而且会根据我们当前的运动行为来预测未来的感官数据。我们能够在这种预测模型上采取行动，并在我们面临危险时表现出快速的行为，而不需要有意识地规划一个行动路线。

以棒球为例，一个棒球运动员只有毫秒级的时间来决定如何挥动球棍，这个时间甚至比视觉信号从眼球传到大脑的时间还要短。对专业运动员来说，这个动作几乎是下意识的，他们的肌肉在正确的时间和地点挥动球棍，与他们内部模型的预测一致。他们可以根据他们对未来的预测迅速采取行动，而不需要有意识地推出可行的击球计划。

在许多强化学习问题中，智能体既需要一个对过去和现在状态的良好描述，还需要一个优秀的模型来预测未来的状态。作为真实世界的一个表征，世界模型采用无监督的方式进行训练，能取得较好的策略。

2018年，当 Jürgen Schmidhuber 与 David Ha 提出世界模型后，他们将世界模型用于解决一个赛车竞速的强化学习任务。

带有预测能力的世界模型可以有效地提取空域与时域特征，再将这些特征应用于控制模型，然后训练一个最小的控制模型来完成连续域控制任务，即赛车。

2、Pathdreamer的诞生

受到 Jürgen Schmidhuber 等人的工作启发，谷歌团队开始将世界模型的研究思想应用在同样是智能体控制的机器人导航任务中，使用世界模型来获取周围环境的信息，使智能体能够在特定的环境中预测自己的行为后果。

图 / 世界模型的工作原理

在了解Pathdreamer之前，我们不妨设想一下：

如果你出去旅游，住进一间完全陌生的民宿，你会如何判断房子的方位？

一般来说，当我们推开大门，我们会知道首先映入眼前的是客厅，然后顺着客厅猜测卧室、厨房、阳台等等空间的方位。

图 / 人的导航习惯是依据眼前所见之物来判断

那么，机器人呢？如果一个机器人来到一个完全陌生的房子里，它会如何导航？

人在判断方位时，善于利用视觉与常识，通过眼前的事物推理出空间的布局，从而找到自己的目标。但是，对于机器人来说，在一个新的建筑里，要利用语义线索与事物的规律分布来定位，并不是一件容易的事。

此前，针对上述问题，Facebook AI 提出了一个算法，叫“DD-PPO”，主要是：通过无模型强化学习（model-free reinforcement learning），以端到端的方式让智能体学习辨认一个空间内的线索、并利用这些线索来完成导航的任务。

但是，这种方式的学习成本高，难以检验，而且泛化难，另一个智能体必须从头开始学习同样的方式、才能掌握依据理解线索来定位的能力。

相比之下，Pathdreamer 模型可以从单一视角合成一幅沉浸式场景图，预测当智能体移动到一个新的视点、或是移动到一个完全看不见的区域（比如角落）时，智能体可能会看到什么。

这不仅可以用于视频编辑、使照片看起来栩栩如生，最重要的是，它还可以将人类环境的知识告诉机器智能体，帮助机器人在现实世界中定位导航。

比如，如果我们给机器人一个任务，让它在一栋陌生的建筑里寻找某个房间或物体，那么它就可以先在世界模型中进行模拟，学习识别物体在空间中可能的位置，减少实际投入后的导航错误。

除了模拟导航以外，机器人在Pathdream等世界模型中训练，还可以增加训练数据的数量。

3、Pathdreamer的工作原理

Pathdreamer 将原来的一个或多个观察序列作为输入，生成通往目标位置的预测路线。预测的路线是事先提供，或由智能体在返回途中接触到的观察迭代更新。输入与预测均包含 RGB、语义分割与深度图像。

在内部，Pathdreamer 使用了 3D 点云来表示环境的表面。云中的点都标了它们的 RGB 颜色值和它们的语义分割类，比如墙壁、椅子或桌子。

要在新的建筑物里预测即将映入眼前的事物，首先要将点云重新投射到新建筑的 2D 图像中、以提供“指导”图像，然后，Pathdreamer 会从中生成逼真的高分辨率 RGB、语义分割和深度。

随着模型的“移动”，点云会积累新的观察结果（要么是真实的，要么是预测的）。使用点云来记忆的一个优势是时序一致性（temporal consistency）——重新访问的区域会以与先前观察一致的方式呈现。

为了将指导图像转换为合理、真实的图像输出，Pathdreamer 分为两个阶段运行：第一阶段，用结构生成器生成分割和深度图像；第二阶段，用图像生成器将分割与深度图像渲染为 RGB 输出。

从概念上讲，就是第一阶段提供了关于场景的合理高级语义表示，第二阶段再将其渲染为逼真的彩色图像。这两个阶段都用到了卷积神经网络（CNN）：

在具有高度不确定性的区域，比如拐角或视线以外的房间，可能会出现许多不同的场景。而Pathdreamer能够生成满足区域高度不确定的多样化结果。

有感于受到纽约大学Rob Fergus与Emily Denton提出的随机视频生成思想，Pathdreamer的结构生成器以噪音变量为条件，该变量表示指导图像中没有捕获的下一个导航位置的随机信息。通过对多个噪音变量进行采样，Pathdreamer可以合成多个不同场景，允许智能体在一条给定的导航路线中对多个合理的结果进行采样。

这些不同的输出不仅反映在第一阶段的输出（语义分割和深度图像）中，还反映在生成的 RGB 图像中。

如下图所示，最左侧的一列指导图像表示智能体先前看到的像素。其中，黑色像素表示智能体原先看不见的区域，对此，Pathdreamer 通过对多个随机噪声向量进行采样，生成了不同的图像输出。在实践中，当智能体在一个环境中定位导航时，它可以通过新的观察结果来生成输出图像。

Pathdreamer 基于来自 Matterport3D 的图像和 3D 环境重建进行训练，并且能够合成逼真的图像与连续的视频序列。由于输出图像具有高分辨率和 360º 无死角的特征，现有的导航机器人可以轻松地将图像转换，以适应机器人配有的相机视野。

4、将Pathdreamer应用于视觉导航任务

他们将 Pathdreamer 应用于视觉与语言导航 (VLN) 任务，其中，机器人必须遵循自然语言的指令定位到真实 3D 环境中的某一个位置。他们使用 Room-to-Room（R2R）数据集进行了一项实验，让指令机器人在模拟多条可能的行走轨迹前进行规划，并根据导航指令对每一条轨迹进行排名，然后选择排名第一的轨迹进行导航。

实验考虑了三种设置：

1）地面实况（ground truth）设置：机器人通过与真实的环境互动（比如移动）来进行规划；

2）基线（Baseline）设置：机器人提前规划，无需与导航图交互、对建筑内的导航路线进行编码，但没有提供任何视觉观察；

3）Pathdreamer 设置：机器人提前规划，无需与导航图交互，且还能接收到Pathdreamer所生成的对应视觉观察。

在Pathdreamer设置中，机器人提前三步（大约6米）规划，导航成功率高达 50.4%，而基线设置的成功率只有 40.6%。这表明，Pathdreamer对现实室内环境中的有用、且可以访问的视觉、空间与语义知识进行了编码。

而在地面实况的设置中，机器人通过移动进行规划，导航成功率达到了 59%。不过，地面实况设置要求机器人花费大量的时间与资源进行多轨迹探索，在现实世界中的代价可能十分高昂。

图注：VLN机器人在三种设置（地面实况、基线与Pathdreamer）中的表现

实验结果表明，类似 Pathdreamer 的世界模型在处理复杂的导航任务中具有出色表现。

参考链接：

1、https://ai.googleblog.com/2021/09/pathdreamer-world-model-for-indoor.html

2、https://ai.facebook.com/blog/near-perfect-point-goal-navigation-from-25-billion-frames-of-experience/

3、https://ai.googleblog.com/2021/04/model-based-rl-for-decentralized-multi.html

4、https://ai.googleblog.com/2020/03/introducing-dreamer-scalable.html

5、https://worldmodels.github.io/

6、https://ai.googleblog.com/2021/02/mastering-atari-with-discrete-world.html

7、https://bair.berkeley.edu/blog/2019/12/12/mbpo/

8、https://blog.csdn.net/hhy_csdn/article/details/88207977

错误率减半需要超过500倍算力！深度学习的未来，光靠烧钱能行吗？

Sun, 26 Sep 2021 18:19:00 +0800

深度学习的诞生，可以追溯到1958年。

那一年，时任康奈尔大学航空实验室研究心理学家与项目工程师的 Frank Rosenblatt 受到大脑神经元互连的启发，设计出了第一个人工神经网络，并将其称为一项"模式识别设备"。

这项设备完成后，被嫁接在庞大的 IBM 704 计算机中，经过50次试验，能够自动区分标志在左边或右边的卡片。这使 Frank Rosenblatt 倍感惊喜，他写道：

"能够创造出一台具有人类品质的机器，一向是科幻小说的热门题材，而我们即将见着这样一台能够感知、并在没有任何人工控制的情况下识别周围环境的机器的诞生。"

图注：感知机的运作原理

不过，与此同时，Frank Rosenblatt 也深知，当时的计算机能力无法满足神经网络的运算需求。在他的开创性工作中，他曾感叹："随着神经网络中的连接数量不断增加……传统数字计算机的负载将会越来越重。"

图注：Frank Rosenblatt。2004年，IEEE特地成立了"IEEE Frank Rosenblatt Award"，以表纪念

所幸，经过数十年的发展，在摩尔定律与其他计算机硬件的改进加持下，计算机的计算能力有了质的飞跃，每秒可执行的计算量增加了1000万倍，人工神经网络才有了进一步发展的空间。得益于计算机的强大算力，神经网络拥有了更多的连接与神经元，也具备了更大的、对复杂现象建模的能力。这时，人工神经网络新增了额外的神经元层，也就是我们熟知的"深度学习"。

如今，深度学习已被广泛应用于语言翻译、预测蛋白质折叠、分析医学扫描与下围棋等任务。神经网络在这些应用中的成功，使深度学习一项默默无名的技术，成为了如今计算机科学领域的领头羊。

但是，今天的神经网络/深度学习似乎又遇到了与数十年前一致的发展瓶颈：计算能力的限制。

近日，IEEE Spectrum 发表了一篇论文，对深度学习的发展未来进行了一番探讨。为什么算力会成为当今深度学习的瓶颈？可能的应对方法是什么？如果实在无法解决计算资源的限制，深度学习应该何去何从？

1、算力：福兮，祸之所倚

深度学习被誉为现代人工智能的主流。早期，人工智能系统是基于规则，应用逻辑与专业知识来推理出结果；接着，人工智能系统是依靠学习来设置可调参数，但参数量通常有限。

今天的神经网络也学习参数值，但这些参数是计算机模型的一部分：如果参数足够大，它们会成为通用的函数逼近器，可以拟合任何类型的数据。这种灵活性使得深度学习能被应用于不同领域。

神经网络的灵活性来源于（研究人员）将众多输入馈送到模型中，然后网络再以多种方式将它们组合起来。这意味着，神经网络的输出是来自于复杂公式的应用，而非简单的公式。也就是说，神经网络的计算量会很大，对计算机的算力要求也极高。

比方说，Noisy Student（一个图像识别系统）在将图像的像素值转换为图像中的物体概率时，它是通过具有 4.8 亿个参数的神经网络来实现。要确定如此大规模参数的值的训练更是让人瞠目结舌：因为这个训练的过程仅用了 120 万张标记的图像。如果联想到高中代数，我们会希望得到更多的等式，而非未知数。但在深度学习方法中，未知数的确定才是解决问题的关键。

深度学习模型是过度参数化的，也就是说，它们的参数量比可用于训练的数据点还要多。一般来说，过度参数也会导致过度拟合，这时，模型不仅仅会学习通用的趋势，还会学习训练数据的随机变幻。为了避免过度拟合，深度学习的方法是将参数随机初始化，然后使用随机梯度下降方法来迭代调整参数集，以更好地拟合数据。实验证明，这个方法能确保已学习的模型具有良好的泛化能力。

深度学习模型的成功在机器翻译中可见一斑。数十年来，人们一直使用计算机软件进行文本翻译，从语言 A 转换为语言 B。早期的机器翻译方法采用的是语言学专家设计的规则。但是，随着一项语言的可用文本数据越来越多，统计方法，比如最大熵、隐马尔可夫模型与条件随机场等方法，也逐渐应用在机器翻译中。

最初，每种方法对不同语言的有效性由数据的可用性和语言的语法特性决定。例如，在翻译乌尔都语、阿拉伯语和马来语等语言时，基于规则的方法要优于统计方法。但现在，所有这些方法都已被深度学习超越。凡是深度学习已触及的领域，几乎都展示了这项机器学习方法的优越性。

一方面，深度学习有很强的灵活性；但另一方面，这种灵活性是基于巨大的计算成本的。

如下图显示，根据已有研究，到2025年，为识别 ImageNet 数据集中的目标物体而设计的最佳深度学习系统的错误水平应该降低到仅 5%：

但是，训练这样一个系统所需的计算资源和能耗却是巨大的，排放的二氧化碳大约与纽约市一个月所产生的二氧化碳一样多：

计算成本的提升，主要有两方面的原因：1）要通过因素 k 来提高性能，至少需要 k 的 2 次方、甚至更多的数据点来训练模型；2）过度参数化现象。一旦考虑到过度参数化的现象，改进模型的总计算成本至少为 k 的 4 次方。这个指数中的小小的“4”非常昂贵：10 倍的改进，就至少需要增加 10,000 倍计算量。

如果要在灵活性与计算需求之间取一个平衡点，请考虑一个这样的场景：你试图通过患者的 X 射线预测 TA 是否患有癌症。进一步假设，只有你在 X 射线中测量 100 个细节（即“变量”或“特征”），你才能找到正确的答案。这时，问题的挑战就变成了：我们无法提前判断哪些变量是重要的，与此同时，我们又要在大量的候选变量中做选择。

基于专家知识的系统在解决这个问题时，是让有放射科与肿瘤学知识背景的人来标明他们认为重要的变量，然后让系统只检查这些变量。而灵活的深度学习方法则是测试尽可能多的变量，然后让系统自行判断哪些变量是重要的，这就需要更多的数据，而且也会产生更高的计算成本。

已经由专家事先确认重要变量的模型能够快速学习最适合这些变量的值，并且只需少量的计算——这也是专家方法（符号主义）早期如此流行的原因。但是，如果专家没有正确标明应包含在模型中的所有变量，模型的学习能力就会停滞。

相比之下，像深度学习这样的灵活模型虽然效率更低，且需要更多的计算来达到专家模型的性能，但通过足够的计算（与数据），灵活模型的表现却可以胜过专家模型。

显然，如果你使用更多的计算能力来构建更大的模型，并使用更多数据训练模型，那么你就可以提升深度学习的性能。但是，这种计算负担会变得多昂贵？成本是否会高到阻碍进展？这些问题仍有待探讨。

2、深度学习的计算消耗

为了更具体地回答这些问题，来自MIT、韩国延世大学与巴西利亚大学的研究团队（以下简称“该团队”）合作，从1000多篇研究深度学习的论文中搜集数据，并就深度学习在图像分类上的应用进行了详细探讨。

论文地址：https://arxiv.org/pdf/2007.05558.pdf

在过去的几年，为了减少图像分类的错误，计算负担也随之增大。比如，2012 年，AlexNet 模型首次展示了在图形处理单元 (GPU) 上训练深度学习系统的能力：仅仅 AlexNet 的训练就使用了两个 GPU、进行了五到六天的训练。到了 2018 年，NASNet-A 将 AlexNet 的错误率降低了一半，但这一性能的提升代价是增加了 1000 多倍的计算。

从理论上讲，为了提升模型的性能，计算机的算力至少要满足模型提升的 4 次方。但实际情况是，算力至少要提升至 9 次方。这 9 次方意味着，要将错误率减半，你可能需要 500 倍以上的计算资源。

这是一个毁灭性的代价。不过，情况也未必那么糟糕：现实与理想的算力需求差距，也许意味着还有未被发现的算法改进能大幅提升深度学习的效率。

该团队指出，摩尔定律和其他硬件的进步极大地提高了芯片的性能。这是否意味着计算需求的升级无关紧要？很不幸，答案是否定的。AlexNet 和 NASNet-A 所使用的计算资源相差了 1000，但只有 6 倍的改进是来自硬件的改进；其余则要依靠更多的处理器，或更长的运行时间，这也就产生了更高的计算成本。

通过估计图像识别的计算成本与性能曲线后，该团队估计了需要多少计算才能在未来达到更出色的性能基准。他们估计的结果是，降低 5% 的错误率需要 10190 亿次浮点运算。

2019年，马萨诸塞大学阿默斯特分校的团队发表了“Energy and Policy Considerations for Deep Learning in NLP”的研究工作，便首次揭示了计算负担背后的经济代价与环境代价，在当时引起了巨大轰动。

论文地址：https://arxiv.org/pdf/1906.02243.pdf

此前，DeepMind也曾披露，在训练下围棋的深度学习系统时花了大约 3500 万美元。Open AI 在训练 GPT-3时，也耗资超过400万美元。后来，DeepMind在设计一个系统来玩星际争霸 2 时，就特地避免尝试多种方法来构建一个重要的组建，因为训练成本实在太高了。

除了科技企业，其他机构也开始将深度学习的计算费用考虑在内。一家大型的欧洲连锁超市最近便放弃了一个基于深度学习的系统。该系统能显着提高超市预测要购买哪些产品的能力，但公司高管放弃了这一尝试，因为他们认为训练和运行系统的成本太高。

面对不断上升的经济和环境成本，深度学习的研究者需要找到一个完美的方法，既能提高性能，又不会导致计算需求激增。否则，深度学习的发展很可能就此止步。

3、现有的解决方法

针对这个问题，深度学习领域的研究学者也在不断努力，希望能解决这个问题。

现有的策略之一，是使用专为高效深度学习计算而设计的处理器。这种方法在过去十年中被广泛使用，因为 CPU 已让位于 GPU，且在某种情况下，CPU 已让位于现场可编程门阵列和为特定应用设计的 IC（包括谷歌的TPU）。

从根本上说，这些方法都牺牲了计算平台的通用性来提高专门处理一类问题的效率。但是，这种专业化也面临着收益递减的问题。因此，要获取长期收益将需要采用完全不同的硬件框架——比如，可能是基于模拟、神经形态、光子或量子系统的硬件。但到目前为止，这些硬件框架都还没有产生太大的影响。

另一种减少计算负担的方法是生成在执行时规模更小的神经网络。这种策略会降低每次的使用成本，但通常会增加训练成本。使用成本与训练成本，哪一个更重要，要取决于具体情况。对于广泛使用的模型，运行成本在投资总额中的占比最高。至于其他模型，例如那些经常需要重新训练的模型，训练成本可能是主要的。在任何一种情况下，总成本都必须大于训练成本。因此，如果训练成本太高，那么总成本也会很高。也就是说，第二种策略（减少神经网络规模）的挑战是：它们并没有充分降低训练成本。

比如，有一种方法是允许训练大规模网络、但代价是在训练过程中会降低复杂性，还有一种方法是训练一个大规模网络、然后"修剪"掉不必要的连接。但是，第二种方法是通过跨多个模型进行优化来找到尽可能高效的架构，也就是所谓的“神经架构搜索”。虽然每一种方法都可以为神经网络的运行带来明显提升，但对训练的作用都不大，不足以解决我们在数据中看到的问题。但是，在大部分情况下，它们都会增加训练的成本。

有一种可以降低训练成本的新兴技术，叫做“元学习”。元学习的观点是系统同时学习各种各样的数据，然后应用于多个领域。比如，元学习不是搭建单独的系统来识别图像中的狗、猫和汽车，而是训练一个系统来识别图像中的所有物体，包括狗、猫和汽车，且可以多次使用。

但是，MIT 的研究科学家 Andrei Barbu 与他的合作者在2019年发表了一项工作（“Objectnet: A large-scale bias-controlled dataset for pushing the limits of object recognition models”），揭示了元学习的难度。他们发现，即使原始数据与应用场景之间存在极小差距，也会严重降低模型（Objectnet）的性能。他们的工作证明，当前的图像识别系统在很大程度上取决于物体是以特定的角度拍摄，还是以特定的姿势拍摄。所以，即使是识别不同姿势拍摄的相同物体，也会导致系统的准确度几乎减半。

UC Berkeley 的副教授 Benjamin Recht 等人在“Do imagenet classifiers generalize to imagenet?”（2019）中也明确地说明了这一点：即使使用专门构建的新数据集来模仿原始训练数据，模型的性能也会下降 10% 以上。如果数据的微小变化会导致性能的大幅下降，那么整个元学习系统所需的数据可能会非常庞大。因此，元学习的前景也暂时未能实现。雷锋网

还有一种也许能摆脱深度学习计算限制的策略是转向其他可能尚未发现或未被重视的机器学习类型。如前所述，基于专家的洞察力所构建的机器学习系统在计算上可以更高效，但如果这些专家无法区分所有影响因素，那么专家模型的性能也无法达到与深度学习系统相同的高度。与此同时，研究人员也在开发神经符号方法与其他技术，以将专家知识、推理与神经网络中的灵活性结合起来。雷锋网

不过，这些努力都仍在进行中。雷锋网

正如 Frank Rosenblatt 在神经网络诞生之初所面临的难题一样，如今，深度学习也受到了可用计算工具的限制。面对计算提升所可能带来的经济和环境负担，我们的出路只有：要么调整深度学习的方式，要么直面深度学习停滞的未来。

相形之下，显然调整深度学习更可取。

如能找到一种方法，使深度学习更高效，或使计算机硬件更强大，那么我们就能继续使用这些灵活性更高的深度学习模型。如果不能突破计算瓶颈，也许我们又要重返符号主义时代，依靠专家知识来确定模型需要学习的内容了。

参考链接：

1、https://spectrum.ieee.org/deep-learning-computational-cost
2、https://news.cornell.edu/stories/2019/09/professors-perceptron-paved-way-ai-60-years-too-soon
3、https://www.yuzeh.com/data/agz-cost.html
4、https://deepmind.com/blog/article/alphastar-mastering-real-time-strategy-game-starcraft-ii
5、https://spectrum.ieee.org/open-ais-powerful-text-generating-tool-is-ready-for-business

结合求解器，清华大学校友、MIT中国博士生开发出第一套提高自动驾驶安全性的感知算法

Sat, 18 Sep 2021 10:47:00 +0800

自动驾驶的落地，离不开一个关键条件：安全。近日，清华大学校友、MIT 在读的中国博士生杨珩与团队合作开发了第一套针对自动驾驶汽车的“可认证的感知”算法，有助于提高下一代自动驾驶汽车的行驶安全。

链接：https://arxiv.org/pdf/2109.03349.pdf

杨珩，2015年本科毕业于清华大学汽车工程专业，硕士就读于麻省理工学院机械工程专业。硕士期间，他主要研究如何改进超声成像系统，以追踪肝纤维化病症。为了做研究，他需要参加一门关于机器人的课程，叫《Underactuated Robotics》，学习如何通过设计算法来控制机器人。这使他爱上了算法设计的研究方向：

“这门课讲到了数学优化，用抽象的公式来模拟世界上几乎所有事物。我在这门课上学会了一个巧妙的方法来解决我的论文问题。计算在优化设计方面的强大表现让我感到惊讶，我很快确定了这是我接下来要探索的方向。”

2017年，杨珩硕士毕业，转读 MIT 博士，目前在 MIT 的信息与决策系统实验室（LIDS）读博，师从 Luca Carlone，主要研究可认证的感知挑战。目前，他已在自动驾驶的可认证感知算法设计上取得了一系列杰出成果。

什么是可认证的感知算法？

当机器人在感知周围环境时，机器人必须使用算法来估计周围环境，并判断自己所处的位置。目前，用于机器人感知的算法都是被设计于快速感知，几乎无法保证机器人是否正确理解了周围的环境。

这也是自动驾驶算法设计的现有缺陷之一，而杨珩与 LIDS 实验室的部分成员要解决的就是这一问题，希望通过设计“经过验证的”算法来确定评估是否正确。

比方说，机器人在进行感知之前，首先捕捉图像，如自动驾驶汽车会拍下正在靠近自己的汽车快照。然后，这张图像会通过神经网络，在图像中生成有关接近汽车的后视镜、车轮、车门等关键点，绘制出线条，以从 2D 汽车图像上检测到的关键点追踪到3D 汽车模型中标记的 3D 关键点。

在这个过程中，杨珩与团队必须解决一个优化问题，将 3D 模型旋转与平移，以使模型与图像上的关键点对齐。这个 3D 模型有助于机器人了解真实世界的环境。

在接受 MIT News 的采访中，杨珩解释：每一条被追踪的线都必须经过分析，以确保它们进行了准确的匹配。由于有许多关键的点可能会被错误匹配（比如，神经网络可能会将镜子识别为门把手），那么这个问题就是“非凸”的，很难解决。

去年，杨珩与团队找到了解决方法，并获得了 ICRA 2020 的机器人视觉最佳论文奖。

论文地址：https://arxiv.org/pdf/1909.08605.pdf

在杨珩的工作中，他将非凸问题转为凸问题，并找到了成功的匹配方法。杨珩称，即使匹配不正确，他们所设计的算法也知道应该如何继续尝试，以找到最佳解决方案，即“全局最小值”。

“如果没有更好的解决方案，（系统）就会给出一个认证。”他指出，这些可认证的算法有巨大的潜在影响，因为像自动驾驶汽车这样的工具必须鲁棒，且值得信赖。“我们的目标是，如果感知系统出现故障，驾驶员可以收到一个警报，快速接管方向盘。”

而杨珩与团队的最新工作采取了通用与可拓展的框架来设计可认证的算法，可以在自动驾驶汽车的行驶过程中进行鲁棒的几何体感知。

这个工作的主要亮点如下：

1）将常见的鲁棒成本（如TLS、最大共识、Geman-McClure、Tukey 双权重等）转化为多项式优化问题（POP）；

2）通过关注 TLS 的成本，他们利用 POP 中的稀疏性，提出了一种比标准 Lasserre 层次结构小得多的稀疏半定规划 (SDP) 松弛，同时保留了准确性；

3）提出 STRIDE（一种将凸 SDP 中的全局下降与非凸 POP 的快速局部搜索相结合的求解器），以前所未有的规模和精度解决了 SDP 松弛问题；

4）评估了所提出的针对六个几何感知问题的框架，包括单次与多次旋转平均、点云和网格配准、绝对姿态估计以及类别级对象姿态和形状估计。

他们的实验表明，虽然还达不到实时，但 STRIDE 在中等规模问题上比现有 SDP 求解器快了 100 倍，而且是目前唯一可以高精度求解具有数十万个约束的大规模 SDP 的求解器。

同时，STRIDE 为现有的快速启发式算法（如 RANSAC 或阶段非凸）提供了一种保护措施，即如果启发式估计是最优的，则证明全局最优。

使模型适应不同的汽车

在将 2D 图像与 3D 模型进行匹配时，一个假设是 3D 模型要与识别的汽车类型相一致。但是，如果图像中的汽车具有机器人从未见过的形状，会发生什么？结局可能无法预料，所以，杨珩需要估计汽车的位置，并重建 3D 模型的形状。雷锋网

他们找到了一个解决方法：通过对原先识别的车辆进行线性组合，使 3D 模型自动变形、以匹配 2D 图像。比方说，该模型可以从奥迪变成现代，因为它已经记录了汽车的实际构造。识别接近车辆的尺寸是防止碰撞的关键。雷锋网

杨珩与团队的这项工作还入围了机器人顶级会议 RSS 的最佳论文奖，杨珩被评为“RSS 先驱”。

链接：https://arxiv.org/pdf/2104.08383.pdf

近两年，杨珩及其团队在自动驾驶可认证感知算法的设计上取得了成系列的研究成果，而算法从实验室走到现实世界，必然要面临许多亟待解决的问题。期待杨珩及其团队接下来的工作！雷锋网

参考链接：https://news.mit.edu/2021/heng-yang-self-driving-cars-0916

意大利数据管理局要求 Facebook 提供关于智能眼镜Ray-Ban Stories的隐私说明

Sun, 12 Sep 2021 18:02:00 +0800

据路透社报道，意大利数据保护机构周五表示，已要求社交媒体巨头 Facebook 就其最新推出的智能眼镜做出说明，以评估该产品是否符合隐私法。

Facebook的这款智能眼镜Ray-Ban Stories于周四推出，与雷朋共同合作开发，佩戴者可以听音乐、接听电话或拍摄照片和短视频，并且还可以通过Facebook 服务中的配套app分享。

这款智能眼镜拥有不同颜色、镜框、镜片的20款设计，配备两个5MP摄像头、一组微型扬声器、一个三麦克风音频阵列、一个优化的高通骁龙处理器和一个电容式触控板等。

为了保证隐私安全，团队表示，当该产品开始录制视频时，会有LED灯亮起以告知周围的人。

而默认情况下，Ray Ban Stories智能眼镜会收集使眼镜正常工作所需的数据，如电池电量不足时提醒你的电池状态、登录Facebook时验证是否电子邮件地址和密码，以及你的WiFi连接等等。用户也可以选择与Facebook分享其他数据，包括拍摄的图像数量或拍摄视频的时间，从而帮助团队优化产品。

同时Ray Ban Stories智能眼镜和Facebook View都是无广告体验，所以用户在使用眼镜或app时不会看到广告。Facebook承诺不会将用户的照片和视频内容用于个性化广告。

最后，Facebook称智能眼镜捕获的照片和视频都经过加密处理，而且眼镜一次只能与一个帐户配对。所以如果用户丢失了Ray Ban Stories智能眼镜，并且有人尝试将其与新手机和Facebook帐户配对，眼镜的任何数据和媒体都将自动删除。

意大利监管机构 Garante 则表示，由于Facebook 的欧洲总部设在爱尔兰，它已呼吁负责监管 Facebook 的爱尔兰数据保护专员要求 Facebook 做出澄清。

意大利当局表示，它希望了解 Facebook 为保护偶尔被拍摄的人（尤其是儿童）而采取的措施、用于匿名收集数据的系统以及连接到眼镜的语音助手的功能。

“我们知道人们对新技术有疑问，因此在推出 Ray-Ban Stories 之前，我们与爱尔兰 DPC 合作，分享了我们如何在眼镜的产品设计和功能中保护隐私，以便让设备所有者和周围的人安心，”Facebook 发言人在一份声明中说。

发言人补充说：“我们将通过爱尔兰 DPC 回答 Garante 提出的问题，我们期待与欧洲监管机构继续合作。”

如何保护隐私安全向来是智能眼镜商用的一大难题。此前，谷歌也曾推出过一款测试版智能眼镜，但由于公众对隐私权安全的担忧，谷歌已暂停了对该款产品的销售。

雷锋网#雷锋网#雷锋网#雷锋网

赋能‘元宇宙’，这些企业强势破圈 | 2021AI 最佳成长榜

Tue, 31 Aug 2021 22:23:00 +0800

近年来5G技术、大型搜索引擎技术、算法、算力逐步提升、VR、AR、移动互联网等基础技术也在不断成熟，并在各行各业发展和应用。如今‘元宇宙’成为科技前沿领域的一个兴奋点，让一众企业前仆后继投身到元宇宙中。

有人说“元宇宙是下一代互联网的形态”。互联网行业在十几年前还是个科技行业，通过不断发展，逐渐通过技术改变了人们生活的方方面面，使得大家的生活变得更加便利。今天‘元宇宙’可能就是包罗万象，改变未来的科技概念。

元宇宙是一个平行于物理世界的虚拟数字世界，通过VR、AR的新一代硬件设备，用户可以登陆进入元宇宙世界，在元宇宙世界建立自己的数字形像，并且沉浸式地在数字世界中生产、生活。而游戏、VR、区块链、边缘计算都可能为成为元宇宙的入口。

要创造一个元宇宙任何单独一家企业是完不成的，只有所有人共同参与进来，一起为元宇宙赋能才有可能在未来真正实现元宇宙的世界。

作为最早一批关注人工智能的行业媒体之一，雷锋网于今年6月重磅启动了第五届「AI最佳成长榜」评选计划。

本次雷锋网「AI 最佳成长榜」最终被提名和申请榜单的公司达671家，涵盖雷锋网此前预设的当下最受关注的13大领域，5个最佳维度。经过专家评审团长达一个月的集中评审，最终评选出65家在在产品能力、技术能力、商用价值，以及未来成长潜力最具代表性的AI企业。

这些企业中，既有锐意进取的创新巨头，也有在各个领域中脱颖而出的超新星。新生时代，它们作为当下AI+行业中走在最前沿的佼佼者，将共同开启新发展浪潮。

其中，在「元宇宙」领域，宸镜科技、MetaApp、LayaBox、Cocos、Roblox成功入选2021年度AI最佳成长榜，并分别获得该领域的最佳产品成长奖、最佳商用成长奖、最佳壁垒成长奖、最佳数智化赋能奖、最佳自主原创技术奖。

最佳产品成长奖：宸镜科技

宸境科技成立于2019年7月，是一家专注于空间智能技术的创业公司，在较短的时间里已经成为“5G+AI+AR”赛道的先锋。

此次宸镜科技荣获「元宇宙」领域2021年度AI最佳成长榜-最佳产品成长奖，离不开其过硬的计算技术，其产品在短短的两年之内快速成长，构建出一个现实叠加虚拟世界的场景，成为虚拟空间场景构建的佼佼者。

目前宸境科技将高精度三维识别与追踪、三维语义分割与理解、实时定位与地图构建、边缘计算等多项核心技术融合，构建了一个和地球1:1比例的3D镜像世界基础架构。

也就是其核心产品MirrorVerse，这是一个多重镜像世界，本质是一个超大型的、可支持超并发的、以真实世界游戏棋盘或社交棋盘为基础的共享型架构。

这一产品不仅能够实现以真实世界为棋盘的超大规模MMO游戏或者社交应用，还能够为智能手机、智能眼镜、智能汽车等核心移动端提供应用。

MirrorVerse 最主要的三大核心技术是智能感知理解、云端系统架构、空间世界云。

智能感知理解，是MirrorVerse的理论基础，主要涉及计算机视觉技术和算法；

云端系统架构，则是驱动信息系统运行的动力来源和润滑剂；

空间世界云，是MirrorVerse构建的实体，它可以连接真实世界和虚拟世界。

值得一提的是，宸境科技目前正在搭建基于MirrorVerse的一体化平台，该平台是基于全球领先的空间智能技术打造的3D现实空间创作平台，为IP方、游戏工作室、独立开发者等创作者提供了一个平台，打造属于他们自己的 “元宇宙”。

未来公司将从“D²I²”四重维度打造镜像宇宙MirrorVerse平台。

第一个维度，建立在真实世界之上、和真实世界1:1的空间智能数字基座 (Digital Foundations)；

第二个维度，用于搭建元宇宙的数字积木 (Digital Bricks)；

第三个维度，人与人、人与NPC、人和NPC与真实环境之间高度融合和交互的数字内容（Interactive Content）；

第四个维度，每个人都能同步接入自由且个性化的沉浸体验 (Immersive Experience)。

宸境科技未来将继续在游戏和社交领域深入耕耘，另一方面将为未来数字化城市空间中的基础设施、公共事务、办公、社交、娱乐、教育等应用场景提供底层支持。

最佳商用成长奖:MetaApp

本次评选MetaApp荣获「元宇宙」领域2021年度AI最佳成长榜-最佳商用成长奖，MetaApp目前估值超过7亿美金，公司获得了SIG、DST等头部基金，成了国内元宇宙赛道融资额最高的案例。

MetaApp是一家成立于2017年的C轮明星创业公司，是中国知名游戏平台，隶属于北京展心展力信息科技有限公司。

MetaApp致力于构建一个属于全年龄的虚拟世界，让人们能够在虚拟世界中体验不同方式的工作、休闲和娱乐。其核心创始团队成员来自耶鲁、清华、中科大少年班，公司目前在规模上已经超450人，随着业务发展，有望在今年扩张到1000人。

旗下产品233乐园是国内最大的游戏平台和社区。233乐园采用独特的移动端虚拟化技术以及基于推荐算法的分发模式，目前已成为国内最大的移动互动游戏消费和创作平台。

目前，MetaApp正在计划赋能中小个人创作者，让创作者基于MetaApp平台和编辑器MetaWorld创造出多样化、有意思的游戏。

MetaWorld编辑器的优势主要可以分为六个：第一，解决了全链路痛点，一站式解决从资源、研发、服务器、获客、数据分析到变现的全链条痛点；第二，低使用门槛，简易上手的编辑器工具及资源库大幅降低门槛，让有想法的人都参与创作；第三，强大流量扶持，强大用户生态流量加持，加上推荐算法驱动带来的公平分配，帮助更多中长尾优势内容脱颖而出；第四，一键发布，创作者无需担忧部署和服务器，支持多端一键发布上线；第五，强大数据后台，上线后小时级用户数据反馈，支持创作者快速分析、迭代、升级；第六，完整的生态优势，成熟的的商业化路径，帮助创作者实现价值变现。

MetaApp通过赋能中小个人创作者，做出更多创意的产品，让普通大众体验，最终形成一个社交和体验的元宇宙领域。

最佳壁垒成长奖：LayaBox

本次评选LayaBox荣获「元宇宙」领域2021年度AI最佳成长榜-最佳壁垒成长奖，作为中国领先的游戏引擎提供商和综合服务商，LayaBox稳扎稳打不断的开拓创新，开发了LayaMe免编程的3D游戏及交互产品的用户创作平台，不仅可以表达生活，还可以用于专业的3D交互开发，可以用于游戏行业、教育行业、营销行业、直播行业等等。

LayaBox于2014年12月成立，是全球最大的3D-WEB引擎提供商。LayaAir拥有80万专业开发，在3D-WEB游戏市场占比超90%。

2018年开始，LayaBox在先进引擎技术和成熟开发者生态基础上，研发全球领先元宇宙—LayaMe。

值得一提的是，其产品LayaMe五大优势，为形成元宇宙生态提供可能。

超低门槛移动端UGC创作：

LayaMe是全球唯⼀⼀个提供移动端UGC游戏创作的产品，LayaMe大大简化了移动端的创作门槛，使得不会编程的用户也能够在短时间内做出⼀个具备可玩性的游戏，将玩游戏和创作融为⼀体。⽤户既是玩家⼜是创作者，同时具备独⽴的身份认证系统。未来平台将形成完备的经济系统。

全平台领先的PGC商业引擎：

LayaBox⾃研的全平台商业引擎LayaAir，是LayaMe坚实的技术基础。LayaAir3.0是⾯向专业开发者的创作⼯具，融合LayaMe积⽊式编程创作，可以为LayaMe提供⾼质量内容。

成熟的专业开发者⽣态：

LayaBox拥有80万开发者，两万的月活量开发者。LayaBox⻓期积累的专业开发者⽣态，能够使其在短时间内以较低的成本丰富LayaMe的PGC内容

独特的⼩游戏社交推⼴模式：

LayaMe独特的⼩游戏形态，可以和⼤平台共同打造元宇宙⽣态，在微信抖音等平台分享裂变，进而便于传播让UGC⽤户更能够得到认同感。

清晰可⾏的发展路径：

该产品区别于游戏盒子，打造高创作自由度的游戏产品，形成创作氛围社区。沉浸式社交，也有专业内容输入，可提高社区内容质量，提升普通玩家游戏体验和消费性。

LayaMe创造了⼀个面向Z时代、完全3D沉浸式的、由玩家⾃⼰通过电脑或⼿机建造的虚拟世界，全新的呈现和交互方式，未来可能会对互联网的社交、游戏、电商、直播、教育、广告等领域是一个颠覆性的改变。

最佳数智化赋能奖：Cocos

本次评选Cocos荣获「元宇宙」领域2021年度AI最佳成长榜-最佳数智化赋能奖，Cocos不仅是一款优秀的开源移动游戏引擎，还致力于为实时渲染的数字交互内容开发者提供先进的技术，和一整套完善的软件解决方案，基于Cocos引擎创作的应用场景涵盖游戏、在线教育、电商展示、数字孪生等领域。

Cocos是雅基软件公司旗下全球知名的互动数字内容开发引擎，是一款全球流行的开源引擎。成立于2011年。

其中最优势的产品莫过于Cocos Creator，它是轻量、易用的跨平台互动数字内容开发引擎。不仅是一款强大的游戏开发工具，还是能满足全方位的开发需求的开源引擎。

Cocos Creator 以内容创作为核心，实现了脚本化、组件化和数据驱动的游戏开发工具。具备了易于上手的内容生产工作流，以及功能强大的开发者工具套件，可用于实现游戏逻辑和高性能游戏效果。为开发者提供了友好的开发环境。

此外还有支持多平台、拥有TypeScrip、支持2D、3D游戏开发等特点。

Cocos Creator 深度支持各大主流平台，游戏可以快速发布到 Web、iOS、Android、Windows、Mac，以及各个小游戏平台，可以最大化游戏产品的可见度和成功概率。同时开发者可以使⽤ TypeScript 来开发游戏，在真机上进⾏快速预览、调试，对已发布的游戏进⾏热更新。支持2D、3D方面的游戏开发，以及基于华为提供的延迟渲染管线，可以为开发者提供高品质的美术创作，提升整体游戏画质。

而且，引擎还提供了图形渲染、GUI、音频、网络、物理、用户输入等丰富的功能，被广泛应用于游戏开发及交互式应用的构建。

Cocos多年来深耕底层技术，提供最专业的产品和服务。Cocos Creator秉承着 Cocos ⼀贯的开源、易上手、高性能和跨平台等产品特性，大大降低了游戏开发和运营成本。这一产品可以应用到游戏、在线教育、数字孪生、车机、XR、loT、UI等方向。

Cocos 目前在全球拥有 140 万的注册开发者，30 万的月活跃开发者，遍布全球超过 203 个国家和地区，覆盖超过11亿玩家设备。未来将继续为移动游戏行业提供先进的技术和服务，让游戏开发者可以更加专注的进行游戏内容创作，并携手行业伙伴深度合作，共建一个开放、务实的移动游戏生态。

最佳自主技术原创奖：Roblox

本次评选Roblox荣获「元宇宙」领域2021年度AI最佳成长榜-最佳自主技术原创奖，作为“元宇宙第一股”的Roblox成功上市，元宇宙概念就铺天盖地而来，Roblox创造性的将元宇宙的概念引入到游戏领域，创造游戏元宇宙新模式，使得人们争相模仿。

罗布乐思是由腾讯与美国 Roblox 共同成立的合资公司，Roblox成立于2004年，在公司创立的第二年，Roblox游戏就开始正式推出，2006年该游戏在PC平台发行。此后经过十余年时间的发展和进步，Roblox终于在今年三月成功上市。

2021年7月13日，由腾讯互动娱乐运营，中国大陆《罗布乐思》全平台开放。

《罗布乐思》是多人在线3D创意社区，通过提供强大的编辑工具和素材，让用户能够尽情创作内容，并在虚拟社区中与伙伴一同体验交流、共同成长。

依靠“元宇宙”概念落地成长为全球最大在线游戏创作平台的Roblox，其优势在于品牌和渗透率，在发达国家Roblox的用户渗透率已经非常高，这种用户渗透率进而让Roblox建立起了比较强的用户社交关系，社交关系是roblox平台的一个强有力壁垒。roblox的成功是毋庸置疑的。

Roblox进入中国后，为了能促进开发者多元化，与高校合作开展选修课，学生可以用Roblox作品申请奖项，Roblox也为学生提供一些就业机会，同时为专业中小开发者团队做一些活动、论坛，帮助他们去海外市场发作品（目前已经有中国开发者开发的作品进入了Roblox全球的前十名）。

罗布乐思为众多开发者提供了一个平台，促进了国内开发者的增长。

在元宇宙的概念里，罗布乐思仍然是一众企业的标杆。

被谷歌开除半年后，米切尔加入初创公司Hugging Face

Wed, 25 Aug 2021 21:12:00 +0800

玛格丽特·米切尔 (Margaret Mitchell) 于 4 月在华盛顿州西雅图市

摄影师：Chona Kasinger/彭博社

雷锋网8月25日消息，谷歌Ethical AI人工智能伦理研究小组前负责人玛格丽特·米切尔(Margaret Mitchell)将加入人工智能创业公司Hugging Face，帮助企业开发确保其算法公平的工具。她因与他人合著的一篇重要论文引起争议而在今年2月被谷歌解雇。

Hugging Face有何吸引力？

Hugging Face 是一家总部位于纽约的聊天机器人初创服务商，专注于NLP技术，拥有大型的开源社区。尤其是在github上开源的自然语言处理，预训练模型库 Transformers，已被下载超过一百万次，github上超过24000个star。Transformers 提供了NLP领域大量state-of-art的预训练语言模型结构的模型和调用框架。

Transformers最早的名字叫做pytorch-pretrained-bert，推出于google BERT之后。顾名思义，它是基于pytorch对BERT的一种实现。pytorch框架上手简单，BERT模型性能卓越，集合了两者优点的pytorch-pretrained-bert吸引了大批的追随者和贡献者。

其后，在社区的努力下，GPT、GPT-2、Transformer-XL、XLNET、XLM等一批模型也被相继引入，整个家族愈发壮大，这个库更名为pytorch-transformers。

2019年6月Tensorflow2的beta版发布，Huggingface实现了TensorFlow 2.0和PyTorch模型之间的深层互操作性，可以在TF2.0/PyTorch框架之间随意迁移模型。之后也发布2.0版本,并更名为 transformers 。到目前为止，transformers 提供了超过100+种语言的，32种预训练语言模型。

Hugging Face维护着一个存储库，人们可以在储存库中共享AI模型并进行合作。这是一个开放源代码平台，目前已经有5000多家机构使用，其中包括谷歌、Facebook、和微软。米切尔计划在10月份启动，并将首先开发一套工具，以确保用于训练人工智能算法的数据集不存在偏见。目前用于“教导”模型如何进行预测或确定的数据集，通常因为原始数据的不完整会导致AI软件在女性、少数群体成员还有老年人中表现不佳。

米切尔和Hugging Face已经建立了关系，因为为了确保模型的公平性，Hugging Face建议工程师和科学家在发布项目时使用米切尔在谷歌开发的名为“Model Cards”的工具来评估人工智能系统，以揭示优缺点。Hugging Face首席执行官兼联合创始人克莱门特·德兰吉（Clement Delangue）表示，放在Hugging Face上的20000个项目中，约有四分之一使用了Model Cards工具。

Hugging Face 在其 50 人的员工中还有几位人工智能伦理专家，但 CEO 德兰格（Delangue ）计划让所有员工对这项工作负责并努力。

德兰格表示：“我们不想建立一个辅助的人工智能伦理团队，而是真正让它成为公司的核心，并确保它真正融入每个人的工作。米切尔不会建立一个由少数人组成，只是偶尔提供咨询的团队。”

米切尔在一次采访中表示，在用软件评估人工智能系统方面，"要用非常严肃和积极的态度去工作。“这对我来说是一个非常好的机会，可以帮助模型构建者更好地理解他们正在构建的模型的危害和风险。”

米切尔在从谷歌离职后表示，她希望在一家规模较小的公司工作，这样可以从一开始就将人工智能伦理纳入在考虑内。她说，在Hugging Face中，“已经有很多基本的道德价值观”。“很明显，我不必强行插手或改进伦理流程。”

米切尔究竟为何被解雇？

米切尔的解雇源于谷歌人工智能伦理研究团队的动荡。去年，谷歌公司就解雇了该团队的另一位联合负责人蒂姆尼特·格布鲁(Timnit Gebru)，原因是她拒绝撤回与米切尔等人共同撰写的一篇论文，这篇文章涉及到对谷歌技术的批评。Gebru离职后，作为团队剩余负责人的米切尔公开强烈批评谷歌及其管理层，指责谷歌未能认真对待对其人工智能产品的问题，以及解雇Gebru的做法，因为Gebru是人工智能研究领域为数不多的杰出黑人女性之一。谷歌则表示， Gebru 已辞职，Mitchell 违反了谷歌的行为准则和安全政策。

谷歌的员工对其处理此事的方式表示愤慨，今年早些时候，对十多名现任和前任员工以及人工智能学术研究人员的采访表明，在两年多的时间里谷歌的人工智能的工作，在处理骚扰、种族主义和性别歧视指控方式上一直陷于争议之中。

提到这篇论文，大致集中攻击了大规模语言模型（如BERT）的消极影响，而BERT模型是谷歌的王牌AI产品之一。

这篇论文名为《On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?》。

据了解，这篇论文基于其他研究人员的工作，参考了128篇学术文献，展示了自然语言处理的发展历史与大型语言模型的四大危害，呼吁对语言模型进行更深入的研究。

这四大危害包括：

1、训练大型AI模型会消耗大量能源；（训练一个BERT模型大约会产生1,438磅二氧化碳，相当于在纽约与旧金山之间的一次往返航班所产生的碳排放量。）

2、大型语言模型是基于大量文本进行训练，无法避免偏见的存在，包括那些涉及种族歧视的、具有性别歧视色彩的与其他虐待性的语言；

3、大型语言模型无法理解语言，但公司由于利益关系会加大这方面的投入，从而带来机会成本；

4、由于大型语言模型非常擅长模仿真实的人类语言，所以很容易被用来欺骗人类。

谷歌在许多基础研究上遥遥领先，这带来了大型语言模型的最新爆炸式增长。如果真的如论文所说大规模语言模型“危害大于利益”，而谷歌解雇一系列人员，那对这件事的态度也就不言而喻了。或许从这个角度就能理解米切尔加入Hugging Face的原因了。

（公众号：雷锋网）雷锋网

参考资料

https://www.bloomberg.com/news/articles/2021-08-24/fired-at-google-after-critical-work-ai-researcher-mitchell-to-join-hugging-face

英伟达 AI 软件新进展，AI Enterprise 全球上市

Tue, 24 Aug 2021 22:32:00 +0800

今年3月，英伟达的AI软件版图增加了一名“新成员”，即面向基础设施的人工智能企业套件—— NVIDIA AI Enterprise。

这套人工智能企业平台由英伟达和 VMware 合作开发，旨在通过提供针对 AI 工作负载优化的端到端的企业平台，帮助各行各业释放AI潜能。

5 个月后的今天，英伟达公布了其 NVIDIA AI Enterprise 最新进展，宣布该套件面向全球上市，可以通过订阅许可的形式获得服务。

基于VMware，易于部署和扩展

据英伟达官方介绍，NVIDIA AI Enterprise 套件包括面向 AI 研究人员、数据科学家和开发人员使用的应用程序、框架和工具。该套件经过英伟达优化和独家认证，可在 VMware vSphere 上运行。

VMware vSphere 和 VMware Tanzu 都是业界领先的虚拟化平台。其中，VMware vSphere 将裸机服务器转换为集中管理的 AI 和机器学习基础架构池，这些池可以根据需求快速调配虚拟机和容器，创建一个灵活高效、有弹性和安全保障的基础架构平台，支持现有的工作负载和下一代应用。

据英伟达介绍，通过使用 NVIDIA AI Enterprise 工具套件，可以加快开发人员构建人工智能和高性能分析的速度，在跨越多个节点的情况下，也能实现接近裸机服务器的性能，以支持大型、复杂的训练和机器学习工作负载。

值得注意的是，VMware vSphere 虚拟化平台已经在全球十万个组织中运行超过7000万个工作负载，也意味着这十万组织都能依赖原有的 VMware vSphere 基础架构，依托 AI Enterprise 进行扩展和简化，实现AI工作负载的高可用性。

“随着AI应用变得日益关键，客户希望能够在其企业基础设施上运行这些应用以实现可控性、可扩展性、安全性和管理。通过在 VMware vSphere 上运行 NVIDIA AI Enterprise，企业能够获得一个经过认证、易于部署和操作的端到端 AI-Ready 企业平台。”VMware 高级副总裁兼云平台业务部总经理 Krish Prasad 说道。

那么，英伟达 AI Enterprise实际应用情况如何？

迄今为止，已经有包括汽车、教育、金融、医疗、制造和技术领域在内的数十家公司使用了 NVIDIA AI Enterprise 服务，以部署和扩展数据科学、对话式AI、计算机视觉和推荐系统等应用。

其中，面向汽车和移动出行市场的对话式 AI 供应商 Cerence 正在运行 AI Enterprise 开发智能车载助手和数字副驾系统；意大利比萨大学也通过 AI Enterprise 开展科学研究。

"通过 NVIDIA AI Enterprise ，我们能够为使用数据分析以及 AI 深度学习和机器学习的研究人员和学生提供进一步支持，同时也使这些应用变得更容易部署和管理。我们的测试表明，英伟达和 VMware 的这些最新合作成果以接近裸机的速度发挥了我们GPU加速的虚拟化基础设施的全部潜力。"比萨大学首席技术官 Maurizio Davini 如此评价道。

就在今天，为了帮助数据科学家团队最高效地运行其AI工作负载，Domino Data Lab 宣布正在使用 NVIDIA AI Enterprise 验证其 Domino Enterprise MLOps 平台，该平台可在主流NVIDIA认证系统上运行。

AI Enterprise，助推第一轮AI浪潮发展

与传统的企业应用程序不同，人工智能应用程序是许多IT部门相对较新的开发。它们依赖于快速发展的、开源的、前沿的代码，并且缺乏经过验证的方法来满足企业规模化生产环境的严格要求。

事实上，人工智能领域只有53%的项目从试验阶段进入生产阶段，人工智能解决方案与现有基础设施集成的复杂性是人工智能落地的三大障碍之一。

在GTC 2021开发者大会上，黄仁勋谈及AI发展的四轮浪潮：

第一轮为重塑计算机开发软件的方式，是所有人切身参与的第一轮革新；

第二轮浪潮来自互联网公司等第一批AI技术采用者，基于大型计算基础设施，具备收集大量训练数据的能力；

第三轮发生在企业和产业的边缘计算，在5G的商用落地过程中，彻底改变全球大型制造业、物流业、农业、医疗健康、金融服务以及运输业；

第四轮浪潮是自动驾驶系统的成熟，几乎所有能够移动的系统都实现自主化。

不难发现，英伟达的AI布局几乎同黄仁勋对AI浪潮的阐述一一对应，每一轮浪潮的重点领域，英伟达都有与之对应的解决方案。

AI Enterprise 作为软件基础设施，正助推第一轮AI浪潮的发展。

目前，可以从NVIDIA全球渠道合作伙伴处获得 AI Enterprise，包括 Atea、Carahsoft、Computacenter、Insight Enterprises、NTT、SoftServe 和SVA System Vertrieb Alexander GmbH。

雷锋网雷锋网雷锋网

对话腾讯优图实验室：我们用AI探星不是为了短期价值

Wed, 14 Jul 2021 11:03:00 +0800

地球自转一圈需要24小时，那么你知道脉冲星（不断发出脉冲信号的中子星）自转一周需要多久吗？

答案是：按秒计算。

即便是目前发现转速“最慢”的脉冲星（编号J0250+5854），它自转一周可能也只需要23秒。而转速快的脉冲星，它可能在你一眨眼的功夫就已经偷偷跑了几十个转了。

因而，我们人类用肉眼是很难直观感受到脉冲星的频率。约定俗成的手段是，利用射电天文望远镜对脉冲星发出的射电信号特征进行提取，然后将这部分特征通过二维空间的方式表达出来。科学家通过对这些数据进行相应的追踪观测，才能够发现脉冲星的痕迹。

但这一切带来的工作量都太大了。

2021世界人工智能大会期间，马化腾宣布了腾讯与国家天文台的合作，双方合作的项目，主要是借助腾讯云的计算、存储能力与腾讯优图实验室AI算法的能力，为中国天眼FAST寻找脉冲星提速。

一家是互联网公司里的实验室，一家是从事基础科研的天文台，如何开启探星业务？

找星星的人

中国科学院国家天文台研究院、FAST首席科学家李菂向雷锋网透露，双方合作期间已经被验证的新脉冲星已经有5颗了。

让人兴奋的数字。

实际上，这场兴奋最初源于1967年和1993年的两次脉冲星观测发现，其意义引发了全世界天文学家对脉冲星探索的强烈热情。

而在中国天眼落成之前，中国的望远镜和中国工作的科学家从来没有发现过新的脉冲星。

2016年9月，全球最大的500米单口径球面射电望远镜FAST落成，也就是我们如今常说的“中国天眼”。

过去几年，仅中国天眼FAST一家就已经观测到近350颗脉冲星，占全球已发现脉冲星总数（近3000颗）的十分之一。

可以说，中国科学家在利用天眼作为天体设备搜寻脉冲星方面，已经具备一定的领先性和成熟经验。

而这一领先性有望被再度提升。

2021年，腾讯优图实验室主动找到李菂老师团队，希望能利用腾讯自身在AI算法、计算资源调度等方面的优势，为航天探星做出一些努力。

经过前期的一系列交流和探索后，双方很快就在春节后正式确立了项目：即利用 AI 帮助中国天眼 FAST 处理每天接收到的庞大数据量，并通过视觉 AI 分析找到脉冲星线索。

李菂老师告诉雷锋网：

“首先，科学家捕捉到的脉冲星发出的射电信号，其实是一个对电磁场的高速采样。通过信号处理和频谱分析，得到的是一个视频流，也就是动态谱。衡量的一个维度是时间，另一个维度是频率。不过，这种频率非常快，通常人眼和人脑是没有办法处理的，实际上包括计算机视觉，如今处理的绝大多数情况是静态的照片。

从70年代脉冲星首次被验证时，大家就在沿用类似的方式，将视频流一段一段截取出来，但截出来的采样量还是太大了。因此，我们需要再做进一步的信息提取，最终会形成各种类型的特征图，给科研工作者进行判断。”

复杂的图像数据

优图实验室在这个过程中做的，其实就是将交给科研工作者判断的特征图，交给机器来处理判断。当然这部分特征图也是经过处理后的适合计算机视觉领域处理的图像数据。

腾讯优图实验室副总经理黄飞跃向雷锋网指出:

“一般来讲不管是人眼还是机器视觉都有可能漏掉（星星）。但首先漏掉了可能我们也没有办法知道；其次我们现在更多关注的是准确率，毕竟要处理的数据量太大了，存量数据都还没有处理完。现在首要是先把容易找的先找到，漏掉一些没有关系，之后再进行进一步的细筛。”

这个过程就好比是粗筛和预处理，利用AI的方式解决掉（如针对缺少标注数据问题，采用了小样本学习、迁移学习方法），然后留下的少部分样本，再经过人工再次比对确认。从整个流程的效率和识别的准确率上都有比较高的提升。

从结果来看，FAST一周产生的数据，大约相当于3000 万张信号图。如果以人工肉眼按照 1 张/秒速度，在不吃不喝不休息的条件下，需要用一年的时间。如果通过 AI 处理，只需要 3 天时间就可以处理 FAST 的 1 个月数据，极大的节省了人工时间成本。

从磨合到共同促进

在与优图实验室合作之前，并不代表天眼FAST没有尝试过与机器学习等交叉学科的探究。

“虽然我们是基础学科，但它与工业界能够做到的技术是息息相关的。实际上，有一小部分关键技术是从基础研究的需求里提出的，这是一个相互促进的过程。”李菂说道。

例如，FAST团队就已经普遍在尝试使用AI技术，FAST团队中的一位研究员，在2014年就已经利用深度学习模型找到了脉冲星。但问题就在于团队一般只能获得到一些公共的工具，他们缺乏的正是具备底层开发的专业研发人员和能力。

而与之磨合的优图实验室其实也不乏有天文爱好者，甚至有研究员此前曾针对天文信号分析做过研究。再后来，团队愈加意识到计算机视觉等AI技术对天文台探星工作的可能性。

在黄飞跃看来，“在腾讯内部有很多的项目是自下而上进行的，很多很小的团队其实是因为兴趣而产生。如果说之前我们解决的是生存问题，现在我们解决的是情怀问题。”

腾讯优图实验室定位于应用与研究两步走：一是在计算机视觉技术的产业落地；二是有更多科研性的探索。出于这样的初衷，实验室内部会不定期挖掘、探索新的方向。

或许，正是因为这样的机缘为双方接下来的合作做了良好铺垫。

实验室也要理解用户

此次大会，我们明显还看到一个信号：优图实验室在AI的规模化方面开始形成自己的节奏。

过去很长一段时间里，互联网大厂的AI实验室更强调对前沿技术的探索，单纯拼科研成果，而不是经济效益。

大会现场，腾讯云副总裁、腾讯优图实验室总经理吴运声宣布推出TI ONE、TI Matrix、TI DataTruth三大AI底层平台，包括算法开发、模型训练、数据标注和数据处理等一系列开发能力。目前腾讯云已经开放超过300项人工智能的能力，超过50个人工智能解决方案。

据腾讯官方介绍，TI ONE提供了一套从数据处理、算法开发、模型训练、模型自动调优到模型在线推理服务、离线批量预测发布的一站式 AI 开发平台；TI Matrix灵活组合多项AI关键能力，打通了AI从模型到业务落地“最后一公里”；TI DataTruth是一款数据标注平台，可提升数据采集和数据标注能力。

从列举的一些案例中，不难发现：从过去的消费互联网领域，到如今工业、金融、传媒等产业互联网领域，都已经有了腾讯优图落地的身影。

在吴运声看来，过去几年腾讯优图在落地产业的改造上更像是“打了一些钉子，这是必要的，但也都是单点，想要形成规模化还是有一定难度的。”

这说明：实验室更加从用户视角开始理解问题。

在会后的媒体对话中，吴运声提到，

“目前技术落地到行业的一个很大挑战就是行业知识的不了解。在过去，很多AI科研人员如果不了解行业，做出来的东西跟行业的需求始终有一个隔阂在。比如我们内部实验室评测的各项指标都很好，但就是很难落地到行业。因此，我们需要跟随行业专家进行非常深入的迭代性交流和技术解决，才能让实验的结果变得真正可用。”

当科研与应用不再冲突

与之相呼应的是，与上述天眼FAST项目的合作，其实是腾讯科技向善的一个标杆案例。

这与我们所在乎的AI助力行业究竟是不是一种矛盾？

吴运声表示，“腾讯做每一件事情不一定都是要考虑短期的经济价值，还要考虑对社会价值的长远影响。实际上，与天文台的交流与合作中，我们也会发现，利用多模态技术解决探星问题是一个比较好的思路。实际上这对我们自身的底层技术得到打磨也会带来良好的影响。”

其实，观察腾讯各大科技实验室近段时间的表现，你会发现：它们开始主动出击，频繁与云业务等各部门联动起来，作为整体解决方案打包出去的同时，也会为了落地要行业、要场景，为了规模化要公有云能力的支撑。

仰望星空，但同时也要脚踏实地。实打实地看到些效果、成果，才是激励这群科研工作者的最强动力。

选超算还是智算？专家：去综合医院还是专科医院

Fri, 25 Jun 2021 20:08:00 +0800

编者按：政府要服务社会公共产业，适合建“综合医院”；企业要服务自身专项需求，适合建“专科医院”。

随着数字经济进入新发展阶段，算力已成为核心资源之一。据有关资料统计，我国各类算力中心总量超过46万个，总面积逾1000万平米，且未来将保持一定概率的增长。

然而，尽管算力这个词在近年来很“火”，但其背后的含义，却很少有人真正了解。“算力”受到关注，但背后的技术领域依然小众、认知门槛高，“如果连算力概念都不了解，那么企业、政府在规划算力中心时难免吃大亏，甚至出大事。”

基于这个问题，AI科技评论与某超算中心主任进行了访谈，在本文中讨论了算力中心建设的要点，并分析该如何正确理解算力，以及厘清该领域经常被误会的地方。

一、对立统一

算力中心有多种，大致可分为数据中心、超算中心、智算中心等，而它们都可以用云的形式来提供服务。

其中数据中心在互联网企业中常用到，用于处理数据密集、通讯密集的事务性任务，比如手机app应用的后台数据数理。超算中心更偏重于科学计算等计算密集型的任务。最后，智算中心则应用于特定的大规模AI任务。

超算和智算之间更容易被混淆，但要区分它们其实也很简单，“我们可以把超算看成综合医院，把智算看成专科医院。”综合医院、专科医院都有其存在的价值，并在动态意义上可以互相转化，由此也暗示超算和智算的对立统一关系。

对立

“很多媒体对算力中心存在许多误解，甚至都算不上是误解，很多时候连基本概念都没有搞清楚。”

近期，某人工智能计算中心宣布建成投运，不少媒体报道指出该智算中心的算力规模达到1000P，“AI算力峰值性能相当于5万台高性能计算机。”

专家表示，媒体这种说法并不专业，就像说飞机飞的比100座山还高。“一座山的高度可能是100米，可能是8848米。一台高性能计算机，可能有10个节点，也可能有10000个节点。”

另外，人们可能会认为，该智能计算中心的算力已经超越了曾获得超算TOP500榜单第一的富岳（537PFLOPS）。

但实际上，超算采用“FLOPS”即每秒浮点运算数为算力单位，而智能计算的算力单位一般会采用“OPS”即每秒操作次数为算力单位，两者是完全不同的度量单位。

此外，智能计算的性能结果（单位OPS）通常是基于半精度及整型运算测试（AI基准）得到的，超算的性能结果（单位FLOPS）则是基于双精度、单精度浮点运算测试（Linpack）得到的。

对于超算和智算之间性能的比较，专家持比较严苛的观点，其表示1000POPS性能可能相当于0 PFLOPS，“这里面涉及到能与不能的问题。具体还要看运算精度，而运算精度最终是影响到可执行的任务类型的。就好比，我们不能说十个牙科诊所相当于一个综合医院。”

计算机的精度类型包括双精度、单精度、半精度以及整数类型等，随着精度减小，其表示的数值范围依次大幅度降低，同时对应硬件能胜任的任务也越来越聚焦到特定领域。

注释：【100P双精度性能超算】和【1000P半精度浮点性能智算】执行任务对比

注释：不同精度可执行任务对比

“在AI推理、AI训练、模拟这个维度上，芯片的应用上限由其底层构造所决定，即使采用软件优化也无法再往上提升。”

此外，有些厂商还会模糊智能计算机的推理性能和训练性能，或者在同为FLOPS单位的情况下，掩盖运算精度细节。“比如近期被媒体广泛宣传的声称达到超算TOP500第五的国外超级计算机，其实更接近于智能计算机，它的性能数值其实也是基于低精度运算得到的。”

统一

由于精度上的限制，使得智能计算机受限为专用算力，一般仅支持单个场景，而无法提供平台性的服务。比如安防领域拥有海量视频，智算中心可以只做一个任务即视频处理，并且做10年乃至20年，它都能表现的很好。“但是，让智算中心去跑需要运行数万不同类型软件的任务，那就是勉为其难了。”

因此，智算中心并不适用于公共服务型的算力中心，而更适用于企业。

超级计算机则是一种通用算力，更加擅长高精度计算，可胜任行星模拟、新材料开发、分子药物设计、基因分析等科学计算任务，以及能源、气象、工程仿真、生物基因、智慧城市等。

当然，超算的胜任任务还包括人工智能，我们可以深入到芯片层面来比较。如果底层芯片采用的是CPU+GPU，那么其既能打造成超算，也可以打造成智算。因为GPU既能做双精度运算，从而通用性很好，可用于科学计算，也可用于AI的模拟、训练、推理。

而如果底层芯片采用的是CPU+专用芯片比如AI芯片，那么其只能打造成智算。因为AI芯片无法做双精度浮点运算，双精度浮点运算大量涉及线性代数方程求解，“自然界的很多问题，包括科学问题、社会问题等，最后都可转化为线性代数方程求解问题。”

尽管总存在某一方向主导的局面，但专家认为，我们仍然应该两者兼顾，不能厚此薄彼。

超算和智算并不是互相排斥的存在，而是对立而统一的关系。也就是说，超算和智算应该作为两条路线分别发展，并在整体上协同，基于不同应用、服务对象建立不同的算力中心。超算相对更适合用于公共算力服务，智算更适合服务定向企业。

二、降本增效

明确了算力中心多样性的整体布局理念之后，接下来要考虑的，自然是在每一条路线上发挥最大效用，即降本增效——提升算力中心的有效性。从方法论上，可以简单总结为“花更少的钱，做更多的事。”

降本

造价越高的算力中心，不代表性能同等地提高。以粤港澳大湾区的两家算力约等的计算中心项目为例，项目A的整体算力为1170POPS，造价约为5亿元；而使用同等精度芯片的项目B整体算力为2000POPS，性能略超前者，造价却达到了惊人的近30亿元。换算下来，两者每亿元算力分别为234POPS、66.7POPS，相差350%。

也就是说，不同的算力中心在性价比上可能差别特别大。算力中心由于市场化不足，政府获得的信息不对称，使得造价不透明，一定程度造成了公共财政资源的浪费。

此外，将性能和任务相匹配，即“因地制宜”，仍然是最省钱的方式。除了上述提到了智算更专用，超算更通用以外，反过来看，不同行业适合的算力中心类型也是不同的，主要基于两个维度，即通用和性能。

比如618、双11等购物节涉及的任务类型非常多，更适合用数据中心来处理；而像气候模拟、药物筛选等定义相对单一的任务则涉及大量的高精度计算，则必须用超级计算机来处理；在互联网大数据、人工智能应用场景下，超级计算机和智能计算机均能胜任。

智能计算机确实在向前发展，但专家再次强调，智能计算机所谓速度和能耗上的优势只是理论上的，而在实际应用中，智能计算机的表现不一定比超级计算机好。这背后的原因，即是“生态”——如何做更多的事。

增效

“由于专用芯片的市场占有率低，生态支持上不如通用芯片那么完善，因此其在实际运行中往往在性能、速度、功耗上不一定能超越通用芯片。智算当前面临的一大困难是生态建设，普及程度还很差。”

专家主要强调的是理论和实践的差距，而媒体宣传中可能瞄准的是另一些层面。生态一般更注重通用性和平台性层面，但最好不要笼统地对任何一种计算类型谈论生态，因为所谓通用性和平台性也是相对的。

“如今很多媒体经常说出诸如‘智算中心生态不行’的话语，这种表述既对，也不对。首先智能计算确实支持的应用很少，因此说它‘生态不行’是可以的。虽然智能计算只能用于特定AI应用，但如果在个别应用上达到一定的通用性，也能构成一种小生态。”

三、求同存异

回顾历史，计算机的发展主要遵循两条路线，即专用和通用，并且这两个趋势经常交替出现。“在某一个时刻，我们可能更追求计算机的多任务即通用性能，直到碰到瓶颈，然后我们就会开始转向另一个方向，即牺牲一定的多样性，而追求某一专项任务的高性能。性能强、效率高、应用广泛（通用）一直是超级计算机的追求，而专用芯片也在不断地尝试拓宽自己的能力边界。”

因此，尽管智算的发展目前尚属幼稚，但正如超算就像综合医院、智算就像专科医院，“超算、智算两者各有其适用的领域，应该求同存异。”

近年来算力这个词不断地被大众所提及，在新基建的大背景下，这体现了社会对算力的真实需求。

“但是，对于从业人员而言，最重要的还是脚踏实地、一步一步地把基础性工作做好，让算力真正成为竞争力和生产力。”

雷锋网雷锋网雷锋网

李晓林：联邦学习渐成生态，知识联邦助力可信AI发展

Wed, 09 Jun 2021 16:10:00 +0800

在6月6日于杭州举办的全球人工智能技术大会可信AI专题论坛上，来自加州大学伯克利的宋晓冬教授（江湖人称“安全教母”）这样描述数据：数据是一种非竞争性（non-competition）的知识。

什么叫“非竞争性”？所谓“非竞争性”，是相对于部分商品具备的“排他性”而言。比如，同一时间与地点内只存在一个充电宝，但用户A与用户B的手机同时没电，两个人都需要充电，那么A与B之间就存在竞争关系。

但在数据层面，如果N个用户都需要各品牌车辆销售信息、平台品类消费总量、视频点击率等等数据，那么他们是可以同时使用的。也正是因为数据的可共享特征，人工智能才得以在现代科技中崭露头角，可以说：没有大数据，就没有深度学习；没有深度学习，就没有火热发展的人工智能。

然而，近几年，随着人们对数据隐私安全的越发重视，加之以2018年《欧盟一般数据保护条例》（即“GDPR”）为代表的各国数据隐私保护政策出炉，数据的获取与使用受到了一定限制。今年4月，欧盟又发布了全球首个针对人工智能技术的监管法规草案，禁止在公共场合使用人脸识别技术。

人脸识别是计算机视觉目前的主要商用方向，欧盟最新监管草案的出台无疑加大了人工智能落地的阻碍。同时，人工智能作为最前沿的技术之一，在医疗、金融、交通等信息数据敏感的重要社会领域中能发挥的作用也会越来越少。

事实上，在人工智能领域，除了以人脸识别为代表的图像感知模型对数据有较大依赖，被称为“通往通用人工智能的必经之路”的强化学习也离不开大数据的支持。强化学习的训练必须包含对数据的反复试错（trial and error），从而找到最优策略，以此来提高机器的决策能力。如果数据无法到位，那么强化学习的进步将受到限制，决策人工智能的实现也会难上加难。

那么，如何能够保证数据隐私不被泄露、又能正常使用数据进行研究呢？学术界与业界进行了多方探索，从同态加密到差分隐私，再到自动多方机器学习技术，最后，能够实现“数据可用不可见”的联邦学习（Federated Learning）技术脱颖而出，成为公认的数据调用“一把手”。

作为一种机器学习模式，联邦学习能够通过AI模型，在保护数据贡献方的原始隐私数据的前提下，协作完成特定的机器学习任务。

在早期，国内将“Federated Learning”翻译为“联合学习”，后来又改为“联邦学习”，因为如果用户是个人，确实是把他们的模型「联合」起来学习；而如果用户是企业、银行、医院等大数据拥有者，这种技术则更像是将诸多「城邦」结合起来，「联邦」一词会更为准确。

来自同盾科技的李晓林教授是国内最早推动联邦学习的学者之一。李晓林教授是同盾科技合伙人、人工智能研究院的院长。曾任美国佛罗里达大学终身正教授、计算机工程部主任，作为创始中心主任，牵头创立了美国首个国家级深度学习中心NSFCBL（佛罗里达大学、卡内基梅隆大学、俄勒冈大学、密苏里大学四校联盟），主要研究方向包括机器学习/深度学习、智能平台、云计算、安全与隐私等等。

在联邦学习的基础上，李晓林教授提出了“知识联邦”的理论框架，包括信息层、模型层、认知层和知识层，首次将认知和知识引入隐私计算范畴，目标是实现下一代可信、可解释、可推理、可决策的人工智能。为了提升深度学习模型的可解释性，研究者在知识图谱、因果推理等方向进行了深入研究，推敲数据的真实性、区分数据与事实的关联性是因果解释中的重要一环。

据悉，同盾科技还于2020年牵头成立了知识联邦产学研联盟（AKF），联合浙江大学、中科院医学所、复旦大学、哈尔滨工业大学、华东师范大学、百度大数据实验室、360集团、平安科技、明略科技等众多学界、业界单位组成。促进相关主体之间的交流和深度合作，促进知识共享和供需对接，形成优势互补，有效推进知识联邦学术理论、工程技术、标准化、产业链快速发展，联手各方力量共同构建知识联邦优质生态，切实解决企业、高校、研究机构的现实问题。

以下是AI科技评论对李晓林教授进行采访的内容整理：

1、与联邦学习相比，“知识联邦”进行了哪些拓展？为什么要加入“认知层”与“知识层”？

联邦学习是知识联邦的一个子集，专注于数据分布的联合建模。知识联邦关注的是安全的、数据到知识的“全生命周期”的知识创造、管理和使用及其监管，支持智能决策，致力于推动下一代人工智能，而不仅仅是一个安全的联合建模。

2、与联邦学习相比，知识联邦的优势体现在哪些方面？实现知识联邦需要突破哪些困难？

与联邦学习相比，知识联邦一个重要的技术前提是数据的知识化，将数据转化成为模型策略知识，再对分散的知识聚合。我们希望通过知识融合或推理，让知识在知识网络中自由流动，挖掘出更全面、更有价值的知识，实现智能决策。

而知识驱动的联邦技术则是在数据联邦的理念上进一步升华。从定义上来说知识联邦是一个更为宏观的理论体系和技术框架，将数据、信息、知识、智慧纳入到一种金字塔形的层次体系。雷锋网

如何确立一个可信的第三方，充当合格的协调者和监管者；如何保证智邦平台中数据提供者的公平性，如何解决恶意参与者的问题，怎么完善各参与方的激励方式，激发各方的积极性和配合度，以及如何让参与各方均无条件认可平台的安全性等问题，都是在未来需要我们克服的问题。

3、“知识可创可共享”，怎么理解这句话呢？

举个例子，在个人信用风险评估时，可能会需要个人的收入情况、消费能力、贷款情况以及其它信息，而这些信息可能分布在不同的机构中。如果我们想得到信用风险评估这个知识，就需要联合相关机构参与任务，建立相应的任务联盟。尤其是那些中小微企业，自由数据量少，需要借助外部数据才能开展业务，通过联邦平台建立小范围的任务联盟就可以有效解决这个难题。雷锋网

这个过程中，既实现了“新”知识的创建，又实现了知识的共享，更重要的是缺乏数据的中小微企业也能从中分享到属于自己的知识。雷锋网

从技术角度看，这个过程是怎么实现的呢？在知识联邦框架中，一旦初始知识以某种方式构建并保存在知识库中，联邦将进入一个更高层次的阶段，即知识级联盟，多个知识库中的初始知识将进一步协作并演化为更重要的知识。为了保证知识能够在不同的知识源之间方便地流动，首先要通过连接所有代表独立知识库的知识节点来构建知识网络。简单地说，知识层联邦实际上是希望通过知识融合或推理，让知识在知识网络中自由流动，挖掘出更全面、更有价值的知识，这对管理者或管理者做出正确决策有很大帮助。

4、关于“知识联邦”的研究，学术界与工业界的发展现状与趋势如何？

虽然目前还没有完备的理论突破来实现AI 3.0，学术界和工业界也没有统一的看法，但是可信AI的理论已逐渐成为全球学术界、产业界共识，我们可以明显看到当前越来越多的企业和学术研究机构聚焦到这个领域。

我们观察到人工智能各个阶段的飞跃间隔大约30年。我们目前所处的时代AI已拥有强大的感知能力，以深度学习和强化学习为代表，AI获得了及其广泛的应用和社会影响力，我认为在下一代AI时代，知识和智能决策将成为核心，知识联邦一定会扮演重要角色。

5、您能否介绍一下知识联邦如何促进可信AI生态系统的发展？

首先是，冲破数据孤岛，知识联邦用“小数据”实现“大智能”当前大背景下，数据孤岛是制约AI发展的重要阻碍，公司内部和子公司的部门之间存在很多数据壁垒。不同机构之间的壁垒问题更甚。消除各行业的数据孤岛，创新模式让数据协作是未来的趋势，而在此之间，知识联邦可以发挥重要作用。

其次是，知识联邦不是一种单一的技术方法，是一套理论框架体系，是人工智能、大数据、密码学等几个领域交叉融合的产物，使其可以以更合规的方式来打破数据孤岛，在利用数据的同时，做到保护数据隐私。

知识联邦的目标就是打造数据安全的人工智能生态，通过数据安全交换协议来有效利用多方的数据，进行知识共创、共享和推理，实现数据可用不可见。

6、您如何理解可信AI生态系统对于人工智能发展的意义？对于以深度学习为基础的人工智能发展逻辑会带来哪些新的变化？

随着日新月异的飞速发展，人工智能的不可解释、存在攻击漏洞等安全问题正日益对法律、伦理、社会等方面不断提出挑战。在此背景下,“可信AI”的理念逐渐成为全球共识，成为未来人工智能产业健康发展的必由之路。从这个意义上将，人工智能发展到当今阶段，可信AI生态系统的出现是必然的。

发展逻辑上，可信AI 将可实现储备更多知识，并且能够做出更加复杂、自主化的智能决策，这也对“数据使用”提出了更高的要求。

百度飞桨三大全新发布与升级，推动AI工业大生产|WAVE SUMMIT 2021

Thu, 20 May 2021 22:19:00 +0800

5月20日，由深度学习技术及应用国家工程实验室与百度联合主办的WAVE SUMMIT 2021深度学习开发者峰会在北京召开。

百度首席技术官、深度学习技术及应用国家工程实验室主任王海峰在峰会上致辞。王海峰透露，飞桨已凝聚320万开发者，相比1年前增长近70%；服务的企事业单位达到12万家。

王海峰也分享了在现阶段关于人工智能技术和产业发展的两点思考：

一是融合创新。从技术的角度，知识与深度学习相结合，突破了知识增强的深度语义理解；多技术融合创新，通过知识图谱关联跨模态信息，用自然语言语义表示融合语言、语音、视觉等不同模态的语义空间，突破跨模态语义理解。

从平台的角度，深度学习平台与芯片软硬一体融合创新，满足不同算力、功耗、时延等的多样化需求，取得AI应用的最佳效果。飞桨针对多种芯片并存的环境，研制了异构参数服务器训练技术，突破了超大模型的高效训练难题。目前，飞桨已经和22家国内外硬件厂商开展适配和联合优化，硬件生态蓬勃发展。

从产业的角度，人工智能技术越来越深入与产业融合，以产业需求为牵引，持续打磨AI技术及平台能力，与应用场景融合创新发展。

二是降低门槛，随着人工智能技术在各行业的渗透，面向不同应用场景，高效满足不同的开发者需求，持续降低门槛非常关键。飞桨是源于产业实践的深度学习开源开放平台，一直致力于降低门槛，既有支持动静统一的核心框架，也有产业级模型库、开发套件和工具组件，以及提升企业生产效率的飞桨企业版等，满足不同行业、不同阶段、不同层次开发者的需要。

基于飞桨平台，320万开发者不再需要从头编写人工智能的算法代码，即可高效进行技术创新和业务拓展。门槛的大幅降低，加快了人工智能应用的多样化和规模化，加快了产业智能化进程。

本届峰会上，百度解析了融合创新趋势下的AI工业大生产实现路径，企业在应用AI过程中，起步于AI先行者探路，在完成模型验证、产生效益后促使企业组建AI团队，进入AI工作坊应用阶段，当企业内大量研发AI应用，多人多任务协同展开AI生产时，即进入AI工业大生产。

飞桨团队详细解读了飞桨深度学习平台的全新发布和重要升级，包括：飞桨最新开源框架，开发更加灵活便捷；大规模图检索引擎，支持万亿边的分布式图存储与检索；文心ERNIE预训练模型，进一步在知识增强的语义理解、跨模态语义理解等方面取得突破，为开发者赋能，以及推理部署导航图，助力开发者打通AI应用的“最后一公里”等等。

同时，飞桨联合学术界和产业界，共同开启飞桨大航海计划，助力AI人才培养、产业智能化升级和前沿探索。此外，飞桨的合作伙伴分享了应用飞桨的产业创新实践、人才联合培养计划等。

飞桨持续引领深度学习技术发展和科技融合创新，同时不断降低应用门槛，加速AI工业大生产，推动产业智能化进程。

雷锋网雷锋网雷锋网

爱拼才会赢 | 陈磊：一个“让更多人赢”的IOI金牌得主

Thu, 29 Apr 2021 14:23:00 +0800

没有一位竞技选手不享受赛场：强者在前的压力感与争分夺秒的紧迫感交织，使出毕生之所学，招数散尽，在偶然性的赛事中争取结果的必然，与时间赛跑，与运气叫嚣。

福州青年陈磊也不例外。

1996年，当时正在福建师大附中就读高二的陈磊凭借出色的编程能力，与四川成都七中的王小川、南京金陵中学的李申杰与东北育才学校的王益进组成中国队，一同出征在匈牙利举办的第8届国际信息学奥林匹克竞赛（IOI），以并列第4名的成绩获得金牌。

团队中的其他3人，也分别以第2名、并列18名的成绩获得金牌。这是IOI自1989年开赛以来，我国代表队首次实现全“金”的捷报，团队总分全球第一。包括陈磊在内的4人均顺利保送清华，但除了后来担任搜狗CEO的王小川仍为大众熟识，其余3人均在竞赛落幕后淡出。

直到去年7月，拼多多的创始人黄峥卸任CEO，陈磊接任，并于今年3月出任董事长，这位昔日的IOI国家队选手才重新回到大众的视野。此前很长一段时间，人们一直以为当年与王小川一起参加IOI、并捧回金牌的少年，是迅雷集团的原CEO（同名）。而陈磊也一直未出面澄清。

陈磊，79年出生人士，与王小川、魏小亮等人早年相识，与黄峥并肩作战近20年，高中同班同学朱珑与林晨曦也早早成就一番事业，但他却一直蛰伏，极少在公众面前露面，直到去年黄峥隐退才走向前台。

接任拼多多董事长后，陈磊的首次公开亮相，是回福州出席数字中国建设峰会，分享自己对中国乡村未来的观察与思考。这场别开生面的演讲，可以用4个字来进行简单概括：数字农业。

民族学研究者徐杰舜曾形容福州人因同时面向海洋、又得福州平原之饶，故并非仅靠海吃海，而是形成兼具大陆性与海洋性的双重人文特征：即保守内向，又奔放向外。这一看似矛盾的特征在陈磊的4字战略上有恰到好处的体现——激进的数字与保守的农业，本就是矛盾又必然共生的存在。

农产品是拼多多的创立之根。但在“数字农业”的新概念下，能够在两个背离的产业中找到共生共赢的平衡点，是陈磊本就既能甘于幕后、又能正面喧嚣的个性。

1、IOI精神：标新，立异

在接任拼多多CEO之前，人们谈起那些年从IOI走出来的黄金一代，陈磊的名字从来没有出现过。

1996年，陈磊位列其中的中国代表队在IOI上首次全面夺“金”。这一辉煌记录直到8年后，由胡伟栋、栗师、楼天城与鬲融组成的4人队伍参加2004年在雅典举办的第16届 IOI 才得以重现。此后，中国代表队势如破竹，多次连续全面夺金，开启了角逐国际信息学竞赛的新局面。

图注：福建师大附中的官网上保留陈磊高中时期的照片

IOI竞赛是全球编程爱好者渴望与对手同台竞技、一争高下的舞台，外表斯文温和的陈磊也不例外。

陈磊出身知识世家，父亲是著名的经济学教授，他从小具备敏锐的数字分析能力，刚上初中就因为超强的数学思维被招入学校的竞赛队伍，开始学习编程、参加竞赛。高中升学考试，陈磊又考入历年IOI国家队最能打的中学之一——福建师大附中。这注定他与IOI将结下不解之缘。

当时，陈磊的指导老师是福建著名的信息学教练江文哉。从1986年国内开设中学生信息学竞赛到1999年退休，江文哉指导的学生中有多达150人在信息学省级以上比赛中获奖，但最终能进入国家队的选手也是凤毛棱角。

江教练时常对学生说，国际学科奥赛是全球中学生能参加的最高层次的竞赛，而信息学国际奥赛试题更是以水平高、难度大、构思新颖的特点成为青少年能力的“试金石”。他鼓励学生要冲出国门，到国际舞台上竞争，才能更好地锻炼自己的能力。

在程序设计技术与方法的教学过程中，江文哉注重发散性思维的培养。他鼓励学生在编程设计的解题过程中要大胆创新，敢于“标新”，勇于“立异”，战胜思维的惰性。江文哉无疑是陈磊夺金的关键人物，但其提倡的发散性思维、创新精神，才是影响陈磊更深远的部分。

王小川曾谈起当年在匈牙利参加 IOI 的一段小插曲：

在参加比赛前，他对各种算法已经滚瓜烂熟。北京集训期间，他结识陈磊，两人交流的过程中，陈磊提到最大最小流算法，王小川大吃一惊：“我竟然不知道？”赶紧学习。

正式比赛开始后，他遇到一道特别简单的题，如果用正常倒推算法很快就能实现，但王小川不知怎的，非选择用最大最小流算法，不仅耗了很多时间才写完，结果还被扣了4分（两个点），最后以2分之差败于捷克选手Daniel Kral 得了全球第二名。

谈起此事，王小川感慨：“如果在北京集训的时候，只是如果，没有能看到这个算法，反而就有机会拿第一了。”

但对王小川、陈磊甚至所有追求创新技术的IOI选手来说，在一次比赛中偶然取胜，远不及IOI最根本的自我挑战精神在往后余生中所散发的能量更大。IOI 竞赛对编程思维的训练固然重要，但如江文哉所言，敢于标新、勇于立异，才是 IOI 最终造就一代又一代英才的根本原因。

回顾历届 IOI 选手在互联网的造诣，我们就不难发现 IOI 精神的魅力：

王小川（96年金牌），顶着压力开发搜狗浏览器与搜狗输入法，后任搜狗CEO；魏小亮（97年银牌），Facebook工程副总裁，是Facebook首位华人总监，被誉为“硅谷华人之光”；楼天城（04年金牌），曾经是百度最年轻的T10级员工，却在事业如日中天之际离开百度，创办自动驾驶公司小马智行；陈启峰（07年金牌），香港科技大学最年轻的助理教授，学术之余创立区块链直播平台Lino Network；漆子超（09年金牌），创立AR公司宸境科技……

辉煌事迹可谓不胜枚举。同是IOI金牌得主的陈磊，此前虽名不见经传，一直居身幕后，也极少公开谈论中学时期的竞赛事迹，但在勇敢开拓、创新进取上，他不一定比其他更受瞩目的选手差。

图注：陈磊在1996年国际信息学奥林匹克竞赛（IOI）中排名第4，获得金牌

年少时的陈磊也渴望赢，如果是打败全球最厉害的IOI选手，那么胜利的快感自然是无与伦比的。但与大多数能在IOI取得好成绩的竞赛型选手不同的是，陈磊虽然热血，却并不享受残酷的零和博弈过程，因为 IOI 是个人赛，即使胜出，也只是一个人的胜利。

中学的拼搏时光不仅教会了陈磊如何设计程序，也让他学会了科学的思维方法。他养成了解题之后对解法进行复盘的习惯，也在竞赛期间对自己的“职业生涯”展开了不断的反思。1997年，陈磊再次参加IOI，并结识了一位挚友——当时就读于广东肇庆中学的魏小亮（后来成为Facebook首任华人总监）。

高中毕业后，陈磊去了清华大学计算机系。在清华园里，陈磊终于有机会打团队赛，就是参加国际大学生程序设计大赛（ACM-ICPC）。

与IOI不同，ACM-ICPC是团队赛，3个人在5个小时内使用同1台电脑，通过紧密的分工合作，抢在其他队伍面前升起更多的气球——这是ICPC的传统，每A掉一道题，官方就在桌前升起一个气球，谁领先、谁落后，一目了然。

本科大三那年，陈磊拉来魏小亮、Zhunping Zhang一起组成清华大学代表队，在总教练王帆的带领下赴美参加2000年ACM-ICPC大赛，同年，他的高中同学林晨曦代表上海交通大学出战。他们分别获得全球第六名、第九名的成绩。

2000年ACM-ICPC比赛结束后，陈磊没有在ICPC的赛场上继续角逐，反倒是林晨曦在两年后代表上海交大获得了ACM-ICPC的首个冠军，打破亚洲ICPC零冠军的记录。

学生时代的陈磊热爱编程，只要有机会参加竞赛，尤其是团队赛，他绝不缺席。但面对能在一秒钟内将身体内的多巴胺提升至最高点的竞赛内容，陈磊又显得克制，因为他不赞同竞赛中非此即彼的成功学本质。比起一个人赢，他更希望一群人胜。

结识黄峥后，陈磊更确信了这一点。

2、与黄峥相遇：找到群体

陈磊第一次“出名”，不是因为出色的竞赛经历，而是因为替代黄峥、接任拼多多CEO的位置。人们谈起陈磊，习惯用“Advisor”的角色定义他，就像库克之于乔布斯。

但为什么陈磊会甘愿追随黄峥创业14年，一直在幕后担任技术推手，其负责的技术部门支出仅占17%、远低于营销支出的108%？是陈磊技不如人，或没有血性吗？基于陈磊学生时代能扛过考验技能与心理素质的IOI与ICPC比赛，对他本人进取心的质疑基本可以否定。

事实上，陈磊是高知家庭出身，其父亲是著名的经济学家，是推动福州当地最早的股份制改革的“智囊”，而黄峥是普通家庭出身；此外，两人虽同是美国公立大学三强之一的威斯康星大学麦迪逊分校计算机系校友，但陈磊是2001年赴美留学，攻读博士，黄峥是2002年赴美，读的是硕士。

关于陈磊与黄峥在异国他乡的相遇，坊间流传最广的故事版本是：2002年夏天，在美国威斯康星大学麦迪逊分校（University of Wisconsin-Madison）深造的陈磊作为长一届的学长，开车去迎接来自中国的新生。在汽车站，他第一次见到拎着行李前来报到的黄峥。这两个金字塔尖的年轻人很快一拍即合、密切合作。

但两个经历悬殊、个性相异的年轻人一见如故，在往后，即使黄峥三次创业，陈磊也能毅然放弃留美高薪工作、追随黄峥从零开始，如果说仅仅是因为陈磊情深义重，我首先一万个不信。

图注：威斯康星大学麦迪逊分校

陈磊的博士导师是Raghu Ramakrishnan（曾在UW-Madison任职22年，著有《数据库管理系统原理与设计》，现在在微软担任数据管理CTO）。读博期间，陈磊与黄峥着眼于通过计算机技术解决一些具有现实意义的基础问题。

在Raghu Ramakrishna教授的指导下，陈磊与黄峥一起研究如何将数据挖掘技术创造性地应用于针对大气气溶胶的数据分析上，以便更好地了解颗粒组成、来源及动态。

气溶胶是国内直到2015年左右才开始广泛讨论的雾霾的核心物质。而早在2004年，他俩就尝试开发数据挖掘通用框架，通过质谱标记法，监测、分析气溶胶数据，为后续的治理提供支持。这是陈磊与黄峥最早着眼于与农业发展有关的工作。

在美国求学期间，他们围绕这个方向一共合作发表了三篇论文，其中一篇论文发表在ACM SIGMOD上，一篇论文（“The EDAM Project: Mining Atmospheric Aerosol Datasets”）获得美国国家科学基金会（National Science Foundation）的支持。

此外，陈磊曾在谷歌实习，与当时已经到谷歌工作的黄峥共同参与了一项名为《检测名称实体和新词》的专利。该发明用途广泛。例如，当我们输入“李宇”，输入法会聪明地关联“春”；当我们搜索New York Traveling，搜索引擎会准确提供关于纽约旅游的信息，而非单独包括“New”或“York”的页面。

陈磊2007年博士毕业。当时，2004年硕士毕业的黄峥已随李开复团队回到北京建立谷歌中国，在谷歌工作了两年。在陈磊博士毕业的那一年，黄峥从谷歌离职，开始自己创业，陈磊二话不说，毅然放弃在美国IBM的工作，回国跟着黄峥创业。

在《我的中学和大学》一文中，黄峥讲到自己初中毕业那年，很幸运地从杭州市郊一所极其普通的学校考入杭州外国语中学，又得以保送浙江大学竺院混合班，参加梅尔顿基金会，公费出国参会、与来自其他国家的青年一起交流、见识广阔世界。

亲身经历“山沟沟里飞出金凤凰”的奇迹，青年黄峥深感底层阶级逆袭的难度，因为“大部分富二代，特别是官二代是非常优秀的。”但同时，黄峥形成的一个突破思维是：田忌赛马，能在整体资源劣势的情况下创造出局部的优势，是有机会获得整个“战役”的胜利的。由此，平凡人可以成就非凡事。

对黄峥来说，拼多多从农产品起家，正是在阿里巴巴、京东已占领城市零销区域的背景下突围而出的田忌赛马策略，也是“草根CEO”黄峥关注下沉市场的创业情怀所在。

这份情怀与陈磊总结早期竞赛心路所形成的价值观形成呼应：不是一个人赢，而是一群人胜。加入黄峥，从乐其、欧酷网、新游地到上海寻梦科技有限公司（拼多多的运营主体），陈磊找到了这个群体。这“一群人”既是陈磊与之一起创业的战友，也是拼多多赖以发展的劳动阶级。

黄峥在2021年股东信中也提到，“拼多多是从农产品起家的。”由此可见，真正吸引陈磊加入创业的原因，是陈磊的个人价值观与黄峥、拼多多的“草根群体”思维所碰撞出的火花。

3、分布式AI：用户理解与“货找人”

从2007年起，陈磊一直是黄峥核心创业团队中的技术担当：欧酷网的研发架构工程师，新游地的高级研发架构工程师、CTO，拼多多的CTO。

拼多多之所以能在短短几年内迅速崛起，与阿里、京东形成电商平台三足鼎立的局面，除了黄峥小谷战大炮、从农产品包围城市的运营战略，陈磊的“分布式AI”提高了消费者与商品的匹配效率，也是其用户增长与业务腾飞的关键原因。

陈磊的“分布式AI”有两大核心：用户理解与“货找人”。这个概念的提出，不仅是基于陈磊多年来的技术积累，也与陈磊低调内敛的性情相关。沉默的人往往不擅长表达，但也往往擅长倾听。

在算法设计中，陈磊十分注重倾听消费者的声音，理解他们的需求。传统电商的算法在于给用户打标签，但陈磊的“分布式AI”算法更关注用户看到商品后的心理和行为，比如他们是否会与朋友互动、分享，而不仅仅是点击和购物。

陈磊认为，朋友之间在购物时的分享、交流就会对用户画像的完善起到很大的补充作用，从而打破单纯依赖浏览数据对消费者形成的“偏好囚笼”。换句话说，拼多多的算法最终是为了实现“货找人”，而不是“人找货”。

“电商平台要做的就是商品与用户需求的匹配，匹配得越精准，创造的竞争环境越健康、越高效，消费者的需求就能被更好地满足。”陈磊说。这与他做编程是相似的：定一个目标，找到算法去实现它，大家合作共赢。

陈磊的分布式AI构成拼多多的底层算法。2020年，拼多多平台年活跃买家数达7.88亿。在关键的用户指标上，仅仅用了六年时间，从巨头夹缝中冒出的拼多多已经超越阿里巴巴、京东。

多年的创业生涯里，黄峥表现出来的是理智思考、果断出手，快、准、狠。比如，当他意识到乐其盈利的本质是吃淘宝红利、赚快钱，不符合自己的长期规划时，果断从乐其内部抽调一部分核心团队去上海孵化新游地游戏公司，然后将电商、游戏赚到的快钱投入一开始要面临早已成熟的阿里、京东激烈竞争的拼好货和拼多多产品中。

相比之下，陈磊给人的感觉是温和、亲切，喜欢隐藏在幕后。多位接触过陈磊的员工形容他在办公室里的外表极不显眼，需要在一堆程序员中仔细辨别，才能找到身穿灰色POLO衫、蓝色牛仔裤、黑框眼镜的新晋董事长：“就像是在黑客帝国中突然遇到了和蔼可亲的建筑师。”

图注：拼多多新任掌门人陈磊

“是时候逐步让更多的后浪起来塑造属于他们的拼多多了。”黄峥在2021年度致股东信中说到，拼多多已从3年前“刚上小学的小孩”迅速成长为“正进入青春期的少年”，“希望今天我退董事长会有助于这位少年独立成人”。

如果说在创业中不断做出大刀阔斧决策的黄峥更适合培养肆意生长的“小孩”，带着“小孩”步入叛逆的“青春期”。那么，善于倾听、稳扎稳打同时又不失广阔视野的福州人陈磊，也许更适合将“叛逆少年”培养成“独立成人”。

值得注意的是，陈磊是中国当代三大电商新掌门中唯一一个从CTO转型为董事长的掌门人。但从他出席数字中国建设峰会的讲话来看，陈磊对拼多多的发展定位沿袭了最初的愿景：继续秉承“Costco+Disney”的愿景，希望将拼多多打造为全球最大的农产品零售平台。

从本质上说，Costco和Disney是两种不同的模式。Costco的特点一是便宜，二是严格选品，从一个品类的商品中选择“顾客可以闭着眼睛选”的爆款SKU，这一点在拼多多的原型“拼好货”时代尤为明显，当时拼好货只有30余款SKU，却能做到款款爆款。

而同样注重数据分析的Disney对应的则是汇聚用户需求、不断推陈出新的模式。Disney采用的“三三制”每年淘汰1/3的硬件设备，新建1/3的新项目，因而也有“永远建不完的迪士尼”之称。

换言之，Costco模式的核心是“货”，Disney模式的核心是“人”。二者的结合，则是拼多多独创的“货找人”模式。与中心化搜索电商模式相比，“货找人”是品牌构建的新路径。

Costco+Disney的另一层含义是虚拟世界中消费与娱乐的合体平台。如黄峥所言，拼多多的使命就是多实惠多乐趣，让消费者买到更多更实惠的东西，然后在这个过程中更快乐。有分析师分析拼多多的成功时坦言，与其说拼多多抢走了淘宝等现有对手的份额，不如说拼多多在下沉市场中创造了新的电商需求，这也和陈磊的“让更多人赢”的理念一脉相通。

毫无疑问，在让拼多多走向成功的“货找人”模式中，陈磊所打造的“分布式AI”至关重要。

4、陈磊的“农民心”

陈磊给“少年”拼多多指出的下一个方向是：数字农业。

就像“货找人”模式不局限于历史数据而直达用户心理一样，陈磊的眼光落在中国社会的广大民众身上。

陈磊在拼多多内部有一个花名叫“土豆”。这个容易让人联想到大地、泥土与田野的绰号与陈磊作为国际学科竞赛金牌得主、名牌大学海归博士生的身份非常不搭，但却与陈磊的个性十分吻合：质朴，低调，不张扬。

在陈磊看来，技术本身不重要，重要的是技术能够落地去改变什么。

事实上，在黄峥、陈磊这批有着底层情怀的领导班子带领下，拼多多在发展初就持续深入农业“最初一公里”，与国内外多个顶级科研机构和院士专家等科研团队展开深度合作，持续投入科学种植、农业物联网、无人温室、智慧农业等领域，助力农民增收、农业升级。去年疫情期间，拼多多还推出抗疫助农等举措，帮助农民渡过难关。

2020年，拼多多的平台成交总额为16676亿，其中农产品成交总额为2700亿——这一数字较去年同期实现了100%的增长。也就是说，农产品在拼多多平台总成交额的占比达16.2%。而根据行业数据，传统电商平台的这一数字仅在3%。

担任拼多多董事长后，陈磊首次出席公开活动，又提出“数字农业”的新发展概念。他的关注点转移到农产品的供应链变革，认为农产品的未来出路将是从“产供销”转向“销供产”，以销定产。这主要是针对市场竞争造成的资源浪费。

陈磊曾举过一个例子：冬天来了，我们要买羽绒服，但有50家工厂都生产羽绒服。在市场“优胜劣汰”的竞争机制下，最终也许只有1家工厂全部销售盈利，其余工厂则要面临产品积压、浪费。羽绒服属于耐用产品，这一季卖不出去还可以留到下一季，但农产品的保质期就不一定能挺到下一个春天。

为了配合这个目标，拼多多也从一个纯轻资产的第三方平台，开始转重，在仓储、物流及农货源头开始进行新一轮的投入。

陈磊提到一个较为吃惊的数字：中国果蔬类的流通损耗达到20-30%，远高于美国的11%。他本人很喜欢家乡福建的特产云霄枇杷、仙游度尾文旦柚。这些农产品相对容易保存，能够适应现有的供应链体系，但一些非标、易腐的生鲜农产品要进入市场，则需要新的数字化供应链体系，以此减少流通损耗率。

除了供应链体系的改革，技术背景出身的陈磊也将目光转向应用AI技术建设农产品种植、采摘、挑选的新体系。比如，去年7月，拼多多发起“人工智能VS顶尖农人”草莓种植大赛，探索“算法种地”的可行性。

在拼多多诞生之前，腾飞的技术从未尝试触碰不包邮的边疆地区，或通讯设施并不完善的山林乡野。中国有14亿人口，5亿多农民，20亿亩耕地，粮食产量6亿多吨。拼多多是农产品电商化的第一个开拓者，在“激进”的数字技术助攻下，许多农民通过电商销售走红，各个地域的特色水果、药材、蔬菜、生鲜从山林乡野走到全国消费者的手中。

随之改变的是许多个体的命运。截至目前，逾 1200万农业生产者通过拼多多对接全国的消费者，其中包括百万级建档立卡户。在今年脱贫攻坚战取得全面胜利的历史性时刻，拼多多也作为互联网企业代表，获颁“全国脱贫攻坚先进集体”最高规格表彰。

图注：去年陈磊作为惟一的特邀企业代表，受邀参加全国政协双周协商座谈会

从陈磊个人来看，19年前遇见黄峥是偶然，但推动拼多多的扶农计划却是必然。对陈磊来说，技术的意义不是“胜出”，而是“共赢”。20多年后，这位昔日的IOI金牌得主真正获得了内在追求与外界期许的统一。

5、知守合一

《道德经》的第二十八章记载，这个世界上有一种人，他们知雄守雌、知白守黑、知荣守辱。明明懂得雄健刚强的好处，却安于柔弱：

知其雄，守其雌，为天下溪；

知其白，守其黑，为天下式；

知其荣，守其辱，为天下谷。

但老子认为，这些人虽守雌、守黑、守辱，却不是自居失败，而是谦恭处下、与“道”合一；无论是“溪”、“式”、“谷”，都反映着这些人兼容并蓄的性格。最后老子以“朴散则为器”为比喻，说明这些人经雕琢后可以成为大事业的栋梁。这一描述用来形容陈磊也极为恰当。雷锋网

17岁时代表中国夺金，竞赛结束后回归校园，当一名在知识疆土默默耕耘的学子；身怀过硬的计算机基础，在昔日旧友均借着互联网或人工智能大潮成就一番事业时，选择追随在美结识的后辈黄峥，沉心当一名幕后人员；不急不躁，不争不怒，温如溪涧，胸怀沟壑。雷锋网

在4月25日举行的数字中国建设峰会上，陈磊的发言围绕拼多多一贯作为战略重点的农业，表明拼多多的核心战略不会改变；但同时，他又强调未来农业发展中数字技术的应用意义，这与他本人技术背景出身是分不开的。雷锋网

虽不喧嚣，但陈磊能在黄峥退位后挑起拼多多的大梁，继往开来，不丢旧城池，又开新边界，果断将数字科技与传统的农业结合起来，以此推动农业现代化的前进。随着5G、人工智能与大数据等前沿技术的发展，数字农业是必然趋势。这一次拼多多换帅，也许又再次抓住了风口。

对话南科大沈平：在人工智能开源中，高校能扮演什么角色？

Tue, 20 Apr 2021 14:31:00 +0800

作者 | 陈彩娴

采访整理 | 刘冰一

2020年被称为深度学习框架开源的元年。

那一年，继百度飞桨之后，旷视开源天元（MegEngine），华为推出MindSpore，清华大学计算机系的图形学实验室也发布了自主研发的深度学习框架——计图（Jittor）。

与其他深度学习框架相比，清华的计图基于统一计算图，无需手动切换就能将计算图动态地拆分成可以优化的子静态图，在保持动态图灵活性的同时，发挥出静态图的运算性能。出色的特性使得计图在Github上一发布，就受到了广大深度学习开发者的好评。

然而，在目前国内的开源工作中，计图所代表的高校开源是一个少数。与企业相比，国内高校老师与学生对开源的认知仍比较薄弱，参与度也较低。

但事实上，作为教书育人的摇篮，高校能够在开源中扮演关键角色，宣传积极的开源精神（如灵活性、创新性、合作性、低成本等），培养优秀的开源人才。

相较而言，国外高校参与开源文化建设的历史更早。其中，最具代表性的便是Google在2005年发起的全球性编程实习生项目——“谷歌编程之夏”（Google Summer of Code），自设立以来，吸引了超过16,000名学生与13,000名导师参与开源，为715个开源组织生成了超过3800万行代码。

除了校企合作，国外高校内部对开源政策制定与平台建设的重视也更早。比如，2013年，德克萨斯大学为开源制定了正式的政策：

2019年，为了“吸引对技术自由与开源感到振奋的大学生”，美国的密歇根理工学院便推出了虚拟的一站式开源平台shangopensource.mtu.edu，为学生提供免费的数据、开源课程、软件与硬件，以及交流合作的开源俱乐部：

随着开源对技术发展的重要性越发突显，国内一些高校也开始重视对学生开源能力的影响。

比如，中国科学院软件所与openEuler Community共同举办面向高校学生的暑期开源项目开发活动——开源之夏；北京大学软件与微电子学院开设面向研究生的选修课《开源软件开发基础及实践课程讨论》，推动高校教材、教学与实验器材等方面的开源。

举办比赛与教师教学是一种“自上而下”的推广形式。当开源逐渐成为国内技术发展的主流方向之一，南方科技大学还希望采取“自下而上”的发展方式，通过“伙伴对伙伴”（P2P）的形式吸引对开源感兴趣的学生。

于是，4月9日，南方科技大学在深圳“开源科技节”中宣布正式成立中国首个高等院校开源俱乐部——南方科技大学开源俱乐部（OSS CLUB）。

图注：南方科技大学开源俱乐部启动仪式

OSS CLUB由南方科技大学学工部就业指导中心、电子与电气工程系统指导，LinuxFoundation、腾讯、华为、开源科技OSTech等企业和开源组织联合支持发起。

根据OSS CLUB创始人王云天（南科大电子工程系大三学生）的介绍，成立开源俱乐部的想法来源于一次课堂作业：“我们平时有些课程需要用到开源的代码，比如输电实验与模电实验，我们小组做了一个手控的无人机，其中用到的一些芯片就是开源的。我就觉得开源非常重要。”

这一想法获得了南方科技大学讲席教授、电子与电气工程系副系主任沈平的支持。沈平教授此前于2002年至2019年在新加坡南洋理工大学任教，是OSA Fellow, SPIE Fellow, IEEE 光电子学会全球副主席，曾培养出多位优秀学子。

图注：南方科技大学沈平教授

在沈教授看来，高校参与开源有四大优势，分别体现在丰富的人力、前沿的知识、抗风险能力与先进的设备。此外，大学生参与开源俱乐部，能够培养学生在开源中的合作精神，让学生在进入企业后参与开源项目时，不至于一无所知。

以下是AI 科技评论对沈平教授的采访整理：

一、OSS成立背景

1、AI科技评论：南方科技大学为什么要成立这个开源俱乐部？

沈平：过去20年，我在新加坡南洋理工大学任教。在南洋理工大学有一个开源社团，叫做Open Source Society，社团成立刚满10年，成员以学生为主，也有部分高校导师、业界导师。这个社团办得非常好。

来到南方科技大学后，刚好我的一位学生叫王云天，他想成立一个开源社团，我觉得这个想法非常好，我很支持。

我们成立这个俱乐部的目的就是为了吸引更多对编程、开源或对计算机科学感兴趣的学生加入。

2、AI科技评论：南科大的这个开源俱乐部包括哪些方向的开源？是集中在人工智能的开源，还是也有涵盖其他方向？

沈平：开源是比较宽泛的，人工智能是里面的一个部分。人工智能现在是一个比较火的领域，所以肯定是在我们俱乐部的研究范围内的。我们今天讲的人工智能基本上都是深度学习。除了人工智能，我们也希望把区块链纳入研究。

我们今天有很多软件，包括工业的软件，都离不开开源。就好像安卓的底层就是从Linux开源做起来的，鸿蒙也是。

开源有点像一颗种子，大家要一起浇水才可以种出一棵大树。有一句话也可以拿来形容开源项目：“If you do it alone, you can do it fast. If you do it together, you can go far.” 就是说，你要是自己做，可以做的很快；但是你要是跟人家一起做，虽然你可能没有那么快，但是你可能走得很远。

把一件事做起来要考虑很多因素。参与的人多了可能会很乱，需要有人去统筹或是总结，把每个人的贡献放进来。这部分工作（“合心聚力”）其实包含蛮多技术含量的，我觉得南科大特别适合担任这个推动者的角色，让同学们在上学期间就有机会参与开源项目。

我们做不到大公司，像华为、腾讯那样，有这么多人力，还有业界的专家来推动开源，但是我们大学能进行基础培养，这样在学生们将来出社会工作时，他们在短时间内就可以上手做开源贡献，也更懂得怎么样去跟人合作，而不是进入企业后才开始学习事情该怎么做，在许多开源环境都犯一遍错，或者察觉不到开源过程中的问题。

另外，年轻人也需要锻炼一种团队精神，学会跟大家合作，而不是每件事情都以自我为中心。因为在实际工作中会发现自己单打独斗是不够的，还要和其他人编写的模块放在一起才能推动项目进展。一个人其实是很局限的。一个人可以做的很快，一起做可能没有那么快，但可以走得更远。我觉得这是在高校推动开源能够对学生起到的培养作用。

3、AI科技评论：我看到南科大官网上有一些学生参与开源的竞赛，也取得一定成绩。现在俱乐部刚成立，同学的反响如何呢？

沈平：我们现在有一个群，已经有一些学生表示对开源俱乐部感兴趣了。

图注：南科大学生参加技术类比赛项目

我们以往参与比赛，基本上是老师带领团队的形式，老师做的某个领域可能就培养几个学生。我们现在有这样的想法：除了老师主竞赛，我们希望学生之间也能形成团队，就是学生和学生之间互相支持、帮助，有自己的研究方向和参赛目标。所以我们希望陆续会有一些学生导师出现。

这是我在新加坡看到的一个非常好的现象：学生社团中有学生导师。如果俱乐部里有厉害的学生，比如写APP厉害的、熟悉网络安全的，这些某方面很厉害的学生可以开课教学弟学妹们，就是P2P(Partner-to-Partner，“伙伴对伙伴”)的模式，学生之间互相支持和教育。

二、OSS的角色：培养开源人才

4、AI科技评论：新加坡那边的的高校参与开源的情况是怎样的？

沈平：其实再怎么成熟也很难跟企业比。大学阶段，我们培养的是一种开源文化和学习能力。比如让学生知道怎样去做编程，熟悉上传资料至某共享平台的方式。如果等到他们毕业、去了企业才开始了解的话，就有些太晚了，我们希望早一点培养他们的学习意识和能力。

5、AI科技评论：南方科技大学开源俱乐部有和企业建立合作的实践项目吗？
沈平：有的，我们后续会邀请更多的业界导师加入我们俱乐部。我们也会陆续地跟他们举办一些竞赛类活动。我们所谓竞赛类活动是包括训练的，我们会和企业一起做一个训练课程，把这些学生教会了再进行组队参赛。参赛训练其实是目标为本的，大家朝着一个目标，在规定期限里看谁能做的最好，最能发挥创新能力，或者最能把问题解决到极致。

另外，我们也希望学生能自发地举办一些活动，这样不仅可以锻炼到学生的组织能力、领导才能，还可以让学生在这个过程中学到很多东西。我们更想给对开源感兴趣的学生一个活动的场所，至少有一个地方把整个学校对开源感兴趣的学生聚拢起来。就像我很喜欢踢毽球，如果学校有一个毽球协会，我不会踢、但是我很感兴趣就可以加入，慢慢地，我可以发掘自己的潜力，而那些会踢的可以巩固自己的天赋。

我之前在英国、新加坡、香港的不同大学都待过。其实大学里面有很多人才，比如说校园黑客，可能他技术能力很强，但没有一个让给他施展自己能力的舞台，他就自己在上网去学，或者去一些小众圈子交流。如果有一个俱乐部，那么我们可以提供一个平台给他去结交更多朋友，让他分享知识，也可以就一些专业领域给其他小伙伴作指导。

之前在新加坡有个电子系的学生，他在大二时参加新加坡全国网络安全竞赛拿到全国总冠军，大三他又参加了，又拿了冠军。他跟来自全国的职业选手比赛，居然拿了两次总冠军，所以大学里边还是卧虎藏龙的。

开源俱乐部就是聚合这批有天赋、有兴趣的人的一个舞台。其实还有很多俱乐部可以成立，但这个是我们目前觉得很多人会感兴趣的，所以我们今天就公布给大家，我们要成立开源俱乐部。

6、AI科技评论：您有没有了解清华大学他们也有一个高校主导的开源框架（Jittor）？南科大有没有什么类似的计划和项目？

沈平：暂时还没有。大学更多的责任是培养未来社会所需的人才，所以我们进行的更多工作也是在培养人才。

大学生永远都那么年轻，只有我们在变老。跟企业不一样，企业做一个研究要持续七八年或者更长时间，但是大学4年就一个周期，四年后又是一批不同的年轻人。由一两个老师主导，不断地教新人，其实大部分时间都是在进行培养工作。

当然，我们也可以给企业一些支持，我们可以解决或者关注企业开源技术上的问题，我们可以以顾问的身份给出一些建议，而不是给企业推荐一个具体的系统、计划。给出具体系统可能比较难，但也不是完全没有可能，这需要有人主导。比如我们的毕业生做了一个很好的毕业设计或者完成了不错的博士课题，他毕业后创业了，把创意再推向市场，这个是有可能的。以前在硅谷就有很多这种案例。

学生参与开源，最大的贡献是注入一些活力，提供一些新鲜的想法。好像我在企业几十年了，思想模式好像已经定型了，但是来个年轻人的话，他会问为什么不能这样做呢？可能他就颠覆了我的想法，或者整个开源项目的发展方向。一个已经用了很多年鸿蒙系统的人，其实是很难改变的，因为迎接新事物、学习新事物的时间太长了。但学生不一样，他们是一张白纸，你给他学啥，他就直接去学，可能在很短时间里做到极致，或者发现里面所存在的问题。

我之前找过那位拿了两年新加坡国家竞赛奖的学生，我问他：“要不你看一看我们学校的教育系统安不安全？”我们有一个学生交作业的系统叫blackboard。挺神奇的，我们惯常使用的东西，学生就是有办法看出问题，他知道在哪可以攻击系统，在哪里可以进入。他一下就找到了六个攻击点，把他的报告送去学校图书馆，给管理员吓一大跳，原来这系统这么脆弱啊。

7、AI科技评论：据您了解，现在国内参与开源的高校多吗？

沈平：我感觉已经能看到未来的上升趋势。可能现阶段开源的发展还是平稳的曲线，但未来上升趋势是指数式。已经处于拐点阶段了，往后就可能是火箭升空的轨迹。

8、AI科技评论：大学生参与开源，对他们个人的成长、学习生活、职业有什么样的意义呢？

沈平：拿我自己来说吧。我中学时参与了很多活动，多到你都难以相信。

我是全国第一届电脑协会的主席，这个协会就是我创办的。后来老师叫我做舞蹈协会的主席，我是不会跳舞的，但是我勇敢地答应了。我是主席，但不会跳舞，那岂不是很丢人？于是我就晚上报夜校，在夜校学多少，第二天就回协会教多少。其实做的也很成功，我还带学生去表演戏剧。

我当时还在学校里边组织很多学生活动。我们学校大概分为四类社团，我代表其中的一个社团，在里边是学术顾问的角色。除此之外，我还是一名“童军”指挥员，平时要带他们拉练的。虽然当时忙得不行，但是后来我发觉那个时候的活动经历让我成长很多。

后来我在大学带学生，他不需要告诉我具体什么事情，我基本上都知道。在待人处事和了解学生的方面，参加活动对我非常有帮助。我大约知道TA要干嘛，大约知道TA有什么问题，是什么心态。都不用说得很明白，我都大概知道怎么帮助TA。这种感觉不是每个人都有的，我挺庆幸我在中学就锻炼了这种能力。所以我就觉得大学生还是有必要参与社团活动的，比如参与开源社团，不但能够学习到开源或者编程能力，还可以学到待人处事，学习怎么样跟人一起合作。开源是必须要学会跟人合作的。

三、高校与企业合作开源

9、AI科技评论：相比企业，您认为高校做开源有优势吗？如果有，体现在哪些方面？

沈平：我们高校最大的优势就是人力资源、知识、承担风险的能力和设备。

大学的人力资源不仅包括专业老师，还有博士后、博士等科研人才。不管是区块链、光学电子或者人工智能领域的问题，只要企业找到高校，找到领域里相关的一个或几个老师，都能给他一个解决方案。

但是企业拿回去之后要分析一下可行性，因为我们永远都会有方案。但这个方案是不是性价比最高的呢？这就需要评估。企业要回去考量成本，看能不能落地。

在学校里，我们每个领域都有非常专业的老师，他们在各自领域精耕很多年，拥有大量储备知识。

图注：南方科技大学教资实力

还有就是我们能承担风险的能力。雷锋网

假设去开公司，开公司要投资科研，科研是个无底洞，可能做了三五年都没做完。在这个过程中，创业者不知道有没有人要，卖不卖得出去，可能最后发觉根本没有市场。但是我们大学就可以承担这种风险。我们可以做一个东西也许未来50年都不会有产品。就像世界第一个激光是1953年做出来的。激光刚做出来的时候也是没有人要的，因为它刚做出来的时候有三张沙发那么大，并不是现在我们手里拿的轻便小巧的一块。谁会拿一个这么巨大的东西去上课呢？并且它可能是一个百万级、千万级的项目，要耗费巨额投资。但这也需要有机构去做。如果没有人坚持做这项研究，今天激光不可能从三张沙发变成一支激光笔。

大学为什么能承担这种风险呢？一方面，大学的重点在于教育，我们的目的本来也不是做成一样产品。学生从事学术研究、发表成果，然后毕业，这个过程中涉及一些研究课题，一代代学生共同完了成果转化，造就了今天的激光笔，也将激光加工技术推进工业领域。企业跟大学合作，可以把一部分前期风险转嫁给大学。假设一些企业想研究下一代半导体技术、区块链技术，但不知道走哪条路才能赚钱，可能走了数百条路，只有一两条路有可能走得通。雷锋网

如果跟大学合作，大学提供智力支持，老师和学生组建的智囊团队针对企业需求找出几个可行的路径，在这个过程中可以发专利，还可以产出中国制造的工艺品。如果成果符合相关规范的话，还有可能成为全球标准、行业标杆，这就是一个很大突破。这时候，公司就可以把它拿来产业化了。要是智囊团队发现企业的想法在实际操作中实现不了，或者发现成果做出来没什么用，又或者最终成果太容易被攻破，那么就可以及时止损。这样其实是在帮助企业规避风险，避免后续量产时产生更大的悲剧。

最后一样是设备。大学有很多过百万、过千万的设备。一般来说，开个公司，初期谁会去买一个千万的冷冻电镜呢？如果跟我们合作，通过高校的设备试验这种设备对企业有没有用，已经证明是有用了，企业可以再结合其他情况决定要不要采购。雷锋网

10、AI科技评论：小公司设备成本预算不高，但像华为、腾讯这种大公司，给到的设备支持力度应该还可以？

沈平：其实大企业也差不多的。大企业的科研部也很大规模，人多，想做的东西也多。所以他们要衡量预算，评估部分科研实力、风险情况再决定设备投入。要是风险很高，但只有1%的成功率，那么大企业也不一定愿意给钱。这个时候，部门可以寻求和高校群体合作，先用我们的设备做一个测试，结果效果不错，再回公司说已经经过大学认证了，这样就好申请一些。所以我觉得高校还是靠谱的。

11、AI科技评论：南方科技大学在开源这一块有四大优势。那么，你们有什么需要改善的地方吗？

沈平：南科大的优点和缺点都是年纪轻。深圳的平均年龄是33岁，这个是很大的优势。我们都遇到过顽固的人，一般来说，顽固的人可能年纪大的偏多。我个人对顽固的定义是停止学习，或者不愿意学习。有些人是拒绝改变的。大家都觉得这个事他应该去学，或者应该往前走，但是他就很抗拒，顽固就形成了。

但是，有一个成语叫“三人成虎”。如果身边的亲戚朋友都跟他说要尝试某件新事物，他可能就愿意接受。他会想：既然大家都这样说了，那我就试一试？那好，我试试装个某宝，看是不是打折。

年轻的大学有什么好处呢？就是什么都是新的，大家会愿意尝试新的做法，有待改善的东西会不断地出现，尽了力就是完美的。比如说，要求画一条直线，用直尺可以画得很规范，但要求徒手画，在没有辅助的情况下，尽了力去画就是完美的。

我觉得学生也是各有优点，要是能发挥TA在编程上面的优点，TA就是个人才，但要是把TA放在不熟悉的其他领域，让喜欢编程的去搞硬件，这样就完全发挥不到个人优点。我们希望能尽量找到学生的兴趣，让每一位学生都能发挥特长。我们并不需要一个人什么都懂，他要是能成为某个领域的专家就已经很成功了。我们希望未来能多培养一些专家，我觉得未来国内最缺乏的可能就是专门领域的人才。

现在年轻人生活压力也大，可能为了生活在不断地换工作，这可能完全改变他的方向。比如一些人原本做编程，转行做光电，后来又去做石墨烯材料。到他三四十岁的时候，可能一看，履历很精彩，但就是找不出一个专注点，要是他有一个专注点能咬紧牙关做下去，他可能已经是一个行业的CTO。

人工智能进行时—王者荣耀助力产学研共享AI新生态

Mon, 19 Apr 2021 18:04:00 +0800

生物的进化的速度要以百万年的时间来计算，而人工智能却在以肉眼看得见的速度进化。

半个世纪前，人类需要使用一部重达1270公斤的电脑对抗国际象棋大师时，不会想到在半个世纪后的王者荣耀中，AI可进化至职业电竞水平，这就是王者荣耀的AI——「绝悟」，「绝悟」从离线的玩家对局样本进行模仿学习，为了突破上限，又采用了AI自对弈的强化学习，然后在“绝悟挑战”中测试强度。

王者荣耀执行制作人，腾讯天美L1工作室总经理黄蓝枭在首届STAC科创联合大会上表示，「绝悟」是一个多智能体系统，也就是大量的能够自主决策的AI共同协作，从而实现一个共同的且有挑战的目标。

更为重要的是，王者荣耀团队开放了王者的核心机制，同腾讯AI Lab、相关高校、研究机构一起进行多智能体的研究。“期待这些研究成果，能够落地到其他产业环境中，为工业机器人、救灾机器人等提供助力”。

在王者荣耀中做前沿AI研究

多智能体系统（大量的能够自主决策的AI共同协作，达成同一个目标）作为前沿人工智能技术的核心研究领域，经过多年的研究，已经广泛应用于各个行业。比如无人仓储，多智能体机器人完成庞大的仓储管理；智慧交通中的车路协同系统，无人驾驶；智能工业机器人、物联网等领域。多智能体技术都能够很好的应用下来提高生产效率。

王者荣耀团队在游戏研发过程中，发现MOBA游戏机制具有很强的多人协作性、在不对称信息下博弈空间极大、协作竞技性很强，非常适合使用多智能体人工智能技术来提高生产和测试效率。

例如王者荣耀产品中的视野非全局性，敌我双方的实时位置、状态能信息非理想透明，游戏测试环境中能提供丰富的数据，模拟的场景，为研究模仿学习提供了保障；天然的层次结构，在high level中对应大局观，在 low level中对应了微操，适合层次强化学习研究。

若AI技术能在如此复杂的环境中，学会人一样实时感知、分析、理解、推理、决策到行动，就可能在多变、复杂的真实环境中发挥更大作用。

在这样的背景之下，基于王者荣耀游戏的特点，王者荣耀团队与腾讯AI Lab一起合作，在王者持续进行人工智能相关的技术研究和应用实践，研究并开发出了多智能体产品「绝悟」。

让AI学像人一样决策

「绝悟」名字寓意绝佳领悟力，其技术研发始于2017年，并在2018年12月通过了顶尖业余水平测试。

2019年8月2日在吉隆坡举办的王者荣耀冠军杯半决赛的特设环节中，「绝悟」在职业选手赛区联队带来的5v5水平测试中获胜，升级至王者荣耀电竞职业水平。

而同期「绝悟」的 1v1 版本也在上海举办的国际数码互动娱乐展览会ChinaJoy首次对公众亮相，向顶级业余玩家开放为期四天的体验测试。四天的共2100场测试中，「绝悟」测试胜率为99.81%，仅输4场。

专业描述AI打王者荣耀的场景为——非完全信息多智能体协同零和即时博弈。通俗的讲就是， AI 要在不完全信息、高度复杂度的情况作出复杂快速的决策。

在庞大且信息不完备的地图上，10位参与者要在策略规划、英雄选择、技能应用、路径探索及团队协作上面临大量、不间断、即时的选择，这带来了极为复杂的局面，预计有高达10的20000次方种操作可能性，而整个宇宙原子总数也只是10的80次方。

「绝悟」可以无需人类数据，从白板学习（Tabula Rasa）开始，自己与自己对战。像婴儿学语般，一点点学会了打王者荣耀。更惊喜的是，在训练后期AI 甚至探索出了不同于人类常规做法的全新策略。“比如「绝悟」经常多人抱团吃线，从而达到经济的最大化”。

在王者本身的实践层面，玩家可以在限时开放的「绝悟」挑战中体验AI的能力，而当遭遇队友掉线时，也可以将掉线队友委托给AI托管，但AI不能主导比赛，胜负的决定权还是在各位玩家手中，除此之外，「绝悟」仅在实验室环境中投入使用。

在新英雄设计与游戏数值调整中，「绝悟」也发挥了重要作用，提供AI最终探索出的游戏打法和胜率作为参考，辅助策划优化游戏设计。

2020年11月的一次平衡调整，王者团队希望增强公孙离的强度，「绝悟」对调整后的公孙离进行了模拟对战，显示改动后胜率+2.42个百分点，但部分体验服玩家却认为会严重削弱公孙离。对此，王者团队对调整项拆分和放大场次验证，分析每一条改动对强度的贡献占比，确认相关平衡调整会加强公孙离，最终上线后，公孙离胜率+2.33个百分点，符合预期。

从「绝悟」到开放的「开悟」

在经过实践验证后，王者荣耀与腾讯AI Lab团队将在做多智能体研究的过程中所沉淀的技术资产开放出来，建设开悟开放平台，打造利用王者的核心技术构建的，对使用者低成本的多智能体人工智能算法研究、教学和验证的科研教学平台。

“我们开放了王者的核心机制，提供标准接口、核心算法、脱敏的训练数据、评估工具和计算集群等，给老师和同学们进行多智能体的机器学习算法研究、学习成果交流、对算法成果反复迭代升级。未来也可以提供给其他有需求的研究机构进行更贴近工业化场景的研究。”王者荣耀执行制作人，腾讯天美L1工作室总经理黄蓝枭表示。

2020年，王者荣耀联合腾讯AI Lab、腾讯高校合作、腾讯游戏学院举行了首次「王者荣耀·开悟AI+游戏大赛」，邀请了中科院、清华大学、北京大学、中国科技大学、电子科技大学、哈工大、国防科大、浙大等18所头部高校的老师和同学们，在开悟平台上进行学术研究和交流，并提供全方位资源支持。

“要让多个智能体学会合作是很困难的，既要设定各个智能体的目标，还要分出主力和辅助关系，实现这样的复杂设计成本很高。”中国科学院自动化研究所兴军亮团队提出了一种自我提升式强化学习框架，先让智能体通过模仿来学习，再通过自我互博来进阶进化，加上他们提出的一种新策略，可有效缓解一些多智能学习的常见问题。

经过一年时间的实践，活动得到很好的成果，验证了王者荣耀游戏环境对人工智能技术的赋能思路。

助力产学研，共享AI+游戏新生态

王者荣耀执行制作人，腾讯天美L1工作室总经理黄蓝枭在首届STAC科创联合大会上宣布“多智能体人工智能科研教学联盟”的成立，将与国内头部高校一起共建平台，为更多高校老师和同学们赋能，为有兴趣进行包括多智能体技术在内的人工智能研究的老师们、同学们和产业伙伴们提供低门槛、内容丰富且稳定可靠的学术研究和交流的场景。

腾讯 AI Lab 总经理杨巍表示：“开悟2021年还将向全球高校开放，拓展国际影响力，进一步延展平台承载力，推进AI与教育融合，提高学生的创造力与研究才能，为生态贡献跨学科技术、跨界人才和多方资源。”

腾讯游戏副总裁、腾讯游戏学院院长夏琳表示：“人工智能是国家的重大战略，腾讯游戏学院与各高校深度产教融合，并侧重培养AI+游戏的新兴科技人才。同时，聚焦王者荣耀等游戏AI领域的科研，与国内外重点高校及国家重点实验室不断产出对产业有价值的科研成果，人工智能在国内会不断发展，未来可期。”

在这个人类与技术相互拥抱的时代，王者荣耀不断投入，让AI从0到1去学习进化，并发展出一套合理的行为模式，这中间的经验、方法与结论，短期看，可以给游戏行业、电竞行业带来直接的推动和帮助，有望在大范围内，如医疗、制造、无人驾驶、农业到智慧城市等领域带来更深远影响。长期来看，AI+游戏的研究，会推进AI的终极目标——通用人工智能问题的探索和发展。

雷锋网雷锋网

Twitter新计划：审视自家算法里的“无心之失”

Fri, 16 Apr 2021 09:03:00 +0800

Twitter宣布了一项新计划。

该计划被称为“负责任的机器学习”，主要研究Twitter所采用的算法的公平性。

计划的内容之一，就是由来自公司内部的数据科学家和工程师们，研究Twitter对机器学习的使用如何导致算法偏差，并评估其算法可能造成的“无意伤害”，再将研究结果公之于众。

“我们正在进行深入的分析和研究，以评估我们使用的算法是否存在潜在危害，” Twitter在官方文件中写道。

首要任务之一是评估Twitter图像裁剪算法中的种族和性别偏见。随着越来越多的新闻网站和社交媒体采用AI识别、提取图片，人们开始注意到许多算法，尤其是面部识别中存在的种族偏见。

此前有Twitter用户指出，在有不同人种的照片中，Twitter的自动图像裁剪算法会在选择预览推文呈现的缩略图区域时，更加突出肤色更浅的人像区域。

去年9月，有研究人员发现，点击这些原始图片，可以看到其中包含更多其他肤色的人群，但即使改变了原图中深色人种和浅色人种出现的位置，预览结果也不会改变。

也有网友认为，出现这一情况是因为算法更倾向于提取图像中的亮度高和色彩密度大的区域，并不是“歧视”。

针对算法被指控种族歧视一事，Twitter当时回应称，将展开更多调查，并承诺将其图像裁剪的机器学习算法开源，接受更多用户的审查和建议。

首席技术官Parag Agarwal表示，该算法需要不断改进，团队也渴望从经验中学习。

从上个月起，Twitter开始测试显示完整图像而不是裁剪预览。

但就算Twitter的算法并非“故意”种族歧视，但研发过程中很可能会有一些缺陷导致种族歧视的出现。

NVIDIA的AI研究总监Anima Anandkumar就曾指出，显著性算法采用的训练集，是异性恋男性的眼球追踪的数据，这显然会将受试者的种族偏见转移给算法。

此外，Twitter还将研究其内容建议，包括时间线信息流在不同种族群体中的差异性等。

Twitter表示将与第三方学术研究人员“紧密合作”，分析结果后续将会分享出来，并征询公众的反馈。

目前尚不清楚这一计划将产生多大影响。Twitter表示，这些研究成果不一定会体现在肉眼可见的产品变化是，更多时候是围绕他们构建和应用机器学习的方式进行重要讨论。

Twitter首席执行官杰克•多西（Jack Dorsey）也曾表示，他希望创建一个算法市场，类似应用商店的形式，让用户能够控制自己使用的算法。该公司在其最新的博客文章中说，他们正处于探索“算法选择”的早期阶段。

不只是Twitter，其实对各大社交媒体平台来说，这是一个迫在眉睫的问题。

受美国国内一些社会事件的影响，立法者向Twitter、YouTube和Facebook施压，要求他们提高算法的透明度。一些立法者提议立法，要求巨头们评估算法是否存在偏见。

Twitter决定要分析自己的“算法偏见”，是在Facebook等其他社交网络之后做出的——Facebook在2020年成立了类似的团队。

此前微软也曾发生类似事件：早在2018年，微软在识别肤色较浅的男性时，准确性就已达到了100%，但在识别深色皮肤女性时，准确率仅为79.2%。

去年六月初，微软也同样因为面部识别涉及种族歧视，引起了舆论风波。

英国知名女团Little Mix成员Jade Thirlwall发文，猛烈抨击微软新闻网站MSN在关于自己的报道中混淆使用了团内另一位成员的照片。

该篇报道证实是由AI抓取并生成，却在寻找配图时把黑皮肤的Leigh和阿拉伯裔的Jade弄混了。

在收到越来越多的的用户投诉，以及反种族歧视浪潮的升温之后，许多包括IBM和Amazon在内的一大批科技公司被迫反思系统，尤其是面部识别技术中存在的偏见。

雷锋网编译，来源：The Verge

雷锋网雷锋网

联邦学习首个国际标准正式发布！

Tue, 06 Apr 2021 12:11:00 +0800

导读：农夫养了一只小羊，想给它吃各种不同营养成分的草料，需要去各地收集草料再运送回来喂它。但是有一天，草料场担心“熟客”农夫暴露他们的商业机密，不再允许将草料向外运输了。农夫非常着急：怎么办好呢？

苦苦思考后，农夫想了个法子：带小羊到各个草场吃草。羊在各地移动，而草料不出本地。草料场既不用担心商业机密暴露，小羊也能健康成长。

如果把草料换成“数据”，商业机密换成“用户隐私”，小羊换成“AI模型”，草料场换成“数据拥有方”，农夫换成“工程师”，那么，上述便是一个联邦学习的故事。

通过数据不动模型动的方式，联邦学习技术能使数据可用不可见，有效保护数据安全与用户隐私。

抛开技术细节不谈，本文将从另一个方面讲述“联邦学习”的故事。

作者 | 蒋宝尚、陈彩娴

2018年年底，国内学术界与产业界在隐私计算领域开始了一场基于联邦学习技术的生态建设持久战。

那年12月，IEEE标准委员会（SASB）批准了由微众银行发起的关于《联邦学习架构和应用规范》的标准立项。不久，来自国内外的多位知名学者和技术专家纷纷加入标准工作组，参与到联邦学习IEEE标准的建设中。

标准，顾名思义，是对某一事物或概念进行的统一规定。不仅要切合实际，还要让大家“心服口服”，共同遵守与维护。

这并不是一件易事。工作开始前，标准工作组主席杨强预计：“此类技术标准属于国内首次，没有任何经验可以借鉴。我们预计用五年的时间拿下IEEE联邦学习国际标准！”

但事实上，全球数据隐私保护大环境正在发生变化，标准制定也按下了快进键：

2018年12月，IEEE标准协会通过标准立项；

2019年2月，确定了联邦学习标准的基本框架；

2019年6月，增添工作组成员，梳理各自领域内的联邦学习典型案例；

2019年8月，讨论联邦学习的评估指标如何量化；

2019年11月，对联邦学习的安全测评与评级进行规划；

2020年3月，标准草案获IEEE通过，进入评估阶段；

2020年9月，标准通过IEEE终版确认；

2021年3月，联邦学习标准正式发布。距离立项不到三年，工作组便完成联邦学习国际标准制定（以下称为“标准”），并在今年3月30日通过IEEE确认，形成正式标准文件（IEEE P3652.1）。

联邦学习生态的建立，离不开国际标准。作为世界上首个联邦学习国际标准，其参与度之广，印证了合规使用大数据的时代特征；其权威性之高，体现了社会对联邦学习技术的强烈需求。

1、背景：数据隐私之殇

2019年1月22日，法国监管机构国家信息与自由委员会（CNIL）对谷歌处以5000万欧元巨额罚款，理由是“违反了GDPR”。

这一刻，所有需要数据作为“石油”的公司猛然惊醒：来真的了！

2018年，欧洲联盟加速出台了《通用数据保护条例》（GDPR），为全球互联网企业在享受全球化红利的同时，加上了一条重重的锁链：数据安全和用户隐私。

作为个人信息保护立法的标志性法规，GDPR的出台是“一点寒芒先到”，随后则是“枪出如龙”。

让有志之士没料到的是，数据安全和用户隐私的狂风会袭来的这么快：姓名、生日、信用卡、地址、病史、活动轨迹……只有“合规”，才能触摸到背后的蓝海市场。

针对数据安全与用户隐私，学术界此前也取得了许多成就，但在应用中的效果并不佳。

第四范式副总裁、主任科学家涂威威说：“同态加密、差分隐私、自动多方机器学习技术、联邦学习等等技术，在社会重视隐私保护意识之前，每年都会有论文产出，每年都会迭代从而适应越来越复杂的数据环境。”

然而，在学术界大放光彩的技术，在业界可能遭遇水土不服。差分隐私技术采用加噪声的方法给数据“打码”用来保护隐私，在业界已经早有尝试。但不同于理论上的完美证明，实际产业应用总是“棋差一招”。

在与国际人工智能界“迁移学习”技术的开创者杨强交流时，他也谈到：“我们在2012年就用华为的数据进行了一个实验，发现效果非常差，基本上属于伤敌一千，自损八百，所以差分隐私在工业界并没有大规模广泛应用。但（差分隐私）在学术界很火，因为这个课题写出的文章很漂亮。”

解决水土不服问题，有什么比想要“活下去”的大数据科技企业更加迫切呢？

2016年，“科技巨头”谷歌利用联邦学习解决安卓手机终端用户在本地更新模型的问题，能够基于本地“小数据”进行不断机器学习训练。

而这时，国内的研究团队也发现了这种“数据不出本地”的联合建模技术的强大之处，能确保数据安全、隐私保护和合规。

于是，国内学者和企业纷纷开始投入到联邦学习技术研究和“本土化”技术落地中。

在早期，国内将「Federated Learning」大多翻译为「联合学习」，现在则多称为「联邦学习」。其中的区别是，如果用户是个人，确实是把他们的模型「联合」起来学习；而如果用户是企业、银行、医院等大数据拥有者，这种技术则更像是将诸多「城邦」结合起来，「联邦」一词会更为准确。

这一名字的变化，也反映着联邦学习的研究主体从理论转向实际应用的变化趋势。

但要真正解决数据安全、隐私保护和合规问题，还需要一系列的配套措施。

只有将政策法规、标准规范等融入到代码、模型中，才能让需求各异的各方信服。

2、万事开头难

事情在一开始时并没有那么顺利：应该设定一个什么样的标准？在杨强的预想中，联邦学习技术框架发展迅速，标准需要有技术上的前瞻性和稳定性, 构建客观的测评体系，并对实际应用系统起指导作用。但到底要怎么做，具体提供什么样的指导功能？这是工作组首先要回答的问题。

图注：标准制定流程，摘自IEEE中国官网

一开始就加入标准制定的涂威威也谈到：“困难确实存在，首先要面对‘两个崭新’。标准新：标准工作组虽然有很多资深技术专家，但是对于标准模式大家都有点束手无策；其次，技术新：联邦学习成为主流技术并没有多长时间，也要考虑如何吸引大家积极参与。”

当然，这难不倒身经百战的杨强。

在产生制定标准的想法之后，他和陈天健在深圳微众银行的大楼达成了共识：一定要接触足够多的机构，尽量面谈取经；不求快，求稳，做好打持久战的准备，至少五年。

事实上，在2018年，标准还未立项，对于标准是什么、有什么用等问题还不清楚时，杨强就得到了CCF和IEEE官方的帮助。

2018年年初，CCF最先提供了Technology Frontier平台。在杨强提出增设有关隐私的讨论题目之后，CCF只用了几个星期就准备好相关事宜。

杨强借助CCF TF这个平台对联邦学习标准制定的一些前置性问题进行了分享，并得到其他相关人员的反馈。

随后，杨强又与国家工信部相关人士、IEEE标准协会中国战略合作负责人王亮迪博士等人进行交流。

杨强回忆：“当时IEEE标准制定相关的领导还专门过来给我们答疑解惑。当时他带来两个美国人，其中一个是标准委员。他们提了很多建设性的意见，包括说如果真的要建设标准，就不能掺杂自己的偏见。”

一番交流后，杨强明白了：一项标准的成文涉及细节非常多，其中定义、概念、分类、算法框架规范、使用模式和使用规范等，都需要反复斟酌。

了解了大致流程：建立标准工作组，明确选举过程，制定大纲等等，并做好了打持久战的准备后，杨强便着手开始进行各种调查，研究以前标准制定的相关文档，寻找“老朋友”进行支持。

于是就有了最初的标准工作组成员：涂威威、陈雨强、冯霁、胡水海、丛明舒、张钧波......与此同时，也有一些单位在工作组中以观察员身份，持续关注标准制定的进展。

2019年尤其关键，因为标准制定的大部分正式讨论会议都在这一年里召开。

1月份，元旦刚过，南京大学的周志华教授作为AAAI的主席，便邀请了杨强去夏威夷作特邀报告。这也是人工智能顶级会议上第一次出现联邦学习的“题目”。

夏威夷虽处于冬季，吹的却是暖风。特邀报告的反响很好，工作组一合计，便提出不如召开一次正式的讨论会议。这时，距离立项通过不过两个月。

图注：2019年2月，标准工作组在深圳召开第一次会议

经过约两个月的讨论，2019 年2月份，工作组在深圳召开了第一次会议。参会人数达到30余位。也正是这30多位业界、学界人士，画出了联邦学习标准的基本框架。

正式会议结束后，当天与会者聚集在深圳万豪酒店的阳台上继续交流。杨强直到现在还对当时探讨的具体内容印象深刻，当时聊到很晚，参与的人都讲了自己擅长的领域，大家也更加坚定了打造联邦学习技术生态的信心。

3、会议讨论内外

虽然第一次会议比较成功，但作为标准组副主席的冯霁也有自己的担心：

一是虽然整体框架已经搭建，但具体细节如何补充才能达到IEEE的要求？另外，接下来要如何说服更多人参与进来，让大家看到这个标准的重要性？

“大家背景都不一样，有学者也有业界人士，还有只是感兴趣的参与者，而这份标准的具体内容既不能像论文，也不能像白皮书，更不能只是算法、应用案例的罗列。”在问到标准制定遇到何种困难的时候，冯霁这样回答。

这些问题要求标准能够“顶天立地”：一是能够吸收到最新的技术，二能有非常强的实操性，全面考虑所有应用场景。

作为一家投资公司，创新工场在解决问题时有自己的方法论。

在思想碰撞最为激烈的第四次会议中，冯霁建议在标准中将联邦学习的应用范围限定在To B（企业）、To C（消费者）、To G（政府）三方，大家在讨论时候，先将自己的应用案例进行归类，然后具体问题具体分析，理清楚标准范式的脉络。

这样一来，各方参与者在讨论如何在不同的案例场景下应用标准的时候，就更有条理。

另一个冲突点是如何对技术内演进行定义，例如安全多方计算这些和联邦学习平行的技术如何融合到大一统的标准框架中。

梳理这些技术点的脉络关系，确定外延和内涵，标准组采取的方式是：通过拿科研的文章进行历史性的梳理，参照不同技术之间的综述，追根溯源，找出参与方都满意的答案。

图注：2019年6月，标准工作组召开第二次会议，探讨了联邦学习的定义、框架和案例

共识可以通过讨论达成，但在标准制定的全程中，需要考虑的首要问题还是：如何吸引更多的人参与。

在回答这个问题时，冯霁的语气中透露出如释重负：“好在大家积极性比较高，也有宣传推广的意识。除了正式的会议之外，一些参与者，尤其是杨强教授一马当先，亲自利用各种机会进行宣讲，特别是致力于让这个标准有更多的国际参与，例如世界人工智能大会、AAAI、IJCAI等都有联邦学习的panel设定，并在美国、澳门召开工作组会议。创新工场也是一样，包括开复本人，也专门对这个技术在各个场合进行布道。”

由微众牵头，最早的参与单位有：微众银行、创新工场、星云Clustar、第四范式。

随后，工作组成员增加至30多家：松鼠AI、京东城市、腾讯云、逻辑汇、华为、中国电信、小米、华大基因、中电科大数据研究院、Senses Global、依图、趣链科技、百度、海信、蚂蚁金服、Eduworks、AI Singapore……

领军人物的“游说”与魅力，以及参与者的长远眼光，勾画出了联邦学习技术在未来的广阔发展空间。

在一次和瑞典科技部长的对话中，杨强曾问到：“GDPR对个人数据的强监管措施，对于欧洲AI公司而言，是否是创新的障碍？”

部长回答，这看上去是绊脚石，实际上是动力。因为大家会研制下一代的AI，而美国因为没有同等严苛的标准，技术会因此落后一代。

因此，善于洞察趋势的有志之士看到了：“联邦学习将成为解决人工智能数据瓶颈的必由之路。”

4、众人拾柴火焰高

2019年中期，一位关键人物加入团队——曾在诺基亚负责MPEG标准制定的范力欣。他在知识产权的标准方面经验非常丰富。

范力欣加入之后，直接从另一个方面概括了遇到的困难：在涉及隐私保护这样的课题上，如何以有效的技术方案达成目的, 没有先例可循。但他看到工作组已经集成了联邦学习众多“好手”，心想：大家齐心协力，办法总比困难多，没有过不去的坎。

把大家的专业和特长有机整合起来，这是范力欣和工作组同仁达成的共识。

图注：2019年8月，标准工作组在澳门召开第三次会议，聚焦联邦学习各项指标的评估如何量化、标准如何体现联邦学习技术的合规性、联邦学习应用案例的分类归纳等

作为To G领域的代表，中电科大数据研究院有限公司程序提到：“大数据院一直以政府治理大数据应用技术为研究重点，在推进政府数据开放共享等方面有很多经验和做法，我们来提供To G领域的应用案例。”

逻辑汇的创始人丛明舒作为杨强的学生，自然对恩师发起的项目全力支持：“作为投资研究平台研发商，经济激励我在行，我可以从博弈论视角分析联邦学习商业化过程的经济激励机制。”

涂威威总是逻辑清晰，对抛出的问题一针见血：“在我还是学者的时候，就研究过迁移学习下的隐私保护，关于联邦学习的系统定义部分，我来！”

星云Clustar胡水海也积极参与：“我们一直研究联邦学习里的底层技术架构，联邦学习标准中的这部分，我可以负责。”

在国际上，联邦学习也获得了2018年图灵奖获得者Yoshua Bengio的大力支持。

2019年12月13日，Bengio在NeurIPS 2019期间出席微众银行举办的“微众银行人工智能之夜”，在晚会上明确表达了自己对联邦学习的认可，并签署了微众与蒙特利尔学习算法研究所（Mila）的战略合作协议。

图注：工作组部分成员在加拿大温哥华参与NeurIPS 2019

标准通过后，来自瑞士洛桑联邦理工学院（EPFL）的Boi Faltings教授发来激动的祝贺，提到联邦学习标准对世界数据隐私保护的意义：

“Up to now, federated learning is only used by large companies. Now that there is a standard, everyone around the world can work together to maximize our benefit from AI.”（直至今日，联邦学习技术只在大企业中得到应用，而形成标准后，世界上每个人都可以一起努力，将AI技术“物尽其用”）

在和众多标准组工作人员交流的过程中，尽管他们没有提到，但AI科技评论却能够感受到：在全球的技术标准制定中，在隐私保护的技术发展大潮中，中国人始终处于弄潮儿的地位。

5、两种技术，一个目标

当前，业界解决隐私泄露和数据滥用的数据共享技术路线主要有两条：一条是基于硬件可信执行环境技术的可信计算，另一条就是基于密码学的同态加密和多方安全计算。

这两种方法一种是集中式，一种是分布式。集中式借助硬件，分布式借助密码学算法。集中式以蚂蚁金服为代表。他们提出共享学习的概念，底层使用Intel的SGX技术，试图打造出以阿里云为中心的商业模式。

而分布式的保护方式，基于密码学的同态加密和多方安全计算（MPC：Multi-party Computation），之前一直是学术界比较火的话题，但在工业界的存在感较弱，直到“联邦学习” 概念的出现，才使得MPC技术一夜之间在工业界火了起来。

针对数据维度不同，联邦学习分为纵向联邦学习、横向联邦学习、联邦迁移学习，可以充分应对用户重叠、用户特征重叠的各种情况。这种能够让参与方在数据不出本地的基础上联合建模的方法，显然更能考虑数据拥有者的顾虑。

图注：2019年11月，标准工作组在北京召开第四次会议，聚焦联邦学习场景需求分类与安全测评，着重对联邦学习的安全测评与评级进行规划

在训练性能方面，胡水海提到：“联邦学习在保护隐私的同时，需要以庞大的计算资源为代价，而异构计算恰好能提供强大的算力支持。星云Clustar以高性能算力起家，很早就开始布局联邦学习异构计算的赛道。”

在使用效果方面，涂威威深有感触：“确实有效果，第四范式也在医疗领域进行了尝试，在预测糖尿病患病率方面，比临床金标准要提升两倍到三倍。”

创新工场有着资本的敏锐“嗅觉”，早已看出了人工智能系统的安全性和隐私保护方向的重要性，已经开始着手研究联邦学习企业的创业机会。

与创新工场“英雄所见略同”的还有逻辑汇。作为一家金融科技公司，丛明舒也意识到，在面向金融机构提供在线金融分析自动化平台的过程中引入联邦学习技术，对看重数据隐私的金融机构亦至关重要。

京东城市自主研发的联邦数字网关产品面向政府和企业客户数据共享难等问题，也在致力于为客户提供安全数据共享、数据流转的产品级解决方案。

腾讯内部则成立了三个团队攻关联邦学习，而华为也有两个不同的工作组进行To C、ToB的布局。

腾讯云副总裁王龙谈到：“这一国际标准的发布，将联邦学习从算法层面提升到生态建设层面，是其产业化的重要一步。我相信这一标准在未来产业互联网的建设中，必将发挥关键作用。”

6、生态与格局

求同存异、和而不同的传统文化深深地刻在了中国人的骨子里，尤其体现在：标准组在发起投票的时候，对每一条反对意见都要反复修订草案，直到最终修订稿被IEEE标准委员会投票通过。

作为秘书长单位，星云Clustar在标准制定过程中担负起协调重任。吕亚静回忆：“我们内部有很多群，除了大会之外，还开了众多小会，大家提出问题之后，都会尽量快速讨论协商解决。那时候，我就像催收作业一样，催大家‘交作业’。”

参与撰写标准的单位主要有：微众银行、创新工场、星云Clustar、第四范式、松鼠AI、京东城市、腾讯云、逻辑汇、华为、中国电信、小米、华大基因、中电科大数据研究院、Senses Global、依图、百度等等。

这些不同行业的参与者，带来更多的业务场景和实际需求问题，提升了标准的全面性和完整性，让百尺的竿头更进了一步。

因为耗时太长，需要考虑的方面太多，工作组有时难免怀疑自己是不是真的能完成这件事：“完全没有任何金钱方面的激励，纯粹是靠大家的激情与无私奉献。”

后来，冯霁安慰大家说：“当你确信在做一件正确的事情时，有挑战是好事，经受住了质疑和挑战的东西才弥足宝贵。”

在半个多小时的交流中，冯霁提到最多的是“生态”：“只要这件事情值得做，对中国和世界的技术生态有帮助，有长远影响，哪怕我们倒贴钱，也要进行下去。”

靠着组织者的身体力行，他们最终让标准成长为心中的理想模样。

图注：2021年3月，联邦学习标准终版正式发布

三年来，海内外多家企业和研究机构合作参与制定的联邦学习IEEE标准。但与其他诸多国际标准不同的是，在这次标准制定中，国内企业占据了主导地位。

回想这三年所做的事情，涂威威给出的关键字是“格局”，表现在两个方面：

一，先难后易。大家最开始选择了最难的标准进行攻关，这是比较明智的，因为如果国际标准如果证明可行，那么往国内引进、推广就比较容易。

二，行业影响长远。技术标准是推广行业应用的通用沟通语言。一项产品，你说它品质优秀，质量过硬，没有专业的评价体系，是无法让消费者、政府监管机构信服的。如果企业拿出IEEE标准用作检测，效果自然不同。

7、接下来如何推广？

如今，联邦学习国际标准（IEEE P3652.1）已经通过并发布。

接下来会如何围绕这一“国际上首个针对人工智能协同技术框架订立的标准”做努力？

杨强认为：“标准相当于‘数据市场的操作系统’，有了操作系统还要有应用，希望更多的行业参与者能够在操作系统的基础上制定更为细化的标准和应用。”

言外之意，形成标准并不是一劳永逸，会继续吸纳更多参与方，动态调整细节。只有将联邦学习技术促成产业生态，使其保持可持续发展，才能经得起时间的考验。

如今，越来越多企业参与进来，包括字节跳动、百度、中国电信、VMware中国等等，共同推动联邦学习成为一种产业生态。

此前，字节跳动技术团队开源了自研的联邦学习平台Fedlearner框架。字节跳动高级技术总监兼人工智能科学家刘小兵表示，“联邦学习是机器学习新范式，而这一国际标准的建立，对于推动人工智能在安全合规的要求下顺利发展，提供了有力的保障。”

百度研究院副院长李平教授也提到，“联邦学习的标准建立意味着联邦学习技术和应用发展到了一个新的阶段。在这一标准指引下，联邦学习的生态将迅速形成，人工智能的隐私，安全的分布式联合建模也将成为一个新的范式。”雷锋网

华为在联邦学习上同样不甘落后。除了搭建NAIE联邦学习的基本框架，在去年9月25日，华为云发布了ModelArts 3.0，提供联邦学习特性，实现数据不出户的联合建模。

而中国电信这家拥有亿级用户的巨无霸，经过在标准推进过程中的不断深入研究，联邦学习技术已经在中国电信落地，正在进行产品的迭代研发。

据介绍，中国电信将积极会进一步关注联邦学习的分布式终端训练、联邦学习对网络架构要求和联邦学习的安全机制等方面，推动跨运营商、跨行业的应用合作，持续细化完善行业间的应用标准规范，以构筑良好的应用生态。Intel一直关注联邦学习技术。雷锋网

按照Intel大数据技术全球CTO戴金权的看法，联邦学习能获得数据可用不可见的效果，联邦学习IEEE国际标准的发布是这一技术发展的一个里程碑。

VMware中国研发技术总监张海宁也表态：“在数据治理、隐私保护和安全合规的大潮下，我们看到越来越多的客户使用联邦学习的新技术来打破部门墙和连接数据孤岛。”因此，VMware也在积极投入到联邦学习技术的发展工作中，包括参与开源FATE等项目。雷锋网

数据隐私保护涉及到每个人的信息安全。联邦学习生态的建立，离不开国际标准。

形成标准只是第一步，联邦学习的发展未来仍需要更多人的关注与参与。

只有参与，才能受益。

智能＋制造，聪明的公司都走上了智能制造的道路

Mon, 29 Mar 2021 12:10:00 +0800

“挖掘机到底哪家强，中国山东找蓝翔”——这是2014年火遍全国的一句广告语。历经7年时间，这句广告语早已淡出了人们的视线。

为什么会被遗忘？因为社会在进步，科技在变革，旧事物被新时代所抛弃已成必然。要想历久弥新就要不断地进行技术的创新，从而赋予旧事物新要素，注入新能量。

2021年将是科技更新迭代速度最快的一年，新基建这一超级大风口打开，推动了5G、物联网及人工智能等技术不断走向成熟。

在这一风口下，冲击最大的就是传统制造业，对于这一支柱性产业来说，亟需注入新要素，实现从概念到实践的落地应用再到向网络化、数字化、智能化方向的转型升级。

有人说，聪明的公司都在走智能制造的道路。其实这并不难理解，在科技日新月异的今天，要想追上时代的步伐走在社会的前列，必须给产业注入“智能”这一强心剂。

有人也会产生这样的疑问：智能和制造业相互碰撞会产生什么样的火花？智能制造如何点亮产业的前行之路？

近日，雷锋网在寻找聪明公司 · 智能制造专场活动中找到了答案。下面雷锋网将为您展示11家企业的智能制造产品。

智能＋柔性电子

图 | 柔电云科创始人杨泽宇

柔电云科创始人杨泽宇谈到，伴随着技术的进步，要不断寻找新的材料，做力学性能改变。

柔性电子是近几年的热点话题，从技术本质上来说，在金属后面做一个基底，让金属可拉伸、可延展，但是性能不改变。

杨泽宇介绍了柔性电子打造出的两个传感解决方案；在治疗领域做透皮给药和经皮神经电刺激，传感领域主要做压力传感和生物电传感；神经阻断，柔性金属和皮肤贴合得更好，可以在这上面给人体做刺激，目前已经在做研发性痛经临床实验。

智能＋芯片

图 | 赛富乐斯副总裁申辰

赛富乐斯副总裁申辰介绍了Micro-LED芯片发展史。

他表示，智能时代用户跟互联网、信息打交道的主要手段就是屏幕，为了研发出像素更高、效率更高、亮度更高、刷新率更高的新一代显示屏。面对成本过高和巨量迁移的问题，赛富乐斯开发的NPQDTM技术和像素细分方法，解决了Micro-LED显示屏的技术瓶颈。

图 | 清微智能产品规划总监田有杝

清微智能产品规划总监田有杝阐述了公司的定位：“致力于给行业提供最具能效的芯片、给产业提供最聪明的大脑”。

众所周知，但随着半导体工艺制程的提升越来越逼近于物理极限，摩尔定律受到一定挑战，特别是今年增长趋势明显放缓。

清微智能产品规划总监田有杝表示，公司的核心技术是可创造性的可重构计算架构，以及以这种计算架构设计制造的人工智能芯片，可重构计算架构在边缘侧、端侧、云端都能对计算性能提供巨大帮助，这在芯片设计领域里实现了技术性的突破，具备了一定的国际领先性。

图 | 领挚科技首席战略官姜玮常

领挚科技首席战略姜玮常则从投资角度介绍了薄膜晶体管芯片的亮点：

第一，它市场规模非常大，TFT芯片过去已经创造了万亿的显示行业，它用在其他方向也是有比较明确的市场空间。

第二，现在TFT行业到了转型升级的历史机遇，在中游没有一个企业专注于TFT在其他领域的研发和应用，我们来补中间的空当。

第三，目前是全球唯一专注于TFT芯片研发和推广的企业。

姜玮常还分享了TFT在产品形态方面的独到优势，它基于面板可以做到很大的面积，而且可以做柔性基，有机物在上面做功能性材料，有机材料的应用在TFT领域都是可以来做的。

智能＋农业

图 | 麦飞科技COO陈祺

麦飞科技COO陈祺认为，数字农业是农业的未来。

众所周知，农业是劳动密集型产业，需要投入大量的人力物力。作为一家农业数据化的公司，在科技板块将来自于科研院所的技术转化为真正可落地的产品和服务，包括AI探针利用遥感监测的传感器、AI、叶绿素荧光以及SaaS系统；

农业板块，依托大量的经验积累部署了全国上百个农业运营网点，以轻量化方式赋能给加盟商，帮助他们做精准施药、精准施肥、精准灌溉等；

数据板块，凭借着独有性的行业数据及丰富的积累，帮助相关金融机构面向所有的农户提供小额贷款业务依据。通过卫星遥感圈地，识别农田作物、长势情况，面积评估能贷款多少，有效地解决农民资金量有限无法扩大生产的问题，也间接促进农业的规模化、现代化。

据陈祺介绍，目前，公司已经形成了全国有16个省、4个自治区覆盖的地面运营网络，触达1亿亩农业。

智能＋液冷

图 | 兰洋科技融资负责人莫景杰

据相关数据显示，每年全球散热市场规模为6800亿元。

兰洋科技深耕浸入式液冷解决方案的开发，兰洋科技融资负责人莫景杰介绍了浸入式液冷技术，该技术分为三部分：

第一是导入液，材料具有18-25年使用寿命，高导热性、无色、无味、无毒；

第二是结构，使用液体配合结构进行散热；

第三是储备技术，它的作用是进一步增加电子元器件跟液体的传热效果，短时间发热量特别大的场景会用到，比如军工领域会用到镀膜技术。

据莫景杰介绍，目前兰洋科技申请了70余项专利，其中30多项发明，包括使用新型专利，而且技术团队拥有丰富的研发经验。

智能＋新能源

图 | 锋源科技联合创始人袁蕴超

国内氢能产业进入了自主化关键期，据相关数据显示，到2030年我国氢能汽车产业产值将突破万亿元。

作为一家氢能行业的新能源公司，锋源科技联合创始人袁蕴超介绍了公司的核心技术：

一是金属双极，包括冲压、防护涂层，都涉及到精密制造以及钢性材料的技术；

二是膜电极，涉及到我们纳米材料的制备已经涂附技术；

三是结构设计到流体仿真、受力分析这样一个计算机辅助设计以及辅助制造的技术；凭借着清华长达20年的技术积累，锋源科技自主核心技术可以做到完全自主化，同时，专利也达到了相应的要求。

智能＋健康

图 | 几何科技医学产品总监刘珊

智能让你无形中享受每天“无创、无扰”的体检服务。

几何科技医学产品总监刘珊为大家分享了卫生间里的“智能健康革命”。她表示，“想把医院的检验科挪到卫生间”。

尿液采样通过自动尿液注入、尿液分析，随后结果传输到手机上，解决以往尿检采样干扰的问题。智能检测马桶还可以进行体重体脂、健康指标检测、疾病早筛风险检测、慢病管理、愈后分析等，从而“早发现、早治疗”。

未来，智能检测镜子、智能牙具将通过大数据对美容、皮肤病、牙垢检测以及幽门螺杆菌检测进行相关检测，真正将大数据与生活场景结合。

智能＋IoT

图 | 澎思科技副总裁曲瀚

以AI为基础，IoT为两翼，推动智慧城市中长尾市场需求。

副总裁曲瀚分享了澎思科技在AIoT领域的实践和业务进展。他指出，澎思科技具有AI、深度、SaaS软件的研发的核心能力。通过硬件载体，部署到相应的点位，收集数据，这些传感器连接到澎思云，交付场景化服务。他强调，澎思科技有强有力的安全体系保障、成熟的AIot安全技术，在工厂、园区、楼宇、学校、银行、服务中心、康养等行业都具有广阔的应用前景。

智能＋火箭

图 | 星河动力战略研究高级经理仙存妮

星河动力战略研究高级经理仙存妮指出，智慧城市和智慧农业都离不开卫星的支持。

为了给市场提供低成本、高可靠的运载服务。自2018年2月份成立至今，星河动力完成了4轮融资，并研发出两款产品，一款是小型固体运载火箭“谷神星一号”，于去年11月份发射成功，运载率提高了三分之一、成本降低了三分之一；另外一款是专门对标猎鹰9号的液体火箭，现已完成了火箭核心部件——发动机系统的研制和测试活动，其变推力是25-125%，使用寿命可达50次。

智能＋机器人

图 | 知行机器人创始人白国超

作为一家主要从事机器人和人工智能领域研究和开发的国家高新技术企业，知行机器人创始人白国超表示，公司开发的产品覆盖了先进制造领域中三大部分，分别为工业机器人、工业视觉、工业数字化与智能化。

其核心技术主要包括两部分：协作机器人配合开发的分拣系统，主要应用于科研教育3C、装配等领域；机器人拆垛系统，包含了机器人视觉、机器人末端以及机器人控制系统。

从以上11家公司的智能制造发展道路可以看出，伴随着5G、云计算、人工智能等新技术的发展，各大企业尤其是工业制造企业都想要将新技术与自家产品进行深度融合，但是由于技术局限以及经验匮乏等问题的限制，目前仍处于智能制造的探索阶段，还有很大的发挥空间。

想要实现“制造大国” 到“制造强国”再到“智造强国”的转变，中国还有很长的路要走。雷锋网

中传联合新浪发布《中国智能媒体发展报告》展望2021中国智媒变革趋势

Thu, 25 Mar 2021 20:20:00 +0800

2021年3月25日，《中国智能媒体发展报告(2020-2021)》发布会在北京顺利召开，会议对媒体深度融合背景下中国智能媒体的生态图景进行全面盘点和深入洞察。

会中，中国传媒大学新媒体研究院院长赵子忠致开幕词，并介绍了人工智能给传播和传媒带来的价值。

图注：中国传媒大学新媒体研究院院长赵子忠致辞

微博COO、新浪移动CEO、新浪AI媒体研究院院长王巍在致辞中为发布会拉开序幕，“期待在接下来的学术交流中碰撞出更智慧的火花，并以此契机增进共识，加强合作。我也相信通过大家的共同探索，一幅美好的智媒时代蓝图将在我们面前徐徐展开。”

图注:微博COO、新浪移动CEO、新浪AI媒体研究院院长王巍致辞

报告发布环节，中国传媒大学新媒体研究院副研究员徐琦介绍了人民日报、央视网、光明网、SMG、新浪新闻等10余个具有代表性的智媒实践案例，全方位解构智媒业态的发展变革路径，从中展望 2021年智媒走势。

图注：《中国智能媒体发展报告(2020-2021)》报告

强力“出圈”，智媒发展迎来量质齐升

报告指出，从政策扶持到学术研究，2020年中国智能媒体发展亮点频现。以“新基建”为基础媒体智能化升级转型按下“快进键”。尤其是疫情期间，涌现出一批创新应用产品，大幅提高抗疫信息的生产、聚合、分发效率的同时，也帮助政府与企业提高了疫情信息风控水平与舆情信息管理能力。

后疫情时期，智媒“出圈”呈现加速态势，领先的智能媒体开始向其它垂直行业渗透拓展，部分媒体开始通过“智媒＋行业”布局实现盈利。智媒+文旅、智媒+会展、智媒+政务等创新应用产品，以及智媒与智慧城市、物联网等领域的融合创新，彰显出智能媒体投身到经济建设主战场中的可观潜力。

随着业界、学界对智媒的研究逐步深入，开始呈现出诠释转向和思辨转向的态势。智媒生态解析、智媒发展逻辑、人机关系、传统媒体智能化转型、智能媒体与新闻伦理等方面成为当下的研究重点。

竞合加持，智媒应用生态格局初显

报告强调，在当前我国智能媒体生态中，新型主流媒体和头部互联网商业平台是最重要的两股力量，二者持续竞合将形塑智媒生态的未来格局。

一方面，以智慧广电和智慧报业为主的主流媒体，智能化转型升级取得新的突破。人工智能技术的渗透落地，催生出了智能视频修复、广电网络智能分发、广电云监管等一系列智慧广电创新应用。而在技术、资源、人才、体制机制、资金等方面积累优势的中国报业，也走出了一条自主研发、合作采买、创投孵化的智能化转型升级路径，落地智媒产品以采集、生产、审核、分发为重点，并向其它环节持续拓展。

另一方面，积累了海量数据与内容资源的商业平台，运用人工智能技术支撑自身全线业务体系发展的同时，进一步整合智能技术、平台资源等，并加强与学校、媒体等外界合作，持续向外输出智能媒体解决方案，对提升媒体行业的整体智能化水平具有积极作用。

值得一提的是，央视网、人民日报、封面新闻、新浪新闻等优秀的智慧广电、智慧报业、智慧商业平台代表，不断深化在智能创作、生产流程智能化、AI主播、智能分发等领域的创新引领，带动传媒行业智能化转型，打造以用户为中心、以人工智能、大数据为引擎的智能媒体。

主流价值观引领智媒平台责任担当

常态化下的疫情防控需求使得各类媒介与智媒产品成为“刚需”。持续服务于一线防疫需求，推动媒体融合纵深发展的同时，智媒平台不断践行媒体责任，自身竞争力与影响力持续提升。雷锋网

报告显示，作为疫情最主要的舆论场和信源，新华社、人民网、光明网、触电新闻、封面新闻、新浪新闻等多家智媒集结抗“疫”，发挥着舆情引导中心、事件记录中心、力量集聚中心和谣言粉碎中心的作用。

其中，疫情报道期间，触电传媒通过实时回传系统完成突发新闻的制作，确保了节目及时高质量的播出；谣言盛行期间，新华社客户端上线了新冠疫情辟谣专题页面，以“真相”有效阻断恐慌情绪的蔓延，帮助用户理性防疫；聚集性疫情期间，新浪新闻根据自有的“鹰眼”平台，通过自动化线索抓取，准确洞察用户痛点，并持续推出“返乡政策查询”、“病患轨迹查询”、“疫苗接种查询”等多款便民服务类产品，满足用户对于疫情信息的多维需求。雷锋网

未来，随着科学计算、类脑计算、脑机接口、量子计算等领域的研究取得突破性进展，智媒发展也将进入到更高、更复杂的阶段。在此阶段，人工智能人才短缺的现象日益凸显。报告提示，智媒时代，媒体竞争关键是人才竞争，媒体的核心优势是人才优势，面对新的传媒生态与格局，复合型人才的培养也将成为业界与学界高度重视的工作。雷锋网

亚马逊送货司机被迫签署“生物识别同意书”，否则将失业

Thu, 25 Mar 2021 08:33:00 +0800

亚马逊以其泰勒技术主义而闻名：以提高效率为名使用数字传感器监控和控制其工人的活动。

今年早些时候，亚马逊在其货车中安装了使用机器学习技术的监控摄像头之后，告诉其员工：要么接受AI的监视，要么就会失业。

正如外媒Vice最初报道的那样，美国亚马逊送货司机现在必须签署“生物特征同意书“的协议才能继续为这家零售巨头工作。确切地讲，收集的信息似乎有所不同，具体取决于任何给定货车中安装了哪种监视设备，但亚马逊的隐私权政策涵盖了广泛的数据收集。

根据亚马逊的协议条例：驾驶员必须同意被收集的数据包括用于验证其身份的照片；车辆的位置与运动，包括行驶里程、速度、加速度、制动、转弯、跟随距离等；潜在的交通违规行为，例如超速、未能在停车标志处停车以及未系安全带；潜在的危险的驾驶员行为，例如分心驾驶或疲劳驾驶。

亚马逊“生物识别同意书”

最后一点似乎最具争议性。今年2月，亚马逊就宣布将开始在其送货车中安装由科技公司Netradyne制造的AI摄像头，这些摄像头记录全部的时间内容，并识别危险行为，例如驾驶员打呵欠或看手机，然后系统再根据实际情况提供实时反馈，告诉驾驶员休息一下或将目光集中在马路上。

这种微观的管理以及AI系统出错的概率似乎激怒了一些驾驶员。一位司机在本月初告诉汤姆森路透基金会（Thomoson Reuters Foundation），这些摄像头是“侵犯隐私权“的。22岁的亨利·查尔斯司机表示： “我们整天都在这里工作，我们已经尽力了，摄像机只是控制我们的另一种方式。”

其他司机干脆拒绝签字。一家亚马逊送货公司的老板告诉Vice：“当有人告诉你，你是他们曾经为之工作并最尊敬的人时，这将是一次令人伤心的谈话，因为亚马逊对他们的管理太多了。”

在今年早些时候亚马逊宣布安装摄像头的消息时，亚马逊捍卫了这项技术，因为他们认为这将是安全的福音。亚马逊发现人告诉The Verge说：“我们整个运营部门正在进行安全投资，最近开始在我们的交付车队中推出基于摄像头的业界领先的安全技术，这项技术将为驾驶员提供实时警报，以帮助他们在驾驶过程中的安全。”

以前，亚马逊对于这类技术的部署主要集中在仓库工人，仓库的货物分拣人员必须在手持扫描仪的同时履行协议。该公司已获得拥有专利权的腕带，该腕带能够实时跟踪工人的手，当他们拿不到正确的物品时，使用触觉反馈来促使他们去拿正确的物品。最近，这一技术扩大了对游戏化技术的使用，以可以换取数字化的奖励敦促工作人员更加努力。

在给The Verge的一份声明中，亚马逊发言人Deborah Bass说，这些摄像头只是在“帮助驾驶员和我们提供安全的设备”。Bass表示，亚马逊从2020年4月至2020年10月在超过200万英里的交付路线上试用了该技术，其结果显着改善了驾驶员和社区的安全性，其中事故减少了48%，违反停车标志的情况减少了20%，没有系安全带的驾驶减少了60%，分心驾驶的情况减少了45%。

“不要相信那些声称这些摄像头是用在除安全以外的其他目的的说法。”Bass说。

雷锋网编译，原文链接：https://www.theverge.com/2021/3/24/22347945/amazon-delivery-drivers-ai-surveillance-cameras-vans-consent-form

雷锋网雷锋网

数字经济时代，算力到底有多重要？

Sun, 21 Mar 2021 09:51:00 +0800

无论是两会政府工作报告还是“十四五”规划和2035年远景目标纲要中，“加快数字化发展建设数字中国”都将是我国未来的重点工作之一。

当前数字经济已经成为我国经济的重要组成部分，就在“十四五”规划和2035年远景目标纲要第十五章就明确制定了打造数字经济新优势的目标：

充分发挥海量数据和丰富应用场景优势，促进数字技术与实体经济深度融合，赋能传统产业转型升级，催生新产业、新业态新模式，壮大经济发展新引擎；

第十八章营造良好数字生态的目标中，则提出要坚持放管并重，促进发展与规范管理相统一，构建数字规则体系，营造开放、健康、安全的数字生态。

数据显示，2019年，我国数字经济增加值规模达到35.8万亿元，占GDP比重达到36.2%，占比同比提升1.4个百分点，按照可比口径计算，2019年我国数字经济名义增长15.6%，高于同期GDP名义增速约7.85个百分点，数字经济在国民经济中的地位进一步凸显。

而随着国家相关政策以及数字中国发展战略的不断推进，我国数字经济规模不断扩张，对我国的经济发展贡献不断增强。

伴随数字经济的发展，数据也成为了新的生产要素，算力则成为了人们口中重要的基础支撑能力，而这不禁让人疑惑，发展数字经济，算力为何成为了重要的能力？我们国家的算力又该如何发展，相关企业又该扮演什么样的角色？

算力是数字经济时代的核心基础能力

据IDC与浪潮联合发布的《2020全球计算力指数评估报告》显示，计算力指数平均每提高1点，数字经济和GDP将分别增长3.3‰和1.8‰。

其中，当一个国家的计算力指数达到40分以上时，指数每提升1点，对于GDP增长的拉动将提高到1.5倍；当计算力指数达到60分以上时，对GDP的拉动将进一步提升至2.9倍。

此外，经过多年的积累，中国各行各业都积累了海量的数据。数据显示，当前我国数据总量正在以年均50%的速度增长，预计到2025年将占全球27%，是名副其实的数据资源大国。

而在这个另一面，各行各业目前都有着极大的智能应用需求。2020年，由于新冠疫情的爆发新基建、数字政府、新型智慧城市等建设正在快速推进，因疫情防控的需要，工业机器人、服务机器人、无人驾驶正逐步迈入实际应用阶段。

不仅如此，语音识别、视觉识别等为代表的人工智能技术的需求也在日益增大。

工信部数据显示，2019年中国人工智能核心产业规模达510亿元，超过2019年全年。而据中国信通院数据研究中心测算，2020年中国人工智能产业规模为3031亿元，同比增长15.1%，占全球市场规模近三成。

与此同时，随着5G以及物联网的大规模部署，我国数据的增长速度也将会呈现指数级趋势，数据总量将进一步提高。

而随着智能化应用的不断发展，对于数据的利用则会出现更多维度、更加深度的利用需求，而在这背后，则需要更多的算力来为人工智能技术提供“动力”，挖掘数据背后的价值。

就以自然语言模型GPT-3为例，其拥有1750亿的天量参数，其训练数据集规模也超过500GB。GPT-3的算力需求达到了3640Petaflop/s-day。据媒体机构量子位估算，训练一个GPT-3模型需要一块GPU运行355年。不同口径估算，GPT-3的训练成本约在600-1200 万美元。

而就在刚刚过去的2021年1月里，Google Brain的科学家宣布他们设计的简化稀疏架构（Switch Transformer）可以将语言模型的参数量扩展到1.6 万亿，这是GPT-3的近10倍。

显然，人工智能技术的发展以及应用，其背后离不开算力来为其提供“动力”。

如何“加码”算力

AI计算能力和科学计算能力也正在反映出一个国家最前沿的计算能力。

据IDC与浪潮联合发布的《2020全球计算力指数评估报告》显示，当前我国在TOP500超级计算机中占比接近一半，科学计算基础设施全球领先；

我国也是AI算力支出占总算力支出最高的国家之一，AI算力支出占总算力支出的比例达到14.1%。

各国不断加码算力，也让AI服务器的销量呈增长的趋势。据IDC统计数据，全球人工智能服务器占人工智能基础设施市场的84.2%以上，是AI算力基础设施的主要角色。

IDC近日发布的2020《全球人工智能市场半年度追踪报告》（2020H1《Worldwide Semiannual Artificial Intelligence Tracker》），对2020年上半年全球人工智能服务器市场进行数据洞察。报告显示，目前全球半年度人工智能服务器市场规模达55.9亿美元。未来，人工智能服务器将保持高速增长，预计在2024年全球市场规模将达到251亿美元。

可喜的是，全球服务器市场份额前五名中有3家国内厂商，其中，浪潮以16.4%的市占率位居全球第一，成为全球AI服务器头号玩家，华为（6%）和联想（5.7%）位列第四第五。

显然，中国人工智能服务器已经成为全球人工智能产业发展的中坚力量，而根据IDC与浪潮联合发布的《2020-2021中国人工智能计算力发展评估报告》，2021年中国人工智能服务器市场规模将持续保持高速增长，未来将占全球人工智能服务器市场的三分之一左右。

除相关厂商发力之外，我们也看到，国家在相关政策上也给了很大的支持，2020年3月，数据中心、智能计算中心为代表的算力基础设施成为了新基建7大领域之一。

算力的战略价值及作为新型基础设施的地位已成事实。

国家发改委明确提及，中国将实施全国一体化大数据中心建设重大工程，布局10个左右区域级数据中心集群和智能计算中心。

具体到省份和城市，也认识到算力的重要性，开始加速算力的培育和提升，并明确提出建设数据中心的目标计划。例如山东表示2022年前在用数据中心机柜数达到25万架，四川和福建各自提出达到10万架，云南也提出到2022年建成10个行业级数据中心，浙江表示要建成25个大型、超大型数据中心等。

显然，无论AI服务器还是对于数据中心的建设，在新基建等一些相关政策的鼓励下，当前我国正在呈现一片繁荣的景象，这个过程中，我们不仅看到了国家政策的不断落地和加码，而且也看到了以浪潮为代表的中国企业也在全球市场中处于领导地位。雷锋网雷锋网雷锋网

让静态知识动起来：从知识图谱到事理图谱

Fri, 12 Mar 2021 18:42:00 +0800

作者 | AI科技评论

在社交网络中，有这样一条著名的“六度分隔理论”：

“最多通过五个人，你就能够认识世界上的任何一个陌生人。”

“六度分隔理论”背后的知识图谱就是帮助社交网络连接每个人的“黑科技”。知识图谱以实体概念（例如人）为节点，以关系为边，以可视化的图形展示直观地呈现人们的社交关系。目前这一技术已在搜索、金融等领域得到了很好的应用。

那么，如果将上述知识图谱中的“人”改为“事”，又会有怎样的变化？

明略科技集团首席科学家和明略科学院院长吴信东教授的回答是，传统的知识图谱回答的是“是什么”的问题，而以“事”为核心的事理图谱回答的是“为什么”的问题。目前，绝大多数知识图谱主要以实体（特别是人名）为基础，面向事件知识图谱研究的语料构建和研究方法还处于探索阶段。

吴信东

“知识图谱的关注点从‘知识’到‘事件’，这代表了目前知识图谱自动构建领域的日渐成熟，单一的静态事实类图谱构建模型已经不能满足业界的需求，产业界对动态事理图谱以及其他更深层次的语义理解技术有着迫切的关注。”吴信东告诉AI科技评论。

1

事件关系抽取：让静态知识动起来

知识图谱的概念由Google于2012年提出，最早被搜索引擎用基于实体的搜索来代替基于字符串的搜索，从而提升用户搜索质量与体验。在大数据时代，知识图谱以结构化的形式将互联网的信息表达成更接近人类认知世界的形式，提供了一种更好地组织、管理和理解互联网海量信息的能力。

构建知识图谱的前提与核心条件是知识获取。具体来说，这一过程需要将现实世界中的各类“信息”转换为“知识”并表达成计算机可存储和计算的结构，再进一步形成“图谱”。早期的知识图谱构建大量依赖于人力分类，如维基百科采取“众包”的方式，让网民成为知识的贡献者，从而加快了知识图谱的累计速度。

但在大数据时代，手工劳动已经不能适应知识图谱的构建需求。不少企业开始积极探索和尝试自动化构建技术，利用机器从不同来源、不同结构的数据中进行抽取，形成知识存入到知识图谱。而在产业实践中，通过文本信息等非结构化数据中提炼知识构建知识图谱，技术上面临很多挑战。

而这也正是数据挖掘顶会 ICDM 从 2019 年开始举办知识图谱大赛的原因。

“知识图谱是一个明略的技术特长，明略认为有这个义务为促进知识图谱的学术研究以及产业实践的联动与交流出一份力。”2019 年的 ICDM 在北京举办，作为会议的发起人、数据挖掘领域领军人物吴信东教授从会议之初一路相随，在本届会议上，吴信东教授不仅担任大会主席，并推动设立了首届知识图谱大赛，使之成为知识图谱学术与产业交流的重要平台。

ICDM 2019 知识图谱大赛的主题是自动生成知识图谱，而 2020 年的竞赛主题“事件原因抽取”则更贴近产业应用。任务是解决场景营销的一大痛点，即如何智能分析与提取与消费者行为相关的内容场景及关系知识，以数据挖掘、机器学习、NLP等技术建立模型，从文本中智能提取出消费者事件的因果关系。

据 ICDM 2020 知识图谱大赛联席竞赛主席、中科院自动化所研究员刘康教授介绍，事件关系抽取是信息抽取任务中较难的任务。相较于实体关系抽取，事件关系抽取需要判断两个事件之间的关系，而事件在文本中的描述通常比较复杂，有可能是一句话或者多句话。

刘康

此外，事件抽取任务侧重于事件类型的判断以及事件元素的抽取，属于单个事件内部的语义识别；而事件关系侧重于不同事件之间错综复杂关系语义识别，更准确的事件抽取能提升事件关系的性能。

据AI科技评论了解，本届知识图谱大赛比赛数据使用真实、公开的用户消费评论数据，存在数据质量差、多种语言、格式不统一等问题，增大了赛题的挑战难度。

这也是业界在知识图谱应用中需要解决的问题：知识图谱的节点是偏静态描述的实体，而事件偏动态。与实体相比，事件能够更加清晰、精确表示发生的各种事实信息；而人类的命题记忆是以“事件”为存储单位的，真实的消费评论所体现的也正是这样一种动态信息。让机器能够以一种更为接近于人脑知识结构体系的方式来处理知识和进行推理，有助于机器更好地理解复杂场景下的具体问题，为用户提供更好的体验。

换言之：让知识图谱中的知识“动起来”，不仅是学术界研究更好实现人工智能的手段，也是产业界为客户提供更智能化的服务、提升服务质量、降低成本的需求。

2020 年的知识图谱大赛共吸引了 45 个国家的 2000 多支队伍参与，北京大学、清华大学、中国科学院、香港中文大学、康奈尔大学、国立新加坡大学等著名高校及阿里巴巴、腾讯、华为、百度、京东等企业均参与其中。

那么，事件关系提取又能在哪些方面帮助企业提升业务水平？

2

事件关系提取的作用

刘康教授告诉AI科技评论，在知识图谱领域，学术界和企业界联系十分紧密，相关技术在企业中有丰富的应用场景，这也使得学术界在研究理论的同时注重技术、场景的实际落地，在本次赛题命题中，命题专家同样很好地考虑到了这一点。

以参赛企业京东为例，利用知识图谱可以自动整理行业和企业数据，形成金融数据库，帮助金融机构形成差异化竞争优势。知识图谱也服务于京东金融App支持各个业务线的销售对话机器人，为智能问答系统提供了推理问答，逻辑判断问答，查询问答等功能。

除了行业和企业的应用，提取消费者事件的原因在内容广告、社交监听等许多业务场景中都是关注的焦点。以内容广告为例，如今的广告主更喜欢通过产品功能嵌入内容，以潜移默化的方式将自己的品牌或产品与任意的消费事件联系起来。为此，明确地提取消费者事件的原因成为构建这样一个满足广告商需求的系统的重要技术。

尽管知识图谱技术在产业界正经历着应用的高速增长，学术领域前沿成果与实际落地应用场景间依然存在着巨大的鸿沟。对于大多数企业来说，他们并不具备像京东一样，利用知识图谱中的事件关系改善自身业务的能力。

“基于事理图谱的应用已经在多个行业中涌现，比如营销、金融、工业等。”吴信东教授告诉AI科技评论，明略科技在帮助企业推进基于事理图谱的应用有足够多的构想和实践。

“比如在明略的实践中，使用事件抽取技术识别舆情中的热点事件，将不同新闻中提到的同一事件进行聚合、统计热度，以气泡图等方式对事件发展趋势进行可视化，从而指导营销文案的自动撰写、垂直领域报告的自动生成等。”

在金融行业，明略科技与浦发银行合作，共同推动金融认知工程方法论研究与理论体系创建，在产融生态合作中不断完善金融认知智能体系，构建国内领先的认知智能平台基础设施，提升用户洞察、感知互动等能力。在工业领域，明略也广泛地在轨道交通等多个行业的智能维保与故障归因场景上有着深入的探索。

除此之外，明略科技也在基于大数据和AI技术构建行业知识图谱。知识图谱的自动构建是明略的核心技术之一，2020 年 7 月在 2020 WAIC 世界人工智能大会期间，明略科技推出了目前世界上第一个语音实时生成图谱的企业级知识图谱开发工具包 HAO 图谱，HAO 正在做到：专家在台上讲话，后台图谱系统可自动同步构建知识图谱。

据介绍，HAO 图谱可以独立运行，也可交付给企业技术团队进行二次开发，帮助用户及中小微企业提供全方位服务。目前 HAO 图谱已在数字城市、金融、工业、广告营销等多个场景中落地。

“HAO 治理”模型架构图

对企业而言，知识图谱的构建可以帮助企业连接内部结构化数据、物联网数据、外部非结构化数据，进而可能成为下一代企业管理数据的主流技术路线；而明略科技也将结合在知识图谱事件抽取领域的新动向，帮助企业实现知识图谱和数据管理的升级。

3

知识图谱的未来

虽然知识图谱在产业界已经得到了一定的应用，但刘康教授认为，从学术研究的角度，现在知识图谱的研究正处于快速发展初期，并从传统的以实体为核心向事件等复杂结构知识为核心转变。

“显著的图谱有可能出现在和预训练语言模型的结合上，目前以 BERT 为代表的预训练语言模型正在各个 NLP 任务中发力，这些主要得益于大数据和算力的进步，但是此类模型中到底蕴含哪些知识类型，以及如何用知识图谱显示提升预训练语言模型的表示能力有可能会取得比较显著的突破。”谈及未来知识图谱的发展趋势，刘康教授如是说。

从根本上说，从实体到事件的核心转变并不会改变基于知识图谱的人工智能推理的技术本质，其核心挑战还是在图谱上搜索最优解所面临的组合爆炸困境。近年来如 BERT、GPT-3 等大规模预训练语言模型的出现，也为解决事理图谱的组合爆炸困境提供了新的方法。

而在 2020 知识图谱竞赛中，我们也看到了不同队伍的技术处理方案。如京东引入了一种全新的视角来重新审视关系行为原因提取任务，并提出了一种新的序列标记框架，而不是单独提取行为类型和行为原因；获得第二名的日本选手则是使用 GAN 完成了本次任务，通过 GAN 的生成方式增加训练样本，同时对 GAN 生成的数据标注为 Fake，在原有五种时间类型的基础上，增加 Fake 标签进行预测。

刘康教授认为，未来知识图谱领域研究可能是向多模态、复杂结构知识和领域化发展。其中，如何表示各种类型的知识？如何抽取常识知识？如何结合多模态信息进行复杂结构知识的自动获取？都是他认为比较有意思的研究问题。

吴信东教授认为，知识图谱从静态知识描述走向动态问题求解是知识图谱走向实际应用的重要发展方向，事理图谱可以接入问题求解的动态信息，为知识图谱的推理插上一个动态翅膀。

作为人工智能技术中的知识容器和孵化器，知识图谱会对未来 AI 领域的发展起到关键性的作用。无论是基于实体的传统知识图谱还是事件的新一代知识图谱，其构建技术的发展和对应用场景的探索仍然会不断的持续下去，在此过程中，知识图谱构建技术会朝着越来越自动化方向前进，同时在以明略为代表的 AI 和大数据公司推动下，知识图谱也会在越来越多的领域找到能够真正落地的应用场景，在各行各业中解放生产力，助力业务转型。

雷锋网雷锋网雷锋网

没想到，这个AI特效背后还隐藏着个“世界冠军”

Fri, 29 Jan 2021 13:49:00 +0800

昨晚做了一个梦，梦里的我变成漫画里的人物，正在为参与选秀苦练舞蹈，期待着万众瞩目登上舞台的一天。

然而一觉醒来，这个美梦竟然成“真”了！

大眼睛，饱满苹果肌，摆着离出道还有亿点点距离的律动~妥妥的漫画女主角既视感。

没错，这项黑科技就是手机QQ相机里的热门AI玩法——漫画脸。从画面来看，哪怕受拍摄人物大幅度动作，融合感依旧满分。

类似的，一经上线便备受用户们追捧的还有“童话脸”等多个AI特效玩法。

AI特效看似操作简单，但要想一秒内达到如此效果，其背后的技术支撑可并不简单。

细心的朋友可能会发现，漫画脸的AI特效get了一项技能——实时抠图。在动态场景下，无论是人像的头部、面部，还是半身像，都能够被精准识别，并转化为漫画版，看不出一点破绽。

这项技能在学术上叫做语义分割技术。而这些特效背后使用的语义分割技术叫做GYSeg，它是腾讯光影研究室（Tencent GYLab）在计算机视觉领域的自研算法。最近GYSeg算法刚刚参加完MIT Scene Parsing Benchmark 场景解析国际竞赛，从多个参赛团队中脱颖而出，以0.6140的成绩斩获了冠军。值得一提的是，近两周团队持续优化算法，并再次刷线最新成绩至0.6235，仍处榜单第一名。

专业科普一下，MIT Scene Parsing Benchmark 是全球公认的最具挑战性、权威性的场景解析、语义分割评测集。其发布的ADE20K数据集是计算机视觉三大顶会（CVPR、ICCV和ECCV）语义分割论文的权威基准数据集。

每年有众多国际顶尖企业、学术机构参加这项国际赛事，比如本届参赛的团队还有商汤科技、亚马逊、复旦、北大、MIT等国内外研究机构和高校。

实时抠图神器：GYSeg算法

简单理解，语义分割技术就是让计算机能够识别出图像场景中每一个像素所代表的语义类别。

以人像图像为例，人像的全身、半身、头部、头发、多人/单人以及多样化的背景都是其需要识别的目标。

而从更大范围来讲，现实生活场景十分丰富、目标复杂、尺度范围大，如本次比赛所使用的ADE20K数据集包含了150个类别，涉及人类生活各个方面的场景。这对于AI语义识别本身提出了较高的挑战。

更重要的是，同种类的物体在不同场景中很可能表现出不同的大小、比例和姿态；不同物体之间可能存在相互遮挡问题，由此会带来严重的语义混淆。

为了克服以上难点，GYSeg算法在数据增强、网络设计、训练、推断方面进行了一系列创新，并建立了一套通用的整体分割架构。

在网络设计方面，GYSeg算法采用自研的GYNet作为backbone，并接入ASPP模块进行特征的增强与融合，获得了更多的Context以及感受野，同时，整体结构达到了很好的速度跟精度的平衡。
在分割head方面，为提高不同尺度物体和小物体的分割精度，采用基于Multi-scale Attention的方式使网络在不同尺度上自适应的学习。
在推断阶段，GYSeg算法采用了多种不同尺度级联式推断融合。在此基础上，使用ADE训练集数据搭建SegFix网络，对Multi-scale Attention的输出结果进行精修，以提升边缘分割的一致性。同时，在训练过程，加入OHEM提升困难样本学习能力，在多物体分割中采用gradient loss对物体边缘进行约束来提升边缘的准确性。
在数据增强方面，除了针对复杂场景使用随机缩放、crop、对比度、blur等常规操作外，对于语义明确、数量较少的类别，GYSeg算法还采用了“复制-粘贴”的方式进行扩充。如动物、摩托车、自行车等。
在loss约束方面，借助OHEM进行在线困难样本挖掘，GYSeg算法在validation集上Miou提升0.4%，优于focalloss(提升0.26%)。

如上述案例所见，在人像分割方面，GYSeg算法凭借对人像半身、全身，室内、室外，单人/多人等多复杂场景的需求的不断的打磨和优化，成功应用到了腾讯QQ、腾讯微视等多个产品中。其结合发布器技术中台强大的图形图像渲染引擎，通过为前景人像和背景添加不同的滤镜特效或更酷的背景效果，实现 “七夕卡通画“、“怪兽护体”等各种特效玩法。

全栈式AI，落地泛娱乐场景

当然，GYSeg自研算法只是腾讯光影研究室AI能力的局部体现。

伴随新技术的不断发展和进步，AI在泛娱乐领域的应用场景变得更加丰富。在此基础上，光影研究室围绕计算机视觉技术展开了全栈式布局。

从技术能力上来讲，目前主要分为两大方面：应用AI能力和基础AI能力。

值得一提的是，依托腾讯庞大和丰富的内容产业，以上几乎所有AI能力都在移动端找到了落地场景，并成功覆盖到了手机QQ相机、手机QQ音视频通话、腾讯微视等20多条业务线中，为用户带来了全新的数字化娱乐体验。

1、应用AI能力

应用AI能力隶属于"基础美"的范畴，其主要目的是实现人像照片的系列美化功能，包含人脸的各种美颜/美妆/捏脸，不同场景的滤镜，以及底层的拍摄质量提升等。

具体表现为GAN的生成， 3D的重建，以及AR/交互AI等技术。

很多朋友应该知道，前段时间火爆全网的“童话脸”特效，不仅有李雪琴亲传童话世界基本生存须知“公主病”，更是受到辣目洋子、刘晓庆、王大陆等众多明星青睐。

童话脸特效背后依靠的便是GAN技术，它是腾讯光影研究室首次将GAN与3D卡通风格相结合的应用尝试，同时也是业内的第一次尝试。

据了解，从算法研究到上线首发，研究团队仅用了两周的时间，并成功克服了用户ID生成，StyleGAN稳定性，移动端实时化三大落地挑战。而且，基于自研的GYNet，其在移动端的网络计算量降低了200倍。目前这项AI能力仍在持续积累和迭代中。

在3D重建方面，光影研究室推出了3D捏脸能力，它可以根据用户给定的照片自动化捏出一个3D的人脸效果。从脸部的shape，五官的细节，到头发的效果，在最大限度保留用户ID的基础上，提供了最佳体验效果。

同时，在硬件适配方面，研究室团队针对低端机多了大量优化工作，包括底层使用TNN Inference框架，模型结构的小型化，模型的量化、裁剪，工程Pipeline的设计等。最终按照机型进行分发，保证了效果与速度的trade-off在高中低档机型的全面覆盖。

2、基础AI能力

这方面主要涉及检测&关键点、分割、分类三大类。上述语义分割算法GYSeg的研发属于这一范畴。值得一提的是，关于分割技术，光影研究室团队发表的论文《Context Prior for Scene Segmentation》，还登上了计算机视觉顶会CVPR2020。

在落地方面，除了泛娱乐场景外，以上前沿技术在图像处理、自动驾驶，自动医疗诊断等领域也有着极大地应用价值。比如语义分割算法GYSeg，在自动驾驶领域可用于区分路面阴影和真正的障碍物，以减少汽车误判率等。

据光影研究室介绍，团队定位为PCG的发布器技术中台，也承接了移动端的拍摄/相机/玩法类的AI能力，旨在通过前沿的AI能力、先进的玩法引擎和3D渲染技术，为腾讯的社交、短视频等产品用户提供服务。总体而言，业务方向更偏向To C端，更注重提升用户的娱乐体验。

透过光影研究室的技术布局和应用落地，可见其身上有两个显著的标签，一是聚焦“泛娱乐化场景”，二是“移动端部署”，后者从目前的落地成果来看，在行业内已具备核心竞争力。在整个腾讯AI产业布局中，这两个标签，也是腾讯光影研究室区别于腾讯优图、腾讯AI Lab最显著的差异化特征。

自闭环的技术团队，让光影内容更有趣

作为专注于研究前沿影像处理技术的团队，腾讯光影研究室曾孕育出“全民武媚娘”、“小学生证件照”、“军装照”等现象级刷屏玩法；在探索泛娱乐综合解决方案上，其愿景是让拍摄特效更丰富，让创作编辑更便捷，让光影内容更有趣。

据研究室负责人介绍，这支团队是一个从算法研究到工程落地自闭环的技术团队，具备CV，AR，3D引擎，特效玩法引擎，配套特效制作工具等完整的研发组织，强大的工程能力，这些都为光影CV算法的研究提供了有力支撑。

谈及未来的研发方向，光影研究室团队表示，未来在算法侧将会重点投入交互AI & 3D重建两方向，为腾讯社交内容生态提供持续不断的创新驱动力。在工程侧将会继续打磨、优化特效玩法，包括引擎的功能和性能，更灵活的特效玩法，同时持续优化素材创意制作工具，为业务的创意玩法生产发布进行提效。

最后关于AI特效，你有什么创意玩法？可评论区在线提需求[手动狗头]

雷锋网雷锋网雷锋网

谷歌正为神秘Fuchsia OS招募外部开发者

Thu, 10 Dec 2020 14:36:00 +0800

雷锋网按：四年前，我们首次发现谷歌正在开发一款名为“Fuchsia”的新操作系统，该操作系统的独特之处在于，其并不是基于Linux内核打造，而是使用了一个名为Zircon的全新微内核。此外，尽管该操作系统也是开源的，但是却没有人知道它的真正用途，谷歌的高管对此也是避而不谈。

近期，谷歌公司对外发布的一个公告，显示着其仍在持续开发这个新的操作系统。公告显示，谷歌将从公司外部寻求更多的开发者，以便于让该操作系统变得更加开放。

谷歌方面表示，其已经为该项目的讨论创建了新的公共邮件列表，添加了一个专门阐述如何制定战略决策的管理制度，并为开发者开放了问题跟踪程序，以便查看正在进行的工作。

虽然有一些早期的UI事例，但在我们已经看到谷歌提供的关于此操作系统的代码和文档有一段时间了，但谷歌刚刚发布的公告仍然强调：“Fuchsia操作系统还没做好应用到产品中的准备，也并没有成为被开发的目标。”但此声明可能会引发另一轮猜想。

^{图注：疑似Fuchsia操作系统界面截图}

我们知道，Fuchsia并一定是android或chrome操作系统的替代品，最有趣的是，据了解，Fuchsia已经在智能硬件产品，即谷歌的智能音箱上进行了实际的测试。不过，在智能音箱发布之后，他们也并没有运行Fuchsia操作系统。9to5Google的Kyle Bradshaw简单的列举了几个可能集成了Fuchsia操作系统的谷歌设备。

谷歌将Fuchsia简单的定义为安全、可更新、具有包容性和实用性的生产级操作系统。在2019年的一次采访中，谷歌中Android 和Chrome OS的负责人Hiroshi Lockheimer表示Fuchsia可以对除了手机和笔记本电脑外的某些其他产品进行优化。

他表示：“我们正在研究一个新的操作系统会是什么样子，所以我知道人们可能会很兴奋的说’哦，这是新的安卓系统，或者这是新的Chrome系统’，但Fuchsia只是我们在推动操作系统层面上最新技术的发展，从而使我们在这个过程中学到的东西，能够更好的应用到其他产品上。”

除了建立新的邮件列表和征集开发者之外，谷歌还发布了一份“技术路线图”，但这份技术路线图主要集中在底层操作系统上，比如“一个独立于驱动程序更新内核的驱动程序框架”和“Fuchsia接口定义语言”。该路线图表明，Fuchsia操作系统中，通过使用一个新的IO库和组件架构，许多最初的子系统正在被改造。

Google运行了很多开源项目，这些项目名义上是由任何人开发的，但实际上大部分都是由谷歌的工程师完成，Fuchsia看起来也是一样。在谷歌发布的新的管理方式中显示：“谷歌引导着Fuchsia操作系统的发展方向并做出平台决策”，但它更鼓励外部的开发者来共同开发Fuchsia操作系统。

信息来源：https://www.theverge.com/2020/12/8/22163225/google-fuchsia-os-call-contributors-mailing-list-governance?scrolla=5eb6d68b7fedc32c19ef33b4

雷锋网雷锋网

MindSpore: 作为一个开源社区，开放是核心

Fri, 13 Nov 2020 16:49:00 +0800

在开源方面，中国似乎一直在践行“拿来主义”，对开源代码的贡献远远比不上其他国家。

据CodersRank统计，在2012-2019期间，对全世界开源代码贡献最多的城市主要位于美欧地区，旧金山一骑绝尘，名列前10的其他欧美城市还包括纽约、伦敦、柏林、多伦多、西雅图、洛杉矶、巴黎与巴塞尔。此外，亚洲地区的东京与首尔亦榜上有名。

而中国的表现，则“名落孙山”。换言之，中国在开源方面，相较其他国家而言，仍相对落后。在大多时候，中国的开发者是使用来自美国的开源技术，而不是贡献自己的开源代码。

针对这个问题，我们要如何破解呢？

近日，来自中国科学院大学的包云岗教授针对如何破解中国开源的“拿来主义”，提出中国要加大对开源技术的投入，形成一批由中国发起的有影响力的开源项目，争取到更多话语权。事实上，华为也认识到了这个问题，在Linux上的投入非常大：在Linux Kernel 5.10中，华为的Patch贡献量已经排到全世界第二，仅次于Intel。

据包云岗教授总结，开源主要有两种模式：一种是由非营利组织主导，如Linux基金会、Apache基金会、RISC-V基金会等，商业应用一般需加入基金会，缴纳会员费；另一种是由企业主导，如谷歌 (Andriod, Chromium, TensorFlow)、RedisLab (Redis)、Wave Computing (MIPS)等，商业应用需与主导企业签署协议。

由企业主导的开源，比如谷歌的TensorFlow，只单向开源代码，很少接受社区反馈，本质上是通过开源形成技术垄断。相比之下，由Linux基金会等非盈利机构主导的开源项目则更开放：代码开源、流程开放、管理开放，通过贡献度来决定话语权。

开源对AI技术发展的影响无疑是巨大的。秉承推动中国AI开源发展的原则，LF AI & DATA DAY（AI开源日）于2020年11月7日在深圳市南山区鹏城实验室举行。“AI开源日”是鹏城实验室、LF AI & DATA基金（Linux基金旗下的一个子基金）与OpenI启智社区达成三方合作的里程碑活动。

作为此次活动的联合举办方之一，MindSpore社区以运营负责人黄之鹏为代表，阐述了AI原生编程（AI Native Programming）生态的建设意义，强调了开放治理对开源社区发展的意义。AI科技评论对黄之鹏进行了访谈，就此次合作的背景与意义、以及MindSpore对开源发展的计划展开了讨论。

一、开源初期：机遇与挑战并存

黄之鹏认为，国内AI开源正处于爆发式增长的初期，原因主要有两点：一是更多人了解到开源是什么，并拥抱开源的理念；二是很多公司开始意识到，通过开源协作的方式，很多项目的开发效率会提高，对公司“摊薄”成本也有好处。

近几年，开源技术受到越来越多国内企业的青睐，这与诺贝尔经济学奖科斯的交易成本（Transaction Cost）理论有关。根据该理论，每一笔交易都有成本。对于企业来说，在完成相同功能的情况下，交易成本越低的技术越受欢迎。而开源极大地降低了交易成本。阿里云的前副总裁章文嵩曾提到，阿里使用开源技术来实现“去IOE”，成本只需要原来的1/140。

在初始阶段，国内AI开源发展的机遇与挑战并存。一方面，现在国家非常强调创新，而开源是一项能够促进技术创新的举措，因为开源吸引了大量的开发者，相当于在技术的发展中众筹了更多的智力。而另一方面，国内的开源相关的历史、文化、规则、法律等仍需长足建设。比方说，在代码开放的情况下，如何避免成果剽窃与篡改这一类问题。

针对这一担忧，黄之鹏提到，MindSpore使用的是非常主流的Apache 2.0开源许可证。当开发者在做贡献时，他能够清楚知道他的受让所遵守的约定，给予了什么、保留了什么。如果存在剽窃行为，原作者很容易举证。此外，MindSpore强调开放治理，即一个人作出贡献后，所有人都会知道并认可他的贡献。借助于业界最主流的Git代码管理机制，即使是简单的合入补丁，文件也会标注作者的名字。

此外，社区如何吸引更多开发者参与开源呢？MindSpore建立开发者成长体系，设立相应的奖励机制：

1）普通开发者：零门槛参加社区活动，可以加入微信群提问任何问题，无论多么小白。

2）优秀开发者：通过答辩选取。每个竞选者通过分享自己的故事，以及使用MindSpore进行的技术突破与创新，基于个人的开源成就而当选。

3）布道师：要求在一定规模的会议上分享过MindSpore的议题，提交过特性补丁并被接纳。黄之鹏介绍道，“深度学习的门槛比较高，如果你有特性补丁被SIG的Approver团队核录的话，意味着你对深度学习框架的理解已经非常深。”

参与的开发者不仅能够遇到更多志同道合的开发者，优秀开发者与布道师还将有不同的现金奖励。加上MindSpore本身的影响力也比较大，如果能当上布道师，对个人求职的帮助也很大。

黄之鹏强调，华为做MindSpore的出发点在于普惠AI，“通过开源降低参与门槛，使更多人参与进来，加快AI产业发展的进程。”

二、MindSpore：开放治理是核心

MindSpore是华为在今年3月28日开源的一个全场景AI计算框架。如今，七个多月过去，MindSpore在国内开发者群体中发挥着越来越大的影响力。黄之鹏认为，MindSpore社区的优势主要有三点：一是开放治理；二是强调合作；三是开发者第一。

1）开放治理

与其他由厂家推动的深度学习框架开源区别开来的重要一点是：MindSpore设立了一个技术治理委员会（TSC），集结了来自中美欧的14位技术专家。在CCF-GAIR 2020的“AI源创专场”大会上，黄之鹏提到，采用开放的社区治理架构，是因为“华为希望MindSpore能成为一个面向全球的开源社区，通过实行透明而公开的治理，来夯实开源协作开发。”

TSC每个月会举办一次在线例会，社区运营者在会上向委员反馈社区的进展，或通过邮件知会委员，比如特殊兴趣组（SIG）的成立、版本节奏的变化等，保证所有版本与计划公开透明。在社区的治理章程中我们注意到，在议事规则中，MindSpore实行Significant Objection机制，即“一票反对，则需修改”。换言之，决策权由委员掌握，而不是单方“敲定”。

MindSpore的开发也基本是开放在外面。只要你对这块研究感兴趣，都可以在码云、Github上找到所有的代码。

2）强调合作

除了开放治理，MindSpore强调与其他开源社区的合作，包括LF AI & Data基金会与OpenI启智社区。黄之鹏介绍到，“OpenI启智社区有很多与硬件开源相关的项目，LF AI & Data则有很多与数据处理相关的开源项目。（与他们的合作）能为MindSpore的用户带来优秀的端到端解决方案。”

此外，每个社区都有自己的用户群体。参与鹏城实验室、LF AI基金会与启智社区的合作，无疑也会拓展MindSpore的受众，孵化更多技术创新。

3）开发者第一

在AI领域，开发者习惯追求大神，而MindSpore则认为：每一位开发者都有可能成为大神，每一个开发者对社区来说都很重要。黄之鹏强调，MindSpore强调对开发者的友好，“他们不会觉得是在给某一个公司打工，而是感觉自己在参与一个属于大家的活动。”

为了营造友好的氛围，黄之鹏强调社区的运营：一是建立一套机制，保证研发团队对开发者提出的问题会给出非常及时的回答，即使初步回答不上来，最后也会帮助开发者解决Ta所提出的问题；二是在直播、微信群、QQ群，以及面向海外的社交媒体群上组织开发者活动，比如小剧场。

开发者第一的理念似乎已经开始“变现”，在最近开源中国对码云1000多万个代码仓的统计概览中，发现MindSpore社区是指数达到99的“第一社区”

三、AI原生编程生态：生来就是为AI服务

随着企业对开源投入力度的加大，投资者对国内市场上基于开源的初创项目的支持力度也呈现爆发式的增长。“鹏城实验室+LF AI & Data基金会+OpenI启智社区”的此次合作，便传递了中国学术界、投资界与企业界在开源方面加大投入的决心。

作为OpenI启智社区与LF AI & Data基金会的长期合作伙伴之一，MindSpore希望联合三方，打造一个完善的AI原生编程生态。在黄之鹏看来，“AI原生编程生态”是AI的下一个生态：“过去与现在的框架主要是从工程的角度利用已有的工具去做一些改造，让它能够用到人工智能上。而AI原生则是：出生就是为了解决AI的问题，而不是被改造来解决问题。”

基于近些年深度学习框架的发展趋势，框架现在主要集中在编译优化和软硬结合上，而MindSpore的一大特点便是在编译层面进行了大量优化。雷锋网

在黄之鹏的眼里，一个完善的AI原生编程生态具备六大特性：自动微分、自动并行、高阶优化、全场景、AI安全，以及科学编程能力。除了这六点特性，一个完善的生态还具备北向的应用生态与南向的硬件集成生态。

一个生态的建立往往耗时耗力。千里之行，始于足下。如今，MindSpore的端侧推理能力已应用在华为手机搭载的 HMS 4.0，主要支撑 ML-kit使能的手机App。雷锋网

框架的开源，仍需要更多的人参与进来。正如洪强宁教授所说：“全世界的程序员是一个共同体。”在MindSpore这个平台上，开发者能够挖掘更多的技术潜力，既能成为“巨人”，又可以站在“巨人”的肩膀上。雷锋网

边界的打破，由你做起。

2020 LF AI & DATA DAY （AI开源日)：中国开源社区迈入全球化新征程

Mon, 09 Nov 2020 11:46:00 +0800

2020年11月7日，由LF AI & DATA基金会、OpenI启智社区和MindSpore社区联合举办的2020 LF AI & DATA DAY(AI开源日) 在深圳举行。会议邀请鹏城实验室、OpenI启智社区、华为、MindSpore社区、腾讯、百度、ZTE、Zilliz、滴滴等众多资深AI技术专家在现场与大家分享AI的应用与实践。共同探讨AI与开源社区的建设及后续发展。并达成鹏城实验室+OpenI启智社区+LF AI & DATA基金会三方战略合作。

（新一代人工智能产业技术创新战略联盟开源工作组组长、OpenI启智平台秘书长刘明）

本场活动主持人为新一代人工智能产业技术创新战略联盟开源工作组组长、OpenI启智平台秘书长刘明。他表示，早期开源的运动通过自由软件日，在全球数千个学校中，于同一天进行开源的理念价值观的培养，对开源的快速发展起到非常重要的作用。今天这个活动，我们也希望能加速AI开源新发展、推动代码和数据等多要素融合开源和流动，传播新技术新价值新观念，将2020"AI开源日”推广开来。

（鹏城实验室人工智能研究中心副主任、北京大学教授田永鸿）

鹏城实验室人工智能研究中心副主任、北京大学教授田永鸿率先致辞，指出鹏城实验室自创建以来便以AI开源开放作为重要使命，建立了算力国际先进、国内领先的AI超级算力平台，持续支撑AI基础研究、前沿技术突破与重大产业赋能的开展。此次与国际顶级社区建立紧密合作关系，可以更好地推进AI开源生态的建设。

国防科技大学副研究员、OpenI启智社区运营中心主任余跃认为只有加强合作，才能让社区得到发展，希望每个人得到开源的普惠、开源的帮助，也可以为开源生态做贡献。目前，OpenI启智社区与Linux基金会的合作已经逐步展开，第一步就是为LF AI & DATA开源代码提供基础支撑，后续还将开展开源培训、开源认证等深度合作，让优秀的开源技术传播更广泛。

Linux基金会亚太区总监杨轩认为，AI未来在科技领域将会赋能万物。快速发展必须强化开源社区的合作与融合。此次合作将进一步加强三方之间的合作，为全球各地开源社区助力。

（LF AI & DATA基金会理事会主席星爵）

随后，LF AI & DATA基金会理事会主席星爵做主题演讲。星爵表示，2020年是不平凡的一年，可能对中国开源是一个很好的起点。随后星爵对AI、大数据的演变进行分享。他认为，从结构化数据到互联网时代的变化，是如今基金会要从AI基金会拓展到数据的基金会原因。想要完成如此庞大的数据解读与应用，必须强化开源合作。并希望中国开源事业能够推向全球以及更多的开源运动开发者加入这个大家庭。

（MindSpore开源社区运营负责人黄之鹏）

MindSpore开源社区运营负责人黄之鹏重点分享了MindSpore的近期成果。作为今年3月底才正式开源的深度学习框架。MindSpore目前已经取得了辉煌成功，它可以给开发者提供自动微分、自动并行、深度图优化等主要特性，支持面向端边云全场景统一的一套API，并拥有高阶优化、图算融合、量化训练、手机/IoT支持、深度概率编程等一系列特色能力。在演讲中，黄之鹏着重强调了希望通过同LFAI&Data以及OpenI启智社区的合作，推动全新的AI原生编程（AI Native Programming）产业及生态的建设。为了建设拥有自动微分、自动并行、高阶优化、全场景、AI安全、科学编程等6大特质的AI原生编程框架体系，MindSpore社区在LFAI&Data基金会发起了MLWorkflow & Interop委员会，旨在与社区伙伴一起，讨论南北向面向应用对框架集成以及面向硬件对框架支持的互操作性问题。MindSpore社区亦在OpenI启智社区发起了OpenI-巴别塔项目，旨在借鉴Linux基金会OPNFV社区的开源集成平台思路，推动基于MindSpore+Tensorlayer的AI开源集成类项目，并进一步推动社区联邦实验室的建设，为AI原生编程生态提供坚实的基础。

上午场的最后，十位嘉宾共同讨论如何快速融入到开源社区之中、如何加强开源作者、开源社区之间的合作，并将项目推向全球等问题。嘉宾们一致认为，开源最有趣的就是通过互联网新技术，使得一帮原本没有组织的人集合起来，最终展现出远远超过公司或者企业级的生产力。不过目前，我国开源社区的用户还有很大提升空间，存在活跃度较低等问题。想要做好开源，一定要做全球化，利用全球的开源力量帮助中国技术实现技术创新。开源不是自己创新，而是外部创新，要达到1+1大于2的效果。专注于自己的强项，并拿出来做合作，构建整个生态增强整个社区的影响力。雷锋网

下午场，首先与LF AI&DATA基金会执行董事Ibrahim Hadd进行远程连线分享。Ibrahim Hadd主要就开源社区所面临的生态系统挑战进行分析，并为与会嘉宾详细介绍了LF AI&DATA基金会的发展历程及未来规划。并表示，将努力建立和支持一个开放、不断增长的开源人工智能、数据和分析项目生态系统。并希望能有更多的开源创作者以及社区加入这个大家庭。雷锋网

在LFAI有三个全球最大跟智慧出行有关公司贡献的开源项目，其中一个就是滴滴。滴滴资深算法工程师蒋栋蔚为大家分享了语音处理研究及在工业领域的应用。例如，借助Athena独有的声学、语言模型以及解码可以帮助用户解决更多语音转换与ASR等任务。雷锋网

Zilliz研发总监金海则为嘉宾分享了Milvus特征项量数据服务的成果。相比于一般引擎，Milvus可以很好地把库融合到系统中，并且进行大量优化，帮助开发者在实际生产中快速找到自己真正需要的内容。并希望跟更多的开发者携手打造一款中国走向全世界的AI人工智能时代的技术软件。

腾讯Angel机器学习平台作为国内知名AI开源平台，经过多年发展，得到广大开发者的认可。腾讯数据平台资深研发工程师欧阳文认为，Angel平台的优势在于高性能仓储服务，支持高维稀疏的大模型及各种其他的模型，还解决了图神经网络训练的问题，也希望能有更多开源用户加入其中，壮大Angel平台的力量。

这么多的开源平台，最核心的安全问题，始终都困扰着众多开发者。中兴通讯AI平台系统架构师唐波就数据安全问题，与大家分享了联邦学习方案及实践。他认为，无论是用户数据安全还是企业利益等影响，都直接限制了数据共享及发展。联邦学习作为一个去中心的解决方案，在很大程度上可以解决这一问题。并对中兴在该领域的努力进行成果分享。

接着，百度高级架构师周倜为大家介绍了百度开源深度学习平台飞桨及行业应用。并表示该平台将基于产业实践及用户体验优化两大方面持续进行打磨，也将以更开放的姿态欢迎开发者加入。

最后，鹏城实验室助理研究员张彤分享了大数据+人工智能在智慧医疗领域的应用。通过最新的智慧医疗仿真系统，我们可以实现数据按格式进行脱敏和结构化，最终完成适配不同场景的科研和赋能需求的目标。

众多嘉宾的精彩分享，得到了与会者的一致赞同与掌声。鹏城实验室、OpenI启智社区与LF AI & DATA基金会达成战略合作关系将进一步推动中国开源社区的国际化，强化与国际开源社区的合作与沟通。作为本次活动的承办单位，开源科技 OSTech 具备多年且成熟的科技互联网社区生态建设以及开源生态合作体系，长期与Linux Foundation等科技公司保持开发者生态合作，也积极参与并发起组织各类科技活动和开源动作。

资料 | MongoDB开发DLL库和C#版代码

Wed, 14 Oct 2020 10:53:00 +0800

下载地址：https://www.yanxishe.com/resourceDetail/2528?from=leiphonecolumn_res1014

内容简介

非常实用的MongoDB开发所需DLL库文件，以及C#版MongoDBHelper类实现对MongoDB高效的增删改查，最重要的还有支持事务。

MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。

MongoDB是一个介于关系数据库和非关系数据库之间的产品，是非关系数据库当中功能最丰富，最像关系数据库的。它支持的数据结构非常松散，是类似json的bson格式，因此可以存储比较复杂的数据类型。Mongo最大的特点是它支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，而且还支持对数据建立索引。

补充说明

本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。如需删除，请联系 kefu@yanxishe.com

AI 研习社已经和阿里大文娱、旷视、搜狗搜索、小米等知名公司达成联系，帮助大家更好地求职找工作，一键投递简历至 HR 后台，准备了一些内推渠道群。

欢迎大家添加研习社小学妹微信（aiyanxishe），小学妹拉你加入（备注求职）。

雷锋网雷锋网雷锋网

资料 | PyCharm安装手册

Tue, 13 Oct 2020 10:27:00 +0800

下载地址：https://www.yanxishe.com/resourceDetail/1676?from=leiphonecolumn_res1013

内容简介

PyCharm是一种Python IDE，带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具，比如调试、语法高亮、Project管理、代码跳转、智能提示、自动完成、单元测试、版本控制。此外，该IDE提供了一些高级功能，以用于支持Django框架下的专业Web开发。

补充说明

本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。如需删除，请联系 kefu@yanxishe.com

欢迎大家添加研习社小学妹微信（aiyanxishe），小学妹拉你加入（备注求职）。

雷锋网雷锋网雷锋网

资料 | A Byte of Python

Sat, 10 Oct 2020 10:29:00 +0800

下载地址：https://www.yanxishe.com/resourceDetail/1813?from=leiphonecolumn_res1010

内容简介

今天分享的是Swaroop C H的A Byte of Python。

大约十年前，我因机缘巧合（就是记不清了），发现了Swaroop C H的A Byte of Python，断断续续读过两三次，打下了Python的基础。尽管是个彻彻底底的IT外行，这本书的简明易懂让我很快就能上手Python这门语言。我用Python玩过Google App Engine，写过照片批量重命名的小工具，体验过Tensorflow和Keras等深度学习框架，处理过文本信息。

作者从2003年11月开始，连续不断地撰写、修订本书，将其免费发布，让世界上不计其数的人受益。这种精神十分值得敬佩。

这本书深入浅出，短短100页正文，不仅把Python的精髓讲解得透彻明白，也将更加广泛的程序设计概念、解决问题的思路传授给读者。

本书有多种语言的版本，但我还是推荐读者们阅读英文原版。本书除在线版本外，还提供了pdf和mobi版本供下载。

补充说明

本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。如需删除，请联系 kefu@yanxishe.com

欢迎大家添加研习社小学妹微信（aiyanxishe），小学妹拉你加入（备注求职）。

雷锋网雷锋网雷锋网

资料 | 新一代推荐系统现状与展望PPT分享

Fri, 09 Oct 2020 11:00:00 +0800

下载地址：https://www.yanxishe.com/resourceDetail/2404?from=leiphonecolumn_res1009

【图片来源：百度百科所有者：百度百科】

内容简介

推荐系统是利用电子商务网站向客户提供商品信息和建议，帮助用户决定应该购买什么产品，模拟销售人员帮助客户完成购买过程。个性化推荐是根据用户的兴趣特点和购买行为，向用户推荐用户感兴趣的信息和商品。

随着电子商务规模的不断扩大，商品个数和种类快速增长，顾客需要花费大量的时间才能找到自己想买的商品。这种浏览大量无关的信息和产品过程无疑会使淹没在信息过载问题中的消费者不断流失。

为了解决这些问题，个性化推荐系统应运而生。个性化推荐系统是建立在海量数据挖掘基础上的一种高级商务智能平台，以帮助电子商务网站为其顾客购物提供完全个性化的决策支持和信息服务。（本段介绍来自百度百科）

补充说明

本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。如需删除，请联系 kefu@yanxishe.com

欢迎大家添加研习社小学妹微信（aiyanxishe），小学妹拉你加入（备注求职）。

雷锋网雷锋网雷锋网

【封面图片来源：网站名百度百科，所有者：百度百科】

资料 | 最新各领域NLP论文汇总

Wed, 30 Sep 2020 10:45:00 +0800

下载地址：https://www.yanxishe.com/resourceDetail/2520?from=leiphonecolumn_res0930

内容简介

自然语言处理（英语：Natural Language Processing，缩写作 NLP）是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言；自然语言处理包括多方面和步骤，基本有认知、理解、生成等部分。

自然语言认知和理解是让电脑把输入的语言变成有意思的符号和关系，然后根据目的再处理。自然语言生成系统则是把计算机数据转化为自然语言。

补充说明

本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。如需删除，请联系 kefu@yanxishe.com

欢迎大家添加研习社小学妹微信（aiyanxishe），小学妹拉你加入（备注求职）。

雷锋网雷锋网雷锋网

资料 | 陈天奇介绍Xgboost原理的PPT

Tue, 29 Sep 2020 10:45:00 +0800

下载地址：https://www.yanxishe.com/resourceDetail/2089?from=leiphonecolumn_res0929

【图片来源：https://xgboost.apachecn.org/ 所有者：https://xgboost.apachecn.org/ 】

内容简介

陈天奇介绍Xgboost原理的PPT，用于学习xgboost原理。

XGBoost是一个优化的分布式梯度增强库，旨在实现高效，灵活和便携。

它在 Gradient Boosting 框架下实现机器学习算法。XGBoost提供并行树提升（也称为GBDT，GBM），可以快速准确地解决许多数据科学问题。相同的代码在主要的分布式环境（Hadoop，SGE，MPI）上运行，并且可以解决数十亿个示例之外的问题。

补充说明

本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。如需删除，请联系 kefu@yanxishe.com

欢迎大家添加研习社小学妹微信（aiyanxishe），小学妹拉你加入（备注求职）。

雷锋网雷锋网雷锋网

【封面图片来源：网站名https://xgboost.apachecn.org，所有者：https://xgboost.apachecn.org】

资料 | Python面向对象编程课件

Mon, 28 Sep 2020 10:32:00 +0800

下载地址：https://www.yanxishe.com/resourceDetail/2466?from=leiphonecolumn_res0928

内容简介

Python从设计之初就已经是一门面向对象的语言，正因为如此，在Python中创建一个类和对象是很容易的。

如果你以前没有接触过面向对象的编程语言，那你可能需要先了解一些面向对象语言的一些基本特征，在头脑里头形成一个基本的面向对象的概念，这样有助于你更容易的学习Python的面向对象编程。

补充说明

本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。如需删除，请联系 kefu@yanxishe.com

欢迎大家添加研习社小学妹微信（aiyanxishe），小学妹拉你加入（备注求职）。

雷锋网雷锋网雷锋网

资料 | Python - 100天从新手到大师

Sun, 27 Sep 2020 10:35:00 +0800

下载地址：https://www.yanxishe.com/resourceDetail/2199?from=leiphonecolumn_res0927

内容简介

本合集来自 https://github.com/jackfrued/Python-100-Days ，用100节课带你入门Python。

补充说明

本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。如需删除，请联系 kefu@yanxishe.com

欢迎大家添加研习社小学妹微信（aiyanxishe），小学妹拉你加入（备注求职）。

雷锋网雷锋网雷锋网

资料 | 迁移学习简明手册

Fri, 25 Sep 2020 10:33:00 +0800

下载地址：https://www.yanxishe.com/resourceDetail/2313?from=leiphonecolumn_res0925

内容简介

迁移学习作为机器学习的一大分支，已经取得了长足的进步。本手册简明地介绍迁移学习的概念与基本方法，并对其中的领域自适应问题中的若干代表性方法进行讲述。最后简要探讨迁移学习未来可能的方向。

本手册编写的目的是帮助迁移学习领域的初学者快速入门并掌握基本方法，为自己的研究和应用工作打下良好基础。

本手册的编写逻辑很简单：是什么——介绍迁移学习；为什么——为什么要用迁移学习、为什么能用；怎么办——如何进行迁移 (迁移学习方法)。其中，是什么和为什么解决概念问题，这是一切的前提；怎么办是我们的重点，也占据了最多的篇幅。为了最大限度地方便初学者，我们还特别编写了一章上手实践，直接分享实现代码和心得体会。

本手册的最新版本可以前往Github查看：https://github.com/jindongwang/transferlearning-tutorial

作者简介

[作者简介]王晋东(不在家)，中国科学院计算技术研究所博士生，目前研究方向为机器学习、迁移学习、人工智能等。作者联系方式：微博@秦汉日记，个人网站Jindong Wang is Here。

补充说明

本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。如需删除，请联系 kefu@yanxishe.com

欢迎大家添加研习社小学妹微信（aiyanxishe），小学妹拉你加入（备注求职）。

雷锋网雷锋网雷锋网

资料 | Python编程基础

Thu, 24 Sep 2020 10:38:00 +0800

下载地址：https://www.yanxishe.com/resourceDetail/2373?from=leiphonecolumn_res0924

内容简介

Python 简介

Python 是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。

Python 的设计具有很强的可读性，相比其他语言经常使用英文关键字，其他语言的一些标点符号，它具有比其他语言更有特色语法结构。

Python 是一种解释型语言：这意味着开发过程中没有了编译这个环节。类似于PHP和Perl语言。
Python 是交互式语言：这意味着，您可以在一个 Python 提示符 >>> 后直接执行代码。
Python 是面向对象语言: 这意味着Python支持面向对象的风格或代码封装在对象的编程技术。
Python 是初学者的语言：Python 对初级程序员而言，是一种伟大的语言，它支持广泛的应用程序开发，从简单的文字处理到 WWW 浏览器再到游戏。

补充说明

本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。如需删除，请联系 kefu@yanxishe.com

欢迎大家添加研习社小学妹微信（aiyanxishe），小学妹拉你加入（备注求职）。

雷锋网雷锋网雷锋网

资料 | Django中文教程（2.0）

Tue, 22 Sep 2020 10:43:00 +0800

下载地址：https://www.yanxishe.com/resourceDetail/2422?from=leiphonecolumn_res0922

内容简介

本书所讲的是Django：一个可以使Web开发工作愉快并且高效的Web开发框架。使用Django，使你能够以最小的代价构建和维护高质量的Web应用。

从好的方面来看，Web 开发激动人心且富于创造性；从另一面来看，它却是份繁琐而令人生厌的工作。通过减少重复的代码，Django 使你能够专注于 Web 应用上有趣的关键性的东西。为了达到这个目标，Django 提供了通用Web开发模式的高度抽象，提供了频繁进行的编程作业的快速解决方法，以及为“如何解决问题”提供了清晰明了的约定。同时，Django 尝试留下一些方法，来让你根据需要在framework之外来开发。

本书的目的是将你培养成Django专家。主要侧重于两方面：第一，我们深度解释 Django 到底做了哪些工作以及如何用她构建Web应用；第二，我们将会在适当的地方讨论更高级的概念，并解释如何在自己的项目中高效的使用这些工具。通过阅读此书，你将学会快速开发功能强大网站的技巧，并且你的代码将会十分清晰，易于维护。本书的代码清晰，易维护，通过学习，可以快速开发功能强大的网站。

补充说明

本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。如需删除，请联系 kefu@yanxishe.com

欢迎大家添加研习社小学妹微信（aiyanxishe），小学妹拉你加入（备注求职）。

雷锋网雷锋网雷锋网

资料 | 设计模式

Mon, 21 Sep 2020 10:35:00 +0800

下载地址：https://www.yanxishe.com/resourceDetail/2465?from=leiphonecolumn_res0921

【图片来源：图说设计模式所有者：Colin 】

内容简介

设计模式是解决问题的方案，学习现有的设计模式可以做到经验复用。拥有设计模式词汇，在沟通时就能用更少的词汇来讨论，并且不需要了解底层细节。

补充说明

本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。如需删除，请联系 kefu@yanxishe.com

欢迎大家添加研习社小学妹微信（aiyanxishe），小学妹拉你加入（备注求职）。

雷锋网雷锋网雷锋网

【封面图片来源：网站名图说设计模式，所有者：Colin】

雷峰网

AI如何走进传统行业的最后一公里

腾讯AI手语解说亮相冰雪赛事：业务能力媲美真人

业务水平高超，“聆语”是怎样炼成的？

赛事解说之外，手语数智人前景可期

杨植麟：选择创业，是为了从「组织架构」上解决AI落地难题

清华AIR和亚信科技等联合发布《通信人工智能赋能自智网络》白皮书

「发展」的AI伦理治理观：既要「扬善」，也要「除恶」

独家 | 对话陈云霁：深度学习处理器之外，用人工智能指导芯片设计也渐成趋势

想征服精密光学的AI团队，差点被一个隐形二维码拦住

IEEE Fellow姚新：在多目标动态优化问题中，演化计算仍有独特优势

不一样的科大讯飞，他们把计算机视觉踢进“世界杯”

成立十年，这家由中科院孵化的超算中心如何荣登中国高性能计算机Top100榜单第三名？

瑞莱智慧完成超3亿元A轮融资，加大AI安全、隐私计算等平台产品研发投入

逃离 AI 赛道的投资人：做局失利、破局无力

那些用推荐引擎改变世界的人

继LSTM之父用世界模型来模拟2D赛车后，谷歌又推出全新世界模型助力导航：360度无死角，就问你怕了没？

错误率减半需要超过500倍算力！深度学习的未来，光靠烧钱能行吗？

结合求解器，清华大学校友、MIT中国博士生开发出第一套提高自动驾驶安全性的感知算法

意大利数据管理局要求 Facebook 提供关于智能眼镜Ray-Ban Stories的隐私说明

赋能‘元宇宙’，这些企业强势破圈 | 2021AI 最佳成长榜

被谷歌开除半年后，米切尔加入初创公司Hugging Face

英伟达 AI 软件新进展，AI Enterprise 全球上市

对话腾讯优图实验室：我们用AI探星不是为了短期价值

选超算还是智算？专家：去综合医院还是专科医院

一、对立统一

二、降本增效

三、求同存异

李晓林：联邦学习渐成生态，知识联邦助力可信AI发展

百度飞桨三大全新发布与升级，推动AI工业大生产|WAVE SUMMIT 2021

爱拼才会赢 | 陈磊：一个“让更多人赢”的IOI金牌得主

对话南科大沈平：在人工智能开源中，高校能扮演什么角色？

人工智能进行时—王者荣耀助力产学研 共享AI新生态

在王者荣耀中做前沿AI研究

让AI学像人一样决策

从「绝悟」到开放的「开悟」

助力产学研，共享AI+游戏新生态

Twitter新计划：审视自家算法里的“无心之失”

联邦学习首个国际标准正式发布！

智能＋制造，聪明的公司都走上了智能制造的道路

中传联合新浪发布《中国智能媒体发展报告》 展望2021中国智媒变革趋势

亚马逊送货司机被迫签署“生物识别同意书”，否则将失业

数字经济时代，算力到底有多重要？

算力是数字经济时代的核心基础能力

如何“加码”算力

让静态知识动起来：从知识图谱到事理图谱

1

2

3

没想到，这个AI特效背后还隐藏着个“世界冠军”

实时抠图神器：GYSeg算法

全栈式AI，落地泛娱乐场景

自闭环的技术团队，让光影内容更有趣

谷歌正为神秘Fuchsia OS招募外部开发者

MindSpore: 作为一个开源社区，开放是核心

2020 LF AI & DATA DAY （AI开源日)：中国开源社区迈入全球化新征程

资料 | MongoDB开发DLL库和C#版代码

下载地址：https://www.yanxishe.com/resourceDetail/2528?from=leiphonecolumn_res1014

内容简介

补充说明

资料 | PyCharm安装手册

下载地址：https://www.yanxishe.com/resourceDetail/1676?from=leiphonecolumn_res1013

内容简介

补充说明

资料 | A Byte of Python

下载地址：https://www.yanxishe.com/resourceDetail/1813?from=leiphonecolumn_res1010

内容简介

资料 | 新一代推荐系统现状与展望PPT分享

下载地址：https://www.yanxishe.com/resourceDetail/2404?from=leiphonecolumn_res1009

内容简介

补充说明

资料 | 最新各领域NLP论文汇总

下载地址：https://www.yanxishe.com/resourceDetail/2520?from=leiphonecolumn_res0930

内容简介

补充说明

资料 | 陈天奇介绍Xgboost原理的PPT

下载地址：https://www.yanxishe.com/resourceDetail/2089?from=leiphonecolumn_res0929

内容简介

补充说明

资料 | Python面向对象编程课件

人工智能进行时—王者荣耀助力产学研共享AI新生态

中传联合新浪发布《中国智能媒体发展报告》展望2021中国智媒变革趋势