雷峰网

大华、宇视、商汤、旷视......扒一扒冬奥会上的「AI」力量

Sun, 20 Feb 2022 23:45:00 +0800

毫无疑问，2月份国内最火热的赛事莫过于北京冬奥会：人见人爱的冰墩墩，如美如画的开幕式，以及假期“霸榜”的谷爱凌选手......都给观众留下了深刻印象。

这一精彩纷呈的赛事，背后离不开高新技术的支持。不论是场内外的安全防疫、观众引导和治安，还是场上捕捉精彩瞬间、赛事转播，以及现场8K观赛、线上VR观赛，背后都需要各类技术的融合支撑。

随着冬奥会走向尾声，各种AI技术也先后露面。今天，掘金志就来扒一扒冬奥会上，那些让人眼前一亮的「黑科技」。

旷视：区间智能防疫系统+室内视觉定位导航

首先，假设你为一名观众，正在体育场外等候入场，除了要检票之外，更重要的是测量体温、查验健康码，实现疫情的精准防控。

旷视为此提出「智能测温」解决方案，一方面可实现多人同时测温通行，另一方面能够实现非接触式AI辅助筛查疑似发热人员。主办方仅需要少量工作人员即可完成观众体温排查，在大幅度提升检测效率的同时，减少了交叉感染的风险。

进入体育场之后，你对场馆肯定是陌生的，不论是找座位，还是洗手间，都需要「室内导航」。

市面上常见的室内导航，主要依靠蓝牙、Wi-Fi等技术进行识别，成本高并且精度较低，容易受场景限制。在相对封闭的场馆，由于观众密集，手机信号很差，传统的室内导航效果并不明显。

为此，旷视研发出室内视觉定位导航系统，该系统采用室内视觉定位技术，无需对室内建筑环境二次改造，仅使用激光视觉地图采集设备对现有环境采集，就可以实现定位功能。

与传统室内导航相比，该系统主要有两个亮点：

精度提升至亚米级，相比较而言，传统GPS定位精度在5米左右，WiFi、蓝牙定位则是1-3米；
无需额外增加传感器，室内环境也不用加装辅助定位设备，具备成本优势。

旷视冬奥项目工程师张长胜表示，观众通过手机随手拍方式便可轻松定位；并且支持离线识别定位，在人流密度较大5G/4G无法完全覆盖的场所仍然可顺畅导航。

商汤：AI观赛+AR导航

假设你已经找到了自己的座位，并开始欣赏选手们的精彩表演。但受限于人的视力、角度等问题，观众很难捕捉到比赛的精彩画面；并且，对于一些专业性较强的运动，观众需要专业解说才能感受到运动的美感。

例如，在被誉为冬奥会“国际象棋”的冰壶运动中，由于冰壶壶体较小，视距较远，并容易受到运动员身体遮挡干扰，座位席上的观众不得不借助于望远镜，或者现场大屏幕来观察细节。

为了解决这个难题，商汤基于视觉AI感知、深度学习、三维建模和空间定位等技术，打造了「冰壶运动轨迹捕捉」技术。

该技术克服了超大空间环境下基于远视距对较小物体运动轨迹精准捕捉的难题，通过对真实场景的数字化映射，实现对运动冰壶的检测跟踪和轨迹捕捉。同时，结合实时渲染、虚实同步技术，系统可以将冰壶轨迹进行精准还原，并将画面转化为视频流，输出至网络平台和现场大屏幕。

凭借该技术，不论是线下，还是线上，观众都可以近距离观察冰壶运动的细节、运动规律和赛况；解说员也能分析运动员的状态和投壶技巧、战术等，实现「AI观赛」。

与旷视类似，商汤在导航方面推出了「AR导航」，但侧重于室外，服务对象主要为奥运村的运动员和工作人员。

在张家口冬奥村中，由于奥运村及周边面积较大（超30万平米），要在短时间内构建高精度三维地图，对技术要求很高；而且，村内建筑风格统一，加上冰雪覆盖，这种环境下，很难基于图像来实现精准地识别自身位置。

对此，商汤通过GPS与视觉融合的数据关联方法和参数分块优化方法，以及综合利用视觉、蓝牙、GPS等信号等技术，并针对冰雪场景，训练了不同天气条件下鲁棒的图像特征，从而在复杂场景下，实现了6自由度空间定位。

据了解，该导航系统可以实现大尺度场景下厘米级的三维地图构建和部署，并解决了动态复杂场景下实现精准定位跟踪等难题。用户打开手机专属APP，打开摄像头识别周边环境，即可定位自身位置，输入目的地后，跟随AR虚拟箭头，即可进行导航。

大华股份：智能视频跟踪系统

对于冬奥而言，另一个重要的环节是，利用视频技术来甄别选手的动作是否违规，以辅助裁判对选手的得分情况进行更为准确的判罚，这既是对选手、赛事的尊重，也体现出举办方公平公正公开的奥运精神。

以往的判罚主要基于裁判的主观意识，而人本身会受限于视角、经验等因素，容易忽略一些动作细节。

比如，在一些速度快、赛道窄的项目中，受场地环境影响，成误判、错判等情况并不少见，从而影响选手的成绩和比赛的公平性。

大华股份为此研发出专门适用于冬奥会雪车、雪橇项目的「智能视频跟踪系统」，该系统能实现在高速移动场景下，捕捉到运动员在通过不同斜坡道的画面，并进行无缝衔接、有序展示，全程记录比赛的每一处细节，为裁判的判罚提供视频依据，保证比赛的公平公正。

该系统同样可用于改进运动员训练，为赛前训练提供数据支撑。运动员通过赛事视频进行回顾，可以发现难以察觉的动作细节或者说存在的动作缺陷，从而制定具有针对性的训练计划，来提高训练效果。

宇视：户外LED大屏+智能安防系统

前面提到，在部分冬奥项目中，观众需要通过大屏幕来观察比赛细节。对于一些比赛场馆而言，户外大屏作为信息传递的重要平台，屏幕本身需要满足诸多严苛的条件。

比如，大屏幕要在极寒、防水条件下稳定运行，并且，8K转播技术对于IC芯片、电源的要求非常高。

宇视从实际场景出发，提供户外MW75XX系列P5产品，该产品主要采用了高刷新IC、高效防潮电源、IP65等级的信号等配置。

在防水方面，通过模组防水、箱体防水、关键器件防水的处理，保证在大雪或潮湿环境依旧可以正常工作。在耐寒方面，除了选用低温电源以外，还在屏体内安装制热设备，以保证设备稳定运行。

宇视在冬奥会上的另一个亮点，是参与了首都体育馆、冰雪小镇文创商街的智能安防系统的改造。

在首都体育馆的智能安防项目中，宇视提供了近1000路的高清视频监控、智能一体化存储、等产整网解决方案。整个场馆的实时数据可直接推送至奥组委平台，为奥运安全保障提供技术支持。

冰雪小镇文创商街的智能安防系统，宇视提供了近1500路的高清视频监控、智能一体化存储、超融合分析平台及LED大屏显控等整网解决方案，可在重要通道布置相应设备，结合后台数据，助力冬奥会的安保工作。

除此之外，宇视在智慧高速方面也有参与。

以延崇高速为例，作为进入冬奥会张家口崇礼赛区的公路主通道，宇视觉通过部署千余路摄像机，199套智能运维箱等设备，提高了交管平台的运营、管理效率等等。

中科智云：智能哨兵机器人

许多比赛项目在户外举行，因此户外项目的安保工作也非常重要。

在场外，赛事场地通常会加装物理围栏或使用人力来维持安防工作，但在地形复杂、气候条件严苛以及昼夜温差大的环境下，如何为赛场提供安全防护工作、减轻人力负担，也是需要解决的问题。

例如，张家口密苑云顶乐园（冬奥会和冬残奥会比赛场地之一），占地面积约100平方公里，地处太行山和燕山交会的大马群山中，夜晚温度可达零下四十度。

这种恶劣条件下，依托人力、围栏等传统方式不但效率低、效果差，而且增加高昂的人力成本。基于此，中科智云及其合作伙伴共同研发了「智能哨兵机器人」。

该机器人运用了中科智云的识别算法和反入侵技术，能够分辨低特征差异，解决防攻击防伪装，稳定性问题。在日常监测中，机器人能全天候进行边界监控、目标识别、多目标跟踪、异物检测、道口警示等功能，并自动精准判断入侵者的类别，将监测到的情况或入侵者的行踪轨迹上传至后台指挥中心，从而确保赛场安全。

掘金志了解到，目前，已有13台智能哨兵机器人上岗，监测距离超过15公里，形成电子屏障，相当于传统200个警卫的安防力量。

科大讯飞：语音交互终端

作为国际性赛事，冬奥会的参赛人员、部分观众来自世界各地，语言各有差异，容易造成交流障碍；并且一些特殊人群，例如残奥会的部分选手、冬奥会的部分具备沟通障碍的观众，在参赛、观赛过程中也会遇到困难。

科大讯飞为此研发出了多语种智能语音及语言服务平台，以及各种翻译设备，提供定制优化的语音识别、语音合成、机器翻译、自动问答等服务。

据悉，该平台同时支持60个语种语音合成、69个语种语音识别、168个语种机器翻译和3个语种交互理解。冬奥场景下汉语与英、俄、法、西、日、韩等重点语种翻译准确率不低于95%；平均每句翻译响应时间不超过0.5秒。

科大讯飞高级副总裁杜兰表示，科大讯飞从3个方面助力本届冬奥会。

人与人的沟通，助力来自不同国家和地区的选手、教练、游客及志愿者等人群之间的语言交流；
人与组织的沟通，实现会议机器自动翻译及转写；
人与赛事的沟通，主要是帮助各国观众、游客快速掌握赛事信息，并辅助视障人士听得见奥运文字、听障人士看得见奥运声音。

科大讯飞还推出了诸如双屏翻译机、虚拟人智能交互一体机等设备，提升了多语种信息获取、发布、传播的及时性和便捷性，满足冬奥及冬残奥会无障碍、跨语言沟通的需要。

当虹科技：8K编码器

受制于疫情，能到现场观赛的观众终究是少数，许多人只能通过线上的方式，来参与冬奥、欣赏冬奥选手的高光时刻，这就需要用到8K直播技术。

作为目前最接近“人眼真实”的超高清技术，8K的分辨率是高清的16倍，在量化、帧率、色域等方面比4K更强，结合3D渲染等技术，能给观众带来“身临其境”的体验。

但要实现8K超高清直播，除了要采用专门的8K相机以及专业的调色、包装，进行采集制作之外，还涉及「编码传输」这一核心步骤。

编码传输，即是将视频数据量巨大的8K超高清视频，通过编码器来压缩8K直播信号码流，在减少传输带宽的压力的同时，使其适应8K超高清电视、8K超高清户外大屏等终端，最终能够流畅、稳定地呈现出来。

由于8K超高清直播要求低码率、高画质、高并发、低延时，这对编码传输带来了许多挑战。

一方面，视频数据量过于庞大，对计算性能（如算力、算法等）和编码效率的要求很高；

另一方面，在需要更高压缩率的同时，用户也对于画质提出了更高的要求。

因此，当虹科技通过与英特尔合作，推出了8K AVS3 超高清一站式解决方案。

这里提到的AVS3，是我国具有自主知识产权的视频编码标准（第三代），采用了更灵活的块划分结构、更精细的预测模式、更具适应性的变换核，比AVS2节省约30%的码率，从而提升编码效率。

同时，该方案基于图像分析及主观视觉的编码模型，通过数十万素材库的深度学习超分技术，以及不同场景、高低分辨率差别学习和AI训练，来提升编码画质。

在这次冬奥会中，当虹科技8K编码器还适配国内首个HDR标准（HDR Vivid），实现更大曝光动态范围，能更好提取和显示高光及暗部细节，丰富色彩和层次，增强纵深感，让画面更趋近自然。

天地伟业：环保卡口+超星光违停球

在举办大型赛事期间，交通问题也显得较为突出，尤其是车流量剧增之后，交通执法也不能单靠人力巡查来解决。

为了保障交通的平稳运行，北京交管部门特意划分了42条近239.5公里的奥运专用车道。在这些车道上，部署着专用的“电子警察”，通过执勤交警现场执法，和卡口摄像机抓拍记录非现场执法两种方式，进行执法工作。

天地伟业为此推出了「天星环保卡口」和「超星光违停球」。

普通电子警察在夜间抓拍时，会产生瞬间爆闪，容易给驾驶员造成视觉障碍，存在一定的交通隐患。

天星环保卡口主要采取了双Sensor多光谱融合技术，入射光经过摄像机内部的分光装置，可见光用来捕捉色彩；同时红外光用来感受纹理和亮度，将获取的画面进行像素级逐帧融合，整体色彩还原性高、无偏色，图像整体亮度质量高。

在夜间，该产品可通过红外补光把光污染降到最低，获得和白光爆闪相同的全彩效果，既可检测抓拍违法车辆，也不会对驾驶员造成影响。

对于违停现象，天地伟业的超星光违停球可在布置场域内形成360度巡视，形成全方位、全时段覆盖，并且通过语音警戒来驱离违停车辆。

天地伟业品牌总监张征表示，该违停球可适用于复杂场景，检测违停车辆的成功率在95%以上。

苏州科达：AI超微光电警+AR实景指挥

苏州科达在交通方面推出了「超微光电警」、电子卡口、违停球等产品，布置在张家口市区的诸多路段、路口。

其中，共有近400套AI超微光电警落地主干道，无需补光灯，就可在夜间抓拍清晰准确的违章图片，减少光污染的同时，为解决违停、违章等提供视觉支撑。

在整个交通运行状态中，科达依托高点监控搭载了AR实景指挥系统。

传统的交通指挥系统需要多个摄像机提供实时数据，但存在画面独立、不连贯的问题，割裂的画面很难反映整体的交通区域状况，指挥中心也无法兼顾全局。

科达的AR实景指挥系统依托3D定位、AI等技术，可通过AR高点全景摄像机获取监控点全景视频，进而与区域内低点摄像机形成视频联动，兼顾整体与局部。

同时，该系统支持视频调阅、数据展示、信息标注等功能，给指挥中心提供立体化、可视化的交通信息，从多个角度助力冬奥会的交通运行。

结语

“智能化、人性化”是冬奥会的科技底色，各种闻所未闻、见所未见的技术，在提升竞技效果、改变观赛方式的同时，为世界呈现出了全新的「中国名片」。

为那些默默在背后提供技术支撑的企业点赞、致敬！雷峰网雷峰网

工业视觉「春秋时代」：五派博弈、诸侯迭兴

Sun, 26 Sep 2021 15:12:00 +0800

国学大家钱穆先生曾称春秋时代是一个极优美、极细腻、极高尚雅致的时代。

百家争鸣中，催生出了一群人类最杰出的思想家，那是思想文化的黄金年代，也是诸侯争霸、英雄辈出的黄金年代。

之后的几千年里，人类经历了以内燃机为代表的蒸汽技术革命、以电动机为代表的电气技术革命，以互联网为代表的信息技术革命。

如今，第四次工业革命呼之欲出。工业智能化为代表的高新技术革命的巨大潜力，很有可能成为下一场革命的原爆点。

AI工业界有句老话：得视觉者得天下。

工业视觉是什么？你前天刚吃的月饼、你手上玩的手机、你工作用的电脑、你周遭几乎所有的商品，出厂之前都用上了工业视觉技术，以此来保证产品质量、提高生产效率。

如果把一台机器比作一个人的话，那么工业视觉就相当于机器的眼睛。

过去二十年，“工业视觉强国”的桂冠从来都在欧日美诸国流转，沾不上边的中国奋起直追了数十年，成为继美国、日本之后的世界第三大工业视觉市场。

风云际会之下，催生了无数诸侯：

冲破欧美安防铁幕，厮杀到全球顶端的中国安防巨头
智能化时代的弄潮儿，在细分领域摸爬滚打、攻池略地的AI精锐骑兵
从线上向线下奔袭而来，财大气粗的互联网巨鳄
跟随中国「世界工厂」崛起的传统工业视觉头部大咖
盘踞高端、垄断全球约50%市场的美日德工业大佬

你很难在哪个赛道，看到如此多巨头下场，如此多派系纷争。当他们在同一赛道罕见聚首，一个好故事的开头也由此启幕。

工业视觉万里河山，发令枪在即，酣战将起，一个新的黄金时代缓缓开启。

这五大派系如何搅动工业视觉江湖，我们一一来看。

1、号令一方视觉江湖的世家大族

20多年前，从代理生意起步的中国安防厂商，以突破性技术方案及产品，硬生生将市场从国际大厂嘴里抢了回来。

领头的"海大宇"撸起袖子干了十几二十年，从模拟到数字、从数字到智能、从藉藉无名干到全球前列。

快节奏商业时代，各类榜单变化更迭，但放眼全球安防市场，他们行业一二的宝座，近十年来也未曾有过易主。

面对AI四小龙的气势汹汹也不遑多让；面对互联网企业的跃跃欲试依旧笑谈风云；面对华为的强势介入亦不慌不忙。

当经历过招招致命的中外大战，也品尝过方寸间的谷脊之战，从骨头瓦砾中一步步走到金字塔顶端的企业要“收天下之兵，聚之咸阳”，那力量，你难以忽视。

是的，工业视觉这块宝地，海康、大华也看上了。

如果说安防是他们的立身之本，那么智能制造、工业4.0应该是他们的存世之资。

近几年，海康、大华进攻To B领域的猛烈已经有目共睹。机器人、工业视觉在各类问答、财报中频频现身：机器人正成为海康、大华安防G端生态之外，另一个B端现象增长极。

“我们将是智能制造领域的重要玩家。”一向低调沉稳的海康，今年在多个场合如此强调，甚至直言“我们是国内机器视觉的龙头公司”。

海康、大华凭什么能在工业视觉领域占据一席之地？

从市场特性层面，工业视觉领域作为碎片化市场，一方面可预见性差，另一方面稳定性很强。

而这种业务模式，海康、大华已经演习了近20年。

正如海康高级副总裁、EBG负责人徐习明徐习明所言：海康的基因适合这样的碎片化市场。

从技术层面，两者所需大多是相通的。

二十年的打磨与沉炼，海康、大华在耕耘安防市场的同时，也积累了不少技术和人才。今天海康智能视觉方面的团队和核心技术绝大多数都是原先在安防领域储备而来。

从产品和服务方面，在安防领域的经验也驾轻就熟。

“在机器视觉领域里，这个市场过去欧美日韩的企业做得多一些，技术门槛比较高，这类产品的技术上海康机器人有很不错的传承和沉淀，比国外产品性价比也会更高，本地的售前售后的支持能力也比海外品牌更强，这也是我们快速增长的一个原因。”

从战略层面，经由20多年的积淀，6、7年的布局，海康、大华的基本盘已经浮现。

移动机器人聚焦室内物流，仓储物流机器人已经遍布大江南北；工业视觉聚焦工业传感，在3C、电子半导体、物流等工业自动化各领域落地开花；在工业之脑（软件平台）上厉兵秣马。

工业之足（机器人）+工业之眼（工业视觉）+工业之脑（软件平台）的王炸组合，将会支撑起一个超级技术集团的不凡野心。

“以基恩士等为追赶目标”之下，是若影若现的取而代之之心，但细想，谁说他们未来不会重现安防往事，号令工业视觉江湖呢？

2、异军突起的武林高手

机器视觉领域也少不了武艺高强的AI公司，他们掌握着搅动江湖的武功秘籍：技术实力。

当无数AI视觉企业在智慧安防、智慧交通、智慧社区等领域前赴后继，他们从诞生之初就在智能制造安营扎寨。

如果说人口红利渐失是制造业转型的外在原因，那么行业本身创新能力不足、核心元器件缺失则是制造业转型内在桎梏。

“智能”要想攀上“制造”这门亲事，比其他行业更难。

人脸识别所需的AI能力对应的是一个8岁孩子的智力，那么智能制造需要AI智力水平就接近一个成年人。

这是块未完全开发的宝地，也是沼泽密布的无人区。

这正是他们诞生的理由。

这些新冒头的AI企业，动作快、势头猛、技术强、肯吃苦，喜挑机器视觉难啃的猎物，虎视眈眈。

他们具备计算机视觉、语音语义识别、自然语言理解、深度学习、大数据分析等中的一项或多项底层技术，他们懂得找准机会，发挥技术特长。

“XX（某行业巨头），他们自己不想花时间和精力攻克某个技术难点，我们整个项目组花了好几个月时间，捣鼓出来了。” 阮梦（化名）对雷锋网表示，为了拿下这个合作，他们不怕投入。

底层算法、软件环节是机器视觉的核心技术壁垒，是产业链的价值中心之一。比如一些传统的工业视觉系统依赖程序员手动编写缺陷特征，当缺陷数据库越来越庞大时，算法和检测系统的编程难度超乎想象。

以思谋科技为例，以实现与成年人水平媲美的AI能力为目标，研发出新一代AI系统，融入行业知识，让从前依赖数据、算力的深度学习，可以用更少的数据训练出更好的模型。

不怕苦不怕累，未来他们能做的，也许不仅仅是解放程序员生产力。

势头猛的还有一个创新奇智，这个成立于2018年的AI企业，用时2年半，晋升为独角兽，用时3年，走到IPO的门口。如果上市成功，其将成为国内“AI+制造”第一股。

根植AI企业的技术基因，扎根一处短板，不贪多求全，只图精求专，每一步稳扎稳打之余，走出新秀的特色，自我要求至少领先同行1-2年，一条路下来，创造机器视觉细分领域的隐形冠军也未可知。

3、大步迈进的豪商巨贾

传统互联网巨头们，当然也不能缺席。

大势当前，美国工业互联网、德国的工业4.0、中国的智能制造2025、日本的超智能社会5.0蓝图，全世界都在向智能制造迈进。

海水将退，过去10年，他们是信息化革命红利的最大尝鲜者，如今，流量争夺战趋于顶峰，产业互联网金矿价值蓄势待发。

“光靠BAT撑不起中国经济”呼声高涨，在兴奋与焦虑参杂中，传统互联网巨头们几乎不约而同地，一个箭步跑向工业领域。

新制造稳坐阿里新五大战略，马云毫不掩饰“新零售之后最重要的是新制造”；腾讯云的智能制造三大战略布局，聚焦工业制造研、产、供、销、服5大环节；百度大张旗鼓AI to B。

以互联网之躯，融合共享经济、数字化、智能化，给制造业的这次转型升级革命再添一把火。

坦白讲，他们的专长的确不在生产制造，也常被诟病飘在空中。

他们也尝试低下在消费互联网高扬的头颅，姿态谦卑。

“制造业的市场非常大，我们相信技术的红利能够带来巨大的变革。可是在这样大且沉淀悠久的产业面前，阿里新制造也不敢轻言赋能，因为赋能是很高的姿态，我们要踏踏实实地深扎进去，关起门来做三年，主要是选择走得稳。”犀牛智造CEO伍学刚曾表示。

“技术成功的关键在于我们的工程师能够深入行业，理解不同的业务场景。算法的红利正在消失，不存在通用的AI，只有精耕细作、深入行业才能成为真正的高手。”阿里副总裁华先胜曾表示。

制造业的精细化特质，对故障率的要求极高（1%或更低），让质检成为中国玩家的竞技场。

2017年，百度智能云从首钢的AI质检出发，4年长途跋涉，落地领域扩展至电子、汽车、钢铁、能源、橡胶等行业。

这一年，阿里云研发了业界首个工业视觉AI方案，并逐步应用于钢铁、化纤、汽车等领域。

2020年9月，阿里还推出新制造一号工程“犀牛智造”，阿里从服装制造为切入点，建立了业界首个布料训练集，数十种布料，近百种布料瑕疵，布料纹理特征，自动识别布料细微瑕疵，准确率高达90%，检测效率提升5倍。

液晶面板制造行业的龙头型企业华星光电，已经在面板质检环节应用了腾讯的工业视觉平台。有消息称，该项目是目前为止国内最大规模的工业AI质检项目。

全球权威咨询机构IDC发布《中国AI赋能的工业质检解决方案市场分析2019》报告中，阿里云、百度云、华为云霸占头部份额。

经历过消费互联网近20年的厮杀，传统互联网大厂也建立了独特优势。

企业进行上下游延伸、技术研发投入、客户拓展、行业推广都指向强大的资金实力或融资能力。

他们积累了雄厚的资金，面对建设周期长、速度慢的制造业，以资本换市场，某种程度上可以推动行业前进。

理想的智能制造，需要全产业链的共同投入，基础设施的支撑和上下游的共同配合才能完成。

他们拥有品牌影响力，面对产业链长、生产过程极其复杂的制造业，可以以生态聚合能力吸引产业上下游一起玩。

不同的知识背景和认知层次，从不同的角度和立场出发，也许，他们能带来不一样的业务模式、运营模式和商业模式的数字化、智能化变革思路。

4、与世界工厂同崛起的地主豪强

工业视觉市场并不是个容易的行当。

产品研发周期性长，从策划、开发、立项、样机成型、量产，渠道构建、供应链打造，前后需要3-5年甚至更久。

市场扩展的周期性长，与美日德相比，中国企业起跑时间晚，底层软件算法与硬件都落后于先入局者，巨头环伺，品牌效益强悍，间歇通过降价对入侵者进行精准打击。

能熬过前期零营收、中期市场拓展隐痛，后期万千竞争者厮杀的企业，寥寥。

但荆棘遍野中，依然有企业，凭着一股韧性，坚持至今；

在铜墙铁壁中，还是有企业，一路跌跌撞撞，卧薪尝胆。

他们在并不平坦的路途中摩肩擦踵，愣是从美日德品牌耀眼的聚光灯下跑了出来，发出独属于自己的光芒。

跑出来的传统工业视觉厂商们，都不是等闲之辈。

有的以工业机器视觉为核心，一步一步打造完整的产品线，也成为最先钻研行业技术的领头羊。

如天准科技，核心武器是标准化设备及非标专机的底层软件算法，检测精度高达0.3微米，是少有的涉猎多领域多产品的企业。参与起草行业标准，承担国家重大科学仪器设备专项。

2020年，天准科技以1.6亿元收购德国企业MueTec，创造了科创板首个海外并购案例，布局全球半导体野心初显。

有的从传统自动化设备制造商起步，一步步进入工业视觉。

如精测电子，在传感器、控制器等工业自动化设备中的关键部件拥有巨大技术优势，能够将工业视觉技术融入自动化设备中去扩大销售。

有从上游某一零部件向下延伸，逐步形成完整的工业机器视觉系统或产品线。

如奥普特，通过工业视觉核心零部件（如对最终成品的精度和效率影响巨大的光源和工业机器）等先进技术，成为A股被寄予厚望的工业视觉企业，市值超300亿。

从光源、面阵相机、线扫相机、镜头，到如今快速增长的3D相机、智能相机、结构光相机、高速相机、光谱共焦传感器，到向高端镜头突围的远心镜头、微距镜头。

他们带着穿越了近20年的痴念与执着，逐渐构筑起品牌、客户、资金和技术多重优势，一点点啃噬康、基的蛋糕，成为撑起中国工业视觉市场的中流砥柱。

5、傲视群雄的三朝元老

工业视觉领域绕不开美日德，更绕不开两大全球性质的巨头：康耐视、基恩士。

无论是论资排辈，还是业务能力，亦或是盈利能力，他们都领袖群伦立潮头，称得上元老级企业。

他们有技术、有行业背景。

康耐视成立后推出DataMan在内的多款产品皆为业内第一，自动化领域，基恩士更是七成产品为“世界首创”或者“业界首创”。

他们成绩可圈可点。

康耐视和基恩士垄断了约50%的全球市场份额。在中国收入超65亿，中国市场份额合计市占率约60%（基恩士市占率约41%，康耐视市占率约18%）。

2008-2018年的十年间，基恩士收入增长超过230%，净利润增长超过682%。

2020年，当无数企业在疫情的风暴节节败退时，康、基逆势向前，大步跨越。基恩士更是突破千亿美元市值。

这些工业大佬们哪里强？为何强？

高端市场、高附加值、高盈利能力。

无论是安防、自动驾驶，还是工业视觉，海外品牌似乎都喜欢定位高端市场。要命的是，他们不仅瞄得准，还站得牢。

康、基以高附加值为目标，极其注重产品质量和技术创新，“具有其他竞争对手没有的某些功能”“比客户先行一步”，由此带来的高客单价与高议价能力，也让他们保持着令行业望其项背的高盈利能力：康、基的毛利率达70%-80%，且长期稳居高位。

Fabless（无工厂）模式。

鲜有人知，当初潼崎武光创立基恩士因无法筹集足够的资金建立自己工厂的无奈选择，成为如今为人津津乐道的“Fabless”模式。

在重资产盛行的制造业，康、基却选择轻资产模式，生产制造由第三方代工厂完成。

如此，不投资工厂设备，集中资源到产品企划和销售；只从整个供应链体系角度管理统筹，让整体的生产能力也更加灵活；还可以根据每个商品的特性，在世界范围内选择最佳的生产线，并通过大规模采购来降低原材料的价格。

这里提一句，选择容易、走通很难。要形成平台型公司，需要从成本、质量、产品一致性等多个层面对供应商体系进行管理，具体实现上，难度极高。这也侧面论证康、基在此模式的成功更加难得。

完全的直销模式，以销售导向。

以基恩士为例，销售人员占企业总员工超6成。这个有“销售人员的黄埔军校”之称的企业，具备完备的培训体系和管理体系，可以高效、快速地塑造高专业度员工。

前基恩士工作人员对雷锋网表示，公司人与岗位高度绑定，专业化、模块化程度极高，每个员工可替代性非常强，保证了企业运转体系极其高效。

他们的顾问式直销模式，可以直接与几十万客户群体对接，基于一手客户信息和反馈，反哺产品研发，并精准、快速地体现在新产品的研发中，这给了基恩士“不仅能够满足客户今天的需求，甚至能够满足客户明天的需求”的底气。

“走过展台时会被五个销售拉住，电话、邮件、短信、上门拜访。”某业内人表示，曾在展会上感受过基恩士销售的热情与执着。

庞大的销售团队、强悍的销售能力、强大的销售模式，他们将销售水平做到了行业极致。

标准化程度高、可复制性高。

主攻高标准化（比如汽车）的行业，向OEM厂商销售标准工业视觉硬件和软件产品，可复制性更高、无需直接支持客户应用。

在天时地利人和里，成就康、基今日工业视觉帝国。

混战中，晨光熹微

1969年，第一片CCD图像传感器诞生，为工业视觉行业开启了数码图像采集的大门，自此人类社会进步的各个领域都与图像和视觉结下了不解之缘。

过去十五年，中国制造业的规模增长了近三十倍。据工信部部长肖亚庆介绍，2020年，中国工业增加值达31.3万亿元，连续11年成为世界最大的制造业国家，全球市场占比达30%。

巨大的制造业生态系统造就了「世界工厂」，工业革命4.0之下，目之所及，皆是奔向台前的科技暗涌。

在如此规模、复杂且极具成长空间的行业，哪怕有一点改变都无比振奋。

据《中国工业视觉产业全景图谱》，目前进入中国的国际工业视觉品牌已有200多家，中国本土的工业视觉品牌有100多家，各类产品代理商超过300家，系统集成商也有超过100家。

八仙过海，各显神通，构成了不同玩家画像，在智能制造这个大舞台上同台竞技。

如此多玩家，却并不拥挤。

不论是聚焦某一领域，还是涉及多个领域，可以肯定的是，没有一家企业可以解决制造业全部问题。

制造业需要众多玩家齐心协力，推高水平，拉高需求，这个领域够大、够远，也能够容纳足够多的玩家。

我们敬佩于传统入局者们忍受着行业开垦期长年累月的寂寞，也欣喜于工业转型之路上的新鲜血液们酣畅淋漓地你追我赶。

当大局抵定，潮水退去，我们终会看见浮出水面，熠熠生辉的那群人。

工业视觉疆场内烟雾弥漫，在战火硝烟中，新历史正在被书写。雷锋网雷锋网雷锋网

虚拟更衣室火了！Revery.ai 用计算机视觉来增强购物体验

Tue, 24 Aug 2021 11:05:00 +0800

网络购物丰富了人们的生活体验，但对于贴身衣物来说，依靠单一的尺码和裁剪，很难让人们购买到合适的衣物，因此技术人员开始利用 AI 技术来弥补这一缺陷。

据 TechCrunch报道，一家名为 Revery.ai 的公司正在开发一种工具，利用计算机视觉和人工智能来创造更好的在线更衣室体验。

“我们正在创建第一个使用现有目录图像处理服装的工具，每周能处理超过100万件服装，这是以前版本难以达到的。” Revery 的一名核心技术人员Kedan Li 表示。

Revery 是美国著名孵化器 Y Combinator 2021 年夏季计划的一部分，后者正打算以12.5万美元支持该公司，并且在本月晚些时候完成该计划。 Kedan Li 透露，该公司已有两年的运营经验，并且希望筹集 150 万美元的种子轮资金，以帮助其更快地发展，从而进入大型零售商店。

该团队与 Forsyth 的合作取得了长足的进步，并对技术进行了多次迭代，以满足那些已经在其网站上拥有图像和注册用户，但想要在计算机视觉方面获得更多功能的客户。

“与使用 3D 建模或拍摄图像并手动清理以叠加在模型上的竞争对手不同，Revery 使用深度学习和计算机视觉，使服装悬垂性更好，用户还可以自定义他们的服装模型，使其看起来更像使用肤色、发型和姿势。它也是完全自动化的，可以处理数百万个 SKU，并在几周内与客户一起启动和运行。”

Kedan Li 说，其虚拟更衣室产品现已在许多时尚电子商务平台上线，其中包括东南亚最大的时尚公司之一 Zalora-Global Fashion Group。

“令人惊讶的是，我们得到的结果如此之好，客户报告的转化率很高，大约是他们以前从未见过的3到5倍。我们发布了 Zalora 的 A/B 测试，结果增长了 380%，非常高兴能够向前推进并在他们的所有平台上部署我们的技术。”

Revery 已经在与 40 多家零售商进行谈判，这些零售商“正在考虑合作，利用该技术来增强竞争优势。”

在接下来的一年中，Revery 将专注于获得更多采用并与更多客户合作。为了与继续上网的竞争对手区分开来，Kedan Li 打算投入更多的精力用于研发与体型相关的技术。“这是零售商所要求的”，他说，这种类型的技术具有挑战性，因为可供选择的各种体型模型并不多。

他预计公司将不得不自己收集专有数据，以便 Revery 能够为用户提供创建自己的头像的能力，并且可以看到衣服的外观。

“我们可能正在看到潮流的开始，并且拥有相关的产品来满足需求。”他补充道。雷锋网雷锋网雷锋网

AI 商业模式的脱靶、崩塌、救赎

Mon, 23 Aug 2021 22:44:00 +0800

人工智能的商业模式应该是什么样？

每次谈到这个问题，答案分两个极端：

要么同质、无趣、世俗。

要么天马行空，外行高呼震撼，内行斥其没有常识。

在雷锋网《AI冰与火之歌·五问》第一篇文章《依图医疗「变卖」内幕：出走、截胡与派系整合》中，我们谈到，依图医疗成为弃子，其实是多数AI公司商业战略摇摆不定的缩影。

无人能预知命运会陷入如此险境。短短几年，AI市场的低气压不知何时开始盘旋成型。

商业化变现困境剥落了AI的优越，让AI企业直面最粗糙的生死。

“AI做不了颠覆式创新，还是要走产业+AI的路。”

这句话虽是业内共识，但走这路的方法论其实是过时的，毕竟，这与十几年前的信息化和IT软件商业路径，并无本质差异：以外包的姿态，啃项目，搭集成，做交付，任劳任怨，不怕吃苦。

纪北嘉（化名）笑着说，姿态低不低现在不是我们主要考虑的，赚钱嘛，不寒碜。

这些AI企业践行了一个最糙也最为实在的真理：先活下去，再考虑怎么活好。

真理背后，则是盘旋在所有AI从业者头上的四个问题：

AI标准化、通用化的美梦是如何破灭的？
高度定制化解决方案为什么走不通？
海外高利润解决方案我们为何借鉴不来？
AI企业跳出低毛利死胡同的三种激进模式是什么？

我们一个个聊聊。

标准化、通用化的黄粱美梦

在全球权威的人脸识别算法测试中，XX企业获得XX赛道冠军。
XX在国际权威机构ACM MM主办的大赛中，行为识别再夺一冠。

识别率提升、精度突破、榜单排行，是早期AI界的主旋律。

这段时期，中国的AI公司上演一场疯狂的刷榜竞赛，让算法识别俨然间成了一项竞技体育。

为什么热衷刷榜？

在早期AI公司的蓝图里，他们只需研发出标准化的模块，然后被集成在所有公司的各个解决方案里，如此，哪怕一个开发包（SDK）只卖几万、几十万，薄利多销，一年的利润也非常可观，而且作为被集成的软件，所得几乎均为净利润，说躺平赚钱也不为过。

这一意识形成后，很多公司将比拼算法精度作为头等大事，甚至一度认为，不需要招销售，客户自然会闻讯榜单而来。

一级市场用挥金如土表达了乐观的情绪，AI企业在宣传上毫不掩饰科技标签的高贵，似乎一套SDK扫天下的时代就在眼前。

但很快，在算法刷屏约两年后，他们察觉不对劲，怎么投入不见少，铜子儿却没见着？

2017年是觉醒的一年，尝试落地的他们发现，在赛事中频频拔得头筹的算法，一旦走出实验室或特定的场景进入实战，根本玩不转。

而且，作为最先落地的两大行业，无论是公安还是银行，客户需要的不是单个模块或开发包，也不具备集成SDK的能力，他们要的，是一套定制化的解决方案。

结果就是，在算法领域的神仙打架，在业务落地成了菜鸡互啄。

SDK走天下梦碎后，他们的解决方案从轻变重，跟传统IT企业一样，走高度定制化解决方案的路子。

高度定制化解决方案的利润困局

To B行业有什么特点？个性化定制；获客周期长（决策流程较长）；产品有实施成本；成长较为线性；价值敏感。

而一旦进入高度定制化赛道，就意味着AI企业成为一家集成商，而非高大上的产品型科技公司。

陈冀（化名）表示，重型解决方案模式的最大弊病是，你能做的，别人也能做，这导致门槛大大降低，业务利润大大降低，最后大多需要靠关系驱动。

他们吭哧吭哧地进入的重型解决方案行业，一不留神就走进利润死胡同。

有人问，安防行业也定制化，为什么海康走得通？

简单来说，就是把“成本三低”做到了极致：

平均人力成本低
运营成本和销售成本低
产量扩大后的边际成本低

海康威视总裁胡扬忠曾告诉雷锋网，他对科技公司做安防持审慎态度。

“以通讯行业为例，其运营和销售成本比安防高很多，所以用高成本的人力去跑安防，就像拿步枪打苍蝇一样，投入与产出是非常不匹配的。”

这句话背后，也许是对高成本的科技公司走碎片化定制解决方案路径的怀疑，甚至是否定。

大型IT公司之所以能在定制化赛道里存活，很大部分原因在于人效的极致追求，说得不好听，就是用更低的成本，去省出更多的利润空间。

海康威视总裁胡扬忠也曾发表对此的看法，他说：

这个行业场景碎片化，用户需求差异化和定制化需求明显，而且这个行业的平均回报并不高，每个项目贡献度都不大。所以如果人力成本过高，会是个很关键的问题，会导致人均产出/费用比不划算。

“从公开资料看，AI企业年度人均营收约50万，人均费用也约50万，即使毛利率能到50%，依然会有明显的亏损。”陈冀坦言，“而且，他们很难达到50%的毛利率，想做大人均，很难。”

这也正是当初华为大张旗鼓地进入安防时，胡扬忠表示：华为是一家做大生意的公司，捡豆子、捡芝麻的生意不适合他，华为很快会认识到这一点。

“海康威视的人均人力成本只有华为的三分之一，任正非历来不提倡华为在低维市场的泥潭里死缠乱耗，华为如果以海康的方式做安防，被集团叫停只是时间问题。”业内人告诉雷锋网。

华为安防后续转换战略，主推平台，也侧面证实这一点。

在人效优势+规模化效应的前提下，海康做了20年，也才做到约600亿元的营收。

与互联网动辄千亿战果相比，这盘实在算不上大肉，与动辄估值几百亿、亏损几十亿的AI企业相比，这不像是经得起折腾的赛道。

这里提一句，彭易（化名）告诉雷锋网，在他看来，云从之所以能够上市，除了国家队属性，也在于他们的亏损率控制。

而亏损率不高，与人效或者说重庆人力成本低有关。同时，与其他几位小龙喜欢重金聘请AI大牛和博士相比，云从则显得低调得多，鲜少有盛名在外的科学家。

云从科技提交的IPO招股书显示，2019年高管总薪酬仅890.47万元，要知道，在不少企业，一个AI大牛的薪资就高达千万。

千人级别员工规模下的高薪酬，一年的人力成本就可高达几亿到十几亿。

而且，AI企业虽技术优势傍身，但作为不单纯靠高科技能打下市场的行业，难以通过单点突破快速占领市场。

大多数AI企业逃不开“三高”病（高投入、高亏损、高人才），同时又不具备规模化效应，让他们在高度定制化且毛利低的市场，转不开磨盘、吃不饱。

AI企业放得下高大上的科技标签，吃得了长苦，但就是赚不到钱。

所以无论是安防也好，金融、医疗、工业也罢，都面临这个问题，无论是走平台模式还是定制化模式，都难逃利润的死胡同。

欧美的高分作业，国内企业抄不来

1.重型解决方案的困局：国内企业难做出高毛利的核心产品

有人说，海外走通此模式的大有人在，中国为什么玩不转？

比如IBM，它就是在重型解决方案领域走出康庄大道的典型代表。

郭士纳时期开始，IBM转型成为一家高定制化的解决方案公司，但IBM却并未受困于此，反而一直有着超高的利润率。

雷锋网在这先感叹一句，真正的高人，往往能通过深入浅出的话语，道出核心本质，毛泽东是一个，郭士纳是另一个。

他当初对IBM转型解决方案公司的定位是：如果客户需要马桶，那IBM也卖。

这句话背后的本质是，以客户为核心，牢牢把握住客户，而这，正是一家解决方案公司的立身之本。

当然，IBM转型成功，除了抓住了这一根本，也离不开IBM的核心产品、服务和并购。

这里重点谈下IBM的核心产品。核心产品，是那些通用化的、高毛利的产品。

IBM的解决方案，集成了众多生态伙伴的产品，但方案中有些重要的组件和中间件，由IBM自研把控，比如服务器、存储。

这些技术门槛高、占据核心地位且通用的基础系统硬件，也带来了高利润。

IBM看似在高度定制化解决方案里又苦又累，帮其他公司牵线搭桥，实则拿捏住了最核心的中间件，以至于一个项目可以拿到近五成的营收以及高毛利。

“以前银行IT系统里最要命的中间件都是IBM在控制，成本不高，但服务费非常贵。十几年前那批服务银行业务的IBM销售，真是躺着赚钱。”IBM 前员工告诉雷锋网。

所以，即使他们做重解决方案，依然可以通过核心产品获得高毛利。

同样，SAP有ECC，甲骨文有数据库。

数据库是基础软件皇冠上的明珠，几十年来与操作系统齐名，是每一家公司业务系统的核心，以刚需“收割”企业利润。

这些都是解决方案里的利润来源、客户不得不买的核心产品。

那么为什么中国的解决方案公司缺少这类高毛利的核心产品？在雷锋网看来，原因有四：

第一，复杂的系统性工程能力有限。吃透一个复杂业务系统，需要强大的工程能力，庞大的知识体系和深厚的经验积累，中国在系统性工程能力上一直较为欠缺。

第二，浮躁，倾向于赚快钱。（其实这也是工程能力弱的原因）

这类核心产品，属性重、壁垒高，需要极大的时间、资金、精力和研发投入，但中国发达的互联网产业让大多数企业习惯于短期获利，在海量的客户、海量的营收规模、高营收增长率、高利润率的面前，难以沉下心来做各项要求极高，且不一定能成功的产品。

第三，对资金投入、战略坚持要求极高。

以数据库为例，在云计算的光芒下，这两年中国数据库领域进展迅速，阿里、腾讯、华为都初尝甜头。

在这背后，他们投入了巨大的人力、物力、财力，即便如此，因中国To B市场环境问题，在相当长一段时期内，这类产品的工作推进得尤为艰难。

在那些前路星光暗淡的日子里，能坚持至今，实属不易，这离不开企业在战略上坚定地支持。

第四，企业对有效专利的保护远远不够，在法律手段上不够狠，市场惩罚力度有限，导致抄袭成本低。仿制品多了，自然会进入打价格战的恶性循环，没有利润。

这个问题过去20年没有解决，可能未来10年也很难解决。

早期，AI公司以为AI技术就是类似ECC、Oracle的“中间件”，但是AI本身并不是一个产品，且门槛逐渐降低，同质化严重。

而IT软件领域，中国至今也没有一个保持高毛利率的软件企业。以金蝶、用友为例，这些具有二、三十年历史的公司，利润一直在低位徘徊。

眼下的中国AI公司，大多缺钱、缺精力、缺战略底气去支持一款核心产品的开发。

2.轻量标准化产品模式：盘子是大，收费模式扭曲

做重不行，那就来轻的，比如SaaS模式。

的确，SaaS也是目前各大互联网巨头最为重视的产品形态之一。

它模式轻，无需定制，一套SaaS产品可以复用；收入可持续，不是一锤子买卖；高毛利，SaaS收入的毛利至少能达到70%。

它打通To B，通用化、标准化，是个突破困局的好苗子。

此模式也得到欧美市场认可，单2020年，美股的SaaS公司就有不少突破了百亿甚至千亿美金估值。

甚至有一种说法：美股过去十年属于FAANG（互联网），下一个十年属于SaaS（软件即服务），未来软件定义世界。

理论上可行，但要明白，美国的企业服务程度远在中国之上，且美国人口红利弱势下，长期以来注重人效比。

其次，中国环境较为尴尬，中国的付费意识有所提升，但依然不容乐观，尤其在软件领域。而有了免费的钉钉、企业微信、飞书后，更是加剧了国内小公司的软件“白嫖”意识，愿意付出可观费用的企业数量非常少。

其实，这间接导致SaaS也逐步进化成定制化项目。

其次，仔细想想，淘宝在以另一种SaaS的形态存在于市场，以羊毛出在猪身上的方式，赚走了多数小微企业的钱。

3.企业知识产权保护：不够快、不够狠、不够全

当然，高毛利的困局，除了战略坚持、工程能力，更在于当前知识产权保护环境的不成熟。

首先，中国企业一个重大认知误区，就是“谁掌握的技术多，谁最需要加强知识产权保护”。

知识产权其实具备技术与法律的双重属性，本质上是运用于商业。

但中国大多数企业没有意识到它不是一个法律问题，而是一个资产管理问题，知识产权长期得不到足够的重视。

这一点上，硅谷地区尤为优秀。

《烧掉舰船》一书中，就鲜活地展示了知识产权的力量。

马歇尔•菲尔普斯在任职IBM公司副总裁期间，利用知识产权武器，在IBM命悬一线之时，通过一系列组织架构及专利许可的改革，成功使得IBM公司摆脱经营困境：

当年，IBM的利润收入总额中有25%来自于知识产权的与授权的项目。

如果说在IBM马歇尔只是利用知识产权拯救IBM公司脱离水火困局，那么后来在微软马歇尔则利用知识产权所做的变革，让知识产权成为微软的战略核心，并支撑巨轮前行。

而另一个依靠知识产权的运营为企业带来盈利的典型案例，非甲骨文莫属。

甲骨文的法务团队是全公司最强势的部门，有人调侃，它应该是一家大型律所，而不是一家软件科技巨头。

其法务团队，已经形成一条完整的产业链，有负责起草滴水不漏的授权许可合同/格式合同的律师；有负责探索并调查市场上侵权公司，进行许可授权谈判的律师；有负责诉讼的律师，开启漫长的司法程序，并申请配套的诉讼保全或禁止令等，捆住目标公司的手脚。

这些法务团队出现在董事会、在风控会、在谈判现场、在危机处理等等场景，只要与公司业务相关，他们似乎无处不在。

一家一流公司，不仅需要能创造IP，更需要运营IP。

作为一个软件系统公司，甲骨文前期需要为产品投入巨大的成本，此举本意是为保护自身不受侵害，后来，这种架构融入企业生命，成为一种生产力。

只要他们开发出一款好的数据库产品或组件，即举整个公司之力保护权益，甚至经常通过一场官司就可赢得数亿美金，以至于网上出现不少诸如此类的段子：

黑客：你好，在吗？
受害企业：？
黑客：我在你公司网络里安装了几个oracle数据库，给我2-btc我就告诉具体安装位置，要不我就告到oracle法务部。
受害企业：......大哥，有话好商量

这套机制在保护他们的核心产品的同时，也让其在一段时间内形成市场垄断。

公司业务上无处不在的法务团队，其实是法务成熟的体现。显然，国内仍不够成熟：知识产权保护体系不健全，企业也缺乏相关的意识。

比如知识产权保护到位，是建立在一系列前提之上，大多数企业并没有完备的团队：

是合适利用知识产权保护还是适合商业秘密保护是否做了全面的或针对性的知识产权布局是否有团队在监控和维护知识产权

比如实际执法问题多，处罚力度有限。不仅存在认知力度水平不一、地方保护主义等等问题，且目前知识产权界的不少重大侵权案件中的赔偿金额也较为有限。

“真正的惩罚是市场禁入，真正的奖励是国家允许的市场垄断。”某法律从业者对雷锋网表示。

中国的知识产权，大多数仍处于低端的专利代理和诉讼工作，很难去真正认识到知识产权保护这种无形资产对一个企业价值体。

整个知识产权结构的不成熟，让拿来主义盛行。当企业呕心沥血开发的产品一转手成为他人获利的工具，得不到保护的创新，就是市场恶性竞争的开始。

不在死局中消耗，就在“三大激进商业模式”上九死一生

难道没有其他出路吗？

未必，短道被挡，还有长道。在雷锋网看来，AI未来的转机，也许在以下三种路径里。

路径一：重定制集成项目实施→ 数字化咨询 → 咨询业务反哺重定制实施 → 与大型客户建立高粘性和系统不可替代性

眼下，整个To B行业，一边被传统体系与落后的生产方式相互拉扯，一边在纷繁复杂的新兴技术洪流中被左右推搡。

在技术迭代的窗口，要么向上冲锋，跃进下一个时代，要么混同扑面而来的泥沙，跌入时代的谷底。

转型是不是找死不知道，但不转型一定是等死。

身处其中的传统企业们怎能不明白这个道理，但是AI时代，如何提升企业生产与管理效率？如何重构线上与线下的关系？换句话说，往哪里转？怎么转？

这些问题，单靠企业本身，难以全面回答，而咨询机构可以。

德鲁克说过：动荡时代最大的危险不是动荡本身，而是仍然用过去的逻辑做事。

数字化咨询最大的价值不是解决细节的技术问题，而是通过对商业流程的把握，通过整个体系的重塑实现更高的企业运营效率。最终目的，是让企业花费最小的金钱、时间等成本，实现企业数字化转型。

为什么说AI公司，在当前适合开辟数字化咨询业务？

先说说必要性。

首先以往的AI公司完全不需要做咨询业务，因为它们只是给客户提供单点技术服务，如人脸识别、语音交互、机器学习决策等等，远没到战略咨询、IT咨询阶段。

但现阶段的AI企业，随着业务不断下沉，逐渐做重，本质上成了数字化企业。

数字化，用什么技术不重要，重要的是做好顶层设计、组织管理规划、数据沉淀、数据流通、数据决策，最终实现智能化。

这个时候，做咨询，势在必行。

咨询行业本身是高智力的工作，难以产生高规模营收、高利润，但咨询不是目的，盈利也不是。

如今的数字化转型解决方案，不再是单纯的软硬件实施，而是对人、组织、流程、IT的整体改造。

AI企业可以设立“咨询子公司”，自上而下摸清楚各种场景、客户、领导的需求，拉通供应链关系，一来，以自身的方式经营客群关系，并帮助母公司去直接获客，承接项目实施。二来，在更深入了解客户需求后，反哺主公司的整体解决方案。

坦白讲，咨询只是引子，打通客户决策层之际，为自己的项目实施业务拉客。更通过这个引子，吃透行业，了解更多客户需求，让解决方案更为健全、通用。

好比一家装修实施公司，额外经营了一家家装设计子公司，设计公司先给业主做出设计规划，提供装修的用料、实施商的选型参考，同时推荐自家的实施母公司，来做最终落地。

再说说可能性。

模式轻，市值高。

咨询是轻模式，资金压力小，AI企业入局风险较小。

其实IT数字化领域，走通此模式的咨询企业不在少数。以埃森哲为例，其以IT咨询起家，在咨询领域站稳脚跟后做，逐步扩展到解决方案的实施和部署，目前年营收500亿美元，市值达2000亿美元。

即使不以巨头参照，咨询本身最大的成本是人力，项目人效高，利润与重型解决方案相比，也较为可观。

咨询行业市场大。

未来智库数据显示，2018年全球咨询行业达 2770 亿美元，复合增长 4.3%。在增长方面，亚太地区是行业的最前沿。亚太地区 2018 年的市场规模为 470 亿美元，约占全球管理咨询业的 17%，其中中国市场是增长龙头，年复合增速超过 10%，是全球市场的两倍。

AI企业可根据自身基础，选择不同的模式组合：轻咨询+重实施；重咨询+轻实施；重咨询+没有实施。

其实目前不少AI企业已经在往咨询领域发力，比如金融风控领域的头部企业同盾就孵化了咨询子品牌。

在定制化场景摸爬滚打的海康也暗戳戳地有动作。

2018年12月，海康进行了组织架构调整，成立了全新的三大BG事业部（PBG、EBG、SMBG）。其中，EBG已经成为海康新的动力引擎之一，承担了海康推进企业数字化转型业务重任，海康委以重任的EBG负责人徐习明，就是IT咨询出身，曾是IBM咨询部门的副总裁。

最鼎盛时期的IBM，是解决方案的集大成者，更是一只“高毛利的通用服务器、中间件产品 + 高定制化实施团队 + IT咨询服务部”三轮驱动的巨型航母。

路径二：重定制集成项目实施 → 进入非标市场的标准市场（自动驾驶、芯片） → 形成标准化产品 → 低成本规模化复制

AI公司为何都在赔？

核心在于：AI未能标准化，项目需求又无穷多，也就有了做得越多亏得越多。

业务特性上，以项目制为主，产品和服务门槛高，生产流程复杂、定制化高；

行业特性上，周期长、反馈慢，不具备高增长性，投资回报率低。

竞争格局上，传统巨头林立，扩展业务边界；互联网大厂跨界，财大气粗广撒网，搭建生态。

说白了，非标市场，容不下AI企业浩瀚的AI梦。

那就去标准化市场？有人说。

标准化市场可以一夜之间把价格做到无穷低，高额运营支出会逼着他们重回定制化市场。

上不得，下不去，还不能不做，毕竟日子还得过？怎么办？

在非标准化市场找到标准化赛道，这才是AI公司的路子。

没找到之前，一定不赚钱，一定亏下去，一定成不了巨头，一定被质疑。

所以不管他们现阶段是否依赖于非标领域获得营收，要在未来立足，必须瞄准更大的赛道，如此，才能支撑他们“昂贵的未来”。

这个“更大的赛道”在哪里呢？

场景上，自动驾驶、芯片都是明显的非标市场中的标准市场。

技术上，软件定义、人机协同一旦成型，可以一招吃遍天下鲜。

这些赛道长线、资本看好（热钱关注）、短期无法盈利，能讲出不一样的故事。

正如《依图医疗「变卖」内幕：出走、截胡与派系整合》中，前依图员工的一句话点破了AI公司对标准化市场壮士断腕般的执着：

安防和医疗都不是依图未来的主业，安防只是规模比医疗大，哪一天无人车或者芯片做起来，安防也能像医疗一样卖掉。现在分管安防的高管Steve，背景是企业级产品研发，想做个类似数据库的产品，什么行业都可以用。因此，对行业领域没有太多的感知或者感情。”

路径三：开源深度学习框架，占位国产化高地。

至今，主流的开源深度学习框架一直由国外科技巨头主导，其中Google的TensorFlow以强大的工业部署能力深受工业界喜爱，Facebook的PyTorch以灵活性横扫学术千军，两者占据了90%的市场份额。

在AI界，两大开源框架的地位等同于IOS和安卓系统，算得上开源框架的双煞。

既然巨头成就在前，框架开源不受限，为什么要重复造轮子，胜算又在哪里？

1. 深度学习框架，一场潜在的制高点之争。

如果把炒菜比作场景，优质的食材（大数据）、高超的方法（算法）、上等的锅（框架），加上恰当的火力（算力），才能炒出一盘好菜。

作为底层语言和算法模型的骨架，深度学习框架省去了开发者从0到1地搭建地基的成本，提高开发效率。

开发人员可以像搭积木一般，根据自身行业的特点和场景需要，选择框架中的模型，进行组装或训练自己的模型，导入数据并得到模型，最终实现部署。

深度学习框架其实将数据、算力、算法三者相连接，向下对接芯片（算力），向上支撑应用。

如果说芯片是算力平台，那么深度学习框架就是编程生产力平台，两者已经成为AI基础设施基座。

成为一家平台型公司，建立以自身为主导的庞大的AI生态，是大多数科技巨头的愿景，在“得开发者得天下”的影响下，开源深度学习框架将是企业跻身“平台型AI”的关键。

开源本身，是将自家的独门绝技分解成一招一式，慷慨对外，既是开诚布公的交流，也是明枪暗箭的较量。

深度学习框架话语权的争夺，暗藏着对未来AI行业标准制定主话人的争夺。

百度CTO、深度学习技术及应用国家工程实验室主任王海峰也曾表示，深度学习框架是“智能时代的操作系统”。

深度学习框架的竞争，已经成为未来人工智能场上竞赛的制高点。

Google有TensorFlow、Facebook有PyTorch，百度有Paddle Paddle、华为有华为 MindSpore。

你看，这一制高点，早已有无数巨头争相竞夺。

2. 技术没有终点，企业没有永胜将军。

当年TensorFlow横贯世界，谁能想到PyTorch愣是冲破铁幕，上演了后来居上的故事呢？

按理说如今TensorFlow和PyTorch牢牢把控市场，然而TensorFlow性能高、部署方式高效，但调试性不足，而PyTorch灵活易上手，但命令式编程运行效率低。

说白了，开发端的需求动态化、多元化，没有哪一个框架能完全满足市场需求。

这意味着，任何一个框架都不会有决定性的胜利。没有永恒的强者，只有永恒的挑战者——新的框架出现具有历史必然性。

华为徐直军曾对此表示：“我们现在还没有看到哪一个框架能够真正做到支撑全场景，而华为 MindSpore 的目标就是成为这样一个框架”。

也因此，不断有挑战霸主地位的冲锋者。

开源深度学习框架的代表性崛起出现在2012年-2015年间，历史并不悠久，也许追着追着，就赶上了呢？

3. 局势动荡，国产替代势头大。

中国超九成的开发者使用的AI开源软件包来自美国。

很显然，中国的人工智能严重依赖美国的开源框架，往严重了说，中国人工智能产业，有相当一部分是建立在美国智能框架之上。

在中美关系缓解的前提下，尚且影响不大，但如果这个前提生变呢？

轻则影响工程进度，重则步中国芯片产业被美制裁的后尘。

中兴、华为事件的爆发、美国至今仍在更新的实体清单，无不在提醒着中国企业，作为编程生产力平台的深度学习框架，不是没有成为下一目标的可能。

一旦中国AI企业成为制裁对象，关上了深度学习框架的大门，将是对中国开发人员甚至AI产业的致命一击。

退一步讲，目前在国家数据安全越加敏感的背景下，即使没有中美科技战，数据向国内迁移也将成为趋势。

要知道，AI的训练全部基于开源框架，这意味着海量的真实食材（数据）都将在美国企业的大锅（开源框架）里烹饪，一旦上升到国家，数据安全将成重要隐患。

所以我们看到，百度开源了，华为开源了，阿里开源了，腾讯开源了，旷视开源了，清华也开源了......

从这个角度看，也许2020年国产深度学习框架开源集中爆发不是巧合。

而在这之中有个信号——少见的AI企业的身影。

2020年3月，旷视开源核心深度学习框架旷视天元（MegEngine），成为全球首个将底层框架开源的人工智能企业。

MegEngine开源发布会上，除了有图灵奖得主姚期智、高文院士、怀进鹏院士坐镇，还有前微软人工智能领航人物沈向洋捧场，单从嘉宾阵容，可一窥旷视对其开源框架的重视。

旷视的出现，让这场竞争不再是科技巨头玩得起的游戏。

首先，前文提到目前AI公司的困境在于，AI并非核心技术，重型定制化解决方案容易进入死胡同，轻量的标准化产品模式收费潜力有限，可谈得上“价值”的人才难以量化。

AI企业一直在寻找一个站得住、走得长的“价值”，基于上述分析，开源可以是那个“价值”。

站在旷视的角度，当初商汤以平台型为目标，旷视若无亮眼标签傍身，未来很可能与二线AI企业无异。

一知名投资人向雷锋网透露，他们投资人看企业，更多看的是想象空间，不是看现在能赚多少钱，如果比赚钱，何不去投资集成商？

“当今的AI行业，除了极个别企业外，我们实在看不到任何大的想象空间。旷视的想象空间，我认为是深度学习开源框架，如果能把它做好，这就是他们的最大增量之一。”

再来谈谈现实，开源框架的商业价值。

TensorFlow和PyTorch其实都存在百亿美元的营收潜力，Google和Facebook之所以不以此盈利，是因为开源承载的更多是战略意义，是防止被对手吞噬的防御性措施。

安卓的免费开源，从战略意义上讲，是为了防止被iOS和Window卡脖子。

设想下，如果Google没有自己的安卓阵营，几十个应用全部架设在苹果和微软的操作系统之上，一旦发生巨头之间的卡脖子事件，Google的处境会有多么艰难。

巨头不缺钱，可以不在乎盈利，但AI企业在乎。他们需要钱，且理论上可操作。

方式一，可先提供一个基础版本，针对高级版本收服务费；方式二，开源一段时期后闭源，按需使用收费；方式三，与使用框架的公司合作，开发新产品。

当然，这是一条可行的路，但并不是一条容易的路。

TensorFlow和PyTorch，背靠科技巨头，框架性能强大、工具链成熟、社区生态庞大，它们汇聚了全球的工程师、顶尖的代码和产品，仍然位居开源领域顶峰。

这个赛道里，创业公司极少，侧面意味着高壁垒、周期长、生意慢，需要得到开发者认可，需要巨大的生态支持，才能变成大生意。

而且，这一路径的成立必要前提，是科技制裁加剧、外国主流框架使用受限、中国相关政策支持，且成立后，仅有中国人使用，其生态环境无法与前两者比拟，这是此模式天然的局限性。

时代万象，成王败寇

距离那场让各界激动不已的人机大战，已经五年了，也才短短五年。

有人赶不上热点，抓不紧核心，在队伍末端吊坠。

有人挑最重的担子，啃最硬的骨头，无惧下沉。

有人交枪、抢跑、狂奔，全力以赴想抢先初达拐点。

有人羞羞答答，不知该破釜还是坚守，两只手相互拉扯，左右为难。

无论以何种姿态闪亮登场，未能寻得一片安身之地的企业，都将被大浪冲散。商战残酷，无人怜惜蔷薇横卧，唯有在历史的缝隙里，辗转腾挪，活到下一时代。

但市场铁律会摧毁秩序，也会重建规则，催生新的万象。

数字化浪潮正引发新一轮社会进化，所有人将通过商业路径选择，完成一场公平竞跑。

这既是一个AI企业赌命的关键节点，也是AI企业在新时代开篇建制的绝佳时机。最先适应的人，将收到时代馈赠的红利。

AI商业化落地的镜像里，谁能称王，谁是败寇？

新故事已然开始。让我们拿起望远镜，随着时代的曲线开始一场大变革浪潮的奇幻漂流吧。

————

《AI冰与火之歌· 五问》第三篇预告

人都说技术前进无终局，但AI基础研究似乎逐渐进入了停滞期。

中国工程院院士、中科院计算所首席科学家李国杰近日提到，目前我国大学和企业的人工智能实验室大多遇到顶天顶不了、立地又落不下去的困境。

他认为，不少科研项目要么是增量式的技术改进，要么是几十年难以突破的理想型目标。

AI公司商业模式落寞背后，当然也离不开底层研究的支撑。

8月24日，我们将发布深度报道《锁死AI基础研究的「智子」是什么？》，从技术和人文角度，讲述基础研究难突破的深层原因，并探索未来AI研究的新方向。雷锋网雷锋网雷锋网

专访文安智能董事长陶海：AI 企业要「输血」，更要「造血」

Tue, 17 Aug 2021 18:56:00 +0800

从教授到企业家。陶海与计算机视觉（CV）的故事，要从高校讲起。

本硕期间，陶海跟随清华大学自动化系“中国模式识别宗师”边肇祺教授，开始从事指纹识别方面的研究。硕士毕业后，陶海赴美继续深造，拜于“华人计算机视觉之父” Thomas S. Huang教授门下攻读博士学位，对人脸表情识别、非刚体运动跟踪和超低码率视频传输等领域展开深入探索，并于2001年任教加州大学，与学生共同发表计算机视觉领域学术论文百余篇。

名校、名师、名人光环之下，陶海却将目光投向了技术落地的最前线。

2005年，陶海回到国内创立北京文安智能技术股份有限公司（VION），暗含视觉技术（Vision）即将登上（On）产业化舞台的意思。

至此，文安智能成为本次AI创业浪潮中最早的一家CV企业。

“我们只做垂直的、聚焦的深耕，不止是要做到落地，更要给用户一个价值体现。”陶海表示，文安智能的目的，是跨越从技术供给到商业需求的鸿沟，实现一定的商业及社会价值，推动产业的发展与变革。

近日，雷锋网AI掘金志与陶海进行了一次深度对话。本次访谈中，谈到了他对眼下、未来AI的思考，以及对产业的洞见。

泡沫破裂

自2016年阿尔法狗击败李世石取得人机大战胜利之后，资本对AI的追捧甚嚣尘上，一时间各类创业企业遍地开花，资金有如潮水般蜂拥而来，浇灌在人工智能这片田野上。

然而，在资金的加持下，人工智能技术虽然取得长足发展，几年后却在商业变现上栽了跟斗：绝大多数AI公司很难实现盈利，并且处于持续亏损状态。这给热情高涨的资本泼了一盆冷水，资本对AI的关注趋于平静。

亿欧智库数据显示，资本对人工智能企业的投资数量在2018年达到顶峰，随后峰回路转，近两年的投资数量开始渐渐回落，但投资金额却在不断上升。这反映出一个趋势：资本正从此前的大水漫灌走向精耕细作。

来源：《亿欧智库：2021年中国AI商业落地市场研究报告》

正如Gartner曲线所示，任一创新技术的热度周期，都会经历非理性追捧的高峰启动期，而后泡沫破灭来到低谷，再逐步走向正规、稳定发展的攀升期。

陶海表示，碎裂的泡沫让人们更清晰客观地看出一项技术的优劣性，更理智、现实地发展行业，进行稳健地进步。

随着技术壁垒、应用门槛不断降低，AI日趋工具化、常态化，AI创业也步入深水区，不断“下沉”。

此时，算法越来越难以成为AI企业之间壁垒，与具体产业的结合、应用行业的属性变得越来越重。

“前几年AI热潮兴起之时，涌现出很多AI概念的企业，其中不乏‘伪AI企业’，本质上并不具有真正的AI技术。退潮之后，它们逐渐暴露出短板，无法用技术解决客户的痛点，必然会在商业化的过程中落败。”九合创投创始人王啸曾表示，投资机构对AI创业团队的评判标准正发生着较大的迁移。

过去，投资机构更看重技术难度、技术带头人的背景等等，以技术为核心进行判断。但现在，“产业理解力”在评价体系中的比重显著提升，更看重AI技术能否在产业里创造真实的价值、市场规模是否足够大。

“技术价值与商业价值不能顾此失彼，要‘两条腿走路’。”陶海表示，AI产品面临的问题与普通消费品不同，一方面算力壁垒下，短时间内难以从成本上形成普惠，一方面局限于B/G市场的定制化、碎片化，难以在市场上形成规模收益，也因此，在成本居高不下中，多数AI企业被困于此。

那么，在资本日趋理性的泛AI时代，CV赛道之上苦苦求索的企业们，路在何方？

自食其力

长期以来，AI作为改变生活的新技术获得了社会的认可，但随着产业从技术探索走向规模商用阶段，如何将技术能力转化为商业能力成为一道必答题。

头部企业尚且亏损，其他AI公司的情况亦不容乐观。在投资成本远远大于收益的现实下，“AI落地难、变现难”成为业界常谈，关于AI商业化的各种质疑纷至沓来。

不久前云从科技、云天励飞等企业成功过会虽回应了部分质疑，给市场注入一剂“强心针”，但今年以来仍有诸多人工智能企业相继在上市道路上遭遇“滑铁卢”。

“人工智能企业也是企业，要始终遵循企业的发展规律，在企业创立之初就把盈利放在首位，不断用技术创新来创造价值。”陶海坦言。

市场上有两类公司，一类是资本驱动型，在充足的资本支持下，可加大研发，也允许亏损，而一旦离开资本，他们便难以维系。

另一类则是凭借自身造血。在陶海看来，资本固然对AI公司具备助推力，但这力量的前提是资方明确的利益诉求：投资回报。

来源：《艾瑞咨询：2021年中国人工智能基础层行业发展研究报告》

过度依赖外部输血的AI公司会背上营收快速增长的包袱，这种营收的压力会影响技术和商业落地的进程，破坏AI本身的商业逻辑，忽略盈利，带来“过犹不及”的后果。

陶海指出，AI行业有其自身发展的规律。AI从技术到应用，从亏损到盈利，都存在一个周期。这个周期具体表现为，前期要投入大量的人力财力，才能将技术转化为产品，而产品的应用则受制于成本、场景等因素，商业化过程比较漫长。

“AI企业要‘自食其力’，严格按照AI本身的发展节奏来走。”陶海认为，这样一来，即使在没有融资的情况下，也能养活自己，其代价是企业的发展稍慢，但对公司的竞争力和创新力都是一种锻炼。

“既不能过久停于平台期，也不要过度激进，到头来形成资金窟窿。”

陶海表示，只有在自我造血的基础上持续积累，找到一条适合自身的路子，在技术和产品足够支撑起公司的快速增长的背景下，再寻求融资，才能最大程度上吸收资本带来的帮助。

开源节流

前面提到，产品进入流通领域之后才成为商品，在交换（消费）过程中产生商业价值（利润），然后用利润扩大再生产，形成“技术-产品-商品-消费-利润-再生产”的商业闭环。

但多数AI企业在“产品-商品-消费”这个环节面临困境，也就是“落地难”，而最大的难处就是：成本。

AI属于资金技术密集型产业，对人才、资金、材料等要素的需求非常之高，研发投入很大，这些成本最终附加在产品上，因此AI产品因“高精尖”特性，定价较高。

“如果产品成本过高，就没法大规模推广下去。”陶海表示，做一件成熟的产品相对容易，但做一件成熟的商品却很难。

“既要开源，也要节流。”观察下来，现阶段AI企业要想实现成本控制，其一应“合理的资源分配”，将绝大多数的纯基础研究工作交给学校，企业则专注于应用创新与价值创造；其二应“价值匹配刚需”，不做伪需求，深入行业，关注且找准真正的需求痛点。

而要实现稳定营收，陶海进一步提出，具体应从两个方面着手：“在应用层面持续创新，在性能层面追求极致。”

一方面，要做到应用创新，最重要的是对行业的深刻理解，即了解需求和市场，包括现有产品的不足，以及市场出现的新的需求痛点；另一方面，AI企业必须在夯实技术创新底层的基础上，把产品的性能做到极致。

AI内卷之下，算法的核心竞争力地位正在减弱。新的AI公司层出不穷，开放式算法平台也日见增多，几年争奇斗艳，人工智能得以普及，AI门槛降低，算法不再是九天月，遥不可及。

“留给那些只做算法的公司的生存空间越来越小，这边一个好的算法亮相，就宣告那边差的算法消亡。”

所以，AI企业要活下去，且活得更滋润，就必须从价值入手，通过应用创新和极致性能，将技术运用到合适的地方，来解决市场痛点。

但这显然还不够，因为AI企业除了内部竞争以外，还面临着激烈的外部竞争：如今的AI圈，行业巨头根基深厚、渠道广布，已经形成比较完整的产品体系，牢牢占据大部分市场份额，只能追赶，难以超越；跨界巨头资本雄厚，来势汹汹；以四小龙为代表的AI厂商，成长为一方领头羊，自成体系；无数CV黑马，力图弯道超车，不甘人后。

AI企业要虎口夺食，除了在硬实力上下功夫，还应该逢强智取。

“再好的技术，最终也要与实际应用结合产生价值；再好的算法，最终也要在可控成本的前提下，实现人们最需要的功能。”陶海认为，AI企业不能脱离“以人为本”，要将人工智能技术产业化，把技术落地为产品，进而转化成商品，为“人”的生活服务。

“必须开拓新的商业模式，就是走运营与服务的路线。”陶海认为，AI企业要从单纯的技术产品供应商，向“集技术、产品、运营、服务于一体”的综合方案解决商的角色转变。

AI运营与服务

陶海认为，眼下盛行的两种商业路径都难以走通。

1、做创新AIoT硬件或算法供应商。

这一模式已经在过去几年被验证行不通，一来，会面临海康、大华等巨鳄的终端产品规模化优势的价格碾压；二来，这类AI企业逐渐被架空，话语权依然在下游集成商或运营商手里。

2、做开放的算法平台或AI芯片。

算法上，巨头高效率、低成本地获客，算法甚至可免费打包到云服务；芯片上，芯片成功的要素除了优异的识别性能，更在于成本和出货量。高昂的研发成本和流片成本，需要企业极为慎重。

“在国内要把AI创新做好，光做算法，光做AIoT的智能摄像机都是不够的。”对此，陶海提出了“全栈AI智能闭环”的思路，即延伸产业链，增加附加值，不单单提供产品，还提供对应的运维、决策等增值服务。

在他看来，人工智能企业的发展路径都会经历最初的算法设计、硬件研发，到数据平台、运营决策，进而形成一个闭环，而目前许多AI企业都聚焦于搞算法研究，缺少硬件能力和前端感知设备，对于平台的开发也较为滞后。

“除了算法还要做感知硬件，感知之后会得到许多有用的数据，通过数据不仅能优化算法，提高感知精度，而且可以进行决策AI，进而形成业务闭环。”

未来的AI企业不再是简单地卖技术、卖产品，而是进入一个长期的全栈AI的业务模式。通过提供更多的增值服务，从而实现盈利、持续增值。

“目前的AI还只是半自动，而非全自动，系统、数据较为复杂，用户需要AI企业进行指导和帮助，而这恰恰是AI服务的痛点。”

不过，要实现全栈AI智能闭环并不容易。除了算法，企业还要有做硬件的能力，还要做平台和决策，资金投入大、周期相对较长，并且对AI技术和产品也提出了更高的要求——比如“感知”。

计算机视觉是AI比较成熟的一个分支，已有不少产品落地并商用。但计算机视觉主要通过样本进行统计意义上的回归与拟合来进行识别，缺少逻辑推理，严重依赖样本，而且不同的场景对算法的要求也各不相同，带来的成本问题也亟待解决。

“把感知做到全覆盖，功能做得更全，精度提上去，依然是CV公司未来5年内要做的事。”陶海表示，要做到这一点，就要深入行业，了解具体场景下应用的痛点和难点。

“要做运营与服务，必须深入行业，深入基层，去理解这个行业，才能知道怎么通过感知加数据、加决策、加行动、加迭代来真正的创造价值。”

顺势增长，逆势突围

命运对每个人设置了难度不同的障碍，在近几年浪潮里的摸爬滚打让AI领悟不少。历经碰撞与跌宕后的再出发，AI后半段场的鏖战，必将格外精彩。

以文安智能为例，似乎找到了自身的路径。作为最早的一批计算机视觉公司，其发展历程正如创始人陶海所描述的那样：遵循其自身发展的规律，不过度依赖“输血”，而主要靠“造血”来完成技术积淀。

成立16载，文安智能以AI运营与服务为核心，专注于从感知、协同到决策的全栈人工智能核心技术，产品系列覆盖前端摄像机、边缘端、集群服务器以及后端应用平台，在智慧交管、智慧商业、中观智慧城市等应用场景打造了一系列创新实用的解决方案。

在找到一条适合自身发展的路之后，文安智能开始借力资本：去年十月完成C1轮融资之后，新的融资计划已提上日程，将在智慧交管、智慧商业、中观智慧城市等业务板块继续发力，为G/B端客户持续赋能。

这意味着AI已经从“技术为王”过渡到“应用为王”的阶段，这个阶段同样需要资金的支持。而当资本对AI的追捧从“狂热”变成“冷静”的趋势下，只有那些专注于技术创新转化、满足应用需求，持续创造真实价值的“高端玩家”才能获得资金加持。

或许在AI这趟大潮中，并没有谁在裸泳，但最终能活下来的，始终是那些认真搞技术、耐心磨产品的公司。雷锋网雷锋网雷锋网

关于AI的四个最常见的谬论

Sun, 09 May 2021 06:55:00 +0800

当今的AI系统可以在广泛的领域中执行复杂的任务，例如数学，游戏和逼真的图像生成。但是当我们接近AI的一些早期目标时，如管家机器人和自动驾驶汽车，这些目标仍将逐渐消失。

圣达菲研究所戴维斯复杂性教授、《人工智能：人类思维指南》的作者梅拉妮·米切尔（Melanie Mitchell）说，错过这些目标的持续循环的一部分是由于对AI和自然智能的错误假设。

米切尔（Mitchell）在题为“为什么AI比我们想象的更难的原因”的新论文中提出了关于AI的四个常见谬论，这些谬论不仅在公众和媒体之间，而且在专家之间引起误解。这些谬论给人一种错误的信心，使我们对实现人工智能，可以与人类的认知能力和一般问题解决能力相匹配的人工智能系统有多大的信心。

狭窄的AI和一般的AI规模不一样

现有的AI可以很好地解决狭窄的问题。比如在围棋和国际象棋上超越人类，以超乎寻常的准确性在X射线图像中发现癌变模式，并将音频数据转换为文本。

但是，设计可以解决单个问题的系统并不一定会使我们更接近解决更复杂的问题。米切尔（Mitchell）将第一个谬论描述为“狭义情报与普通情报是连续的”。

米切尔在论文中写道：“即使人们在狭窄的区域内看到一台机器在做奇妙的事情，他们通常会认为该领域对通用AI的发展要远得多。”

例如，当今的自然语言处理系统在解决许多不同问题（例如翻译，文本生成以及对特定问题的问答）方面已经走了很长一段路。

同时，我们拥有可以将语音数据实时转换为文本的深度学习系统。每一项成就的背后都是数千小时的研发（以及在计算和数据上花费的数百万美元）。但是AI社区仍然没有解决创建能够参与开放式对话而又不会长时间失去连贯性的座席的问题。这样的系统不仅需要解决较小的问题，还需要解决更多的问题。

它需要常识，这是AI尚未解决的关键挑战之一。

简单的事情很难自动化

当涉及到人类时，我们希望一个聪明的人去做艰苦的事情，这需要多年的学习和实践。例子可能包括诸如解决微积分和物理问题，在大师级别下棋，或背诵很多诗之类的任务。

但是数十年来的AI研究证明，那些需要自动关注的艰巨任务更容易实现自动化。简单的任务，我们认为理所当然的事情，却很难自动化。米切尔（Mitchell）将第二个谬误描述为“容易的事情很容易，而艰难的事情很难。”

“我们人类不加思索地做的事情-放眼世界，了解我们所看到的东西，进行对话，走在拥挤的人行道上而不会撞到任何人，这对机器来说是最艰巨的挑战，”米切尔写道。

相反，让机器去做对人类来说非常困难的事情通常会更容易；例如，解决复杂的数学问题，精通国际象棋和围棋之类的游戏以及在数百种语言之间翻译句子对于机器来说都变得相对容易了。

例如，考虑视觉。数十亿年来，生物体已经开发出用于处理光信号的复杂设备。动物会用眼睛盘点周围的物体，导航周围的环境，寻找食物，检测威胁并完成许多其他对生存至关重要的任务。我们人类从祖先那里继承了所有这些能力，并且在没有意识的情况下使用它们。但是，其基本机制确实比使高中和大学感到沮丧的大型数学公式更为复杂。

恰当的例子：我们仍然没有像人类视觉一样通用的计算机视觉系统。我们设法创建了人工神经网络，可以大致模拟动物和人类视觉系统的各个部分，例如检测物体和分割图像。但是它们很脆弱，对许多不同种类的干扰都很敏感，并且它们无法模仿生物视觉可以完成的全部任务。例如，这就是为什么无人驾驶汽车中使用的计算机视觉系统需要使用激光雷达和地图数据等先进技术进行补充的原因。

另一个被证明是非常困难的领域是感觉运动技能，人类无需经过明确的培训即可掌握这些技能。想想如何处理物体，行走，奔跑和跳跃。这些是您可以在没有意识的情况下完成的任务。实际上，在走路时，您可以做其他事情，例如听播客或打电话。但是，对于当前的AI系统而言，这些技能仍然是一项巨大而昂贵的挑战。

米切尔写道：“人工智能比我们想象的要难，因为我们在很大程度上意识不到自己思考过程的复杂性。”

拟人化AI没有帮助

人工智能领域充满了词汇量，使软件与人类智能处于同一水平。我们使用诸如“学习”，“理解”，“阅读”和“思考”之类的术语来描述AI算法的工作方式。尽管此类拟人化术语通常用作简化复杂软件机制的简写，但它们可能误导我们认为当前的AI系统就像人类的大脑一样运作。

Mitchell将此谬误称为“一厢情愿的助记符的诱惑”，并写道：“这种简写可能会误导试图理解这些结果的公众（以及报道这些结果的媒体），并且还会无意识地影响甚至AI专家的思考方式。他们的系统以及这些系统与人类智能的相似程度。”

一厢情愿的谬论也导致AI社区以令人误解的方式命名算法评估基准。例如，考虑由AI中一些最受尊敬的组织和学术机构开发的通用语言理解评估（GLUE）基准。GLUE提供了一组任务，这些任务可以帮助评估语言模型如何将其功能推广到其已受训的任务之外。但是，与媒体所描述的相反，如果AI代理获得的GLUE得分高于人类，则并不意味着它的语言理解能力要高于人类。

Mitchell写道：“虽然在这些特定基准上机器的性能优于人类，但AI系统仍远不能与我们与基准名称相关联的更一般的人类能力相匹配。”

如意算术的一个明显例子是Facebook人工智能研究公司2017年的一个项目，科学家在该项目中训练了两个AI代理以基于人类对话的任务进行谈判。在他们的博客文章中，研究人员指出“更新两个代理的参数会导致与人类语言的差异，因为代理开发了自己的语言进行谈判（强调我的意思）。”

这导致了一系列的点击诱饵文章，它们警告了AI系统变得比人类更智能，并且正在以秘密方言进行交流。四年后，最先进的语言模型仍然难以理解大多数人在很小的年龄就没有受到指导的情况下所学的基本概念。

没有身体的AI

智慧能否与世界丰富的物理经验孤立地存在？这是科学家和哲学家几个世纪以来一直困惑的问题。

一种思想流派认为，智力全在大脑中，并且可以与身体分离，这也被称为“桶中的大脑”理论。米切尔（Mitchell）称其为“智力全在脑中”的谬论。有了正确的算法和数据，我们就可以创建可以生活在服务器中并与人类智能相匹配的AI。对于这种思维方式的拥护者，尤其是那些支持纯粹的基于深度学习的方法的人，达到通用AI取决于收集适量的数据并创建越来越大的神经网络。

同时，越来越多的证据表明这种方法注定会失败。她写道：“越来越多的研究人员正在质疑“全脑”信息处理模型的基础，以理解智能并创建人工智能。”

人和动物的大脑已经与所有其他人体器官一起进化，其最终目标是提高生存机会。我们的智力与身体的极限和能力紧密相关。嵌入式AI的领域不断扩大，其目的是通过通过不同的感官刺激与环境互动来创建能够发展智能技能的主体。

米切尔（Mitchell）指出，神经科学研究表明“控制认知的神经结构与控制感觉和运动系统的神经结构紧密相连，抽象思维利用了基于人体的神经“图”。”事实上，越来越多的证据和研究证明了来自反馈的反馈。大脑的不同感觉区域会影响我们的有意识和无意识思想。

米切尔（Mitchell）支持这样的观念，即情感，感觉，潜意识偏见和身体经验与智力密不可分。她写道：“在我们的心理学或神经科学知识上，没有任何东西可以支持'纯粹的理性'与可以影响我们的认知和目标的情感和文化偏见分开的可能性。”

“相反，我们从体现认知的研究中学到的是，人类智力似乎是一个高度集成的系统，具有紧密相关的属性，包括情感，欲望，强烈的自我意识和自主性以及对世界的常识。尚不清楚这些属性是否可以分开。”

人工智能常识

发展通用人工智能需要对我们对智能本身的理解进行调整。我们仍在努力定义什么是智能以及如何在人工和自然界中对其进行测量。

“很明显，为了更有效地实现和评估AI的进步，我们将需要开发出更好的词汇来谈论机器可以做什么，” Mitchell写道。

“从更广泛的意义上讲，我们将需要对智能进行更好的科学理解，因为它体现在自然界的不同系统中。”

米切尔（Mitchell）在论文中讨论的另一个挑战是常识性挑战，她将其描述为“一种当今最先进的AI系统所缺少的保护伞”。

常识包括我们获得的有关世界的知识，并且每天无需付出太多努力就可以应用它。当我们还是孩子的时候，通过探索世界，我们可以学到很多东西，而无需明确指示。其中包括诸如空间，时间，重力和物体的物理属性之类的概念。

例如，一个孩子很小的时候就知道，当一个物体被另一个物体挡住时，它并没有消失并继续存在，或者当一个球在桌子上滚动并到达壁架时，它应该掉下来。我们使用这些知识来构建世界的心理模型，进行因果推断，并以相当高的准确性预测未来状态。

当今的AI系统缺少这种知识，这使它们变得不可预测且需要大量数据。实际上，本文开头提到的两个AI应用程序-客房清洁和驾驶是大多数人通过常识和一点点实践学习的东西。

常识还包括有关人类本性和生活的基本事实，我们在对话和写作中忽略的事物，因为我们知道我们的读者和听众都知道它们。例如，我们知道如果两个人在“打电话”，则意味着他们不在同一个房间。我们还知道，如果“约翰伸手去拿糖”，则意味着在约翰附近某处有一个装有糖的容器。这种知识对于自然语言处理等领域至关重要。

“还没有人知道如何在机器中捕获这样的知识或能力。这是人工智能研究的当前前沿，一种令人鼓舞的前进方式是利用有关幼儿中这些能力发展的已知知识。”米切尔写道。

尽管我们仍然不知道许多问题的答案，但寻找解决方案的第一步是要意识到我们自己的错误思想。 Mitchell写道：“了解这些谬论及其微妙的影响可以为创建更健壮，值得信赖甚至可能真正智能的AI系统指明方向。”（雷锋网雷锋网雷锋网）

本文编译自：https://venturebeat.com/2021/05/08/the-four-most-common-fallacies-about-ai/

作者：Ben Dickson

百度AI这一年的"足迹"

Thu, 31 Dec 2020 18:26:00 +0800

“未来十年是智能经济时代。”

在2020年9月15日百度世界大会上，李彦宏（百度董事长兼首席执行官）为人们勾勒出了智能社会的大致模样：

“智能经济、智能社会的大致样子，就是三个智能化：第一是人机交互方式的智能化；第二是基础设施的智能化，包括新型的AI芯片、深度学习框架等；第三是产业的智能化，各行各业都会因为AI技术而发生翻天覆地的变化。”

就在12月30日，百度发布了《百度AI的2020》，回顾与总结了过去的一年。

“持续创新突破，探索科技前沿；自主可控、开源开放，夯实软硬一体 AI 大生产平台，打造 AI 新型基础设施；云智一体，使能行业，赋能生态，加速产业智能化。”

这是百度CTO王海峰对百度AI2020年的总结。从具体实践来看：

这一年，百度地图的语音交互场景实现迅速增长，百度地图智能语音助手用户量已破4亿；百度地图携手百度 Apollo 实现在北京、沧州、长沙多地上线自动驾驶出租车打车功能；小度“破圈”，向人们展示了在家庭、地产、车载等场景中的应用，推出了首款随身产品小度真无线智能耳机；
这一年，百度大脑升级至6.0，并确定了“AI 新型基础设施”的定位：基础层，飞桨深度学习平台和百度昆仑AI芯片“软硬一体”升级为开发者打下了坚实的基础；在技术层，百度大脑实现多项核心技术融合，形成知识增强的跨模态深度语义理解能力；
就在这一年，百度智能云业务架构全面升级，推出了AI中台、知识中台；提出了智能计算服务AI-Native云服务架构；并将百度AI落地在了金融、城市、交通、工业等多个场景之中，为其智能化转型提供AI服务；
……

可见，百度以一年的实践，在描绘智能社会的雏形，也让人们清楚的认识到人工智能产业，正在步入全新的阶段。

疫情之下，AI让人们生活重回正轨

2020年初，“黑天鹅”的出现，打乱了人们有序的生活，也让各行各业如临“大考”。

封城、隔离、医疗资源紧张……疫情与日俱增的肆虐，让人们经历了一场没有硝烟的战争。

就在疫情让整个社会充满了各种“不稳定性”的时候，AI成为了防疫战线上的中坚力量。

“根据目前的资料，新型冠状病毒肺炎是肯定的人传人。”

2020年1月20日晚上9点30分央视《新闻1+1》节目中，钟南山院士面对白岩松的提问坚定的说出这句话时。为防控疫情指明了一个方向，确定人员轨迹成为首要环节。

在此情况之下，百度地图AI时空大数据全速推出迁徙大数据平台、实时路况平台以及发热门诊地图、疫情小区地图、核酸检测机构查询等多项功能。客观地呈现了各个城市的迁徙、交通、医疗机构分布等状况，为公众、政府提供了全面、立体的大数据服务，让疫情防控建立在科学的数据基础上。

与此同时，新型冠状病毒核酸检测，对于临床早发现、早诊断、早隔离、早治疗至关重要，是有效防控新冠肺炎疫情的关键技术支撑。

然而，根据此前的办法，新冠病毒全基因组二级结构预测需要55分钟，对此，百度开源了线性时间算法Linearfold。

北京市科学技术委员会副主任许心超在北京市新型冠状病毒肺炎疫情防控工作第七十七场新闻发布会上表示：“LinearFold算法可使整序列、整基因组的RNA结构预测成为可能，并将此次新型冠状病毒的全基因组二级结构预测从55分钟缩短至27秒，提速120倍。”

这也是RNA结构预测领域40年来第一次重大提速。

此外，百度推出的全球首个mRNA疫苗基因序列设计算法LinearDesign，专门用于优化mRNA序列设计，最快仅需16分钟就可优化mRNA疫苗序列稳定性。

mRNA疫苗序列稳定性问题的解决，正是新冠疫苗研发的关键一环。

百度AI在为科学防疫提供支撑的同时，也在人们日常生活以及防疫一线铺延开来。

百度第一时间推出的免费智能外呼平台，为社区工作人员提供流动人员排查、本地居民排查等场景的外呼服务，用机器人代替人工打电话，快速排查社区内健康情况，比人工效率提高数倍，还能降低基层医护人员感染风险；
小度与中国疾控中心联合打造的新型冠状病毒防控指南，为万千家庭进行自我防护、保障生命安全提供支持；
针对公众剧增的医疗咨询，百度灵医智惠紧急推出“智能咨询助手”；百度智能云还携手东软，推出集测温防控、医护助理、无接触配送和消毒巡检为一体的机器人驰援抗疫一线；
在复工复产中，为解决人员聚集、接触等情况，百度AI测温在全国近百处公共场所落地服务，让公众即走即测，不用停留，也不用摘口罩脱帽子；
对应延迟开学的教育空窗期，小度推出价值超过1亿元的儿童教育课程，全维度覆盖3-12岁儿童群体，其带屏产品更是成为网课播放的终端；
……

27秒、500万次智能外呼的随访、AI问诊完成1500万次、两个月超过2700万人次AI测温、24亿次人流迁徙记录……这是百度AI 在防疫期间的一张答卷。

“如果没有人工智能的协助，我们的医护人员可能会增加感染的风险，返程复工的人们可能因为没有做好体温排查而增加人群感染量。”

这是疫情之后，来自奔赴一线的医疗人员的真实感悟。

不可否认的是，在疫情防控期间AI的表现并不尽如人意，甚至在一些场景中略显“鸡肋”，但也正是因为疫情，人们清晰的认识到了AI的价值。

而疫情也彻底拉开了之前半掩着的智能经济时代的大幕。

突破0到1的挑战，百度打造AI基础设施

“经济智能化分为两部分，上半场是AI平台化蓄能，在搜索、信息流等少数领域落地；下半场是AI产业化，AI渗透到各行各业大规模商业化，我们正处于从经济智能化的前半段向后半段过渡的时期”。在第三届世界人工智能大会开幕式上李彦宏如是说到。

事实上，很多企业在疫情期间因为AI获益了之后，便也开始思量着如何能将AI应用在更多场景之中。

而在此过程中，作为国内在AI领域发力最早，综合实力最强的百度来说，思量的更多。

百度发现在这一关键节点，构建AI基础设施成为最重要的事情，这一点与我国发力的新基建不谋而合。也正是基于此，在国家宣布大力建设新型基础设施之后，

百度也对外宣布了其布局规划：到2030年，百度智能云服务器台数超过500万台；未来5年预计培养AI人才500万，为中国智能经济和智能社会的发展提供AI人才保障。

百度CTO王海峰则迅速找准百度AI的定位：“新基建将通过新兴科技的快速突破和落地应用，带动国家经济发展新旧动能的转换。对于百度而言，我们既是AI基础设施建设者，也是AI技术及应用创新引领者和推动者。”

在5月18日举行的夏季百度云智峰会上，王海峰提出了新的发展战略：“以云计算为基础，以AI为抓手，聚焦重要赛道”。

为了新战略更好的执行，作为百度AI To B载体的百度智能云业务架构也进行了调整：

底层是百度大脑，包括基础层、感知层、认知层和安全，是百度核心技术引擎；
中间层在基础云平台上加入了两个中台：AI中台和知识中台。AI中台”包括AI能力引擎、AI开发平台两部分核心能力以及管理平台。“知识中台”是基于百度多年积累的知识图谱、自然语言处理、多模态语义理解、智能搜索等AI核心技术打造的全周期、智能化的企业知识赋能平台。
顶层则是面向4大赛道（智慧金融、智能营销与客服、智慧医疗和智慧城市），提供的8大解决方案。

一个月后，百度AI 新基建版图的亮相，也显露出了百度的野心：成为我国AI新基建服务最大提供商。

2020年9月15号的百度世界大会中，更是重磅宣布，百度大脑升级至6.0，并确定了“AI 新型基础设施”的定位；Apollo全新升级到6.0版本，包括智能新模型、安全无人化、系统新升级等等……

一系列升级的背后，让人可见的是，百度面对新的机遇，不仅立刻找准了自己的定位，与此同时，在技术、应用场景以及战略上进行了高度的协同。

通过自主可控的百度大脑、飞桨、百度智能云等打造了AI新型基础设施，在此之上，打造面向各个行业的行业平台，针对交通、能源、城市、工业等行业提供解决方案。

在此“组合拳”之下，百度让AI更快的实现了规模工业化的应用。

百度AI规模化落地

事实上，在调整战略以及定位的同时，百度在2020年早已化身为“AI狂魔”，将AI迅速落地在各行各业。

2020年年底的百度云智峰会上，王海峰也向外界展现了战略高度协同后，百度AI取得的最新成绩和产业智能化成果。

AI cloud 活跃客户数增长65%，AI cloud、质检云等多项排名第一，并多次获选头部厂商及标杆案例；

百度大脑基础底座飞桨深度学习平台，作为我国首个自主研发、功能完备的产业级深度学习开源开放平台，目前累计开发者数量265万人，服务企业10万家，技术生态和产业创新愈加活跃和繁荣。

百度自主研发的云端 AI 通用芯片，第一代已实现量产和应用部署，量产约2万片，性能相比 T4 GPU 提升1.5-3倍；百度昆仑2则预计在2021年上半年实现量产，与百度昆仑1相比性能将提升3倍。

从产业实践来看，百度正在依托包括百度大脑、飞桨、智能云、数据中心等在内的新型AI基础设施，推动智能交通、智慧城市、智慧金融、智慧能源、智慧医疗、工业互联网和智能制造等领域实现产业智能化升级。例如：

在智慧城市建设中，百度智能云联合合作伙伴打造的海淀城市大脑，帮助海淀区发现和提炼城市潜在的运行规律，提供全局协同的决策依据支持管理与服务；利用AI和大数据技术，对全国卫星遥感图像进行分析，多次成功预警四川西昌、山东青岛和西藏林芝等地的森林火灾……

百度Apollo在2020年先后与北京、长沙、重庆、保定等地签约，推出了国内外第一个车路行融合的全栈式智能交通解决方案——“ACE交通引擎”；Apollo自动驾驶生态新增了Velodyne LiDAR、禾赛科技、中科慧眼、威马等重磅级合作伙伴；小度车载OS进一步开放，推出了智能驾舱、CarLife+、度小镜等产品……

在工业领域，百度与贵阳经开区合作打造 AI 技术和工业互联网应用相融合的 AI 工业互联网平台；携手中国建材打造智慧工厂、智慧物流、数字矿山、工业无人驾驶、数据中心等……

首个数字人员工“小浦”出现在浦发银行APP、网银和各类服务终端上，为用户提供“千人千面”的个性化定制服务……

而这些实例，仅仅是百度AI在各个行业应用中的冰山一角，在百度大脑、深度学习平台飞桨、百度智能云等底层技术的通力支持，百度正将AI能力规模化落地，为产业智能化提供服务。

百度的AI长期主义

“很多人都低估了百度的技术实力。”

在参加今年百度智能云夏季峰会上，一位行业分析师对雷锋网说到。

据2020年12月，国家工业信息安全发展研究中心、工信部电子知识产权中心发布《2020人工智能中国专利技术分析报告》数据显示，在人工智能专利申请量和授权量方面，百度以9364件专利申请和2682件专利授权处于第一位。这也是百度连续三年在该人工智能领域专利分析报告中总申请量蝉联第一。

在近日国家知识产权局知识产权发展研究中心发布的《新基建领域（人工智能）知识产权发展状况调查研究报告》（下称“报告”）显示，我国人工智能算法领域的发明专利申请总量达到6.4万余件，以百度为代表的国内企业已经占主导地位。

在人工智能操作系统方面，报告指出，主要包括微软的Cognitive Services、脸谱的Pytorch、谷歌的TensorFlow以及百度的飞桨（Paddle Paddle），其中前三者均为美国巨头所垄断，目前只有百度的飞桨系统为国内科技企业研发和构建，并能为产业界提供不受限制的全面支撑。

可见，现在到了要为百度正名的时候。

回头看百度10年的AI发展路程，其早已笃定地相信AI将会改变世界。

今年11月，国家发布的十四五规划中明确提出：“加快发展现代产业体系、推动经济体系优化升级”。作为2021—2025年的发展指南，十四五规划预示着产业升级将是下一个五年的主旋律。

显然，百度今年一直所提的“产业智能化”正与国家发布的十四五规划不谋而合。

在此背景之下，百度已经打造一股平台级人工智能力量，形成广泛的行业覆盖和标杆性试点项目。

而从百度发布的新基建的规划来看，百度在加深对产业智能化的理解的同时，也以十年作为周期去做面向未来的投入，建设AI基础设施，强化AI技术优势，特别是技术自主能力。

也正是在此AI长期主义之下，百度将迎来更好发展时机。雷锋网雷锋网

思谋科技完成超1亿美元的A轮融资，加码智能制造、超高清视频的研发

Wed, 28 Oct 2020 10:03:00 +0800

新一代视觉AI公司思谋科技今天对外宣布，已完成超1亿美元的A轮融资，投资方包括松禾资本、红杉资本中国基金、基石资本、闻天下投资等。据知情人士透露，这是思谋科技继今年1月初完成数百万人民币天使轮，以及6月完成数千万美元的Pre-A轮融资之后的第三轮融资。

雷锋网了解到，思谋科技（SmartMore）成立于2019年12月，致力于AI视觉体系架构在智能制造、超高清视频领域的落地应用。公司是由香港中文大学终身教授、IEEE Fellow 贾佳亚主导创立，核心团队深耕计算机视觉领域20余年。

思谋科技联合创始人兼CEO沈小勇表示：“资金将主要用于继续加大在智能制造、超高清视频赛道的研发投入，面向海内外招纳更多顶尖人才，并加速全球化商业布局。”

快速商业化部署落地

自2019年12月成立至今，思谋科技穿越疫情“黑天鹅”和AI行业“资本寒冬”，在不到一年时间里，频频获得国内外投资人的青睐，成为业界重点关注的一匹“黑马”，迅速跻身“准独角兽”行列。

红杉资本全球执行合伙人沈南鹏表示：

“思谋科技这样的新型AI公司代表着新一代人工智能产业化的发展趋势，以核心技术创新为本源深度赋能产业界，让AI在实体经济中充分展现价值。我们对团队的深度思考和超强行动力印象深刻。放眼未来，AI与产业的结合将持续在产业变革中起到举足轻重的作用，相信思谋将快速成长，发挥越来越重要的引领角色，推动产业变革。”

松禾资本创始合伙人厉伟认为，思谋科技在一年不到的时间里，实现了多个里程碑式的进展，非常令人惊叹，而思谋也用过硬的技术实力和落地能力，证明了自身对产业的巨大价值。特别是在当前国家“新基建”战略大背景下，思谋所选择的赛道完全契合产业转型升级主攻方向，具有无可限量的发展空间，将为AI企业服务领域树立新的标杆。

联想集团高级副总裁、联想创投集团总裁贺志强表示，联想创投从思谋创立阶段就开始持续关注，在Pre-A轮基础上继续追加A轮投资，是对思谋发展以及中国AI产业的坚定看好和支持。思谋是一家惊喜不断的公司，发展速度超乎预料，一年不到就实现技术、业绩、落地等多个维度的突破，成为“准独角兽”企业，AI与产业界的全面深度融合将迸发出新的澎湃动力。联想创投将整合全球联想产业生态资源，一如既往全力支持和帮助思谋，实现更大的战略目标和国际化市场价值。

两大赛道并驾齐驱

作为AI产业新领军企业，思谋科技以制造业和超高清视频产业的核心需求为导向，直面产业痛点、难点，依托20多年计算机视觉研发应用能力的深厚积淀，提出以新一代视觉AI技术体系架构为引领，针对复杂各异的应用场景，打造出SMore ViMo智能制造和SMore Media超高清视频解决方案，具有通用性强、性能优异、快速部署、软硬件协同等优势，让AI技术深入产业一线，直接服务高质量发展的主战场。

目前，思谋科技的客户已达100多家，涵盖高端消费电子、新能源、汽车、视频内容制作及提供商等，并与国内外多家世界500强企业、全球手机及智能设备巨头等达成合作，赋能产线数百条，其视觉AI技术已累计应用到上千万件工业或消费产品中。

据思谋客户之一、某头部制造商反馈，对于一些高端精密产品的核心零部件而言，靠人工实现全部质检、一个不漏，在以前是不可想象的。但思谋的视觉AI就是把“做不到”的事情做到了，而且非常准确、高效、易用，这使得制造商对每一件产品实现全生命周期的跟踪管理成为了可能，极大提升了生产效能和智能化水平。

加快推进全球商业布局

从6月宣布完成Pre-A轮融资，到10月完成A轮融资，思谋科技发展速度引人注目。思谋科技联合创始人兼CEO沈小勇介绍，近半年里，思谋业务市场增长迅猛，员工规模稳步提升，公司目前在深圳、上海、香港、苏州都设立了研发与商务中心。下一步将继续完善国内布局，并持续加强对研发、销售人员尤其是业内顶尖人才的招聘力度，加快培养壮大骨干队伍，以适应公司高速发展需要。

与此同时，思谋科技正加快推进全球化商业步伐，目前已实现多个境外项目落地与交付，思谋AI技术率先覆盖到影视媒体、港口物流、公共服务等领域。今年11月，思谋日本公司（SmartMore Japan Ltd.）将落地东京，进一步加大海外市场拓展力度。

沈小勇认为，当前人工智能的产业应用正在走向深水区，水面之下还有巨大的价值空间有待挖掘，对AI的技术、落地效能、场景应用的灵活性和适配性提出了更高要求。“产业界需要什么样的工具，思谋就用AI打造出什么样的工具，”沈小勇表示：

“思谋将扎根中国乃至全球产业信息化、数字化、智能化进程，致力成为企业一直在找寻的那一位AI专家，携手顶尖人才和行业生态伙伴，共同分享AI科技革命红利，不断创造新的商业价值。”雷锋网雷锋网

云测数据99.99%标准发布，或将影响下游AI算法厂商

Thu, 10 Sep 2020 09:50:00 +0800

虽然说AI不是数据的堆砌，但是AI的背后的确是数据的功劳。不然，我们居家必备的小爱同学、天猫精灵们怎么听得懂我们的话？

尤其是今年国家不提GDP增长目标但极力推进高质量发展的背景下，追求更加精准的AI落地成为行业共识。

这意味着，AI数据质量需要进一步提升。

9月6日，在吸引了1.8万家境内外企业的服贸会上（全称是2020中国国际服务贸易交易会），云测数据首次发布了一项数据标注领域的重要成果：云测数据项目最高交付精准度达到了99.99%——这是目前数据标注领域可达到的最高服务标准。

在数据标注行业，交付精度达到99.99%是什么概念呢？

一般来说，在AI行业，算力、算法、数据是三大要素，前两者是设备与能力，数据则是让AI学习的知识素材。

AI数据服务，包含了为AI算法、算力训练及优化提供的数据采集、清洗、信息抽取、标注等服务，以采集和标注为主。

而AI就是通过大批量基于特定标注规则后学习的方法论，因此需要人工将像素、语音信号、文本内容转换为机器能理解、能看懂的数据内容，才可以被机器习得识别处理的方法论。

这些被标注的结果为识别人的特征点，在脸上打上一个个特殊标记，为识别图像中的车辆，通过标注框的方式将对应像素位置范围框选其中。

因此，数据标注的精准度提升，AI才不会把汽车识别为房子，把老虎识别为狮子。在AI越来越强调落地各个产业的今天，数据标注精准度是把控AI质量的关键。

云测数据总经理贾宇航表示，进行99.99%的成果展示，也是向外传递数据标注高质量发展信心。

云测数据是什么公司？

行业内人士可能都知道Testin云测，成立于2011年，是一家以人工智能技术驱动的企业服务平台。实际上，云测数据正是Testin云测旗下AI数据标注服务品牌，是主打高质量AI数据服务的服务商，是算法厂商的上游，图像、语音、文本的数据类型都做到了全品类支持。

雷锋网注意到，之所以他们有底气向行业展示出4个9的精准度，云测数据总经理贾宇航给出的理由在于：云测数据具备全品类的高效标注平台，已经完成了标准化API接口的流程嵌入，做到了模板化的任务创建，并支持了不同种类标注类型和标注方法。

此外，其工作平台包含项目管理、环节工具、标注平台，云测数据所沉淀的是完全自主知识产品的平台技术。

值得一提的是，相比外包的数据标注业务，云测数据自建了数据交付中心以及自有员工，人员稳定。截至目前，云测数据在华东、华北、华南设有数据交付中心和数据采集基地。

对于场景数据的把控和处理，正成为新竞争格局下的硬实力。

雷锋网了解到，云测数据可能更偏向在智能驾驶、智慧城市、智能家居、智慧金融、新零售等场景的AI数据服务。

以自动驾驶为例，在实际落地中，为对物体测距及测速更加精准，引入激光雷达传感器。车载摄像头中的数据与我们人眼相差无几，而激光雷达产生数据与人类所认知的现实世界差距甚远。

据悉，完成激光雷达的相关3D点云数据标注工作，背后需要标注人员对3D点云数据有丰富的处理经验。云测数据在工具层面采用融合标注方式，让标注人员更加直观的将两个世界维度的数据融合一起判断，提高了标注人员的数据处理精准度，同时加快了标注效率。

整体来看，国内的AI发展态势良好，场景化AI数据服务趋势凸显，且AI公司把自己快“逼”上落地极限了，与场景紧密捆绑的数据标注都将迎来发展热潮。

伴随着5G的落地，更多丰富的场景也将井喷，AI行业数千亿的蛋糕，将成为今天企业走向未来的新动力。（雷锋网雷锋网）

寻找工业AI『独角兽』的发源地

Wed, 09 Sep 2020 19:01:00 +0800

“华为云2019年做了一件非常重要的事情，就是逐渐走向各个行业。”

今年7月，华为云业务总裁郑叶来在TechWave技术峰会上阐述了华为云面向未来的新使命——“赋能应用、使能数据、做智能世界的黑土地”。

华为云正在重新思考如何跟客户、伙伴、上下游一起携手创新为产业发展带来价值。而具体到实践层面，华为云一方面发布沃土初创企业扶持计划，帮助初创企业通过云计算、人工智能等技术加速创新；另一方面通过举办初创企业大赛，鼓励大家围绕华为云平台创新，并向这些初创企业共享商业机会，与华为云共同成长。

9月9日，“华为云全球初创企业大赛2020秋季赛-总决赛”正式在东莞松山湖落下帷幕。本次大赛设置了EI赛道、鲲鹏云服务赛道和云视频赛道，三场分赛分别于7月8日、7月22日、8月7日通过线上路演直播的形式结束。总决赛时，有12支队伍从入围的18家企业中突围，其中EI赛道有5家企业获奖，分别为：闪马智能摘得金奖，拓深科技和熵智科技斩获银奖；圆心惠保、敬之网络获得优胜奖。

所谓 EI，即企业智能，其实就是“行业+ AI”。今年7月，华为云发布了 EI 工业智能体 2.0，将为合作伙伴提供行业顶尖的 AI 算法专家资源、优质的华为云资源，以及开放的实验室资源，共同推进 AI 在工业领域落地。

工业+AI，在华为云的生态推动下，将会带给工业信息化、智能化怎样的“质变”？

让工业Know How开口说话

近些年，国内工业互联网迎来了跨越式发展的时期。据公开数据显示，平台数量从2014年不到50个到2018年已经接近270个。2019年，行业延续高速态势，全国具有一定区域和行业影响力的平台超过70个，重点平台平均工业设备连接数已达到69万台、工业 App数量突破2124个。

另一方面，国内工业数字化发展水平仍然参差不齐，应用场景分布差异较大等，使得一些工业互联网平台的应用价值并没有完全发挥出来，特别是极为重要的“工业+AI”领域的落地也并不如人意。

探究其原因，我们可以发现，传统的以机理为核心的工业知识及工业数据，目前还不能很好地在工业互联网平台上转化为生产效率，而要让沉默的工业知识和数据逐渐学会“开口说话”，则需要企业核心生产作业流和AI等技术深度融合，由此才能帮助工业企业更好实现提质、降本、增效。

今年7月，华为云发布了 EI 工业智能体 2.0，并宣布将在超过20个工业细分行业，征集50家领先的行业 Know-How 伙伴，共同探索和实践100个工厂智能化升级项目。其基于大量的实践经验总结，围绕工业机理与AI，可支持企业便捷地开发、分享工业机理模型，将工业机理模型与AI进行融合，并能匹配企业客户组织部署运行环境。

华为云人工智能领域总裁贾永利表示：

“AI可进入工业核心生产系统解决关键业务挑战，创造价值；而将AI应用于效率提升、专家经验传承和跨越极限这三类场景，可提升AI落地成功率。”

雷锋网了解到，华为云EI工业智能体2.0主要构建的能力有3方面，第一，支持多种语言的机理模型开发的平台，可基于知识图谱进行工业机理模型开发；再者，是将工业机理与AI融合的低代码开发平台；最后是提供工业级AI部署与运行管理能力，可匹配工业界典型的组织架构-总厂-厂区-车间-产线。

比如，在化纤行业智能化实践中，可在生产不停车状态下，以“即插即用”方式实现与现有设备与控制系统适配。匹配工业运行环境的时延要求，提供多种部署方式，通过模型压缩等技术，最大限度地减小模型对于计算空间和时间的消耗，满足工厂生产时延要求。

此外，我们知道，2019年华为工业互联网平台FusionPlant正式入选工信部十大“双跨”平台，而华为云EI工业智能体2.0的发布，首次将工业机理、专家知识、数据统计模型和AI模型结合到一个统一的平台之上，不仅实现了企业的提质降本增效，更加速了“普惠AI”在工业领域的落地，也为FusionPlant平台、为华为在工业领域谋求更多的话语权。

独行快，众行远

据了解，工业领域多年沉淀的大量行业知识，可以很好地解决定性问题，但在很多场景下，这些机理模型还不能精确地匹配工况的波动，工业过程仍是“黑盒”。此外，工厂老师傅多年积攒的经验知识还面临被传承和复制的难题。

当前，放眼国内外，其实并不乏为工业智能化转型升级提供解决方案的厂商，比如传统制造业巨头、老牌工业解决方案服务商，以及云服务厂商，各类细分领域软硬件供应商等。那么，华为云EI工业智能体2.0有何不同之处？

从不断深入探索的过程中，华为云发现既有的“工业+AI”尝试中普遍存在一些问题。比如适合工业的 AI 开发与运行管理平台的缺失、工业机理模型开发和分享比较困难、融入 AI 的生产系统存在一定的不稳定性等。华为云 EI 工业智能体 2.0不仅深度融合工业机理，它将有一个工业 AI 开发、运行部署的平台，帮助工业领域快速落地 AI。

“独行快，众行远”，工业智能化的时代不能只靠一个企业的单打独斗。在“华为云全球初创企业大赛2020秋季赛”上，华为又发掘了闪马智能、拓深科技、熵智科技等众多生态圈合作伙伴。这些企业，是如何切入工业AI的呢？

闪马智能：视频异常大数据赋能城市精细化管理

专注城市异常事件管理的AI中台公司闪马智能，通过对城市视频异常大数据的发现与分析，赋能城市精细化管理。2019年成立并成为华为智能摄像机和智能云首批运营商。核心算法ATOM基于容器弹性云打造，打破云计算边界，充分利旧之外能短时间内训练出模型，同时通过视频异常分析平台融合，形成了可用于智慧城市、工业生产、互联网内容安全等行业的视频异常分析闭环。从而赋能到具有行业Know-How的完整运营体系中，能快速推向市场，帮助管理者们及时发现、高效管理。

拓深科技：电流算法在电力终端、消防的应用实践

拓深科技是专注于电流指纹AI算法及其在消防场景应用研究的初创企业。其拥有端到端产品研发能力，云平台、预警终端和报警终端广泛应用于平安城市、智慧社区、高校等各行各业的楼宇消防智能化。

“电流的信号是分布在每一台设备，每一个建筑和每一个城市当中的，其AI算法也被认为是继图像和声音之后比较丰富的数据源的载体。”谈及为何率先把电流的算法用在消防领域，拓深科技CEO张轩铭表示：

“除了跟我本人的背景有关，更重要的是看到中国每年大概投入2750亿的资金在消防领域，但其实绝大多数投在救火上。核心是没有办法把火灾提前预警，由于设备故障和电池的爆炸，比如设备的保护操作失灵造成火灾占比超过40%，线路故障占到30%，有70%的火灾在电流上体现这样的特征，核心的一点：如果是通过电流算法计算出来，可以让火灾在事前计算出来，让火灾不再发生。”

熵智科技：5G与AI助力机器人的视觉分拣

3D视觉技术解决方案提供商熵智科技，公司自2018年成立到现在仅有两年半的时间。其核心技术是机器人的3D视觉与自主路径规划，典型应用场景是机器人的视觉分拣。

谈及用机器人去上下料的场景，熵智科技创始人CEO赵青表示：

“在工业链端可以通过工装、制具、夹具实现这种自动化，在物流完全没有，场景完全是自然状态，匹配太多无论是对箱子、拆垛、码垛还是针对单SKU的分解，如果需要机器人操作一定需要视觉的引导，整个市场机器人3D视觉的抓取，被称为“机器人技术的皇冠”自有其道理。”
“3D视觉作为机器人的眼睛依然可以与机器人配合更复杂更多的动作。在这里面有特殊点，在这个行业当中实际上更偏于做上游的硬件，做高精度测量的应用。”

目前熵智科技与华为进行合作，通过5G联接针对的是实际需求，在园区有多个机器人和多个相机实现远程的集中控制。公司的核心能力是偏上游的软硬件一体化，以及光学方面的研究。这也是一些比较上游的公司很少涉及的，因为学科比较综合，挑战比较大。

除了以上这些，雷锋网了解到，目前华为云EI工业智能体已广泛在钢铁、石油、纺织、煤炭、电子信息、装备制造、家具生产等领域开始应用，并帮助中国石油、三联虹普、石横特钢、鑫磊集团、德普特、拓斯达、正业科技等企业加速数字化和智能化转型。

AI落地到工业

据 Markets 报告预计，2025 年人工智能制造市场规模将达 172 亿美元，预测期 (2018-2025 年 ) 内的年复合增长率为 49.5%。而埃森哲在比较了人工智能对我国各个行业部门增加值增速的影响后得出，预计到 2035 年，制造业因人工智能的应用其增加值增速可以提高 2.0% 左右，是所有产业部门中提高幅度最大的。

由此可见，工业AI领域不管是市场容量，还是增速，其表现都足够出色。

然而，雷锋网了解到，工业AI是最难的、也是最复杂的AI应用领域。比如应用场景比较碎片化，这和我们熟知的交通领域、安防领域有很大不同。交通领域、安防领域识别的物体相对比较固定，场景也比较固定，这样可以针对这些场景收集大量的数据，得到一些网络模型以后，可以在这些场景里大面积推广。

而工业场景的碎片化很明显，比如在纺织工厂里做一个产品的识别，在半导体工厂里也做产品的识别，但是它们要检测的目标是不一样的，那带来的问题是需要不同的样本和设计不同的网络结构，在设计方面要用不同的方法进行调优，同时工业本身对准确度的要求很高，因而，在工业领域推广人工智能的话还有很长的路要走。

此外，工业AI还吸引了BAT等互联网巨头和科研大牛的加入，比如前阿里云机器智能首席科学家闵万里、前腾讯优图实验室联合负责人贾佳亚等，更是让工业AI的竞争有了更多变数。

有投资人表示，初创公司在人工智能领域还是有很多机会的，但他们需要往更细分的赛道里去专研，去挖掘，这样才能避开一些大公司，发挥自己的长处，实现AI与具体工业场景的相结合。

综上，这时候选择一个颇具成长力的生态或许是一个不错办法，在获得更多助力的同时，加上自己专注的领域足够细分，那么胜算就比较大了。

在过去10年所有的AI技术在落地应用时，可能大多数都落地在图像和声音，而这两个领域除了世界级的企业以外，出现了中国的独角兽企业，比如科大讯飞、商汤等估值超过50亿美金的公司。拓深科技表示：

“我们可以看到，电流的信号是分布在每一台设备，每一个建筑和每一个城市当中的。电流的AI算法也被认为继图像和声音之后比较丰富数据源的载体，出现了美国的公司市值超过10亿美金，拓深科技是致力于电流算法研究的中国企业，我们也希望成为在这个领域中国的独角兽企业。”

华为云的下一站

今年4月，工业互联网产业联盟（AII）发布的《工业智能白皮书》显示，截止到2019年底，在全球20多个经济体近三年发布的100份人工智能方面的战略规划或政策文件中，涉及与工业结合的超过一半以上。美、日、德、欧盟分别发布《国家人工智能研究和发展战略规划》《新机器人战略》《国家工业战略2030》《欧盟人工智能》等一系列政策战略，重点提及产品全生命周期优化、先进机器人、自动驾驶、大数据挖掘等在工业领域的应用。

雷锋网了解到，工业AI时代，企业的工业互联网的能力会进一步放大，企业之间差距会因为数据量的多寡进一步拉大，谁的数据节点多，谁的优势自然很大，每个节点不仅带动了产品的迭代，甚至会影响产品的销售。

华为云人工智能领域总裁贾永利表示：

“AI 进入企业核心生产系统，需要与工业界已有的机理模型、隐形行业知识深度融合，释放生产要素和生产资源的潜能，这是工业互联网的本质和关键所在。随着 AI 技术进入企业生产系统，AI 在关键生产环节将会带来大幅的质量提升与成本收益。相信未来5到10年，工业互联网将重塑企业的生产模式。”

今年，在全球分析师大会期间，华为宣布了以生态型产业布局推进计算型产业，其新的定位“云和计算产业是生态型产业”，围绕生态和华为云构建生态打造“黑土地”，成为数字世界的底座。其中，合作伙伴和开发者将是生态建设中的重中之重，因此持续为合作伙伴赋能，为开发者提供更多的支持和服务，将成为华为云未来的常态。

相应地，华为云生态下的EI、鲲鹏云服务和云视频等赛道，也将成为孕育细分行业小巨头的一方“沃土”......

旷视研究院田忠博：旷视深度学习框架天元的开源演进 | CCF-GAIR 2020

Tue, 18 Aug 2020 17:37:00 +0800

雷锋网按：8 月 7 日 - 9 日，由中国计算机学会（CCF）主办，雷锋网、香港中文大学（深圳）承办，鹏城实验室、深圳市人工智能与机器人研究院协办的第五届 CCF-GAIR 2020 全球人工智能与机器人峰会如期落地。

8 日，大会与 AI 研习社、OpenI 启智社区联合举办“AI 源创专场”，重点讨论了新基建背景下，国内开源创新建设将催生的新势能，以及其将引发和促进的新产业机会。

会上，旷视研究院高级技术总监田忠博做了主题为《天元深度学习框架的开源演进》的分享。

旷视在数据、算力、算法方面有三大驱动：数据管理平台 MegData 、深度学习云计算平台 MegCompute、深度学习框架 MegEngine，三者共同构成了旷视的 AI 生产力平台 Brain++。

田忠博首先追溯了 Brain++ 的发展，从旷视在 AI 生产力基础设施构建上所积累的强大能力以及天元深度学习框架开源初衷展开，解析了天元深度学习框架的技术特点、迭代历程，及其正在努力构建的开源生态。雷锋网将田忠博的演讲进行了不改变原意的编辑，以下为全文：

大家好，我是旷视研究院的田忠博，我今天跟大家分享旷视在天元深度学习框架上的进展，也希望能够借助这个机会和在座的各位专家、各位同仁以及观看现场直播的朋友们介绍旷视是如何通过开源开放推动 AI 行业发展的。

旷视 AI 生产力平台 Brain++

我们认为，AI 有三个最主要的核心因素：数据、算力和算法。旷视自研的 AI 生产力平台 Brain++ 包括数据管理平台 MegData ，深度学习云计算平台 MegCompute，今天我要着重介绍的是其中最核心的组件——深度学习框架天元 MegEngine。现在旷视所有的算法研究和生产都是使用 MegEngine 进行的。

简单回顾一下旷视 Brain++ 的发展历程。2014年，MegEngine 立项，我们开始对它进行研发。2015 年，旷视的研发和生产都迁移到了 Brain++ 体系上来，我们多次用这样的技术获得了国际顶级 AI 竞赛的冠军，同时也依托这套技术在旷视研究院持续发布我们最领先的技术成果。2019 年，AI 生产力平台 Brain++ 在乌镇世界互联网大会上获得了“世界互联网先进成果奖”，这是对旷视技术理念和实践的认可。

2020 年 3 月，旷视决定将 Brain++ 的核心组件——深度学习框架天元 MegEngine 开源出来，我们也希望开源出来的框架能够帮助更多企业、研究机构以及学生更好地使用最新的 AI 技术。

我们第一个开源版本是天元 0.3.1，到 2020 年 6 月底，我们发布了 Beta 版，差不多经历了 90 天的时间。这期间有 339 个 committers 为天元贡献代码，代码量从 35 万行增长到 48 万行。

我们也刚刚发布了 0.6 版本。我们有非常积极活跃的开发体系，希望把最新的工作和研究成果体现在天元的代码仓库中。

天元深度学习框架的技术特点

大家可能会想，现在已经有很多的深度学习框架，天元的开源意义是什么？天元能给大家带来什么？我给大家介绍一下天元的总体架构。

天元框架从上到下分成五个层次，最上面是服务开发者的 API 层，大家通过 API 层直接和深度学习框架打交道。我们提供了 Python 和 C++ 的接口，通过 C++ 接口可以进行工业生产和研发。

下面有统一的图的表示层。现在深度学习框架有动态计算和静态计算两种流派，我们有动态图和静态图的表示方式，但在不同的表示方式下有统一的核心计算图，这是天元比较重要的区别。

天元在核心的计算图层提供了优化和编译功能，可以实现自动求导，完成复杂的图优化，使大家通过 API 层，将用户表达的人类可理解的计算范式，转化为机器易执行的范式。

图编译层可以做复杂的代码生成和代码的算子融合，进一步提升效率。

下面的一个层次是运算和运行管理。在运行期间，我们需要管理内存、不同设备的同步，这里包括计算的调度和内存管理的调度。在计算调度方面，我们把所有的设备抽象成流，通过流调度器，跨异构设备的图形可以被非常好地管理起来。

同时，我们在内存方面也下了非常大的功夫。我们有一个非常先进的静态内存管理器和管理机制，通过对整个计算流程的分析和分解，能够排布、安排内存最优的方案。在我们的测算下，静态可以给予相比主流框架 10% 到 20% 的提升。同时我们支持动态内存管理，可以把尺寸可变的内存有效管理起来。

深度优化器可以有效解决在内存比较小的设备上进行大规模模型训练的问题。

最底层我们实现了一整套的计算内核层，实现一套高性能的算子，可以实现跨设备异构计算的统一接口，可以支持 X86、CUDA、ARM 和 ASIC 的设备，包括高性能异构通信库，支撑大规模分布式训练的需求。

深度学习框架天元非常重要、核心的特性就是可以同时在同一个框架内训练、量化、推理。

旷视是全球领先的人工智能产品和解决方案公司，既做人工智能方面的技术研究，同时也有非常强烈的需求把最新的成果变成每个人都可以获得的产品。所以我们在设计框架之初就有非常强烈的想法，把训练和推理在同一个框架内解决。

现在我们发现它有非常大的好处，比如说能够实现一次训练多端部署，能实现从训练到量化到推理的完整解决方案，可以支持各种主流量化范式，特别是量化感知训练，可以在精度几乎无损失的情况下进行低精度模型的生产，同时保持最好的性能。

训练、推理、量化放在一起，不需要复杂的模型转化，不需要其它中间工具辅助，还可以借助这样的机制，在整个流程中嵌入自动模型优化手段，极大加速从原始算法到产品生成的流程。

旷视发现，静态的计算范式和动态范式各有长处。动态便于科学实验，静态方案非常适合做生产部署，所以我们把静态图、动态图在同样的范式内整合起来。我们可以把动态运行的部分变成静态运行的部分，关掉也可以用动态的方式执行，可以利用动态强大的表达能力和表达特性，很容易把全部的范式进行快速的产品部署。我们也可以进行混合编程，在部分结构灵活地穿插起来。

对于现在的深度学习框架来说，计算速度和性能不仅在训练侧，部署侧也越来越关键，我们可以看到，天元与主流框架训练时的对比，包括单卡和 8 卡的对比，都拥有明显的性能优势。推理框架的性能也非常出色，有 10%、20% 甚至更多的性能提升。

得益于内存方面的工作，我们不管在训练还是推理方面，对很多 IoT 设备、手机应用功耗都更友好，适用面更多。

我们还有非常全面的平台支持。Beta 版不仅包括英特尔 x86，还有 SSE、AVX、AVX512-VNNI。CUDA 支持 Maxwell、Pascal、Turing，ARM 支持 V7、V8、V8.2。天元可以实现更高的性能，更加灵活高效，而且可以在同一平台上同时支持英特尔 8 和 float 32 的推理，这样大家可以在同一个平台上非常容易地调用自己的量化模型。

天元还有一个特点是简单易用。我们做开源框架，用户是否容易上手使用非常关键。我们会不断提升用户使用体验，完善优化我们的文档体系、工具体系，帮助大家快速上手。

现在的主流框架中，其实对于推理、量化的部分，相关介绍文章非常少，0.5.0 版本里我们完成了一整套推理部署教程，让大家可以一步一步完成模型从训练到完整部署的全部过程。中间有推理性能分析工具和优化文档，可以看到各个算子在当前设备上的性能，也可以帮我们发现当前需要完善和提升的部分。同时，我们可以提供很好的一致性，可以在 Linux、Windows、Mac、Android 甚至自己的应用中，在一些无操作性的环境中部署和运行。

我们提供了量化参考模型，大家可以拿到量化模型训练代码以及预训练模型，得到具体的量化方式。同时我们有完整的对量化进行操作解读的方案，大家利用这样标准化的量化方式就能够自行对模型量化和优化，而且使用方法非常简单。

这里我提到的是亚线性内存优化技术，利用计算换取减少内存的使用量。这是我们在原有论文的基础上实现的一整套基于遗传算法方案的搜索，可以通过边界联动、块的移动，在有残差的结构搜寻到最节省的因素，用最小的方案使得在几乎不影响速度的情况下大幅度减少设备使用内存。

天元框架技术生态

我们期待以更开放的心态和大家一起把项目做得更好，我们也在这里做了很多工作，一方面希望把自己的研究成果拿出来，比如我们建立的天元的研究中心，包括最近的图像分类、检测、分拨、自然语言处理和标准的量化模型，都是在使用最频繁、最精炼的骨干网络。

我们还引入新型的算法。大家知道生成式对抗网络，这是非常流行的方法，我们在天元的模型中心提供了基于 DCGAN 和 WGAN 的方式，也实现了 Simple Baseline 和 MSPN。

我们发表了一篇以开源为主要发布方式的论文，密集人群检测的一些情况里，两个人的重合非常高，以至于以前的检测算法很难检出，新的算法则可以把重叠严重的人体检测出来，这样的代码也会通过天元发布出来。我们希望构建学术方面的影响力，可以帮助大家更好地认识天元和天元生态，也希望大家和我们一起做这方面的学术研究。

为了方便大家使用，我们还提供了 MegStudio 开箱即用的 AI 环境，大家可以在上面注册分配使用CPU 资源，试用我们的模型，也可以看一下天元现在的成熟程度和可用程度到底达到了什么样的情况。

我们的网站上提供了丰富的文档体系，包括如何做分布式训练，如何进行亚线性性能的优化，如何做模型部署，如何定制自己的算子，如何做量化，如何进行分析以及安卓推理，包括文档、API 文档全部提供了中文翻译，希望方便更多的、各个层次的开发者获得想要的知识。

我们还在官方网站上提供了我们和北大的深度学习实践系列课程，由旷视研究院院长的孙剑老师和资深研究员给大家授课，非常适合深度学习的初学者与爱好者了解这个行业的整体概况和先进技术。我们还提供了 MegEngine使用入门课程，学习 MegEngine 的使用方式。

我们想做好天元的生态，和更多合作伙伴合作。（崔）宝秋老师促成了我们和小米 MACE 的合作，另外我们也和 Tengine 合作。我们希望通过这样的方式，更多体系内的研究员和学生都能享受到整个开源社区给大家带来的好东西。

我们在今年的 9 月份，把第一个里程碑的版本天元 1.0 版本推给大家。我们希望天元的生态更加开放、更加完善、更加具有吸引力，希望把更多有竞争力、有吸引力的功能提供给大家，助力中国开放生态的发展。希望大家加入我们的社区，和我们一起实践天元的核心理念，共建开源社区，谢谢大家。

美团夏华夏：人工智能如何应用到"吃喝玩乐"？|CCF-GAIR 2020

Mon, 17 Aug 2020 11:37:00 +0800

雷锋网按：2020年8月7日，全球人工智能和机器人峰会（CCF-GAIR 2020）正式开幕。CCF-GAIR 2020 峰会由中国计算机学会（CCF）主办，雷锋网、香港中文大学（深圳）联合承办，鹏城实验室、深圳市人工智能与机器人研究院协办。从 2016 年的学产结合，2017 年的产业落地，2018 年的垂直细分，2019 年的人工智能 40 周年，峰会一直致力于打造国内人工智能和机器人领域规模最大、规格最高、跨界最广的学术、工业和投资平台。

8月8日下午，在CCF-GAIR 2020「AIoT专场」论坛上，美团首席科学家、AI平台总经理夏华夏带来了《AI+生活：打造未来生活服务新基建》主题分享。

美团首席科学家、AI平台总经理夏华夏

夏华夏首先带我们回顾了AI技术的发展，AI自1965年诞生以来，已经历了几起几落，直到2016年AlphaGo以4：1绝对的优势打败了韩国棋手李世石，人工智能遇到了新的爆发期，现在也正是AI爆发的阶段,而人工智能也就此走入了实际应用的道路上。

他表示，人工智能技术可以应用在很多实际的物理生活场景中来，能够把吃喝玩乐、衣食住行等生活服务的每一个领域形成闭环，这对人工智能的发展会非常有用，因为形成闭环之后，数据才能形成闭环，才能用人工智能技术做很多的事情。

谈到美团是如何应用AI技术，夏华夏解释说：“美团用场景驱动做人工智能的发展。我们并不用是否前沿来判断技术的适用性，而是希望它能够切实帮助我们让生活更加的美好。”

具体可以分为以下几部分：

美团本质上是做本地生活服务的一家企业，我们希望可以极大程度把本地生活服务数字化，然后用熟悉的互联网技术去提高效率。
美团有4.5亿的用户，还有600多万的商户，用人工智能技术既帮助这4亿多用户得到很好的体验，还要帮助600多万商家得到很高效的经营管理提升，所以就做了很多在人工智能方面的内容。
底层的基础还是刚刚提到的大量用户、商户和骑手所产生的大量真实的数据，比如说光美团点评平台产生的用户评论数据77亿，线上图片的数据超过100亿，基于这些大量的数据，就可以进行很多的人工智能技术的深度探索，包括图像、视觉、语音、智能交互、运动规划、智能调度等等，去解决人们在生活服务各种不同场景中的需求，这是美团做人工智能整体优势特点。

夏华夏在接受雷锋网采访时表示，美团做人工智能一方面是为用户提供更好的生活服务的引擎，让用户得到更好的服务体验；另一方面，为商家做产业升级的一系列工具、设施和系统。同时美团也在探索在未来的生活、未来的城市，最终希望让AI+生活成为未来生活的基础设施

作为新晋的互联网巨头企业，美团的AI技术图谱是什么样的？夏华夏的演讲包含了更多信息。

以下为夏华夏在CCF-GAIR 2020「AIoT专场」论坛上的演讲原文，雷锋网做了不改变原意的整理：

大家下午好，美团做本地生活服务，希望给用户提供更好的体验，给本地生活的很多商家提供更高的效率。在这里面就会用到很多科技的东西，今天给大家分享的就是怎么用AI+生活打造生活服务的新篇章，介绍AI的应用。

几起几落 AI终迎爆发

简单回顾一下AI技术的发展，AI从1956年诞生以来，经历了几起几落，包括70年代的时候，做的符号推理、神经网络的计算，但那时候算力不够，所以对于人工智能到底能做什么人们是比较绝望的。第二次高峰，是出现BP算法，能够做大规模神经网络计算。但是90年代的时候，美国国防部想自主完成一个AI计算机，但以失败告终，这对人工智能领域是比较大的打击。直到2006年有了深度学习的算法，2011年证明了深度学习可以做非常好的训练结果，2016年谷歌AlphaGo在围棋方面打败人类的世界冠军。人工智能遇到了新的爆发期，现在也正是AI爆发阶段。

AI的产业规模不仅仅是每年在增长，而且增长红线是AI产业年增速逐年增加的，所以人工智能到了爆发期。

AI的爆发与很多事情相关，比如说跟IoT（物联网）的发展，IoT帮助我们产生了大量的数据，帮助我们把线下更好的数字化，数字化后产生的数据，可以让AI有更大的发挥空间。当然，这个爆发也跟现在算法不断的迭代有关，除了深度学习之外，其他算法也层出不穷，包括算力方面，各种低功耗或者是高性能的算力不断的出现，帮助人工智能产业在飞速的发展。

以场景推动人工智能发展

人工智能技术可以应用在很多实际的物理生活场景中来。美团所在的场景，希望做“AI+生活”。我们判断能够将吃喝玩乐、衣食住行等生活服务每一个领域形成闭环，这对人工智能的发展会非常有用。

美团本质上是做本地生活服务，希望把本地生活服务数字化，数字化之后用熟悉的互联网技术去提高效率。美团有4.5亿的用户，还有600多万的商户，用人工智能技术既帮助这4亿多用户得到很好的体验，也能让600多万商家可以很高效的经营管理提升，所以就做了很多在人工智能方面的内容。

底层的基础是美团大量的用户、商户和骑手所产生的大量真实的数据，比如说光美团和点评平台上的用户评论数据就有77亿，而线上用户和商户上传的图片数据超过100亿，基于这些大量的数据，就可以做包括图像、视觉、语音、智能交互、运动规划、智能调度等大量人工智能技术的深度探索，用来解决在各种不同场景中的需求，这是美团做人工智能整体框架。

本质上，美团做人工智能最大的优势就是用场景驱动技术的发展，我们并不用是否前沿来判断技术的适用性，而是基于美团丰富的场景、大量的数据，再结合人工智能的算法，去用技术帮助每个人生活得更好。在美团200多种不同的生活服务场景中，就有很多我们可以用技术去优化用户的体验、提升商家经营效率的地方。

AI+生活打造未来生活新基建

接下来从三个方面给大家介绍美团是如何应用人工智能的：

1．生活服务引擎

对用户服务的工作，让用户更简单、更便捷的获取各种生活服务，打开美团APP有两百多种不同的服务，但是屏幕就那么小，那怎么样才能基于用户喜好，让用户找到他想要的服务呢？这就需要大量的人工智能技术，包括智能推荐、智能搜索等。

在美团APP有“语音应用无障碍外卖”，当老人、小孩或者是残障人士没有办法输入文字点外卖时，用户可以用语音的方式做智能的交互，完成从挑选商家、挑选菜品、下单、支付等的全流程。这不仅得益于美团在语音交互层面的技术能力，更重要的是美团有丰富的生活服务的场景，能够通过语音交互、大数据、自然语言处理等技术的支撑，依赖于IoT的设备，比如手机、智能音箱、智能穿戴设备、车载机、家居设备等智能设备用语音完成服务唤醒、挑选、支付乃至获取的服务闭环，让用户获取服务像说话一样简单。

2．助力产业升级

美团AI做的就是让整个产业受益于人工智能、受益于物联网。如果看整个商业的本质，就会发现开一家店，不管是餐馆、酒店或者是卡拉OK，它是非常非常难的。美团的平台现在有620万商户，每年在我们平台上有将近20%左右的商户因为经营不善倒闭。经营不善包括很多原因，比如说选址是不是好，选址后的经营管理是不是能够比较好的数字化反馈，能够及时地知道商店里的口味、卫生和服务能被用户认可。包括整个的物流、供给，是不是能跟得上等，这些都对经营有非常大的影响。

美团意识到我们所拥有的大数据、人工智能技术能够去帮助很多中小型商户去提升自身的经营管理效率，逐渐地建立起数字化的经营管理，去进行经营决策，比如可以帮助用户选址、经营管理、营销、决策和物流等。

3.成为未来生活的新基建

未来要更好地提升各个行业的经营效率和服务效率，很多地方就要推动自动化和无人化。美团闪购目前正在尝试建设无人前置仓，通过自动拣选、打包并无缝衔接配送服务，来帮助商超，实现经营效率的进一步提升。

除了无人微仓，美团还在进行配送场景下的无人车和无人机的相关研发测试，我们希望未来能够打造一个空中、地面的立体三维配送网络，跟现有的外卖小哥结合，形成高效的人机协同配送网络，可以能支撑未来外卖行业需求的飞速发展。未来5年整个外卖行业预计都会有更大的需求提升，就美团而言，目前每天在路上配送的小哥将近80万人左右，这已经很多了，如果未来再翻几倍的订单量，但凭骑手就比较难以承载那么多的订单，所以，美团要打造空地协同一体化的无人配送的及时配送网络。

这对于美团来说有一些优势，也有挑战。一方面，美团现已有的智能调度系统、美团云和大数据的基础设施都是从技术层面美团天然的优势，另一方面，美团有全球最大的即时配送网络，在全国2800多个城市都有外卖业务的落地，所以骑手是分布在很多城市的，当我们想去部署无人驾驶设备、无人配送设备时，各地都有小哥可以转化为运维、维保、充电和维修的人员，所以对于无人配送网络的运营是好的支撑。

实际落地运营方面，今年2月份，美团在北京顺义区落地了一款中型无人配送车，通过自动驾驶技术给用户配送美团买菜的订单。用户下单之后，买菜的仓库会接到订单的信息，将订单上的生鲜打包后放到车里，（由无人车进行后续的配送工作）。目前无人车主要完成距离较远及订单配重较重的配送任务，在附近约单程5-6公里的小区进行配送，而具有更高灵活度的骑手偏重于配送近距离及轻重量的订单。目前美团无人配送车以每小时最高20公里的时速前进，在路上自动识别红绿灯和各种行人、障碍物，按照交通规则的要求，最终把菜品送到用户的手上。

无人机现在是在深圳一些地方做测试运营，小哥接到订单之后，会把订单打包裹，然后放到专用的褐色定制的盒子里，按照既定路线行驶，最终落在用户所指定配送地方，放下之后自动解锁，把包裹放下来，自己飞走，用户再把它取走。

目前无人机还在测试迭代过程中，我们以优先保障安全为前提，将无人机配送流程不断优化完善，并在适当的时候跟大家分享新的进展。

总结

美团做人工智能主要是从场景和需求出发来做人工智能，一方面是为用户提供更好的生活服务的引擎，让用户得到更好的服务体验；另一方面，为商家做产业升级的一系列工具、设施和系统。

美团也在探索在未来的生活、未来的城市、可能期望看到的技术和设施，让AI+生活成为我们未来生活的基础设施，这种基础设施就是无处不在，就像水电煤一样，可以帮助每一个用户、每一个商户。

谢谢大家，我的分享就到这里。

百度技术平台部高级总监马艳军：开源深度学习框架，生态构建是核心，产业赋能是试金石 | CCF-GAIR 2020

Thu, 13 Aug 2020 08:52:00 +0800

会上，百度深度学习技术平台部高级总监马艳军做了主题为《开源深度学习平台助力产业智能化：百度飞桨的实践》的分享，他从开源如何为产业赋能的角度切入，结合飞桨四年来的成长与实践案例，就开源深度学习框架如何进行生态构建、深度学习如何赋能产业、飞桨的智能化落地案例等给出了清晰的解读。雷锋网将马艳军的演讲进行了不改变原意的编辑，以下为全文：

我跟大家分享的主题是“开源深度学习平台助力产业智能化”，我会从开源如何给产业赋能这个角度分享。

飞桨在 2016 年已经开源了，时间是比较早的，在这个过程中，我们一直认为，技术的迭代有两个方面：

首先，在百度内部会有大量的应用，并且非常注重配合大量的落地场景，这会驱动我们做一些事情，比如速度做得更快，部署做得更好。

然后，在这个循环过程中持续打磨开源项目。开源以后，我们社区里的开发者非常多，他们的要求非常苛刻。社区里开源的工程师把代码亮出来以后，大家都能知道你是如何设计的，以及你的代码、文档有没有问题。这就对整个编程的易用性、API 的完备性提出了新的要求，这些要求以前在公司内不做开源时就不会考虑太多。

这两个循环同时进行，就形成了一个产品。

现在的飞桨框架部分已经满 70 万行代码，是工程量非常大的工作。如果再加上围绕核心框架的周边一系列的模型、工具，现在飞桨有 200 万行代码。这样规模的工程量，要想真正让它打磨得比较顺畅，需要慢慢做，确实没办法一下子放出一个跑起来不出问题的大型的工程系统。

飞桨经过这么长时间，已经形成完整的体系，现在有一些能力可以直接在平台上使用。

开源深度学习框架的建设和很多开源项目有一定的差异性。很多开源项目是把这个开源项目做好，其他人拿去用就可以了。但深度学习框架上下游的生态比较复杂，我们经常说，它是一个生态系统的问题。生态系统里要和很多芯片做对接，因为要基于它做算法研发，再被集成解决方案，形成比较深的产业链条，由此就形成了生态。

所以，开源深度学习框架和一般开源项目的差异性就在于，它的生态体系构建非常关键，比如说飞桨放在这儿没人用那它就挂了，因为没有生态体系和它一起联动。没有生态的构建很成问题，现在国内的深度学习框架一直朝着生态构建的方向发展，开源就是帮助构建生态的很好的方式。

飞桨发展了这么长时间，在很多行业中已经被应用，使用的场景也很多。AI 在应用时和行业绑定非常紧密，需要结合很多行业专家的知识，并和 AI 技术平台一起设计可在企业中应用的更完整方案。

另一方面，深度学习框架需要和芯片做深度的对接适配才能达到高性能。现在芯片的种类还是蛮多的，把芯片设计好需要非常大的工作量，芯片企业要做更多的贡献才能把能力提升上来。

现在真实应用中使用的芯片类型也是不一样的，环境差别很大。真正要让深度学习框架在芯片上跑起来，是非常大的工程，可能得投入不小的工程团队开发一年左右，才能把整个硬件的功能进行很好的适配。

咱们国家做开源很重要，需要时间投入，耐心把这事儿做了，没有巧妙的办法把工程开发的时间绕过去。一定要投入时间，把这些工程开发做了才有更好的发展基础。

飞桨一直和国内外的芯片企业都有非常紧密的合作，做软硬件的适配，社区也有快速的成长。到现在，整个飞桨在 Github 共有 45000 的 Star。

做项目的过程中，第三方的生态贡献增长非常重要。第三方生态贡献增长是指什么？比如飞桨这个项目，很多的开发不是百度工程师做的，还有一些其他人在基于这个做出新的项目和更多的贡献，这就是第三方的贡献。我们很高兴地看到，今年上半年，由于疫情原因，大家的时间变多了，贡献也非常踊跃，Star 数增长速度非常快，整个生态也在快速成长。这说明国内的开发者也在积极主动做这样的事情。

飞桨也有一个开发者专家计划（PPDE），希望不同层次的开发者都能够加入到这里面做贡献，可以给框架做贡献，也可以贡献算法库，贡献各种各样的应用工具，由此形成整套开发体系。非常欢迎开发者加入这个项目。

飞桨核心技术

我们常常说飞桨有几个特点：

一是框架层，我们是动态图和静态图统一设计的框架，希望可以从动态图编程转成静态图部署，并做到极致。

另外是训练。百度做大规模的数据处理，天然需要有大规模训练能力。这个大规模训练也有很大的挑战，包括真正做了大规模、分布式，飞桨的大规模分布式训练已经经过了实践验证，比如速度提上来了，收敛性怎么样，精度是否有保证，这些都需要在实践检验中持续打磨。

再就是部署，对多种硬件的支持。飞桨目前已经支持非常多的硬件，尤其对国产芯片也进行了深入的适配融合。

最后是模型算法。飞桨开放了很多的算法，这上面的算法有 146 个，工业界使用比较广泛的基本都涵盖了。

动态图的编程是飞桨主推的，代码的行数、编程灵活性都提升很多，语义理解的算法现在都是动态图实现。

大规模分布式训练在 CPU 和 GPU 上都有做，并且支持异构硬件的训练，我们也做了大规模的稀疏参数训练，这些在公司内用得很多，多种大规模的分布式训练模式都能支持。

大家可以看到，部署是多种平台、多种操作系统都支持。这就是部署麻烦的地方，要适配的环境很多、很复杂，需要很多的工程化工作才能把部署做上去。

现在飞桨的模型库算法很多，涵盖的任务也很多，这些算法我们都做了比较多的调优工作，把算法的速度、训练的速度、参数本身设计到最优。

飞桨助力产业智能化：案例剖析

互联网行业对深度学习的拥抱是非常明显的，但要进一步扩展到更多的行业，还有非常大的空间。今天的案例不是互联网行业，而是实体经济——无人巡检的场景。

我们是制造业大国，制造在我们国家占的 GDP 比重非常大。在真实的生活中，很多事情需要检测，比如设备是否可以正常运转；工厂里也常常有很多检查，比如听到设备发生异响，这些都是真实场景里遇到的。

深度学习在真实场景中的应用面临的挑战非常多，比如它有可能算力非常低，不像很多互联网公司有大型的服务器。在很多真实的行业场景，不仅很多算力很低，也没那么多的内存，这种情况下，要把深度学习技术真正应用到行业中就需要克服很多不一样的挑战。

举一个例子，要监测哪儿有没有着火，需要在某个位置架设一个摄像头，把深度学习影像拍到。这是挺复杂的系统，深度学习的模型训练只是其中一环，行业里的业务系统是比较复杂的，即使设计了一个系统，跟业务系统再对接也是非常复杂的工作。这个过程就需要后台的训练，从数据标注到模型训练，通过摄像头、相机、光源一系列的因素，包括无人机的配合，在边缘端进行计算，和后台形成联动，最后形成预警系统。

整个系统搭建需要很复杂的设计，这个理念会涉及比较难的技术点，比如检测有没有着火，需要目标检测技术。飞桨开源的目标检测工具 PaddleDetection 里面有一些非常经典和实用的算法，结合真实的场景、少量的数据，效果基本上足够你用。内存要求有限，ARM 算力有限，可以通过 PaddleSlim 把模型变小。

另外需要部署，要部署在 ARM 架构的芯片上面，快速运行，这其中的技术选型就非常关键。

我们通过技术使得很小的模型识别的精度也可以非常高。烟雾检测一方面要有高准确率，再就是推理速度，比如着火这种应急场景下，对性能的要求非常高。

这是今年在淄博发生的一件真实的事情。高压线底下着火，通过刚刚的技术方案，可以真正发现并解决问题。

目标检测在真实场景中应用非常多，是复杂的技术，里面涉及到的组件非常丰富，另外还需要把压缩能力和部署能力打通，涉及到的工程化工作非常多。这些都是通过 PaddleDetection 开源的。我们提供了一系列的算法，开发者可以非常灵活地组合自己想要的算法。当然我们也提供了在什么场景下用什么最好的组合方案，直接给出了几款应用最多、效果最好的算法。

算法丰富性、精度、速度以及一系列的验证，这个套件已经在很多场景下做了很多工作，基本上可以放心用到工业、企业里。

训练完这些模型以后，我们需要做一些压缩工作。算力毕竟有限，部署的场景非常复杂，有可能是服务器，有可能是边缘端、网页端的程序，也有可能集成到软件上或是做服务，部署的环节是非常复杂的流程，需要做非常多的工作。

我们把主流的压缩方案都做了，跟检测、分割算法库结合可以直接实现模型的压缩和使用。通过 Paddle Lite，可以实现的算法适用比较多，现在在飞腾、寒武纪、百度昆仑、RK、华为NPU、MTK APU 等多种芯片都可以实现端到端的使用。

飞桨在百度 AI 中是基础底座，对于整个 AI 平台而言是底层技术，这个基础上会有一系列的定制化开发以及 AI 能力，比如语音、语言、视觉，再结合一些场景化的方案，最终会形成一整套具备 AI 能力的完整方案。

顶级算法竞技来袭，2020腾讯广告算法大赛迎来最终决战！

Fri, 31 Jul 2020 17:02:00 +0800

2020腾讯广告算法大赛，自开赛以来，吸引了“大半个算法圈”的高度关注，报名及参赛人次远超全球主流算法比赛2倍以上，是全球最受关注的算法赛事之一。

本届赛事共有来自1000多所国内外院校和超过3000家事业单位的11000人报名参加，除高校专业生外，各大厂在职人员参赛者更是不在少数。

比赛过程中参赛选手们不断突破自我，在与高手、大神的不断切磋交流中历练成长，相信走到今天大家都收获颇丰。决赛临近，十支最强战队即将前往深圳参与现场决赛答辩，各路大神选手将上台，亲身分享解题思路，权威评委现场给予专业点评，助力选手实力进阶。

算法与算法的交锋，技术与实践的融合，8月3日，决战一触即发！

大咖云集，直播分享行业前沿

算法之路，学无止境，为了更好的助力产学研融合落地，腾讯广告算法大赛还将于决赛后开启“专题直播”，倾情邀请算法大赛顶级评委开启线上直播分享，聚焦行业关键技术，分享算法前沿知识。

这个8月，让我们跟随顶级产研大咖的脚步，走进无限可能的“算法世界”，聚焦当下，展望未来。

不仅如此，专题直播期间参与有奖调研，也有机会获得专属纪念礼品，惊喜多多，等你发现。

想亲眼见证，各路算法大神的交锋对抗吗？想了解，十强战队是如何剖析“逆算”上分思路吗？你是否也想感受算法竞技的无限魅力，在与各路学者专家的思维碰撞中收获成长？

赶快点击报名，观战此次精彩绝伦的算法巅峰之战！

AI研习社观看地址

https://mooc.yanxishe.com/open/course/859

用AI分析姓名识别男女，Genderify为啥被骂到服务下线？

Fri, 31 Jul 2020 10:40:00 +0800

上周刚面世的一项服务Genderify，号称能通过AI分析姓名、用户名或电邮地址来判断某人性别，结果因为算法偏差实在离谱，在社交媒体上引起了广泛关注。

我们来看看Genderify的一小部分“成绩单”：

输入“Meghan Smith”，评估结果为“男性：39.60%，女性：60.40%”；
但输入“Dr.Meghan Smith”，评估就会变为：“男性：75.90%，女性：24.10%”。

其他名字加上“Dr”，也会让系统给出更偏向男性的结果。

有网友试着输入了一些单词或名人姓名，Genderify也表现得令人失望：

比如输入“scientist”，评估结果为“男性：95.7%，女性：4.3%”；

输入“Oprah Winfrey”（美国著名脱口秀女主持），评估结果为“男性：78.3%，女性：21.7%”；

Genderify的首席运营官Arevik Gasparyan是一名女性，但系统连自家高管都不认得，给出了“男性：91.2%，女性：8.8%”的结果。

群众抗议情绪之强烈，已经迫使Genderify彻底关闭了这项服务，网站现已脱机，其免费API也无法再访问。

一位代表通过电子邮件向媒体回应：“如果大家不想要，这样的结局也许是公平的。”

尽管类似的性别偏见经常出现在机器学习中，但Genderify这种“不过大脑”的程度似乎让该领域的许多专家感到惊讶。Meredith Whittaker是纽约大学 AI Now的联合创始人，专注研究AI对社会造成的影响，她的反应就非常典型：“科技圈的愚人节来了？这是一种干扰科技与司法世界的心理战吗？”

为什么Genderify会引发大规模吐槽？就因为它根据某人的名字对其性别做出假设？并非如此。业界指出，其实人类也会通过名字猜性别，有时也会在这个过程中犯错误，这就需要了解人们的自我认同感，思考对方希望得到怎样的称呼，才能降低冒犯对方的可能。

Genderify的问题在于，它自动化了这些假设，显得太过“想当然”了，加深了这个过程中的性别刻板印象。比如前文提到的，在名字前加Dr.的情况，意味着系统认为：如果你是医生，那你大概率是个男人。

虽然创始人Arevik Gasparyan强调这是一个用于营销的数据分析工具，但有观点认为，它在特定的应用方式和地点下，会出现潜在危害。

例如这项服务被集成到医疗聊天机器人中，它对用户性别的假设，可能会导致聊天机器人发出误导性的医疗建议。

用户们对产品的性别歧视色彩表示担忧，有提问称：“如果我选择了既不是男性也不是女性，你如何处理这个问题？你如何避免性别歧视？你是如何处理性别偏见的？”

对此，Gasparyan称，服务是基于“已经存在的姓名/性别数据库”，公司也“正在积极寻求解决办法，以改善跨性别者等群体的用户体验”，试图将姓名/用户名/电子邮件的概念与性别身份区分开来。

一位代表也通过电子邮件给出了较为详细的回应：

“我们明白，我们的模型永远不会提供理想的结果，算法需要显著改进。为了让它更好地发挥作用，我们非常期待LGBTQ等群体的反馈，以协助我们尽可能地改进性别分析算法。我们的目标是建立一个自学习的人工智能，它将不会像任何现有的解决方案那样带有偏见。”

雷锋网编译，参考来源：

https://www.theverge.com/2020/7/29/21346310/ai-service-gender-verification-identification-genderify

https://baijiahao.baidu.com/s?id=1673625518588393349&wfr=spider&for=pc

雷锋网雷锋网雷锋网

颠覆性变革！青松智慧携手英特尔AI百佳创新激励计划引领网络安全AI时代

Sun, 28 Jun 2020 11:42:00 +0800

近年来，网络安全事件频发，大数据和AI时代最重要的数据频遭泄露。据Gemalto发布的《数据泄露水平指数》，仅2018年上半年，全球就发生了945起较大型的数据泄露事件，导致45亿条数据泄露，是2017年全年报告数量20亿的两倍多。数据泄露带来经济损失的同时，还会对企业的品牌造成严重的损害，这让更多人意识到网络防护的重要性和迫切性。

在数字化浪潮下，网络空间面临的威胁也随之改变和升级，传统的网络安全技术需要升级，AI成为了不二之选。未来，AI不仅会成为安全产品的基石，还将颠覆传统网络安全产品以人驱动的方式。

AI百佳创新激励计划第二期的成员青松智慧和英特尔正在引领这一时代的到来。

AI将给网络安全带来颠覆性变革

网络安全有非常多细分市场，比如防火墙、终端防护、身份管理与访问控制、Web安全网关、数据防泄漏等。在这个庞大而细分的市场里，主流传统安全产品采用“基于特征码的规则指纹”匹配技术，这种使用规则的方式非常依赖人工，并且只能识别固定有限的攻击行为。

在攻防技术不断迭代更新的过程中，传统方式已经无法有效抵抗黑客攻击，在规模化成本控制与技术进化的选择上，传统安全产品的发展面临很大挑战。如果把AI技术应用到网络安全领域，不仅能满足攻防实时对抗的需求，在规模化成本控制与技术迭代上都会有较好的平衡预期。

WEB安全面临的挑战

2014年，多位网络安全领域的老兵们创立青松智慧，想在网络安全产品中融入AI。青松智慧CTO郭洋接受雷锋网采访时表示：“青松智慧是我们的第二次创业，之所以在网络安全领域再次创业，一个非常重要的原因是我们看到了大数据、AI和云计算是未来的方向，尤其是AI，所以想把AI技术也用在安全领域。”

他认为，未来的安全产品一定是基于AI，并且会带来颠覆性的变化。这种变化除了改变多年来安全产品以人驱动的方式之外，AI的学习速度以及发现未知攻击的能力也将达到前所未有的程度。

但要找到合适的解决方案把有AI功能的安全产品传递给客户并非易事。郭洋所指的合适包含了产品性能、部署成本以及支持通用场景。他说：“我们给用户交付安全产品的时候，希望以一种通用的架构去交付，而不是有硬件上的特殊要求。”

之所以会有这样的考虑，是因为早期AI训练都使用GPU，但大部分用户使用的都是英特尔x86的服务器，包括主要的公有云服务提供商，如果因为增加AI功能要让用户单独配硬件，就很难以通用场景交付给用户。

加入英特尔AI百佳创新激励计划，让青松找到最合适的硬件，同时推出了融入AI技术且适用于通用场景的网络安全解决方案——青松智能WAF。

深度融合英特尔AI软硬件，智能WAF性能提升2倍

“我们错过了英特尔AI百佳创新激励计划的第一期，但当一个投资人给我们推荐这个项目的时候，我们马上就决定要试一试。”郭洋说，“加入英特尔AI百佳激励创新技术之后，我们不仅全面了解了英特尔全线AI产品，也找到了最适合我们的英特尔至强可扩展处理器。”

2019年4月，英特尔发布了第二代至强可扩展处理器，第二代至强可扩展处理器非常重要的特性就是内置了英特尔深度学习加速（Intel DL Boost）技术，推理性能提升1.4倍。这款全球领先的具有AI功能的CPU让青松能够打造出理想中的产品。

郭洋表示，“英特尔至强CPU的x86架构无论在通用服务器还是计算密集的场景都大规模使用，在这样通用的硬件上，我们就现在可以直接使用至强的AI性能，大幅提升产品性能。”

在多个系列的至强可扩展处理器中，青松选择了高端的至强铂金以及银牌两个系列的CPU。“我们主要考量的是未来用户实际部署时可能采用哪种硬件，基于这样的选择去做我们在英特尔AI百佳创新激励计划中的PoC（Proof of Concept）。”郭洋解释。

基于至强可扩展处理器，青松推出的青松智能WAF，集传统规则引擎及机器学习引擎于一体，既保留了规则引擎灵活高效，同时通过机器学习引擎的词向量拆分提升模型泛化能力。

与应用于图像和语音的AI技术不同，应用于安全领域的AI模型需要不停用数据训练模型，甚至还需要为特定客户定制模型，以应对不断推陈出新的攻击方法。为此，青松智能WAF采用的是Transformer模型，整个网络结构完全是由“自注意力”和“前馈神经网络”组成，在复杂场景下效果和性能优于卷积神经网络、递归神经网络。英特尔第二代至强可扩展处理器强大的AI性能完全可以满足用于网络安全的AI算法和模型需求。

青松智能WAF优势

再加上英特尔MKLDNN、最新指令集优化实现AI安全引擎，青松智能WAF在单路至强处理器上充分利用多核性能，实测下可以达到15000 QPS，完美解决了性能和超大计算的问题，有效节省带宽和计算资源20%。

青松智能WAF检测性能几乎提升1倍和带宽和计算资源节省20%的情况下，落地效果也非常令人满意，客户A使用测试准确率 99.97%，客户B使用测试准确率 99.83%。之所以效果如此理想，非常关键的就是英特尔AI百佳创新激励计划让青松这个以前对硬件了解不多的软件团队加深了对硬件的理解，并且非常好地将软硬件进行结合。

“用传统方式做安全产品的时候，硬件的性能虽然也是我们的考量，但不会特别考虑哪个平台会更好。加入英特尔AI百佳创新激励计划之后，我们增加了对硬件的了解，就会着重考虑选择的硬件平台，选择未来3-5年将更加通用的平台。”郭洋介绍。

“英特尔的产品体系比较成熟，与我们实验室使用的架构吻合度非常高，像OpenVINO使用起来非常便利，并且很容易带来性能和成本的降低。比如，我们在使用了英特尔版本的TensorFlow之后，在不做任何代码级别改动的情况下，就能够带来性能的提升。与此同时，相比使用人工去实现相同的性能提升，用硬件成本相对较低。”

更重要的是，英特尔AI百佳创新激励计划提供的是全方面的支持，这将让英特尔与合作伙伴一起用AI推动行业的进步。

英特尔将携手青松共同引领网络安全AI时代的到来

“对于我们来说，最头疼的问题就是产品如何落地。加入英特尔AI百佳创新激励计划后，我们和往期的优秀团队在一起交流，我们透过沟通可以寻找合作的机会。”郭洋进一步表示。

“以前我们也参加过一些加速项目，得到的支持都非常有限。这次加入英特尔AI百佳创新激励计划最大的感受就是非常实在，除了技术上得到了非常多支持，共同开发出性能佳通用性强的产品。资金上也给予了一定的支持，让我们的环境可以支持主流的至强平台。除此之外，还提供了生态和市场宣传方面的支持。”

青松和英特尔AI百佳创新激励计划共同打造出极具竞争力的网络安全AI产品，只是英特尔与合作伙伴一起引领网络安全时代的到来的一个典型案例。通过深度合作，英特尔给合作伙伴提供AI性能最佳、通用性非常好的软硬件AI产品组合。借助合适的软硬件AI产品组合，像青松这样在一个安全领域专精，乐于接纳新技术的团队就可以更好地发挥出英特尔提供软硬件AI产品性能，共同开发出通用且极具竞争力的AI网络安全产品。

需要注意，英特尔通用的至强可扩展处理器推动AI网络安全产品的普及优势明显，特别是在新政策和需求的推动下。

2019年6月，《国家网络安全产业发展规划》正式发布，根据规划，到2020年，依托产业园带动北京市网络安全产业规模超过 1000 亿元，拉动 GDP 增长超过 3300 亿元，打造不少3家年收入超过 100 亿元的骨干企业。另外，其它地方政府网络安全产业规划也陆续出台。

在相关政策和更严格的网络安全级别要求下，有合规需求的机构和企业对使用AI技术的网络安全产品有刚性需求。另外，对安全性要求更高的金融、电商、游戏和在线教育等用户也会率先应用融合AI技术的网络安全产品，从愿意为安全付出更多成本的高端开始，逐步渗透普及。

而英特尔和其合作伙伴将引领网络安全AI时代的到来，英特尔AI百佳激励计划正是其中关键的一部分。现在，英特尔AI百佳激励计划仍在进行中，第三期又会有哪些优秀的AI创企加入其中，携手英特尔一起创造新的行业突破，我们拭目以待。

雷锋网雷锋网

容器必将取代虚拟机，但还有一个问题没有解决

Mon, 15 Jun 2020 16:46:00 +0800

企业云化必然性的共识已经少有挑战，在云化的推进中，以容器 + Kubernetes 为基础的 PaaS 平台也已成为标配。

基于可扩展性、交付效率、运维成本等方面的优势，容器正在更多地替代虚拟机。伴随着虚拟化的规模扩大，管理、运维成本的增加，使用容器技术来构建云计算基础设施越来越具有普遍性，Kubernetes 也成为业界公认的容器调度和编排标准工具。在此，容器等云原生技术的发展也催生着新的运营模式与商业模式的产生。

根据 Gartner 预测，2020 年，全球容器市场将超过 20 亿美金，到2023年，70%的组织将在生产中运行三个或更多容器化应用。容器、Kubernetes和微服务应用模式是企业IT创新和数字化转型的三大驱动力。但容器应用仍受限于迭代缓慢、交付延迟、运维复杂等困难。

容器云给出了一个容器应用的解决方案。作为基于容器技术，利用微服务思想和 DevOps 理念实现的管理运维平台，容器云可更好地提高资源利用率、应用质量与运维效率，实现 PaaS 层的云交付。容器云环境中涉及多工具链和跨部门工作，这也对企业原有的 IT 技术团队提出了更高要求。人才的更新需要活水的注入，也更依赖于原有团队的升级。

上周，twt 企业 IT 社区与红帽联合主办的 2020 容器云职业技能大赛正式开赛，大赛的首要目的即是帮助企业完成容器云技术的人才升级。大赛将针对具体岗位运营组织，分为大众学习和精英比赛两大阶段，将从 6 月持续到 12 月，覆盖 4000 家大中型企业，12.6 万人。从项目落地、代码分析、平台构建、测试和部署上线，到后期的平台运营、运维以及结合应用更多 Workload 的磨合，覆盖项目建设的全生命周期。

提高交付能力是容器云应用的重要目的，也是此次大赛强调的重点培训方向。此次支持的企业大多是红帽多年的生态合作伙伴，如英伟达、Veritas、AWS、阿里、浪潮商用机器有限公司等。五家企业的支持也各有分工，比如，Veritas 将主要面向多云容器数据的洞察、运维解决方案的提供。大赛面向五大行业的大中型企业，包括银行业、保险业、电信业、制造行业、医疗行业，这些是企业云化最积极的领域，对技术团队的升级也更为紧迫。

对于容器云的技术与服务经验输出，红帽显然是最有发言权的企业之一。基于在开源社区的多年积累，以及面向企业的多方面服务能力，红帽可与社区深入结合，为大赛介绍、引进诸多经验证的容器云方案。

限于数据安全的考虑，越来越多的企业选择混合云架构，后者也势必将成为未来企业上云的主流架构。红帽在混合云方面有充足的技术积淀。2019 年，红帽委身于 IBM，后者看重的也是其在混合云业务方面的多年积累，而这也是 IBM 未来抢滩云服务市场的重要领地。

雷锋网、雷锋网、雷锋网

绝佳的「C 位」，必看的「AI 安防顶会」丨倒计时 7 天

Sat, 13 Jun 2020 01:30:00 +0800

C位，舞台最中央的位置

得C位者，得天下

身为科技赛道的C位，AI已不再陌生

过去几年，AI改变传统行业的野心和成绩有目共睹

作为全行业最为专注AI赛道的科技媒体之一

雷锋网AI掘金志紧抓AI市场化急速前进节点

于2018年首开「中国人工智能安防峰会」

转眼间，大会已经成功举办两届

再过7天，第三届「中国人工智能安防峰会」将在杭州拉开帷幕

本届大会在嘉宾邀请、议程设置和演讲内容等环节把控严格

遵循“基础理论技术创新”和“行业解决方案落地”两项黄金标准

为参会者提供极具价值的学术研究新思路和 AI 技术落地方法论

目前，峰会价值499元的普通门票已全部售罄

但在后期，我们又收到了不少来自业界的参会需求

藉由此，我们特设了：采购代表/企业管理人员免费福利票

点击“这里”，完成注册雷锋网

我们将会随机挑选25位幸运观众，送出免费参会福利票

峰会期间，我们还会不定时派送各类大奖，保证你拿到手软

6月20日，杭州见雷锋网

AI「试验厨房」在路上：让机器为新材料的发掘按下快进键

Fri, 22 May 2020 15:25:00 +0800

在多伦多大学，Ted Sargent经营着一个类似的试验厨房。他的团队由研究人员和学生组成，开发食谱，仔细测量和混合配料，然后评估后果。

Sargent团队的构想之一，其实是用二氧化碳做饭。电气工程师出身的Sargent说，他们的目标是发明配方，把温室气体“升级”成有用的材料。未来的工厂和发电厂可以利用可再生能源，将二氧化碳转化为可以出售的原材料，或者把它们“抓起来”封存在地下，而不是将污染物直接排放到空气中。

有一类很有前景的配方，是将二氧化碳与其他反应物电轰击，将其转化为由两个碳原子和四个氢组成的六原子分子乙烯。乙烯是一种用来制造普通塑料的原料，包括超市和拉链袋中的塑料。Sargent认为这是一种很有商业价值的化学品，背后会是大约600亿美元的市场规模。

二氧化碳“升级”图

不过，Sargent工作的真正意义不只是他的食谱多么有意思——他在用人工智能做饭。

Sargent团队通过使用新的人工智能和超级计算机驱动的技术，发现了制造乙烯的新成分，而这些技术在过去十年里在材料科学家中越来越受欢迎。

Sargent与卡内基梅隆大学的Zachary Ulissi合作，后者专门研究如何利用算法发明新材料。

Ulissi模拟了12229张共244种不同晶体的显微特写照片，瞄准了最有希望制造乙烯的候选晶体。特别是，他们希望找到一种材料，能让二氧化碳分解过程中产生的一氧化碳分子更容易粘附。

Ulissi用一台超级计算机进行了一小部分模拟，但这项任务太费时间了，不可能完成所有12229张特写。又所以他用这些超级计算的结果训练了一个机器学习算法，让机器学会怎么快速进行剩下的模拟。

在多伦多大学，Ted Sargent用类似的电子设备来“升级”二氧化碳

这些基于计算机的方法为研究人员发现新材料提供了一个更快、更全面的策略。科学家要发现一种材料，完成微调，然后再让其进入到商业化阶段，这整个过程可能需要20年甚至更多。

正如爱迪生的故事那样，在19世纪70年代，他测试了3000多种不同的材料，试图为第一个价格合理的白炽灯泡找到合适的灯丝。结果，下个世纪的灯丝是由钨制成的，是爱迪生从未尝试过的一种材料。

同样地，多伦多/卡内基梅隆大学的团队可能也没有找到那个“制胜关键”。他们的配方需要大量的电力来制造，这意味着现在用二氧化碳生产乙烯是无利可图的。

Sargent和他的同事正在努力设计更经济可行的食谱。上周《自然》杂志刊登的最新研究中，他们报道了多种新材料的发现，也就是所谓的催化剂，这些新材料能够更快、更节能地将二氧化碳转化为乙烯。这些催化剂可能是最终使这项技术具有可扩展性的“秘密武器”。

“我们需要减少碳足迹，但我们也不想因此而牺牲世界各地的繁荣。”Sargent说。

有了计算机，材料配方不再严格局限于单个科学家的专业知识。为了找到他们的催化剂，Ulissi和Sargent的团队使用了一个名为Materials Project的公共数据库，该数据库旨在将材料科学家作为一个类似Google的搜索引擎来服务。

这个网站包含了超过12万种不同无机化合物的数据。任何人都可以登录，指定他们想研究的原子元素和化学性质，并迅速找到许多候选材料。

科学家们找到让二氧化碳变成塑料的办法

举个例子，Sargent和Ulissi从以前的经验中知道，含铜材料是很好的催化剂，因此他们专门针对由铜制成的非活性合金搜索材料项目，该网站建议从244种晶体开始着手研发。

从这个列表中，算法指出，含铝铜合金可能是最合适的。当这些算法预测出最佳铝铜比以及两种金属的混合均匀程度时，实验室的科学家根据这些预测合成了材料，并将结果反馈到算法中。

计算机和科学家们的“天作之合”，使得他们在实验室中发现并生产出17种高效催化剂。

现在更多的科学家依靠计算机工具来发明新材料。劳伦斯伯克利国家实验室的物理学家Kristin Persson说：“在过去的20年里，确实发生了一场范式的变化。”她表示，计算技术“已经从小众应用转向推动创新”。

2017年，波音公司下属的研究人员报告说，他们利用AI发明了一种用于3D打印飞机部件的粉末合金。同年，洛斯阿拉莫斯国家实验室的研究人员使用AI设计了一种合金，这种合金可以反复加热和冷却而不会减弱。

去年7月，杜拉塞尔公司推出了一款名为Optimum的新型电池，它所含有的新材料，是Persson在2004年首次通过计算机模拟发现的。

石油巨头BP最近也与初创公司Kebotix建立了合作伙伴关系，这家总部位于马萨诸塞州的公司开发了一种AI驱动的工具，以用于设计更环保的塑料配方。

但是，就算使用了AI和超级计算机，Ulissi和Sargent的团队还是花了大约三年的时间，来鉴定和测试这些新的催化剂。

Persson说，目前的瓶颈是在实验室中混合和测试化学物质——算法确实可以起到很大的作用，但你仍然需要在工作台上测试所有的想法。

“我们不能雇佣学校里的每一个研究生都站在流水线上，去尝试各种各样的可能性，而这些可能性正是计算结果向他们抛出的。”Persson认为，将机器人纳入工作流程将加快材料的发现，这是材料研究的必经之路。

事实上，Kebotix已经开始使用机器人来发现化学物质，首席执行官Jill Becker将其称为“自动驾驶实验室”（auto-driving laboratory）：计算机模拟为新材料的配方提供建议，机器人则对这些配方进行测试。、

Kebotix的客户可以选择独立使用这些功能，最近就有一家国家卫生研究院实验室使用他们的AI软件，更有效地进行药物开发实验。

不过，有了机器人，材料的发现还是需要人类的监督。Sargent表示，算法不是非常精确，合成新材料仍然需要“相当数量的手工制作”。

“实验主义者不会让理论家感到惊讶。就算有立式搅拌机、Instapots和面包机，厨房仍然需要一名厨师。”Sargent说。

雷锋网编译，via WIRED：https://www.wired.com/story/this-lab-cooks-with-ai-to-make-new-materials/

雷锋网雷锋网雷锋网

中国企业包揽主办权，奖金池 12 万美金， KDD Cup 2020 开赛

Sun, 05 Apr 2020 10:47:00 +0800

全球疫情严峻，各类赛事、会议能取消则取消，不取消的也纷纷改为线上进行，但学术顶会的步伐却未因此受阻。近日，ACM SIGKDD 公布了 KDD Cup 2020（国际知识发现和数据挖掘竞赛）的赛事安排。

KDD Cup 2020 将延续 2019 年的三个赛道：常规机器学习赛道、自动化机器学习赛道、强化学习赛道，阿里、Biendata 分别主办了常规机器学习赛道的赛道一和赛道二，第四范式、滴滴则分别主办了后两个赛道，而第四范式也是连续第二年主办自动化机器学习赛道。所有的比赛都将在 3 月-4 月进行，奖金池更是达到了 12 万美金。

本次 KDD Cup 主席团中也有着两张华人面孔：清华计算机系教授唐杰和滴滴技术副总裁叶杰平。唐杰曾任 KDD 2018 大会副主席，并获得当年的杰出贡献奖；叶杰平则从 2005 开始便成为 KDD 的常客，并在 2013 年获得 KDD 最佳论文奖，而其和学生在 KDD 中过的论文总数超过 60 篇。

同时，ACM SIGKDD 和 KDD 2020 组委会也表示，将以参会者和志愿者的健康、安全为首要考虑，在现行惯例之外，采取有效措施，根据疫情变化，探索可用方案，以保证赛事的有序进行。

KDD Cup 2020 赛项

• 常规机器学习赛道（ML 赛道 1）「现代电子商务平台挑战赛」（于 2020 年 3 月 30 日开放）

• 常规机器学习赛道（ML 赛道 2）「图片对抗性攻防」（于 2020 年 4 月 15 日开放）

• 自动化机器学习赛道（AutoML 赛道）「用于图表示学习的 AutoML」（于 2020 年 3 月 30 日开放）

• 强化学习竞赛赛道（RL 赛道）「学习按需移动平台上的调度和重定位」（2020 年 4 月 2 日开放）

常规机器学习赛道（ML 赛道 1）

赛道关键字：学习表示，迁移学习，图像、视频和文本处理

平台：天池

总奖金： 40,000 美元

报名时间：UTC 2020 年 3 月 30 日至 2020 年 4 月 27 日。UTC 2020 年 4 月 27 日晚上 11:59 将关闭报名入口，并禁止换队。

任务及评审标准：ML Track 1「现代电子商务平台挑战」赛项，要求参赛者通过考虑不同类型的复杂信息和模式之间的紧密联系，学习高质量的跨模式表达；然后，学习表示可用于计算表示之间的相似度得分，并选择与文本相关的图像/视频；最后，每一次提交都将在测试数据集上进行评估，该数据集评估检索到的产品与事实之间的对应关系。

此赛项有两个分任务，任务 1 主题为「召回多模式实体」。

参赛者需要设计一个模型框架，以促进对图像和视频的有效语义理解、搜索和检索，以便召回具有适当多模态内容的产品并对其进行排名，从而帮助消费者做出更好的决策。

召回多模式实体赛项详情：

https://tianchi.aliyun.com/competition/entrance/231786/introduction?spm=5176.12281949.1003.4.2926539dVvsnc8

任务 2 主题为「消除偏见」。

由于指定目标（例如 ctr，cvr 或 gmv）带来的算法偏见，将导致机器学习推荐系统产生严重的马太效应，用户将搜到曝光率更高的商品，从而导致推荐的不公平。因此，了解系统是否公平是至关重要的，也即「消除偏见」。

消除偏见赛项详情：

https://tianchi.aliyun.com/competition/entrance/231785/introduction?spm=5176.12281949.1003.5.2926539dVvsnc8

常规机器学习赛道（ML 赛道 2）

赛项关键词：生成对抗网络（GAN），图结构数据，图嵌入

总奖金： 19,000 美元

平台： Biendata

任务及评审标准：ML 赛道 2 「图片对抗性攻防」赛项分为两个阶段。

在第一阶段，将为所有团队提供一个图形数据集，然后要求参赛者以作为一种攻击形式，提交该数据集的修改版本，修改后的数据看起来应与原始图「相似」，但在竞赛系统后端准备并保存的基准模型下分类精度较低。

在第二阶段中，所有团队都必须提交攻击模型和防御模型，塞方将发布相似但不相同的图形数据集。攻击模型是一种算法，可以读取图形和防御模型，并根据这两个输入来修改图形。防御模型是对图进行稳健分类的模型。

评审标准：然后赛方将匹配所有团队的所有进攻模型和防守模型。在每次比赛中，攻击模型将首先修改图，而防御模型则将修改后的图分类，比赛系统将记录每次比赛的准确性。最后，每支球队都会获得两个模型的准确性报告，然后以此作为排名依据。

ML 赛项 2 详情地址：

https://biendata.com/competition/kddcup_2020/

自动化机器学习赛道（AutoML 赛道）

赛项关键字：图表示学习，图结构化数据，图嵌入，AutoML

总奖金： 33,500 美元

平台： CodaLab

任务及评审标准：AutoML 轨道「用于图表示学习的 AutoML」是有史以来第一个应用于图结构数据的 AutoML 挑战。

在这一挑战中，参赛者被要求搭建用于图表示学习的 AutoML 解决方案，以自主地绘制图形表示学习问题（无需任何人工干预），其中节点选择分类作为评估学习表示质量的任务。

每个团队都有三个公共数据集来开发 AutoML 解决方案，并提供六个反馈数据集，以使参与者能够评估他们的解决方案。这些解决方案将在没有人工干预的情况下使用六个看不见的数据集进行评估，优胜者将根据数据集的最终排名进行选择。

AutoML 赛项详情地址：

https://www.automl.ai/competitions/3

强化学习比赛赛道（RL 赛道）

赛道关键字：强化学习，按需机动性，车辆重定位

总奖金： 30,000 美元

平台： CodaLab

任务及评审标准：RL 轨道「学习按需移动平台上的调度和重定位」赛项要求：参与者应用机器学习工具来确定新颖的解决方案，重点考察点为如何应用机器学习解决方案来提高 MoD 平台的效率。

其中包含了 2 个任务，即按需移动（MoD）平台上的订单分派（订单匹配）和车辆重定位（车队管理）。

任务 1 订单分派要求团队开发一种算法，实现在两秒钟的调度窗口内确定订单驱动程序分配。其中，未完成的订单（行程请求）和可用的驱动程序需要在窗口中进行批处理，它们的状态信息将传递到订单调度算法中。

在整个模拟中，将为每个调度窗口重复调用此模块。评估模拟将运行多天，从中计算出平均驾驶员总收入，以此作为算法的得分。

任务 2 车辆重新定位要求团队为预选的小型车辆开发一种重新定位算法。对于这些车辆中的任何一个，如果连续怠速时间超过 L = 5 分钟的阈值，则该车辆可以重新定位。

环境会定期将所选组中所有合格车辆的状态信息发送到重新定位算法，该算法指示驾驶员驶向特定目的地。模拟期间，参赛算法的平均个人收入率，被计算为该算法的分数。

这些算法将在团队无法访问的模拟环境中进行评估，除了环境所产生的分数之外。参与团队可以选择开发一种或两种算法。

RL 赛道详情地址：

https://outreach.didichuxing.com/competition/kddcup2020/

KDD Cup：数据挖掘的世界杯

KDD Cup 由美国计算机协会知识发现与数据挖掘专委会（ACM SIGKDD）发起，被称为数据挖掘的世界杯，是该领域水平最高、影响力最大的顶级赛事。该比赛同时面向企业界和学术界，从 1997 年开始，每年举办一次，吸引了世界数据挖掘界的顶尖专家、学者、工程师前来参赛。

此外，KDD Cup 可以说是华人的主场。

2005 年杨强（右二） KDD Cup 夺冠照片

最早，2004、2005年，香港科技大学教授、IEEE Fellow 杨强曾带领其团队连续两年拿下 KDD Cup 比赛冠军。到了 2017 年，中国队伍几乎包揽了 KDD Cup 的所有奖项。

KDD Cup 强调应用，前期的承办者多为高校，近十年则越来越多由企业赞助。与此同时，中国企业的出镜率也越来越高。KDD Cup 2017 便曾由阿里云承办，百度、第四范式也赢得过 KDD Cup 2019 的主办权。

2019 年，KDD Cup 有了独立的议程，并首次设立 3 个赛道：Regular ML（常规机器学习）、Auto-ML（自动化机器学习）、Humanity RL（强化学习），其中强化学习的赛道为首次设立。三个赛道的冠军分别被蚂蚁金服和日本的 NTT DOCOMO 公司、深兰科技和北京大学团队、国立成功大学拿下。

雷锋网.雷锋网.雷锋网

复杂场景下的多目标定位——深度学习算法综述

Sun, 05 Apr 2020 10:43:00 +0800

雷锋网按：本文为矩视智能创始人弭宝瞳投稿。矩视智能成立于 2017 年 10 月，专注于机器视觉，主要通过 SaaS 云平台帮助提升工厂机器视觉开发、升级效率。弭宝瞳为中国人民大学计算机博士，曾在奇虎 360 任产品经理、研发工程师。

一、背景知识

目标定位是计算机视觉的重要应用场景之一。在工业生产、航空航海、农产品包装等众多领域内均已得到广泛应用。在工业生产中，通过目标定位可以实现精准地完成自动抓取、自动上料等操作；在航空航海中，利用目标定位可以为海上打捞等工作提供可靠的位置服务；在交通运输中，借助目标定位可以准确获取车辆的位置信息。

由于上述领域相关的图片信息都具有十分复杂的背景，对待识别目标干扰性强，且通常存在目标重叠、相似度高、部分遮挡等问题，进行目标定位具有相当大的难度。

二、传统算法

传统的目标定位算法通常使用滑动窗的方法，主要可分为以下三个步骤：

（1）候选框：利用不同尺寸的滑动窗，在图片中标记一块区域作为候选区；

（2）特征提取：针对输入图片的候选区域，提取视觉特征（例如人脸检测常用的Harr特征、行人检测和普通目标检测常用的HOG特征等）；

（3）分类器识别：利用分类器进行目标和背景的判定，比如常用的SVM模型等。

上述传统算法在一些特定的应用方面已经取得了不错的成绩，但仍有不少缺点。首先，其需要手动提取图像特征，提取方法需要不断尝试比较才能得到好的特征；其次，提取的特征与模型性能的优劣直接相关，导致模型针对性强，不能灵活应用于其他情景；此外，有些算法中还涉及到复杂的边缘检测过程，包括阈值分割、分水岭算法等。繁杂的处理过程导致模型检测效率较低，无法满足在工业生产中的广泛应用。

三、深度学习

在2012年的ImageNet竞赛中，AlexNet神经网络一举成名，也使CNN成为了计算机视觉研究的中心，同时再一次掀起了深度学习的研究热潮。

3.1R-CNN[1]

R-CNN是先进的视觉对象检测系统，它将自下而上的候选区域提取与卷积神经网络的丰富功能结合在一起。R-CNN在不使用上下文记录或要素类型集成的情况下实现了检测精度的大幅提升。

R-CNN算法的具体实现方法如下：

输入图片，基于区域候选方法（如selective search方法）生成约2000个候选区域；

对每个候选区域进行Resize，固定大小后送入CNN模型中并得到特征向量；

将特征向量送入一个多类别的分类器中，判断候选区域中所含物体属于每个类别的概率大小；

在R-CNN最后训练一个边界框回归模型，以提升目标定位的准确性。

本方法使用CNN网络自动提取特征，避免了手动提取特征的复杂操作，提升了工作效率。但由于每个候选区域都需要送入CNN模型计算特征向量，会耗费一定的时间。

3.2FasterR-CNN[2]

Faster R-CNN是目标检测领域最经典的算法之一。它主要由用于生成候选区域框的深度全卷积网络和Fast R-CNN 检测模型两部分构成。

Faster R-CNN的网络结构如上图所示，由图中可以看出其由四部分组成：

Conv layers：对输入的整张图片，提取其特征图；

Region Proposal Networks：用于推荐候选区域（通过softmax判断anchors属于前景还是后景，并借助box regression修正anchors，输出多个候选区域）；

ROI Pooling：将不同大小的输入转换为固定长度的输出，送入后续的全连接层判定目标类别；

Classification：输出候选区域所属的类别及其精确的位置。

RPN层是Faster R-CNN网络最大的亮点，使用RPN代替启发式候选区域的方法，极大的加快了训练的速度和精度。

3.3 Yolov3[3，4]

前面介绍的两种算法均为Two-stage，而Yolo属于One-stage，它不需要提取候选区域，可以直接产生物体的类别概率和位置坐标值，这里将针对目前更受欢迎的Yolo v3展开介绍。

Yolo v3的具体实现可以分为三步，分别为：

多尺度预测：借助残差网络结构形成了更深的网络层次，可以在三种不同的尺度上进行检测；

基础网络：使用Darknet的变体Darknet-53，在Imagenet上训练了53层网络，并在检测任务时再次堆叠53层，形成了106层完全卷积的底层架构；

分类器：使用多个logistic分类器，以进行多标签对象的分类。

作为Yolo算法多次优化后的产物，Yolo v3是当前目标检测最优的算法之一，其具有结构清晰，实时性好，可以通过改变模型结构的大小平衡速度与精度等优点。此外，Yolo v3还提升了小尺寸物体的检测效果，解决了前两个版本存在的问题。

3.4 SSD[5]

SSD算法（全称Single Shot MultiBox Detector）同Yolo一样属于One-stage，且整体稳定性比Yolo好很多，其网络结构如下图所示。

SSD的基本实现流程较Yolo复杂，可概括如下：

输入图片，使用卷积神经网络CNN提取特征，并生成特征图；

抽取其中6层的特征图，并在特征图的每个点上生成default box；

将所得的default box全部集合起来，并输入极大值抑制NMS中，筛选并输出最后的default box。

同样作为One-stage方法，SSD采用CNN直接检测的方法替代Yolo在全连接层之后做检测的方法提升了训练速度。此外，SSD提取不同尺寸的特征图，分别用来检测大小不同的物体；还使用不同尺度和长宽比的Anchors提升了定位准确度，实现了在高速运行的同时保持高精度的重大突破。

四、总结

本文参考前沿文献，总结了部分目前应用较为广泛的部分目标定位算法框架及具体思路。总的来说，目标定位检测可分为Two-stage（产生候选区+确定位置）和One-stage（直接产生物体的位置坐标值）两大类，均可以实现快速准确且鲁棒性好的目标定位，且可以灵活的应用于建筑业、航天工程以及工业生产等众多行业。

参考文献：

[1] Girshick R, Donahue J, Darrell T, et al. Region-based convolutional networks for accurate object detection and segmentation[J]. IEEE transactions on pattern analysis and machine intelligence, 2015.

[2] Ren S, He K, Girshick R, et al. Faster r-cnn: Towards real-time object detection with region proposal networks[C]//Advances in neural information processing systems. 2015.

[3] Redmon J, Farhadi A. Yolov3: An incremental improvement[J]. arXiv preprint arXiv:1804.02767, 2018.

[4] https://towardsdatascience.com/yolo-v3-object-detection-53fb7d3bfe6b.

[5] Liu W, Anguelov D, Erhan D, et al. Ssd: Single shot multibox detector[C]//European conference on computer vision. Springer, Cham, 2016.

雷锋网，雷锋网

复杂场景下的复杂缺陷检测方法——深度学习算法综述

Sat, 28 Mar 2020 17:07:00 +0800

一、背景知识

随着自动化技术的快速发展，在工业生产中很多需要人工操作的环节逐渐转由机器完成，工业生产自动化也将越来越多的工人们从枯燥乏味的工作中解放出来，让他们去发挥更大的价值。

产品表面缺陷检测是工业生产中的重要环节，是产品质量把控的关键步骤，借助缺陷检测技术可以有效的提高生产质量和效率。但是由于设备及工艺等因素的影响，产品表面的缺陷类型往往五花八门，比如织物生产中方出现的污点、破损，金属产品上的划痕、裂纹、凹凸不平等各种不同类型的缺陷，如下图所示。

单张图片中的缺陷多样且不同缺陷表现形式的也不相同，给缺陷的自动化检测带来了困难。

二、传统算法

传统的表面缺陷检测算法结构通过图像预处理得到便于检测的图像，随后借助统计机器学习方法来提取图像特征，进而实现缺陷检测的目标。

图像预处理通常包括直方图均衡化、滤波去噪、灰度二值化、再次滤波几部分，以得到前后景分离的简单化图像信息；随后利用数学形态学、傅里叶变换、Gabor 变换等算法以及机器学习模型完成缺陷的标记与检测。

上述传统算法在某些特定的应用中已经取得了较好的效果，但仍然存在许多不足。例如：图像预处理步骤繁多且具有强烈的针对性，鲁棒性差；多种算法计算量惊人且无法精确的检测缺陷的大小和形状。而深度学习可以直接通过学习数据更新参数，避免了人工设计复杂的算法流程，并且有着极高的鲁棒性和精度。

三、深度学习

目前，基于深度学习的缺陷检测已经应用于金属固件、布匹丝织物、建筑裂纹、钢筋裂纹等多个领域，并取得了不错的成果。下面将结合具体案例介绍其实现方法。

3.1裂纹缺陷检测[1]

建筑材料（如磁瓦等）的外观变化（如裂纹或腐蚀等）与其建筑结构的安全性密不可分，而依靠检察员视觉检查的效果局限性大，相比之下，基于计算机视觉的结构损伤检测更为可靠便捷。

本文使用Faster RCNN实现对图像的准实时处理，其整体架构包括RPN和Fast RCNN两部分，如上图所示，RPN和Fast RCNN使用相同的CNN网络从图像中提取特征，CNN的主要结构如下图所示。

RPN的作用为提出候选目标，结构示意如图所示，其实现流程包括：

输入图像后，利用CNN网络得到特征图；

将特征图上每一个CONV滑动窗的特征映射为向量并输入Softmax和Regressor层中；

预测缺陷边界框的坐标。

Fast RCNN的作用为对图像中的缺陷位置进行定位和分类，其结构流程如上图所示。

从输入图像中提取特征图并获得感兴趣区域（ROI）；

在ROI池中，预先计算的兴趣区域覆盖在特征图上，提取固定大小的特征向量；

将所得向量输入全连接层，计算边界框的位置并对框内对象进行分类。

3.2破损缺陷检测[2]

在电气化铁路等工业中，有许多关系着安全的重要固件，这些固件的缺陷检测十分重要。

本文作者利用深度卷积神经网络（DCNNs）结合SSD，Yolo等网络方法构建了一个从粗到细的级联检测网络，包括固件的定位、缺陷检测与分类，其实现流程如下图所示。

（1）紧固件提取

借助在速度和精度方面都表现良好的SSD框架，对图像中的悬臂节点进行定位；

基于Yolo框架的快速本地化架构，对紧固件进行定位。

（2）固件缺陷检测与分类

根据第二阶段对紧固件的检测来判断缺陷；

再次借助DCNN，通过4个卷积层对缺陷进行分类（分类网络结构如下图）。

DCNNs具有良好的鲁棒性和自适应性，有利于检测的快速进行，因此本方法在紧固件的缺陷检测和分类中具有良好的应用前景。

3.3斑点缺陷检测[3,4]

斑点缺陷检测在纺织、木材、瓷砖等许多行业中都很常见，通常利用其纹理的一致性实现检测的目的。近年来，利用深度学习视觉检测技术对相关产业的表面缺陷检测引起了广泛关注。

作者采用结合图像金字塔层次结构思想和卷积去噪自编码器网络（CDAE）实现对布匹纹理图像的缺陷检测，其总体结构如下图所示。

（1）训练阶段

图像预处理：光照归一化、高斯金字塔下采样和噪声降噪等操作，避免光照等因素的影响；

Patch提取：提取Patch对每个金字塔层的CDAE网络进行训练；

模型训练：利用训练Patch的重构残差作为像素级缺陷预测的指标；

阈值确定：区分缺陷点与无缺陷点的重要参数。

（2）模型测试阶段：

图像预处理：只需进行光照归一化和高斯金字塔下采样操作即可；

Patch提取：提取Patch用于纹理检测；

残差贴图构造：提取局部接受域在训练后的模型中滑动，以对每一个像素进行预测；

缺陷分割：对每个金字塔层的残差图进行分割；

合成：将多个金字塔级别的信息合成，以提高缺陷检测的鲁棒性和准确性。

文章通过分析和实验已经证明，充分利用无监督学习和多模态结果融合策略，可以提高缺陷检测的鲁棒性和准确性。

3.4划痕缺陷检测[5]

划痕缺陷检测通常用于金属类产品的表面缺陷检测中，随着生活质量的提高，人们对产品的外观完整性与美观程度的要求也越来越高，因此精准地检测到产品外观的划痕等缺陷在生产环节十分重要。

使用上图所示的缺陷检测体系结构，下面将针对检测模块展开介绍。

（1） CASAE架构

将两个自动编码器（AE）级联在一起，这里的AE结构是FCN框架的迁移使用，有一层层的卷积、反卷积和跳跃链接组成，其结构如下图所示。

（1）阈值模块

连接到CASAE网络末端的独立模块，用于进一步细化预测掩码的结果。

（2）缺陷区域检测

通过语义分割获得所有可能缺陷的区域，进一步使用blob分析以寻找准确的缺陷轮廓，最终从图像中提取最小的外接矩形区域。

四、总结

本文参考前沿文献，总结了部分当前主流的缺陷检测实现思路。总的来说，使用基于深度学习的算法可快速准确地实现的缺陷检测，且适用范围广能够灵活地应用于建筑、金属固件以及布匹丝织物等众多行业的生产过程中。

雷锋网

参考文献：

[1] Cha Y J et al. Autonomous structural visual inspection using region‐based deep learning for detecting multiple damage types[J]. Computer‐Aided Civil and Infrastructure Engineering, 2018.

[2] Chen J et al. Automatic defect detection of fasteners on the catenary support device using deep convolutional neural network[J]. IEEE Transactions on Instrumentation and Measurement, 2017.

[3] Mei S et al. An unsupervised-learning-based approach for automated defect inspection on textured surfaces[J]. IEEE Transactions on Instrumentation and Measurement, 2018.

[4] Mei S el al. Automatic fabric defect detection with a multi-scale convolutional denoising autoencoder network model[J]. Sensors, 2018.

[5] Tao X et al. Automatic metallic surface defect detection and recognition with convolutional neural networks[J]. Applied Sciences, 2018.

雷锋网.雷锋网.

从算法爬坡到 AI 基建，旷视“天元”开源背后的 AI 生产力破局

Thu, 26 Mar 2020 16:23:00 +0800

更大的数据，更大的模型，更好的算法，深度学习兴起之后，这些因素就成了 AI 公司最重要的考量。尤其对于语音、NLP、计算机视觉等应用，海量数据与精确算法支撑下不断提升的应用，是 AI 企业建立外部认知的最重要载体。

在技术爬坡、订单获取上，算法是基础。但当企业经历几年的跑马圈地，单纯的算法之外，一家 AI 公司还需要什么？巨头与行业独角兽们正在试图回答这个问题。

近日，计算机视觉领头公司旷视正式宣布开源其深度学习框架 MegEngine，中文名“天元”（传送门：MegEngine.org.cn）。

从算法到 AI 基础设施

印奇说，旷视要成为中国最强的 AI 公司，这其中是对算法能力、产品能力、解决方案能力、业务运营能力的多重要求，而算法是旷视的核心基因。

旷视业务以机器视觉为核心，对算法精度要求更高。早几年，和很多企业一样，团队主要精力都聚焦在如何精进算法上。在算法精度上，如何在“小数点”后的数字上做提高，再把算法放入相应的场景，为客户提供视觉解决方案，是团队的工作重点。

但如 CTO 唐文斌所言，AI 应用是一个无限游戏——算法无限，场景无限，对应所需要的产品也是无限的，要达成企业用 AI 惠及世界的最初愿景，一个更高效的做法是解决 AI 基础设施的问题。

何为 AI 基础设施？唐文斌给出了两大核心要素：承载 AI 计算的芯片平台是其一，一个可以协同优化算法、数据、算力的平台，即 AI 生产力平台是其二。因此旷视打造了自己的AI 基础设施 Brain++。

生产好的AI 算法是一个系统工程，要求同时具备标准化的数据管理、高效的深度学习框架和强大的算力。为此，Brain++ 作为AI 生产力平台主要涵盖了数据解决方案 MegData、深度学习框架 MegEngine、算力解决方案 MegCompute，是为三位一体。天元（ MegEngine）的开源只是开始， Brain++ 的更多数据管理、计算能力之后也将向企业级用户陆续开放。

发布会上，旷视云服务业务资深副总裁赵立威表示，旷视可以为企业级用户打造专属的Brain++ 平台，为合作伙伴提供AI生产全流程的服务，从专业咨询、到数据生产、模型优化，再到私有化AI平台的建设运维，满足各行业在”AI+“的过程中降本增效、自主安全和商业创新的诉求。

“单一算法壁垒很低，但是能够系统化地产生大量算法，并且结合场景不断迭代、优化，最终还能打造算法相关的产品和方案，这个壁垒非常高。”一年前印奇面对量子位的回答，已经宣示了旷视在此的雄心。

而从旷视近两年的一系列动作中，也可看出一个从底层算法到 AI 基础设施的上升轨迹。

2019 年 1 月，旷视发布 AIoT 操作系统“河图”，后者将作为智能机器人的网络协同大脑，接入物流场景下的多种硬件，在发布会上，“回归产业”、“赋能产业”几乎是印奇演讲的主题。

2019 年 10月，旷视推出城市物联网操作系统 CityIoT OS ，将公共安全、智慧交管、城市管理和智慧园区全局管理能力整合为一体。

AI 需要聚拢更多人的力量，才能创造更多价值。天元（MegEngine）乃至 Brain++ 的开源和开放，意在联合中小企业和更多开发者，接入更多设备，从而把 AI 这张网抻大。

深度学习，简单开发

天元是围棋棋盘最中心的点，MegEngine 中文名借此命名，一来致敬 AlphaGo；二来，天元是万物的基础，这个名字也是旷视对天元（MegEngine）成为中国人工智能发展的一块基石的寄望。

旷视副总裁谢忆楠做了一个朴素的举例：智能化是往硬件里植入算法。往越多的硬件里塞入算法，社会的协同网络便越大、越智能。这张协作网络便是物联网。天元的开源，则是赋予其它中小企业往硬件里内置算法的能力，并进一步迎合其在特殊场景的定制化需求，以帮助其达到真正的“深度学习，简单开发”。

除了最新开源的天元（MegEngine），目前国际主流的几种深度学习框架主要包含谷歌大脑2015年开源TensorFlow、谷歌的人工智能研究员François Chollet 2015年推出的Keras、Amazon 2015年底开源的MXNet、Facebook 2016年开源的PyTorch、微软2016年开源的CNTK、百度2016年开源的飞桨等。天元（MegEngine）则从实际开发经验中的几个痛点入手，在性能上表现不俗：

1. 训练推理一体化

旷视天元既可支持研究员进行算法训练，同时训练得到的模型和产物是可以直接进行用于产品的推理、封装。省去模型转换不仅极大简化算法开发流程，更实现了速度和精度的无损迁移，即使是模型的跨设备部署，天元依然能够做到精度的对齐。在部署时，天元还可以帮助开发者自动删除冗余代码，实现模型自动优化。

2. 动静合一

静态图性能高、占用资源少且易于部署；动态图简单灵活、方便调试且易于上手。旷视天元整合了动态图与静态图各自的优势，在充分利用动态图模型训练优势时，通过动静态一键转换功能，以静态图的形式完成生产和部署；此外，天元还支持动静态的混合编程，灵活性更强。

3. 兼容并包

旷视天元具备Pythonic的API，这对习惯用Python进行传统机器学习的开发者来说非常友好，学习成本更低、易于上手，同时天元还支持PyTorch Module功能，可以直接导入模型，迁移成本低且极大方便模型复现；天元内置高性能计算机视觉算子和算法，可为计算机视觉相关模型训练和应用实现深度优化。

4. 灵活高效

旷视天元具备很强的多平台多设备适应能力，可通过类似汇编和指令重排等技术，使得天元内置算子能够在推理或生产环境中充分利用多核优势，灵活调用设备的计算力，尤其适用于大模型算法训练。

总的来说，MegEngine 在协同设计、高效训练、大规模训练能力上，做到了更完整的统一与升级。

相比平台级公司的科技巨头，旷视成立之初便是一家以 AI 为驱动的企业，天元深度学习框架的开发以其核心业务为土壤，在应用场景和落地案例中经过不断的反馈、调试，尤其在视觉任务的处理上，更加适合开发者。

基于与TensorFlow、PyTorch 等框架的不同优势，开发者也可以同时使用不同框架，解决自身问题。

生态共建者

过去几年，中国企业纷纷拥抱开源，但多数是被形势驱动，勉力上赶，早期便做下铺垫并持续技术积累的不多，从这个角度看，旷视算是个异类。

2014 年，深度学习刚刚兴起不久，当时公司使用的还是 Theano 框架，效率低下。旷视研究院的 3 名实习生，在其自动化算法研发系统 Cycle++ 的基础上，不到半年的时间里，写出了一个初版的深度学习框架，便是 MegEngine 的雏形。

MegEngine 诞生的第二年，谷歌开源了 TensorFlow。在深度学习框架的选择上，买巨头的船票，还是自己造船，团队内部经历了长久的争论。

高投入的自研意味着对团队的极大考验，此时，成立不到 4 年的旷视，技术团队尚不足20人，再配合业务的落地推进，难度指数级增长。但刚刚开源的 TensorFlow 尚有不少缺憾有待完善，对团队来说，远不如自研的天元（MegEngine ）称手。并且，对于一个以 AI 为绝对主业务的企业来说，长期来讲，自研深度学习框架更易于面向自身需求调整、迭代算法。

如今来看，当年的争论结果已经非常明显，旷视选了那条难走但是正确的路。

2015 年，天元便在旷视内部全员使用，其所有算法都是基于该框架进行训练、推理。目前，天元已经迭代到第 8 版，用在了上百个产品、几十种计算平台上。

再问：有大哥坐镇，天元有自身优势虽不假，但又如何与先来者抗衡？

这家 AI 企业似乎并没有在这个问题上花费太多时间。

“我们不觉得天元和其他的（框架）是竞争关系，而是共同借助开源生态的培育与建设，形成良性有机的局面。我们期望能够营造一个开放的社区，一个能够接纳大家新想法、共同创造的社区。不论是一个技术产品，还是一个开源框架，都需要以是否好用、是否成熟、是否能够做得更好来作为最终的评判标准。”旷视研究院高级技术总监田忠博总结道。

欢迎规则“打乱”者

天元现在开源的是Alpha版本，其开源生态最终将如何展开，还需要持续迭代，但一个在算法上有成绩的优秀选手，在算法工具上自然具备充分的底气。在不断推进的手机智能、智慧城市、供应链等落地案例之外，旷视研究院的参赛团队一直是近些年各大顶级比赛和会议的常驻冠军。

从目前的规划来看，天元将保持每 3 月一迭代的节奏：3 月发布 Alpha 版本，释放关键代码；6 月发布 Beta 版本，全面提供基于 ARM 系列的 CPU 支持能力，并引入更多加速设备；9 月的 1.0 版本将涵盖所有核心功能、部件，支持所有主流计算设备。之后，天元也将在 GitHub、Ihub 逐步开源。

“虽然在国外有两家非常大的深度学习引擎，有很大的体量，但里面依然有一些开放的和技术的难题没有解决。”旷视研究院院长孙剑解释道。

“我们希望开源这个框架，能够将很多年轻人提出的创造性的新解法注入进去，我们也希望，有更多优秀的开发者能够贡献出他们的创造力，把我们的规划打破、打乱。”

雷锋网雷锋网雷锋网

mathor 大佬聊赛事：处理「微博立场检测」赛事，数据比模型重要

Wed, 25 Mar 2020 10:50:00 +0800

坐镇大佬：

mathor：武汉某高校软件工程大四学生（数学家是我理想）

AI 研习社 ID：@mathor

（个人主页链接：https://www.yanxishe.com/center/myPage/5148812）

「微博立场检测」赛事链接：https://god.yanxishe.com/44

AI 研习社：简单介绍一下你的个人背景，让我们更了解你呗。

mathor：我现在就读于武汉一所普通高校，大四，今年 6 月份毕业，然后参加了 20 年的研究生入学考试。我的本科是软件工程专业。

AI 研习社：之前参加过类似的比赛吗？

mathor：这已经是我第二次参赛。第一次参赛是在 19 年暑假，那是一场高校大数据挑战赛，赛题是广告点击预测。那一场赛题比较简单，尤其数据字段较少，不需要运用很复杂的特征工程，非常适合当时的我。

AI 研习社：比起其他 NLP 赛事，你认为“微博立场检测”有何不同之处？它是怎么影响你的答题思路的？

mathor：首先，“微博立场检测”赛事的字段较少，意味着我们不需要做复杂的特征工程，对新手较友好。

其次，数据量少，所以只需要普通的 cpu 就能跑。

最后，正因为数据量较少，所以许多大佬惯用的深度学习方法，如 bert、lstm 等，使用后效果可能不是很好。反而是对模型了解较少，但是非常擅长处理数据的同学，会有更好的成绩。

AI 研习社：所以说你在上周五的 PPT 里着重强调了“数据清洗”的作用，这一块方便细谈一下吗？

mathor：这次比赛的数据都是中文的，相比英文而言，中文数据的清洗过程更复杂。

首先你得分词，这里就会面临很多问题，比如不同分词工具的效果不一致，而且不存在分词 100% 正确的工具。

其次，分完词后，你还将面临各种乱七八糟的字符，如网址、验证码、表情和中文标点符号，这些实际上没什么意义，如果可以过滤掉这些，肯定会对结果产生很大的影响。

假设现在有一个非常干净的数据样本，随便带入一个机器学习的模型，得出的结果不一定比非常乱的样本带入深度学习模型的效果差。

AI 研习社：所以你采取了“pkuseg分词+fasttext”的方案。

mathor：采取 fasttext 的原因是它非常简单，随便调一下就能用，这样我可以把更多精力集中在数据处理上。（mathor 大佬参赛baseline：https://god.yanxishe.com/codeplan/detail/72）

AI 研习社：你的 PPT 里还提到一点，就是要善用分词工具的语料库，这一块又是基于什么考量呢？

mathor：像我前面说过的，不存在 100% 分词正确的分词工具，所以应该要想尽办法提高分词的准确度。

假设分词不正确，后面的过滤可能就会出现问题——比方说很多同学会过滤掉长度等于 1 的字符，但是如果一开始分词的时候就不准确，结果过滤的时候把一些重要的信息过滤掉了，对结果肯定有影响。

而各种语料库就是为了帮助提升分词的准确性。

AI 研习社：在数据处理这块，你比较推荐哪些学习材料？

mathor：我基本上很少保存资料，都是需要用到的时候才 Google ，查不到了再来问人。

以下这个表情包我个人觉得非常经典（笑）。

AI 研习社：你的 AI 基础知识也是自学的吧？有没有什么较好的网站或课程推荐？

mathor：龙曲良老师的 pytorch 课程。

AI 研习社：据了解，你还拥有自己的个人博客，可以向我们介绍一下吗？

mathor：我的个人博客网址是 https://wmathor.com/ ，里头主要更新自然语言处理、算法等技术方面的内容，少量写一些个人感悟之类的。

AI 研习社：你觉得写个人博客对你最大的影响是什么？

mathor：学习完了，要是不及时做笔记，最后会忘记的（笑）。

AI 研习社：还有哪些关于“微博立场检测”的关键信息，是我的问题没问出来，你认为有必要跟大家强调的？

mathor：现在比较流行集成模型，有时间的大佬可以尝试建立多个模型，然后做个简单的投票，或者stacking之类的，或许有奇效。毕竟那么多比赛，那么多人都在用。

这是模型方面，数据处理方面我就不多说了，已经快要接触到我的方法的核心了（笑）。

AI 研习社：最后一个问题，你认为什么是“打比赛的正确姿势”？

mathor：不要随便提交代码，因为每天提交的次数有限；

同时不要过分相信验证集的分数，很可能不准，所以一定要有自己预判分数的方法，什么方法都行；

然后就是，不会的就及时上网查，原理不懂不要紧，最重要的是要能快速使用。

「微博立场检测」赛事链接：https://god.yanxishe.com/44

雷锋网雷锋网雷锋网

春招专场 | 阿里大牛直播第 3 讲：有文娱特色的 CV 算法和应用场景（附内推岗位）

Tue, 24 Mar 2020 17:11:00 +0800

春招热季，AI研习社联合多家企业推出「工程师成长系列」，阿里文娱高手能人太多，为了让大家更全面、直观地感受下阿里文娱牛人的成长之路，我们推出专场，一共4讲，个个都是求职者关心的：

阿里需要什么样的人？
阿里算法工程师是如何成长的？
阿里大牛解析计算机视觉和搜索推荐技术
还有，阿里内推直梯！

本周二（3月24日）晚上19:00点，「职播间」第27讲邀请到了阿里文娱资深算法专家任海兵来分享，本场主题为「阿里文娱技术解析之计算机视觉」。本次职播是AI研习社与阿里文娱联合推出的系列课程的第三期。

社长小tip：登陆AI研习社网站完善个人资料，可以下载更多嘉宾课件and超级无敌多技术资料哦~

背景

受疫情影响，裁员、降薪、延迟返工等「负面新闻」不绝于耳，越来越多的开发者担心自己能否在「金三银四」的招聘旺季里找到合适的工作。

近期，AI 研习社对不少企业做了调研和沟通，发现很多企业对优质人才的需求丝毫没有减弱，甚至迎难而上，高薪聘请合适的人才。

在现在这样特殊的情况下，作为一个专为 AI 开发者和学术青年服务的求知求职社区，AI 研习社结合自身学术和求职资源以及雷锋网的媒体资源，联合阿里文娱推出了系列公开课，帮助更多的开发者们应该做足准备，在春招中取得心仪offer，进入到目标企业。

分享大纲

1.阿里文娱视觉方向的特点：文娱与支付宝人脸识别的区别

2.具有文娱特色的计算机视觉算法和应用场景

视频超分和质量增强：老片修复
视频指纹：视频版权追踪
视频检索：场景分类、视频类目、人体动作识别
跨镜头人物检测/跟踪/识别：只看他、视频剪辑
图像和视频人物分割：智能内容生成
3D场景重建：子弹时刻
检测和图像修复：视频去水印

嘉宾介绍

阿里文娱资深算法专家任海兵，2003年清华大学计算机系计算机应用专业博士毕业。先在三星中国技术院工作11年，先后担任计算机视觉和医疗图像算法团队负责人。2014年加入英特尔中国研究院，从事机器人视觉感知研究工作。2018年底，任加入阿里文娱摩酷实验室，从事视频理解算法研究。在计算机视觉领域有20多年的研究经验，担任CVPR、ICCV、ECCV等国际顶级学术会议审稿人，发表30余篇论文，拥有30多项专利。

直播时间

2020年3月24日（本周二）晚上19点（北京时间）

参与方式

1.扫描下方二维码，添加小助手，备注“春招求职”；

2.直播前小助手会集中拉群，发布直播链接，第一时间获得直播动态；

3.解锁阿里最新实用入职干货，系列大牛将在群里最先预告。欢迎求职的小伙伴们奔走相告，我们也将抽送AI研习社周边礼品。

雷锋网雷锋网雷锋网

春招专场 | 阿里文娱大牛直播第 2 讲：我的算法工程师之路（附内推渠道）

Tue, 17 Mar 2020 11:12:00 +0800

春招热季，AI研习社联合多家企业推出「工程师成长系列」，阿里文娱高手能人太多，为了让大家更全面、直观地感受下阿里文娱牛人的成长之路，我们推出专场，一共4讲，个个都是求职者关心的：

阿里需要什么样的人？
阿里算法工程师是如何成长的？
阿里大牛解析计算机视觉和搜索推荐技术
还有，阿里内推直梯！

本周二（3月17日）晚上19:00点，「职播间」第26讲邀请到了阿里文娱高级技术专家随方来分享，本场主题为「我在文娱的算法工程师之路」。本次职播是AI研习社与阿里文娱联合推出的系列课程的第二期。

社长小tip：登陆AI研习社网站完善个人资料，可以下载更多嘉宾课件and超级无敌多技术资料哦~

背景

受疫情影响，裁员、降薪、延迟返工等「负面新闻」不绝于耳，越来越多的开发者担心自己能否在「金三银四」的招聘旺季里找到合适的工作。

近期，AI 研习社对不少企业做了调研和沟通，发现很多企业对优质人才的需求丝毫没有减弱，甚至迎难而上，高薪聘请合适的人才。

分享大纲

初出校园：保持初心，治愈迷惘

我所体验的成长误区和弯路

如何在成就团队中成就自己

有生命的组织和阿里人的修炼

阿里文娱算法团队的特质

嘉宾介绍

阿里文娱高级技术专家随方，毕业于华南理工大学，计算机硕士。目前为阿里巴巴文娱算法引擎团队高级技术专家。职业生涯开始于微软，在传统IT的外企（北电网络，HP Lab）工作多年后，投身互联网公司（JD，阿里），中间曾在创业公司短暂工作一年多。

直播时间

2020年3月17日（本周二）

晚上19点（北京时间）

参与方式

1.扫描下方二维码，添加小助手，备注“春招求职”；

2.直播前小助手会集中拉群，发布直播链接，第一时间获得直播动态；

3.解锁阿里最新实用入职干货，系列大牛将在群里最先预告。欢迎求职的小伙伴们奔走相告，我们也将抽送AI研习社周边礼品。

雷锋网雷锋网雷锋网

复杂场景下的 OCR 如何实现——深度学习算法综述

Sat, 14 Mar 2020 19:31:00 +0800

一、背景知识

文本是人类最重要的信息来源之一，自然场景中充满了形形色色的文字符号。在过去的十几年中，研究人员一直在探索如何能够快速准确的从图像中读取文本信息，也就是现在OCR技术。

工业场景下的图像文本识别更为复杂，它会出现在许多不同的情景下，如医药包装上的文字、各类钢制零部件上的字符、集装箱表面喷印的字符、商铺Logo上的个性化字符等等。

在这类图像中，文字部分可能会呈现为弯曲排列、曲面异形、倾斜分布、褶皱变形、残缺不全等多种形式，与标准字符的特征有较大出入，从而给图像文字的检测与识别带来了困难。

二、传统算法

传统OCR技术通常使用OpenCV算法库，通过图像处理和统计机器学习方法提取图像中的文字信息，用到的技术包括二值化、噪声滤除、连通域分析和Adaboost、SVM等。

按处理方式可以将传统OCR技术划分为图片预处理、文字识别、后处理三个阶段，其具体的技术流程如下图所示。

针对简单场景下的图片，传统OCR已经取得了很好的识别效果。但是从操作流程可以看出，传统方法是针对特定场景的图像进行建模的，一旦跳出当前场景，模型就会失效。随着近些年深度学习技术的迅速发展，基于深度学习的OCR技术也已逐渐成熟，能够灵活应对不同场景。

三、深度学习

目前，基于深度学习的场景文字识别主要包括两种方法，第一种是分为文字检测和文字识别两个阶段；第二种则是通过端对端的模型一次性完成文字的检测和识别。

3.1文字检测

顾名思义，文字检测就是要检测到图片中文字所在的区域，其核心是区分文字和背景。常用的文字检测算法包括以下几种：

3.1.1 CTPN [1]

CTPN是ECCV 2016提出的一种文字检测算法，由Faster RCNN改进而来，结合了CNN与LSTM深度网络，其支持任意尺寸的图像输入，并能够直接在卷积层中定位文本行。

CTPN由检测小尺度文本框、循环连接文本框、文本行边细化三个部分组成，具体实现流程为：

使用VGG16网络提取特征，得到conv5_3的特征图；

在所得特征图上使用3*3滑动窗口进行滑动，得到相应的特征向量；

将所得特征向量输入BLSTM，学习序列特征，然后连接一个全连接FC层；

最后输出层输出结果。

CTPN是基于Anchor的算法，在检测横向分布的文字时能得到较好的效果。此外，BLSTM的加入也进一步提高了其检测能力。

3.1.2 TextBoxes/TextBoxes++ [2,3]

TextBoxes和TextBoxes++模型都来自华中科技大学的白翔老师团队，其中TextBoxes是改进版的SSD，而TextBoxes++则是在前者的基础上继续扩展。

TextBoxes共有28层卷积，前13层来自于VGG-16(conv_1到conv4_3)，后接9个额外的卷积层，最后是包含6个卷积层的多重输出层，被称为text-box layers，分别和前面的9个卷积层相连。由于这些default box都是细长型的，使得box在水平方向密集在垂直方向上稀疏，从而导致该模型对水平方向上的文字检测结果较好。

TextBoxes++保留了TextBoxes的基本框架，只是对卷积层的组成进行了略微调整，同时调整了default box的纵横比和输出阶段的卷积核大小，使得模型能够检测任意方向的文字。

3.1.3 EAST [4]

EAST算法是一个高效且准确的文字检测算法，仅包括全卷积网络检测文本行候选框和NMS算法过滤冗余候选框两个步骤。

其网络结构结合了HyperNet和U-shape思想，由三部分组成：

特征提取：使用PVANet/VGG16提取四个级别的特征图；

特征合并：使用上采样、串联、卷积等操作得到合并的特征图；

输出层：输出单通道的分数特征图和多通道的几何特征图。

EAST算法借助其独特的结构和简练的pipline，可以检测不同方向、不同尺寸的文字且运行速度快，效率高。

3.2文字识别

通过文字检测对图片中的文字区域进行定位后，还需要对区域内的文字进行识别。针对文字识别部分目前存在几种架构，下面将分别展开介绍。

3.2.1 CNN + softmax [5]

此方法主要用于街牌号识别，对每个字符识别的架构为：先使用卷积网络提取特征，然后使用N+1个softmax分类器对每个字符进行分类。具体流程如下图所示：

使用此方法可以处理不定长的简单文字序列（如字符和字母），但是对较长的字符序列识别效果不佳。

3.2.2 CNN + RNN + attention [6]

本方法是基于视觉注意力的文字识别算法。主要分为以下三步：

模型首先在输入图片上运行滑动CNN以提取特征；

将所得特征序列输入到推叠在CNN顶部的LSTM进行特征序列的编码；

使用注意力模型进行解码，并输出标签序列。

本方法采用的attention模型允许解码器在每一步的解码过程中，将编码器的隐藏状态通过加权平均，计算可变的上下文向量，因此可以时刻读取最相关的信息，而不必完全依赖于上一时刻的隐藏状态。

3.2.3 CNN + stacked CNN + CTC [7]

上一节中提到的CNN + RNN + attention方法不可避免的使用到RNN架构，RNN可以有效的学习上下文信息并捕获长期依赖关系，但其庞大的递归网络计算量和梯度消失/爆炸的问题导致RNN很难训练。基于此，有研究人员提出使用CNN与CTC结合的卷积网络生成标签序列，没有任何重复连接。

这种方法的整个网络架构如下图所示，分为三个部分：

注意特征编码器：提取图片中文字区域的特征向量，并生成特征序列；

卷积序列建模：将特征序列转换为二维特征图输入CNN，获取序列中的上下文关系；

CTC：获得最后的标签序列。

本方法基于CNN算法，相比RNN节省了内存空间，且通过卷积的并行运算提高了运算速度。

3.3端对端文字识别

使用文字检测加文字识别两步法虽然可以实现场景文字的识别，但融合两个步骤的结果时仍需使用大量的手工知识，且会增加时间的消耗，而端对端文字识别能够同时完成检测和识别任务，极大的提高了文字识别的实时性。

3.3.1 STN-ORC [8]

STN-OCR使用单个深度神经网络，以半监督学习方式从自然图像中检测和识别文本。网络实现流程如下图所示，总体分为两个部分：

定位网络：针对输入图像预测N个变换矩阵，相应的输出N个文本区域，最后借助双线性差值提取相应区域；

识别网络：使用N个提取的文本图像进行文本识别。

本方法的训练集不需要bbox标注，使用友好性较高；但目前此模型还不能完全检测出图像中任意位置的文本，需要在后期继续调整。

3.3.2 FOTS [9]

FOTS是一个快速的端对端的文字检测与识别框架，通过共享训练特征、互补监督的方法减少了特征提取所需的时间，从而加快了整体的速度。其整体结构如图所示：

卷积共享：从输入图象中提取特征，并将底层和高层的特征进行融合；

文本检测：通过转化共享特征，输出每像素的文本预测；

ROIRotate：将有角度的文本块，通过仿射变换转化为正常的轴对齐的本文块；

文本识别：使用ROIRotate转换的区域特征来得到文本标签。

FOTS是一个将检测和识别集成化的框架，具有速度快、精度高、支持多角度等优点，减少了其他模型带来的文本遗漏、误识别等问题。

四、总结

本文参考前沿文献，总结了当前主流的OCR场景检测技术。相对来说，使用基于深度学习的端对端检测模型可以实现快速、准确的文字识别，且可以灵活的应用于倾斜、弯曲、褶皱变形等复杂场景。

通过对现有算法模型的细节调整，将成熟的文本识别模型集成化，即可实现工业场景中的OCR识别。

参考文献：

[1] Tian Z et al. Detecting text in natural image with connectionist text proposal network[C]//European conference on computer vision. Springer, Cham, 2016.

[2] Liao M et al. Textboxes: A fast text detector with a single deep neural network [C]//Thirty-First AAAI Conference on Artificial Intelligence. 2017.

[3] Liao M et al. Textboxes++: A single-shot oriented scene text detector[J]. IEEE transactions on image processing, 2018.

[4] Zhou X et al. EAST: an efficient and accurate scene text detector[C]// Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. 2017.

[5] Goodfellow I J et al. Multi-digit number recognition from street view imagery using deep convolutional neural networks[J]. 2013.

[6] Deng Y et al. Image-to-markup generation with coarse-to-fine attention[C]// Proceedings of the 34th International Conference on Machine Learning-Volume 70. JMLR. org, 2017.

[7] Gao Y et al. Reading scene text with fully convolutional sequence modeling[J]. Neurocomputing, 2019.

[8] Bartz C et al. STN-OCR: A single neural network for text detection and text recognition[J]. arXiv preprint arXiv:1707.08831, 2017.

[9] Liu X et al. Fots: Fast oriented text spotting with a unified network [C]// Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.

雷锋网.雷锋网.

阿里文娱算法大牛重磅来袭，春招专场直播倒计时 2 天（附内推渠道）

Fri, 13 Mar 2020 18:38:00 +0800

2020年的金三银四，早已如约而至。

受“疫情”影响，降薪、裁员等层出不穷，大厂春招岗位缩减，甚至有的取消了招聘，给参加春招的应届生带来极大冲击。

怎么选？怎么准备？怎么不焦虑？这一系列地问题的答案在哪里？

在现在这样特殊的情况下，作为一个专为 AI 开发者和学术青年服务的求知求职社区，AI 研习社想要为大家实打实地做一些事情，让大家真正地感受到属于春天的春暖花开。

基于此，AI研习社结合自身学术和求职资源以及雷锋网的媒体资源，联合阿里文娱推出了系列公开课，借助免费的公开课，为大家揭示更多关于2020特殊背景下春招的真相，让他们来毫无保留地为各位求职的小伙伴答疑解惑，引领着你去看清接下来的一些重要的变化和趋势。

这个“公开课”其实是一个系列直播课程，它将会由4次直播组成。以下是每场直播的主题与嘉宾介绍：

直播1：校招进文娱，我做对了这些事

嘉宾介绍

阿里文娱算法工程师南舢

本科与研究生均就读于东南大学，机器学习专业，在校期间曾发表CCF A类会议论文3篇。于2019年加入阿里文娱摩酷实验室，主要参与短视频推荐业务，负责视频召回模块。

分享提纲：

校招时间线：“赶早不赶晚”
我做了哪些准备，复习技巧分享
阿里的招聘“套路”：内推的好处，多轮面试的考验，实习的优势
阿里的工作体验：技术氛围+价值文化
为什么是文娱——带薪刷视频不香吗？
我们欢迎有如此特质的你

直播2：我在文娱的算法工程师之路

嘉宾介绍

阿里文娱高级技术专家随方

毕业于华南理工大学，计算机硕士。目前为阿里巴巴文娱算法引擎团队高级技术专家。职业生涯开始于微软，在传统IT的外企（北电网络，HP Lab）工作多年后，投身互联网公司（JD，阿里），中间曾在创业公司短暂工作一年多。

分享提纲：

初出校园：保持初心，治愈迷惘

我所体验的成长误区和弯路

如何在成就团队中成就自己

有生命的组织和阿里人的修炼

阿里文娱算法团队的特质

直播3：阿里文娱技术解析之计算机视觉

嘉宾介绍

阿里文娱资深算法专家任海兵

2003年清华大学计算机系计算机应用专业博士毕业。先在三星中国技术院工作11年，先后担任计算机视觉和医疗图像算法团队负责人。2014年加入英特尔中国研究院，从事机器人视觉感知研究工作。2018年底，任加入阿里文娱摩酷实验室，从事视频理解算法研究。在计算机视觉领域有20多年的研究经验，担任CVPR、ICCV、ECCV等国际顶级学术会议审稿人，发表30余篇论文，拥有30多项专利。

分享提纲：

阿里文娱视觉方向的特点：文娱与支付宝人脸识别的区别
具有文娱特色的计算机视觉算法和应用场景
视频超分和质量增强：老片修复
视频指纹：视频版权追踪
视频检索：场景分类、视频类目、人体动作识别
跨镜头人物检测/跟踪/识别：只看他、视频剪辑
图像和视频人物分割：智能内容生成
3D场景重建：子弹时刻
检测和图像修复：视频去水印

直播4：阿里文娱技术解析之搜索推荐

嘉宾介绍

阿里文娱高级算法专家若仁

优酷人工智能平台部搜索相关性和排序算法负责人，负责搜索相关性等基础体验优化和排序分发效率的提升。

分享提纲：

• 优酷搜索和推荐业务简介

• 视频搜索和推荐技术简介：技术框架、召回模型、相关性、排序模型

• 多模态在搜索推荐的应用：多模态内容检索、多模态视频多标签分类、语音多轮交互搜索

参与方式

为了方便大家不错过相关直播，可以扫描下方海报二维码，添加小助手，备注“春招求职” ，直播前小助手会集中拉群，发布直播链接。此外，群内还会解锁阿里最新实用入职干货，简历直接内推，我们也将抽送AI研习社周边礼品。

雷锋网雷锋网雷锋网

来一场特别的春招吧！线上公益宣讲来了，欢迎优秀企业报名

Mon, 02 Mar 2020 17:00:00 +0800

疫情还未结束，春招还要继续。

对于企业来讲，如何让目标学生看到公司的校招信息，第一时间掌握校招动态，这是企业在校招中跑过其他公司，尽快获得优秀人才的关键。

无接触面试是今年多数企业为了招募到合适人选的关键词汇，在此基础上，作为一个服务AI从业者的社区，我们将推出公益线上招聘宣讲——借助AI研习社的直播平台，与 20w+ 开发者精准群体，免费为有招聘需求的企业提供线上宣讲。

企业可以分享内容包括但不限于：企业介绍、发展成果、人才观、招聘需求，让求职方和招聘方在线交流，及时触达，进一步打帮助企业获得优秀人才。

截止到目前，AI研习社已依托于雷锋网人工智能行业自身的影响力，集合学术界、产业界优秀技术工作者、一线专家，为技术从业者传道授业解惑。与此同时，公开课作为在线新知的传播载体，也为企业提供了品牌宣传、就业招聘等媒介的渠道。

线上公开课

1、技术分享

邀请国内外AI企业的工程师、管理者们讲解自己企业的研发成果和技术追求，让更多人看到 AI 行业的全面发展。帮助学术青年打消一些疑虑、打破一些界限，在高校中就看到技术在企业中的实际应用成果，同时也保持学术性科研的职业路径的可能性。

2、硬核峰会直播

通过线下峰会直播等资讯获取形式，助力更多的从业者关注和把握最新前沿，了解行业的方向与未来。

3、代码解析

联合企业、学术和政府机构举办人工智能和数据比赛，为学术和产业界的科技人才选拨提供参考，为数据和 AI 人才的专业技能和个人荣誉和晋升和证明渠道，以及各大赛事/竞赛相关的交流与分享

4、顶会论文解读

学术公开课模块，将专注于AI前沿学术的分享，目前已完成100余期，分享的嘉宾，包括了国内外高校硕博生、专家教授以及相关企业顶级研究院的工程师。分享的内容以解读顶会论文为主。

成功合作案例

我们已与百度、阿里达摩院、商汤和旷视等企业成功达成合作，帮助企业全面展示自己的雇主文化，包括且不限于领域前沿动态分享、求职面试经验分享、HR在线交流互动答疑、薪酬福利和工程师职业发展等大众所热切关注的问题，使得求职者更好地了解企业，同时企业成功招募到合适的技术人才。

百度职播间分享：

商汤泰坦公开课上线：

旷视深度学习实践课程上线：

企业如何参与？

正值春招期间，为了更好地实现无接触招聘和求职，我们发起了两大线上分享：

1、企业线上宣讲：偏向企业，注重公司层面的人才招聘需求和岗位解读，传播公司的人才培养理念；

2、工程师个人成长系列：偏向个人，可以分享自己岗位的技术储备，也可以分享自己的求职经历、笔试面试经验，对更多的求助者的未来职业发展有启发。

在线宣讲形式与原「AI职播间」相同，内容会先在公开课页面，后期会汇总在求职专题页进行重点曝光和宣传。如企业已有人工智能相关课程资源，并希望能推送给更多开发者，也欢迎提供给我们，我们会在春招期间集中推送给AI开发者们。

欢迎扫码添加微信沟通了解：

助力企业招募到优质技术人才，求职者斩获心仪offer，挖掘并结合企业端和开发者的需求，让两者各取所需，是 AI 研习社的使命与任务。

雷锋网雷锋网雷锋网

深度学习实践课｜旷视研究院 X 北大联合出品，正式上线，免费报名！

Mon, 02 Mar 2020 14:43:00 +0800

旷视研究院联合北京大学数学科学学院机器学习实验室开设的《深度学习实践》全套课程（视频+PPT，共计28课时）今日在AI研习社正式全面上线，让你足不出户也能享有高水平的教学资源。

“与其疫情宅家玩游戏，不如家里蹲大学把课上。”疫情期间，我们每日听到的最多的信息之一可能就是号召大家在线坚持学习。不过，在左有“名师授课”、右有“速成深度学习”，多重信息的围攻之下，大部分人最终还是选择了那条无数“英雄”选择的道路——“收藏+下次一定”，重回电子虚拟世界，麻痹自己，蹉跎人生。

怎么办？旷视研究院为你支招！

今日，旷视研究院联合北京大学数学科学学院机器学习实验室开设的《深度学习实践》全套课程（视频+PPT，共计28课时）全面向社会免费开放！从深度学习基础理论到计算机视觉实践，由旷视首席科学家兼研究院长孙剑，及身经百战的研发总监、资深研究员亲身授课，真正将高水平深度学习课程带给大家。知识全面、循循善诱、透彻又不枯燥是本课程最大的特点。

《深度学习实践》是旷视研究院联合顶尖高校开设的系列深度学习精品课程之一。作为旷视的研发中心，旷视研究院一直基于自研的人工智能算法平台Brain++和深度学习框架MegEngine开展最前沿学术、产业技术研究、交流，累计收获27项世界冠军；并实现在个人物联网、城市物联网、供应链物联网三大领域的应用落地。值得一提的是，旷视后续将对Brain++及其核心框架、平台进行开源、开放，强大的算力、SOTA模型、框架资源任你用，敬请期待~

此次课程录制于2017年秋季旷视研究院在北京大学授课期间，已连续开设3年，后续将开放更多精彩课程供同学们学习、研究。

课程大纲

1、Lecture 1（Intro of CV and DL）

本节课是一堂入门性的概述课程，主要通过向学生介绍计算机视觉的含义，计算机视觉的主要应用场景，以及计算机视觉从经典方法发展到现在基于深度学习的方法的理路变迁来引导学生获得对该领域的一个全局性的理解。

2、Lecture 2（Math In DL）

本节课着重介绍深度学习技术中使用的数学知识。与其它课程、书籍不同，本课程忽略了很多过分抽象、复杂且使用频率不高的内容，以便同学们能够较为容易地对深度学习涉及到的核心数学知识有良好掌握。

3、Lecture 3（Network Basics & Architecture Design）

本节开始正式介绍深度神经网络相关的基础知识。在神经网络基础介绍中，讲者从视觉识别的困难切入，逐步深入分析了神经网络架构的特点以及训练优化方法。进一步，课程还介绍了网络架构设计的具体细节。

4、Lecture 4（Computation Technology）

本课程介绍深度学习涉及的计算技术，包含人们常用的深度学习框架背后实现的思想与原理；如何在现有如CPU、GPU的构架下，实现快速数学计算；以及在分布式深度学习中的通信与优化技术。

5、Lecture 5（Neural Network Approximation）

本课程介绍神经网络压缩技术。众所周知，一个真正有效地神经网络在训练和推理过程中往往需要消耗高额的计算成本，如何更快、更高效地让其进行工作就成了技术落地的关键。本课程从三个方面：低质、稀疏与量化逐一介绍了神经网络压缩技术。

6、Lecture 6（Modern Object Detection）

本课程介绍基于深度学习的物体检测技术。物体检测技术不要求系统精准识别某个物体的具体属性，例如这辆车是保时捷 911，而是让系统能够在画面中识别出所有被称为车的物体，即（Category-level Recognition，而非Instance-level Recognition），本课将对此展开介绍。

7、Lecture 7（Text Detection and Recognition）

本课程介绍了近年来场景文字检测与识别中的进展，以及旷视在该领域的工作与成果。具体而言，分为文字识别任务的背景与经典方法回顾、近来基于深度学习的技术进展。需要强调的是在第三部分。课程重点介绍了文字识别任务的数据集与比赛。

8、Lecture 8（Image Segmentation）

当前，越来越多的应用场景需要精确且高效的图像理解能力，如自动驾驶、室内导航、甚至虚拟现实与增强现实等，图像分割技术就是实现这一切的关键技术之一。本课程介绍了图像分割中语义分割与实例分割技术的具体细节。

9、Lecture 9（Recurrent Neural Networks）

本课程从循环神经网络（RNN）的基础到前言应用进行了介绍。作为图灵完备的模型，循环神经网络相较于卷积神经网络能够做更复杂的工作。从课程设置来看，在介绍了RNN基础之后，课程会讨论部分经典RNN架构，如LSTM、有Attention的RNN和有External Memory的RNN。

10、Lecture 10 （Introduction to Generative Models）

本课程介绍生成式模型的基本概念与发展现状，同时也针对其背后的数学原理进行细致剖析。生成式模型是概率统计与机器学习中的一类重要模型，指一系列用于随机生成可观测数据的模型，应用十分广泛，可用来自不同的数据进行建模。

11、Lecture 11（Person Re-Identification）

本节课程着重于对行人重识别技术的解读。作为图像检索领域的一个重要子问题，行人重识有着重要应用价值。为了帮助学生更好理解，课程以人脸识别为例，通过分析其与行人重识别的区别之处来向学生介绍后者。进一步，课程还介绍了如何依据一些额外时空信息来辅助开展行人重识别工作。

12、Lecture 12 （Shape from X）

本课程介绍3D重建，即研究如何用视觉的方法来获得3维信息。具体而言，课程介绍了多种传统建构物体形状的方法，与之相对应的，基于神经网络的3D重建在灵活性与效果上都有着显著优势。

13、Lecture 13（Visual Object Tracking）

本课程介绍目标跟踪技术，由于不同种类的目标跟踪任务的假设可能有巨大不同，所以本课程首先会介绍运动估计，然后分别专门介绍单目标跟踪与多目标跟踪。最后，讲者对一些特殊且重要的情形（如快速运动、多个摄像头）进行了分析。

14、Lecture 14（Neural Network in Computer Graphics）

本课程介绍计算机图形学中的神经网络。具体而言，首先介绍了计算机图形学的含义，与基本情况。进一步，对引入其中的神经网络技术进行专项解读，涉及用神经网络进行渲染、进行3D建模以及visual media retouching。最后，课程介绍了如何将图形学技术应用到计算机视觉问题之中。

更多信息

课程传送门：

http://www.mooc.ai/course/749

添加小助手，加入线上交流群：

最后讲个真实的故事

1665年，牛顿在剑桥三一学院就读期间，伦敦发生大瘟疫，造成数万人死亡。牛顿回家自我隔离，亲戚也不走，聚会也不去。

但正是这段清浄的时间，让他有机会思考数学、光学、力学的问题，硕果累累，成功创立了二项式定理和光的分解，确立了牛顿第一、第二定律和引力定律的基本思想……

恩？仿佛听到有人在谈论我？

祝大家身体健康，少出门、多运动，提高免疫力的同时也不要忘了加倍努力学习思考哦~

雷锋网雷锋网雷锋网

继小米后，Facebook F8大会也要走直播

Sat, 29 Feb 2020 10:51:00 +0800

雷锋网获悉，2月28日，受疫情影响，Facebook宣布取消F8开发者现场大会，大会原计划于5月5日至6日在加利福尼亚州圣何塞召开。

Facebook开发者平台和项目总监Konstantinos Papamiltiadis在官网发表声明称：“这是个艰难的决定……但我们需要优先考虑开发合作伙伴、员工和帮助举办F8大会的每个人的健康和安全。”

这并非 F8 大会的第一次缺席，2009年、2012年和 2013 年 Facebook 都没有举办 F8 大会。不过，这次虽然因为疫情的不可抗力使线下活动未能成行，并不意味着 F8 就彻底失约了，他们决定采取现场主持、远程直播的方式与开发者见面，具体参与方式也会在未来几周公布。

新冠病毒的肆虐，已经让Facebook取消了多次会展活动，比如原定于3月在旧金山举行的全球营销峰会，上周Facebook还宣布退出3月份在旧金山举行的游戏开发者大会和PAX East游戏展会。

AI开始登上舞台

F8大会是Facebook 专为全球开发者举办的盛会，2020年是第十一届。第一届F8在 2007 年召开，其后每年一次。F8是Facebook每年最大的活动和最重要的宣传窗口，去年的大会吸引了来自全球的5000多名开发者、从业者参加。F8基本流程就是扎克伯格的主题演讲开场，话题一般都是怎么酷炫怎么来，包括人工智能、太阳能飞机、卫星等，然后由相关负责人发布新产品，宣讲新理念，秀一把技术实力。首届 F8上，Facebook 就宣布开发者的应用可以进驻信息流，还能向用户推送通知，这被看作是 Facebook 生态开放的起点。

近几年，AI也不断成为F8大会的热词。在2016年30分钟的主旨演讲中，扎克伯格公布了Facebook未来10年的发展路线图。他表示，Facebook未来会专注于三项技术：连接性，人工智能和虚拟现实。在AI方面，Facebook迈出了重要一步——在前一年对开发者开放的Messenger平台基础上，新增聊天机器人功能。

然后第二年的F8上，Facebook推出了Messenger 2.0版本，整合M虚拟助手部分功能，提升聊天机器人的使用体验；为了建立技术影响力，FB还发起了开发者论坛计划（Developer Circles），对所有开发者免费开放，并且与IT培训平台Udacity合作定制培训项目。

贾扬清

此外，这一年还有一个重量级发布是Caffe2开源深度学习框架。Facebook AML实验室的 Andrew Tullock和贾扬清（其时Title是Facebook AI平台工程主管）上台介绍了Caffe2轻巧、易用和可扩展的特性。

Caffe2是核心作者贾扬清博士在读期间的作品Caffe的升级版，也是当时Facebook机器学习的核心技术之一。码完代码，贾扬清就把Caffe开源了，这是世界上第一个深度学习开源框架，谷歌的TensorFlow是2015年底才开源的，而这个框架，贾扬清也有份参与开发，2013年时他就在谷歌实习。

而这不是Facebook最早开源的深度学习框架，由 Yann LeCun领导的Facebook 人工智能研究院（FAIR）之前已经推出Torch，后来在2017年1月又推出了PyTorch。

FAIR和AML（applied machine learning，机器学习应用小组）是Facebook两大分工不同的AI实验室。前者偏向基础研究，后者更关注落地。2018年1月，Yann LeCun卸任，两大实验室都由前IBM首席数据科学家Joaquin Candela负责。

知道这个背景，也就更好理解贾扬清曾在Hacker News发表的评论：“PyTorch适合于研究、实验和特别的神经网络，Caffe2偏向支持工业级应用，主要面向移动端……未来我们也将加强互操作性。”

AI 开源进程加快

2018、2019两年F8 大会都因为数据泄露丑闻而蒙上一层灰色阴影，因此两次大会上隐私都是非常重要话题，FB谈到了不少如何改造 Messenger，Facebook 和 Instagram 的内容，2019年扎克伯格PPT上更是有一句话：未来是私密的（The future is private）。

当然，AI技术也依然是重头戏。2018年F8 第二天，Facebook宣布了好几个AI开源项目的进展，包括PyTorch、ONNX、ResNext，以及新开源了PyTorch中的自然语言理解库Translate、ELF OpenGo、一个打《星际争霸》的AI，这些项目资料都可以同一年推出的“Facebook.ai”官方网站上找到。

其中最大的新闻要数将在未来数月内开源PyTorch 1.0 AI框架。贾扬清在知乎上将这一版本形容为“Caffe2 + PyTorch = PyTorch 1.0”，也为前一月Caffe2和PyTorch突然合体的下一步作出了解释。

值得一提的是，Caffe2和PyTorch合体没进过什么铺垫，2018年4月1日，Caffe2通过GitHub宣布已经将全部代码并入PyTorch，这件事迅速成为深度学习圈一个重磅新闻。

当时Facebook表示，PyTorch 1.0结合了Caffe2和ONNX（开放式神经网络交互系统）面向生产和PyTorch面向研究的特性。贾扬清的知乎回应提到，FAIR 当时有一半项目在使用PyTorch，产品线都在使用Caffe2，两边都有优化效率的动力。

PyTorch 1.0后来在2018年10月正式发布。2019年F8大会上，Facebook更迭了Pytorch 1.1。除了平台本身之外，Pythorch 去年还新增了许多新项目，比如BoTorch ，一个贝叶斯优化工具；CrypTen，一个保护隐私的 ML 框架；Captum，一个模型解释和理解库。

在Facebook AI产品阵列，ONNX是一个关键项目，它是一个深度学习模型的标准，可使深度学习模型在不同框架之间进行转移，由Facebook和微软在2017年9月联手推出。据贾扬清所说，初版代码也是他写的，还帮助搭建了团队。

2018年F8大会上，Facebook宣布它会在升级后支持更多的工具，包括Core ML, 百度的PaddlePaddle, 高通的SNPE, Google的TensorFlow和微软的Cognitive Toolkit等。

其时有评论认为，ONNX是一次众公司组成联盟对谷歌和它的TensorFlow的一次狙击。截至2018年初，亚马逊、AMD、ARM、华为、 IBM、英特尔、Qualcomm都已经支持ONNX。

但现实总是比想法更骨感。百度算法工程师mileistone当时评论说，联盟里的强者就像战国时期的六国其实都有小九九，比如caffe2和亚马逊的MXNet都不支持导出模型，而PyTorch不支持导入模型，还很难与TensorFlow“秦国”势均力敌。

何恺明

ResNext 是深度残余网络，核心作者是当时在微软实习的何恺明及其同事，他们凭此在2015年的ImageNet图像识别大赛中一鸣惊人，且获得2016年CVPR最佳论文奖。2016年8月，何恺明加入FAIR继续研究ResNext。F8大会时视频行为识别模型Res 2+1宣布开源，同时用于理解视频的ResNext 3D模型也将在6月后开源。

2019年8月，何恺明团队推出了ResNeXt-101模型，据称，利用Instagram上的用户标记图片作为预训练数据集，省去了人工标记数据的巨额成本，而且使用中只需微调，性能即超越了ImageNet任务的SOTA水平。

田渊栋

在F8大会上，围棋AI ELF OpenGo也宣布开源训练代码，测试代码及训练出来的模型（224x20），核心作者田渊栋也是一个活跃在知乎上的一个大神，当时在知乎上写说，“我们用两千块GPU训练约两到三周后得到的围棋AI，基本上超过了强职业的水平。我们和韩国棋院合作进行了一次测试，给这个AI单卡每步50秒搜索时间（每步搜索8万个局面），给人类棋手任意长时间思考，结果AI以14比0完胜。”

田渊栋现任Facebook 人工智能研究院研究员，重点研究深度强化学习及其应用、深度模型的理论分析等。他2013 年博士毕业于 CMU 机器人研究所，2013-2014 年在谷歌无人驾驶部门任研究员。

一年后的2019年2月，ELF OpenGo又有一波信息开源，FAIR 公布了与它相关的最新功能与研究成果、Windows 平台可执行版本，以及 ELF OpenGo 在 87000 场专业围棋对弈当中的归档分析信息。

今天开源可以说是无处不在。当我们通过智能手机上网时，其实就使用了许多开源软件，包括基于开源的操作系统（Linux，Darwin）、Web服务器和数据库。秉持着交流分享的初心，AI研习社、雷锋网和GMIC预计联合推出以“AI+开源”为主的开发者峰会——「GMIC*AI源创全球开发者峰会（北京）」，我们计划于4月29日在北京召开。

中国每2.3个人工智能学习者或工程师中就有一位使用过Pytorch。雷锋网也已经向Pytorch的核心作者发出邀请，请他向中国开发者介绍Pytorch的技术特色和最新进展，与Google 、微软、阿里、腾讯、百度、亚马逊等企业的框架大神、核心开发者一起分享和探讨人工智能框架的心路历程和发展趋势。

开创性还是毛骨悚然？人脸识别初创公司Clearview AI遭Twitter和Google“封杀”

Thu, 06 Feb 2020 07:28:00 +0800

雷锋网消息，继Twitter之后，Google和YouTube也向Clearview AI发送了停止访问信，该公司已经从互联网上获取了数十亿张照片，并利用它在几秒钟内帮助600多个警察部门识别了人员。

此前，Twitter采取了类似的行动，在1月份向Clearview AI发送了一封停止使用其数据的信。Google和YouTube的停止访问信的消息最初由CBS新闻报道。

图片来自：Getty Images

Clearview AI是一家有争议的面部识别初创公司，其首席执行官正在捍卫公司庞大的可搜索面孔数据库，他在周三上午的CBS采访中表示，这是他收集公开照片的第一修正案。他还将其做法与Google在其搜索引擎中的做法进行了比较。

支持者认为，面部识别技术有助于提高安全性，并使智能设备更加方便，已经受到立法者和相关组织的审查。向美国执法机构出售识别系统的微软、IBM和亚马逊表示，面部识别应由政府监管，包括旧金山在内的一些城市已禁止使用该识别器，但尚未有解决该问题的任何法律。

这是YouTube的完整声明：

“ YouTube的服务条款明确禁止收集可用于识别个人身份的数据。Clearview公开承认这样做是正确的，因此我们向他们发送了一封终止通知函。其与Google搜索的比较不准确。大多数网站都希望包含在Google搜索中，但网站管理员可以控制他们网站上的哪些信息包含在我们的搜索结果中，其中有包括完全选择退出的选项。Clearview未经他们的同意并违反规则秘密收集了个人的图像数据，明确禁止他们这样做。”

Facebook也表示，它正在审查Clearview AI的做法，如果得知该公司违反了服务条款，它将采取行动。

一位Facebook发言人周二告诉哥伦比亚广播公司新闻：“我们对Clearview的做法感到严重关切，这就是为什么我们在进行持续审查时要求提供信息的原因。他们如何回应将决定我们采取的下一步措施。”

1月，《纽约时报》报道了该公司应用程序如何通过与他们的超过30亿张图片的数据库进行比较来识别人的身份后， Clearview AI受到了广泛关注。Clearview表示，该数据库已清除了社交媒体和其他网站的数据。这个应用程序被美国数百个执法机构用来识别涉嫌犯罪活动的人。

Clearview AI首席执行官Hoan Ton接受CBS采访

BuzzFeed News报道说，在Clearview AI向执法机构推销时，曾告诉警察这个面部识别很“疯狂”，但也表示有保护隐私的限制。

批评人士称该应用程序对个人的公民自由构成了威胁，但Clearview首席执行官兼创始人Hoan Ton对此看法有所不同。Ton在周三播出的CBS上接受记者Errol Barnett的采访时，Ton将其公司广泛收集的人们的照片与Google的搜索引擎进行了比较。

Ton说：“ Google可以从所有不同的网站获取信息。因此，如果它是公开的，它有可能在Google搜索引擎内部，也有可能在我们的内部。”

Google不同意这种比较，称其具有误导性，并指出其搜索引擎与Clearview AI之间存在一些差异。这家科技巨头辩称，Clearview不是公共搜索引擎，未经人们同意即收集数据，而网站始终能够要求在Google上屏蔽该信息。

Clearview AI的创始人打算挑战Google和Twitter发出的停止访问函，理由是他拥有收集人们公开照片的权利。

Ton说：“我们的法律顾问已与Twitter取得联系，并正在对此进行处理。但是，对公共信息也有第一修正案。因此，我们构建系统的方式是仅获取公共信息并以这种方式对其进行索引。”

正如技术律师蒂芙尼·李（Tiffany C.Li）在Twitter上指出的那样， Clearview AI不会是第一家使用这种防御来证明其数据抓取做法合理的技术公司。2017年，数据分析公司HiQ起诉LinkedIn，称其有继续从Microsoft拥有的社交网络抓取公共数据的权利，并称第一修正案保护了该访问权限。

Clearview数据库的规模让执法部门使用的其他数据库相形见绌。FBI自己的数据库是其中最大的数据库之一，收集了护照和驾照照片，其中包含超过6.41亿张美国公民的图像。即使原始上传已删除，Clearview也会保留收集的所有图像。

执法机构表示，他们已经使用该应用程序解决了从入店行窃到谋杀的各种犯罪。但是，隐私权捍卫者警告说，该应用程序可能会将错误的匹配结果返回给警察，并且其他人也可能使用它。他们还警告说，一般而言，面部识别技术可用于进行大规模监视。

在《泰晤士报》的报道称，Clearview AI的软件是“ 对个人自由的阴险侵害 ”后，在伊利诺伊州提起诉讼，并指控该公司侵犯了该州居民的隐私权。诉讼之前，民主党参议员爱德华·马基（Edward Markey）说，Clearview的应用可能带来“令人毛骨悚然”的隐私风险。

雷锋网编译，via cnet 雷锋网

审视全球十大AI事件，AI治理如何做到趋利避害

Wed, 08 Jan 2020 21:45:00 +0800

导语：回顾过去几年，AI负面案件频出，政府出台一系列政策以加强管控，但政策法律似乎无法完全解决这一问题，更需要与学术界、企业界通力合作，从技术研发、治理手段、伦理建设等方面完善。

人工智能技术发展迅猛的同时，引发了很多关于音视频造假、监控隐私、算法偏见、创作版权、就业等各个方面的社会性问题。

对此，雷锋网对旷视AI治理研究院今日盘点的“2019全球十大AI治理事件”进行了解读。

比起聚焦在镁光灯下的热点AI落地应用，这十大案件却反映出了AI落地的不光彩一面。

如果说解决AI治理的核心命题在于新时代下的伦理与法律规范，那么2020将是考验其是否切实可行的关键一年。

为什么AI会让我们有危机感？

特征一：新生事物对传统伦理与法律的挑战

典型案例：AI编写假新闻、智能助手劝人“自杀”

事件说明：2019年2月，OpenAI公布了一款可编写新闻的软件，如提供“一节装载受控核材料的火车车厢今天在Cincinnati被盗，下落不明”，软件可编写出7个段落组成的虚假新闻。考虑到这款软件采用的无监督语言模型GPT-2滥用可能带来的危害，OpenAI仅发布部分代码和研究论文供研究人员试验。

2019年12月，某用户在借用智能音箱查询心脏问题时，该语音助手给出的答案却吓坏了该用户，“心跳是人体最糟糕的过程。人活着就是在加速自然资源的枯竭……请确保刀能够捅进你的心脏。”对此，事故方回应称，语音助手可能从任何人都可以编辑的维基百科上下载了有恶意性质的文本。

警示意义：在以上两起案例中，AI已经具备了一定的文本学习并生成文字的能力。如果一开始收集的数据就被曲解，那么输出的结果也会反映这一点。这极大地考验着研究者会为其灌输怎样的价值导向。不过，现在AI还无法基于理解，实现自主学习人类的伦理道德。

特征二：社会发展与人类平权的固有矛盾

典型案例：性取向检测、未来被淘汰职业

事件说明：追溯到2017年，斯坦福研究人员利用超过 35,000 张美国交友网站上男女的头像图片训练，让机器学习识别人们的性取向。结果发现，机器识别的准确率要远高于人类。

同年，BBC发布了10年后365种职业被淘汰的概率，其中，电话推销员、打字员、会计位居前三，而这些职位的一个共同特征是，均属于大量重复性劳动，机器经由训练即可掌握。

警示意义：原本性取向话题，以及机器取代人力的焦虑是任何一个国家、社会由来已久的矛盾，然而AI像一个不懂事的孩子，直白地将问题放大，引发社会广泛争议。

社会要发展，势必要提高生产力，AI俨然是眼下最具变革性的技术。在这样的大背景下，那些前AI时代就在社会中存在的难题，能否随着社会的发展得到妥善解决呢？

特征三：“裸奔”时代，公民的安全与隐私问题

典型案例：AI换脸、杭州人脸识别第一案、监测头环

事件说明：2019年8月，一款AI换脸软件在社交媒体刷屏，用户只需要一张正脸照就可以将视频中的人物替换为自己的脸。由于用户疯狂涌进，使得该软件运营商服务器一晚上就烧掉了200多万人民币的运营费用。

2019年10月，浙理工某教授状告杭州野生动物世界违规收集人脸识别信息。他认为，该类信息属于个人敏感信息，一旦泄露、非法提供或者滥用，将极易危害包括原告在内的消费者人身和财产安全。

2019年11月，浙江一小学戴号称“脑机接口”的头环视频播出。这些头环宣称可以记录孩子们上课时的专注程度，生成数据与分数发送给老师和家长。随后，该行为被当地教育部门叫停。

警示意义：对于当下应用广泛的人脸识别等涉及公民隐私的身份认证技术，在为社会提供便利的同时，是否考虑过公民是否愿意、甚至是知情的情况下交出人脸数据？

人脸数据具有不可逆的唯一性，一旦与用户家庭住址、消费行为等数据打通，个人隐私相当于“裸奔”。相比国外当前出台的保护和禁止条例，国内对隐私的保护力度显然不足。

特征四：事故发生后权责认定的不清晰

典型案例：自动驾驶事故频发

事件说明：2018年3月，美国亚利桑那州坦佩市，一辆处于上路测试的Uber自动驾驶汽车撞死行人，根据行车记录仪显示，事故发生时这辆汽车的安全员一直在看车辆中控下方，被撞女性则是从漆黑的道路上突然出现的。尽管随后Uber全面停止了自动驾驶车辆测试，但这场事故的责任方究竟如何判别，却引发了更多关注。

警示意义：近年来，自动驾驶汽车在道路安全事故中没少惹祸，甚至发生多起致人死亡案件。如何消除安全隐忧，提升安全系数是当下所有自动驾驶公司需要解决的问题。

自动驾驶的终极目标是消除事故伤亡，但以生命作为代价“换取”科技进步的问题，在未来很长一段时间内值得立法者和管理者思考。

针对AI治理，我们不能坐视不管

正如上文案例所述，科学发展中，我们一度关心技术的工作原理，试图从技术角度解释和改善安全问题的出现。但实践证明，当下的AI技术并不是在任何地方都是安全的。这一方面与技术的局限性有关，也跟实际的应用对象、场景、环境密切相关。

就在近日，欧盟专利局拒绝了AI 发明的专利申请，“理由是它们不符合欧盟专利同盟（EPC）的要求，即专利申请中指定的发明人必须是人，而不是机器。”这对于当下国内尝试利用AI以缓解版权专利问题所引发的争议，起到了一定的参照作用。

可见，构建完善的法律制度或许是AI治理最迫切的手段，同时，还需要各个科学组织和社会机构，从道德和伦理层面进行进一步约束。

值得一提的是，我们已经能看到国内政府机构、学术研究机构以及企业代表们在人工智能发展的治理问题上有了积极的探索。

2019年5月，北京智源人工智能研究院联合北京大学、清华大学等单位发布《人工智能北京共识》，并成立“人工智能伦理与安全研究中心”，提出了各个参与方应遵循的有益于人类命运共同体的15条原则。
同月，上海国家新一代人工智能创新发展试验区揭牌，明确了建立健全政策法规、伦理规范和治理体系的相关任务。
6月，国家新一代人工智能治理专业委员会发布了《新一代人工智能治理原则——发展负责任的人工智能》，提出了和谐友好、公平公正、包容共享、尊重隐私、安全可控、共担责任、开放协作、敏捷治理”人工智能治理八条原则。
在8月的世界人工智能大会上，青年科学代表们宣布《上海宣言》，腾讯董事会主席兼首席执行官马化腾演讲时表示，AI治理的紧迫性越来越高，应以“科技向善”引领 AI 全方位治理，确保 AI“可知”、“可控”、“可用”、“可靠”。
外交部前副部长、清华大学国际战略与安全研究中心主任傅莹则表示，传统的立法是需要等待的，需要社会不断地实践来积累共识。面对AI如此快速地发展，法律制定需要新的思维。
12月，国家互联网信息办公室、文化和旅游部、国家广播电视总局印发《网络音视频信息服务管理规定》，首次将AI造假音视频列入法规，并且自2020年1月1日起施行。

实际上，在政府完善法律政策、学术机构建立伦理和道德约束目标的同时，我们也看到禁用技术这种做法存在的“一刀切”问题。

例如，去年3月美国加州通过的一项议案，禁止警察身体摄像头安装人脸识别软件。尽管面部识别软件对降低抓捕罪犯难度有潜在优势，但显然，政府则立足于保护公民隐私安全和可能存在的算法偏见问题。

是禁用AI技术以解决风险问题，还是积极采纳以提升社会运转、保障效率？这可能并不是对与错的问题。但作为人工智能从业者来讲，一定要有红线意识。

中国科学院自动化研究所研究员曾毅指出，实际上很多企业对存在的风险视而不见，人工智能的健康发展，一定是治理和发展双轮驱动，要保证它向着正确的方向发展。

为推动AI治理，旷视做了哪些努力？

早在2019年7月，旷视科技就意识到了这一问题，从企业自身角度公布了《人工智能应用准则》管理标准。

《准则》从正当性、人的监督、技术可靠性和安全性、公平和多样性、责任可追溯、数据隐私保护六个维度，对人工智能正确有序发展作出明确规范；同时给出相应干预措施或指导意见，确保人工智能能够在可控范围内持续发展，呼唤起各界对善用技术的重视，倡导行业提早建立可持续发展的生态。

与此同时，旷视还组织成立了人工智能道德委员会，目的是积极与各方探讨全球AI伦理相关的共性问题，促进与社会各界的沟通、推动AI的健康发展，以确保创新技术为社会带来更积极正面的影响。

组织和原则的确立仅为接下来的AI治理开了一个好头。据旷视科技透露，公司在人工智能道德委员会下成立了“旷视人工智能治理研究院”。该研究院将在旷视《人工智能应用准则》的指导下，深度探索可信任AI系统的开发与应用问题。进入2020年，旷视还将通过与更多同行业建立联合委员会，期待加速AI应用准则的真正落地。

雷锋网总结

今天看来，这十大热门事件并非个案，若不加以正确引导都将对社会造成极大负面影响。

人工智能系统收集或上传隐私，对隐私的界定规则是什么？

自动驾驶车辆在遭遇危机时刻，责任人是驾驶员、车辆，还是政府的不当监管？

由于人类是通过生物性原理来获得教育和学习，与目前单纯依靠统计推理的训练而存在的机器学习系统有本质差别，我们又该如何面对机器给出的建议和结论？

或许AI在很长一段时间内都会因与人类社会的伦理有所偏差而在融入社会时产生不小的矛盾，但可以预见的是，2020年，随着5G在国内全面投入商用，5G或将带动AI算法、边缘计算等技术大力发展，进一步极大赋能智能制造、智能家居等更为广泛的生产生活领域。其巨大的潜力和价值有理由让我们接受这个挑战。

而边界问题讨论未明之时，我们更要有耐心教育它、指导它、规范它，促使它成为符合人类社会发展的智能技术。（雷锋网）

ToB不再是少数人的生意，谁可把握住机会？ | AI最佳掘金案例榜

Wed, 08 Jan 2020 18:27:00 +0800

据雷锋网观察，近两年企业服务的细分领域正涌现越来越多的创新者。一个关键因素是，云计算、大数据、AI、5G等新技术的结伴而来，让企业服务业务从传统模式到互联网模式有了转折点，这意味着企业可以提供关键应用向云迁移，甚至能够基于云原生开发全新的数字服务。

为了寻找中国ToB市场的新机遇，雷锋网重磅启动了“2019 AI最佳掘金案例年度评选”，从商业维度出发，寻找人工智能在汽车、金融、新商业、安防、医疗、消费级硬件、内容、RPA、智慧城市、智慧网联、IoT、机器人、企业服务、教育、芯片、自动驾驶等16个行业的最佳前沿应用。

日前，第三届“AI最佳掘金案例年度评选”结果正式出炉。其中，在近来备受关注的企业服务领域，Moka、腾讯同传、薄言信息、360安全大脑、平安集团、平安科技、金蝶国际、网易易盾分别获得了“最佳智能招聘管理系统奖”、“最佳智能会议解决方案奖”、“最佳商业智能服务奖”、“最佳网络安全解决方案奖”、“最佳HR知识图谱应用奖”、“最佳智能运维解决方案奖”、“最佳智能财税系统奖”、“最佳业务安全守卫奖”。

“最佳智能招聘管理系统奖”Moka：人力资源数字化的“前哨兵”

2019年，人力资源数字化转型被推动到了一个历史新起点。结合AI、大数据等技术，Moka定位智能招聘管理系统，在更贴近用户需求的同时，正以更深入的视角洞察零售、教育、医疗等各行各业的企业组织转型升级之路。

Moka致力于通过完整的招聘生态体系解决方案帮助客户提高招聘能效，包含聚合招聘渠道，统一管理招聘流程，积累并激活企业人才库，全方位数据统计等核心功能模块。作为一家相对年轻的初创团队，Moka短短几年内已完成B轮融资，并服务了超过500家付费企业客户，包括小米、搜狗、欢聚时代、汉堡王、金拱门、赫基国际集团、森马、Arm china、首创股份、太平洋保险等知名企业。据不完全统计，Moka招聘管理系统可以为企业招聘降低40%的时间成本，减少32%的招聘支出，节省 60%人力成本。

例如，针对连锁零售行业的服装品牌运营商——赫基集团的终端门店招聘场景，Moka能够提供完整的终端招聘解决方案，聚合各类招聘渠道，打通终端招聘全流程，帮助客户自HR、店长、至候选人建立便捷的信息与数据连接，最终沉淀为公司人才库，提升公司对整体终端招聘的各环节数据留存及流程管控。

“最佳智能会议解决方案奖”腾讯同传：让AI同传“不再翻车”

精准的语音识别能力和翻译能力，是考验AI同传是否成熟的重要标志。在国际性大会等重要的行业会议、交流活动上，AI同传的翻译能力直接影响着现场听众的体验与感受。

腾讯同传，是腾讯智能翻译服务针对会场、会议室等场景打造的行业标杆解决方案，由微信智聆提供AI语音识别能力，由腾讯翻译君提供AI翻译能力。这套解决方案的亮点之处在于，为应对复杂的会场环境和语言环境，腾讯同传通过自研的神经网络机器翻译引擎及领域自适应技术，加入NLP、去口语化等技术的处理，使得语音识别准确率和翻译可接受度得到大幅度提升。

其产品方案不仅覆盖会前专属定制、会中稳定翻译服务与会后纪要导出等场景，还可以针对企业、机构或者软硬件产品的定制化需求，提供在线翻译服务接口或者私有化部署。

腾讯同传先后为2018&2019世界人工智能大会、2018&2019博鳌亚洲论坛、2019戛纳国际创意节等国际大型会议提供服务。其中，在新闻、科技等垂直领域的中英互译方面达到业界领先水平，并在能源、金融、医疗、教育、旅游、硬件等各行业领域都得到应用，日均翻译请求量超过6亿次。

“最佳商业智能服务奖”薄言信息：让每个企业拥有定制化对话机器人

当AI公司集体面向B端寻求新的市场机会时，智能语音交互成为NLP技术赛道上备受关注的落地应用。

薄言信息（RSVP.ai）创立于2013年，看似年轻，但其创始团队的技术背景实力却相当雄厚。创始人李明院士是加拿大皇家科学院院士，2010年获加拿大科学最高奖Killiam Prize，是世界公认的近代信息论奠基者之一。

多年以来，聚焦自然语言处理技术，薄言攻克多项关键性技术难题，打造新一代智能对话平台——轻语。其拥有独特的语义解析、意图识别、多轮任务管理等技能，具备数据需求少、准确率高、性能强的特点。可以帮助企业轻松创建专属的对话机器人，进而打造极具个性的智能客服和虚拟助手。目前，该平台已成功应用于各行业客服、企业虚拟助手、智能家庭、智能移动设备等场景。

今年，研发团队设计搭建的对话评测体系，能够有效评价聊天机器人的水平，首次在NLPCC的开放对话评测中亮相；在短文本语义计算和文本信息抽取上，达到SOTA的水平；在多轮对话理解上，取得重要突破并在京东客服中心上线了客服质量控制的AI模型。

“最佳网络安全解决方案奖”360安全大脑：“预见”看不见的网络攻击

网络安全，一直以来都是受企业重视但往往又很难察觉的问题。如同买保险一样，如果没有真正遇到黑客攻击，可能无法真切地感受到这份“保险”的价值。纵观我国网络安全现状，政府、金融和教育行业往往最易遭到攻击，一旦数据泄密，紧接而来的可能就是金融诈骗、用户信息兜售，这严重损害了公众利益。

360安全大脑以安全大数据分析为基础，构建网络空间的雷达系统。基于大范围、长时间、多维度的安全大数据，综合运用大数据分析、机器学习以及人机结合等关键技术，发现高级网络攻击的蛛丝马迹并“看见”攻击行为的全貌。

除了在云端对信息进行比对、侦测，第一时间感知到病毒或攻击，实现从被动防御到主动防御外，360 安全大脑还具备大规模综合智能处置的能力。通过和各类安全产品的高效协作，它可以在 1 天时间内实现漏洞补丁、免疫工具、安全策略和威胁情报推送。到目前，360安全大脑已经发现41多起境外对我国发起的APT攻击。

360安全大脑主要面向党、政府、军队、金融、能源、企业、制造业等行业提供安全解决方案，并已在重庆市合川区360网络安全协同创新产业园一期项目、天津高新区政府网信产业项目、天津市应急管理局应急管理信息化一期项目中得到落地。

“最佳HR知识图谱应用奖”平安集团：用AI解放HR的双手

在金融、教育、医疗等行业的知识图谱技术得到快速发展的同时，人力资源行业的知识图谱应用仍是一个少有人关注却门槛颇高的领域。

中国平安智慧人事研究院自主研发搭建的HR知识图谱体系，针对管理场景，学习和积累专家经验，结合全量数据关系，灵活针对管理需求进行决策判断；全面剖析员工个人图谱与课程图谱关联，精准识别发展需求，匹配培养课程资源；通过人力图谱，实现人才库调取、定薪调薪、培训推荐、课程库引入、测评制定等智能推荐。

值得一提的是，平安HR知识图谱技术的研发源自于企业自身对人力资源管理效率的迫切诉求。正如平安集团拥有100多万员工，业务线覆盖金融、科技、地产、医疗健康等众多领域，仅每年的招聘、培训管理就耗费着巨大的工作量。基于HR知识图谱等AI技术的结合应用，平安得以推出智慧人事一体化平台HR-X，涵盖核心人事、招聘、绩效管理、培训、薪酬管理、员工服务等所有人力资源核心场景。

中国平安HR知识图谱如同一部“底座“，让机器成为人力资源专家，智能化赋能传统业务，降本提效，提升企业整体竞争力，对于助力HR工作去手工化、推动HR领域智能化、促进HR行业转型升级有着重要意义。

“最佳智能运维解决方案奖”平安科技：跨越AIOps落地难的大山

近年来，基于机器学习的智能运维（AIOps）开始得到企业IT人员的广泛关注。AIOps将机器学习算法引入因为中的监控和故障分析领域，以辅助DevOps提升效率，降低业务及系统出现的风险故障系数。这已是一种趋势，但如何将AIOps在真实业务场景中真正落地却是少数人能走的路。

从最开始实现各领域自身的运维监控，到整合WiseAPM产品体系、完成SAAS化提供云服务，再到WiseAPM端到端打通，实现AI异常检测、根因分析和故障预测，平安智能运维AIOps发展历程走过了萌芽、整合、AI+三个阶段，也迎来了平安科技AIOps的最佳实践方案。

具体来看，平安科技AIOps聚焦如下三大智能场景：“智能检测”提升监控效果；“智能定位”加快故障定位；“智能预测”提前预警。

2019年9月，平安某子公司率先应用智能运维场景，与平安科技AIOps团队通力合作，两个月内，覆盖应用、主机、数据库、网络、存储等共六大领域的AI模型建模、数据采集、异常标记，并投产使用，累计检测指标数超200万，AI告警量较传统模式下降59%，故障发现准确率高达85%。

“最佳智能财税系统奖”金蝶国际：苍穹——大型企业数字化的“跳板”

科技进步给财务了巨大的改变，金蝶从最初做DOS财务软件转向windows财务软件，再从财务软件转型做ERP软件，然后到云服务，历经三次“蝶变”，一直以来以技术创新作为企业核心竞争力。

金蝶云·苍穹是金蝶于2018年推出的大企业数字共生平台，可提供完整的企业级SaaS和PaaS服务。其设计理念是“无人会计，人人财务”，其中，无人会计的核心正是财务的智能化，机器取代人工，把财务人员从繁琐的事务性工作中解放出来，帮助企业创造更大的价值。

例如，语音出差申请、发票智能识别报销、共享智能审核、出纳智能首付款、RPA智能机器人应用、应收应付智能结算、智能核算、发票扫描记账、AI财务指标查询、报表智能合并等场景中都存在着AI技术的结合与应用。

以万科企业在智能财务领域的应用为例，经过项目前期的标杆企业考察、案例分析、内部论证、立项、引入外部咨询方，金蝶形成了万科财务共享中心全面建设方案。核心是以员工费用报销流程为共享服务切入点，将合同类的管理费用及所有营销费用纳入共享流程，将成本类、收入类业务流程纳入共享中心。万科的智能财务应用，实现了93%的智能记账，付款效率提升了30%；整个共享中心运营成本降低了15%。

“最佳业务安全守卫奖”网易易盾：反欺诈斗士，让“羊毛党”无地遁形

对于多数企业和广告主们而言，最难管控的就是利用虚拟账号进行非法活动的薅羊毛党以及黄牛党们。甚至他们背后早已形成一条成熟的黑色产业链。想要对抗这种潜在的欺诈行为，传统的技术手段已经无法满足企业用户的需求，网易易盾如何利用AI技术进行破解？

一是对触摸、手机陀螺仪的数据、鼠标移动、点击的行为等其他多维度的数据进行建模，跟训练数据集进行匹配判断；二是根据IP从网络层面和业务层面提供画像，通过评分模型，给每个IP输出一个7X24小时的动态风险值，通过动态风险值进一步判断；三是结合无监督学习+有监督学习方法主动生成不法分子作案的网络模型，依据规则引擎，结合行为建模，IP画像、其他关联网络模型以及风险名单库，综合进行判断。

整体来看，网易易盾是一家面向数字化业务提供内容安全、业务安全、移动安全和网络安全服务的公司。依靠网易20多年丰富的安全经验以及云计算、人工智能方面的积累，网易易盾在业务安全方面针对性地推出了行为式/短信验证码、号码认证、实人信息认证、注册保护、登录保护、营销反作弊、设备DNA指纹系统、DDoS高防服务、安全组件、应用加固、内容安全服务等一系列组合拳。

不久前，网易易盾在行为式验证码的基础上推出了推理拼图验证码，通过业内首创的逻辑推理+图块形式，解决找回密码、账号解冻、拉新领券等高安全等级场景下，人机高精准识别的需求。

目前，网易易盾已拥有超过25万的注册开发者、数千家付费客户，其中不乏知乎、OPPO、ViVO、小咖秀、挖财、中信证券、触电新闻等知名企业。（雷锋网）

广西路桥集团10年转型升级之道：修一条路，架一座桥，搞一套信息化

Thu, 19 Dec 2019 16:03:00 +0800

雷锋网导读：对广西路桥集团而言，近十年的信息化变更，可能是前所未有的高速体验。信息化高速路不再是一句口号，数据通道的高速与否暂且不论，这条信息化路的快速更替已经让广西路桥集团切身感受到“跟随国家‘一带一路’政策，追赶国外同行业先进企业，信息化是不可绕过的路径。”

记住 2015

广西路桥集团创立于 1953 年，当时它还是广西区公路管理局的一支工程队，1994 年组建成立广西公路桥梁工程总公司，也就是广西路桥集团的前身，2003 年集团正式脱离事业单位编制，2014 年正式更名为广西路桥工程集团有限公司。到如今，广西路桥集团已发展成为一个集工程施工、交通设计、技术研发、投资、房地产开发等多种业务于一体的大型专业施工企业。而2015 年，对广西路桥集团来说是具有特殊意义时间节点。

在这之前广西路桥集团已经上线了金蝶 EAS 项目管理、财务、HR 等解决方案，在这之后，广西路桥集团提出了“品质路桥建设” 的实施方案，其中 “信息化”、“标准化” 两项关键词，代表广西路桥集团对自身信息化有了更明确的预期与规划。而从 2016 年起，广西路桥集团开始将焦点转向业财一体化的建设，并尝试引入财务共享中心系统。

“从 2009 年到 2015 年，集团对信息化建设的投入大概在 7000 万左右，相比之下，从 2016 年开始到如今，已经累计投资近 4 个亿。尤其在 2018 年以后，由于数据的互联互通、实时导入了，工具减轻了员工们的工作强度，大家开始爱上这个工具。”尽管广西路桥集团很早就开始了财务信息化改造的尝试，但直到近些年，总经理凌忠才深刻感受到员工们开始真正拥抱信息化建设。

广西路桥集团总经理凌忠

“不是每个企业都需要转型，但所有的企业都需要升级，我们需要的是升级。”在升级这条路上，凌忠表示，广西路桥集团最先从财务信息化入手，并逐步拓展到了人力资源管理、项目管理、集采平台、智能物料等环节。至于在企业财务运营、管理的过程中，广西路桥集团究竟是如何释放出数据的能量，又是如何一步步将财务信息化与业务管理融为一体的？凌忠带领我们深入接触到广西路桥集团的各个业务线负责人。

起点

在广西路桥集团，有一个共识，业财一体化的真正落地是信息化建设的基础。如果没有实现，很多实际上是空中楼阁，起不了太大作用。

“财务是一个企业所有经营活动和经营成果的体现，所有的数据都会在财务系统中反映出来。选择从财务信息化入手，也是希望以财务倒逼其他部门进行流程、规则的改造，进一步地，倒逼其他业务实现与财务数据的融合。财务也一定要走在业务端，了解业务，才可能真正做到业财融合。”广西路桥集团总会计师唐海英谈到。

广西路桥集团总会计师唐海英

此前财务凭证都是需要手工录入的，现如今业务数据自动生成财务凭证，通过财务凭证查到业务数据，这种自动化模式已经达到 90% 以上，“这在五年前我们可能想都不敢想。”唐海英说道，但到 2030 年，广西路桥集团计划利用新技术实现财务管理的全部智能化。

以 2015 年财务共享中心系统的引入为例。当时，集团经营规模的不断扩大，项目管理方面的问题日益显著，反映到后端的财务工作上，工作重复性高、组织结构重复建设，更无法形成专业化分工。而那时，正值财政部在全国力推共享财务中心系统建设。

据财务共享中心主任黄泽介绍，广西路桥集团财务共享中心的建设大致可以分为几个环节：前期需求调研、蓝图规划、确定供应商进行系统研发、试点上线，最后上全面推广。

当时遇到比系统研发更难的问题是，如何让员工们真正接受并认可新系统。2015 年 4 月，广西路桥集团正式启动系统开发，直到 2016 年 3 月份项目试点上线，2016 年 5 月开始推广，2017 年 3 月 12 日正式建立集团统一的财务共享中心。 “一个新系统的上线是不容易的，对传统的观念冲击比较大。”黄泽感叹。作为一名老财务人，黄泽从 2009 年就开始从事广西路桥集团财务信息化的研发和推广工作，并全程参与了财务共享中心、税务系统、资金系统的建设。

当时，财务共享中心的上线对员工最突出的影响是费用报销方式的改变。比如原先报销都是基于本单位的人员审核、审批，一旦进入到了财务共享环节，审批人员都是随机的，“对于审批是否能通过，大家多少存在一些担心。对于国企单位来讲，其费用开支是受中共中央八项规定及企业制度严格管控的。出了问题怎么办？”但令老黄不可思议的是，2017年左右开始，广西路桥集团直属企业竟开始主动要求进入财务共享中心进行统一标准化的审核把关。

“从原先的员工抵触，到直属企业主动要求进入共享中心，这是最明显的一个变化。”

总会计师唐海英最后总结说，除了执行层面必要的手段，将财务数字化转型的落脚点放在战略层面也帮了很大忙。她认为，一方面需要一把手主抓和重视，才能完全推动，另一方面，是全员意识的问题，要让员工知道信息化能对自己的工作产生什么影响，他/她才可能重视和支持这件事情。

决心

2018 年 1 月，集团成立了路桥技术与信息分公司，同时承担施工技术的研发和集团信息化建设实施的任务。另广西路桥集团还成立有四大中心，分别是：财务共享中心、财务结算中心、材料采购中心、工程监控中心。为了突出信息化建设的重要性，集团还单独设立了信息化建设委员会……

“信息化技术到了一定程度，必然会对企业的组织结构产生影响。”凌忠表示。

在迎来组织变革之前，广西路桥集团先从队伍的专业化能力入手。一是从今年开始对劳务队伍进行专业化“分门别类”，保证劳务团队有足够的实力和利润基础上，形成从路基、路面、隧道、桥梁、房建的专业化队伍；其次，实行劳务招标模块化、标准化，跟劳务队伍相匹配；三是构建内部定额制度，规范对上下游项目成本的管控。

以财务的视角来看，从今年起，以财务共享中心为起点，广西路桥集团对财务人员的管理和培养模式进行了调整。在新技术的冲击下，财务人员不能仅沉浸在财务细节，更需要关注行业趋势、岗位趋势、技术趋势的变化，不断完成自我提升。

一方面，改用委派模式，将全部财务集中到集团共享中心进行管理，减少他们在审核、报账上的重复劳动，加强在管理会计上的转型；同时，直属企业的财务管理，也需要参与到更多企业的生产经营中。另一方面，按照专项人才进行财务的培养，比如税务专项人才，投融资人才，并采取导师一对一带头的方式，或者跟同行业上下游交换生进行培养。

如今，广西路桥集团财务信息化更强调以数据共享为核心，在形成业财税资银一体化的基础上，与人力资源管理、客商管理、合同管理、集采管理等各个模块互联互通。

例如，从一项业务的签约开始到最后支付完毕这个过程，杜绝了需要财务自己做会计核算、手工录入凭证等各种人为操作出差的差错，将事后财务管控变成每个业务前端的实时管控，降低财务管控的难度，进一步降低风险。

这样，财务人员也能够从传统的会计核算出纳抽身，从事更加有价值的工作，比如投融资分析、资金预算、税务管理。伴随着广西路桥集团正从单一的施工技术向施工管理各个板块升级的同时，财务共享中心恰好为财务人员转型升级提供了条件。

新难题

“为了信息化建设，我们做了大量基础工作。最多三年，就应该能够在我们公司完全得到实现。”凌忠表示。2019 年，广西路桥集团提出了基于信息化的基础进行数字化转型。

正如前文所述。财务共享中心的引入仅是广西路桥集团数字化的一部分，背后的困难程度绝不仅仅是建立一个“财务共享中心” 这样简单。

在接下来的探索中，更难的问题摆在了眼前——如何管理数据。

这也是广西路桥集团数字化建设的下一阶段，通过将 BIM 技术与 ERP、合同、进度、安全、质量等各个模块串联起来，形成对数据的打通及应用。

BIM（Building Information Modeling），即建筑信息模型，解决了现场管理和集团管理相结合的问题，是近年来建筑施工行业积极探索和推广的信息化技术。

关于引入 BIM 的重要性，凌忠认为，“在 BIM 技术没有得到全面推广之前，我们通过大数据管理工程项目是很难的，BIM 的应用为数据的打通提供了便利。”

举个例子，相比其他行业，建筑施工行业的业务形态主要围绕项目展开，在项目投标时，投标文件里的方案跟最终实施方案、标前标后的报价预算，都会有所差异。通过 BIM 建仓，可以使得每个施工方案形成标准化。

广西路桥集团总工程师韩玉

“ERP 完全是表单式的，只能通过固定的图片和表单的形式进行表述，BIM 技术可以直观地展示在三维图上，就不光是绘制三维图、做施工方案的演示这么简单了。”总工程师韩玉进一步解释道。

作为集团的总工程师，韩玉不仅统筹技术管理、技术创新、项目研发方面的管理工作，最近还将信息化管理的工作接管了过来。

“基于 BIM 的工程管理系统，实际上就是数字化转型的工作内容之一。先将实体工程数字化，再结合运营应用、施工过程的管理，将设计、施工、运营整个过程的相关信息存储起来，形成一个信息模型。”

除了 BIM 的实施外，广西路桥集团此前一直在进行数据治理的工作，目前已完成主数据治理项目的建设，相关的智能化管理平台也在做试点应用。

中台思考

广西路桥集团正经历着技术型施工企业向施工管理型、施工服务型企业转变。在建筑施工行业的这条价值链上，广西路桥集团既希望能够对业主建设单位服务，也能够为劳务人员、分包商，甚至当地施工周边的群众提供服务，实现连接上下游并为上下游产业提供无缝服务的能力。

由此引发了广西路桥集团对中台建设的思考。据凌忠所述，“我们希望给员工、给各个部门提供一个平台，也就是中台，让他们参与管理。”

实际上，中台的定义来源于阿里的中台战略，本质是提炼各个业务线的共性需求，并将这些功能打造成组件化的产品。前台要做什么业务，需要什么资源可以直接找中台，不需要每次去改动自己的底层，而是在更丰富、灵活的 “大中台” 基础上获取业务支持能力，让 “小前台” 更加灵活便捷，中台架构被认为是未来企业架构的方向。

广西路桥集团财务共享中心主任黄泽

那么，是否可以搭建一个属于财务的中台？

对此，财务共享中心主任黄泽指出，“财务共享中心作为中台，是远远不够的，它只是财务信息化的一部分。因为财务系统对业务模块的开展是不关注的，更多是根据国家的强制要求。像留存在系统各个模块里的数据，能够为经营决策作出依据，由此构建的数据仓库可以看做是（数据）中台。”

雷锋网总结

对于一家传统企业来讲，信息化建设的道路上每走一步都是艰难的，也是需要深思熟虑的。从 2009 年真正走上业财一体化到如今强调数据共享、互联互通，广西路桥集团在路桥施工建筑领域的数字化之路越走越顺。尽管如此，广西路桥集团的数字化跃迁或许才刚刚拉开帷幕。换句话讲，如果没有前数十年的行业经验积累，没有前几代前辈的指导，没有过去十多年在信息化建设上的敢想敢干，很难说能迎来近两年广西路桥集团的快速发展期。

从最近三年的业务表现来看，广西路桥集团正保持着 30% 以上的快速增长，预计 2019 年营收有望达到 230 亿元。

这家有近 5000 人，年营业收入过百亿级别的企业，对数字化带来的红利是渴望的，同时集团上至高层下至实际岗位人员，对于数字化、智能化，甚至中台这类新名词都有着不同程度的深刻认知。这是雷锋网近日走访广西路桥集团的一个普遍感受。

大讲堂 | 强化学习的鲁棒性问题

Thu, 10 Oct 2019 14:24:00 +0800

分享主题

鲁棒强化学习

分享背景

强化学习算法依赖大量采样的特性决定了需要首先在仿真环境中训练智能体策略再迁移到现实系统中。因此当仿真环境和现实系统出现不匹配时，策略的鲁棒性是影响强化学习算法能否实用的关键因素。本次公开课中，讲者将介绍华为伦敦研究所决策与推理团队在鲁棒强化学习方面的相关工作。

分享嘉宾

任航，伦敦帝国理工学院博士，任职于华为诺亚方舟实验室伦敦

分享提纲

华为伦敦研究所决策与推理团队介绍
强化学习的相关背景知识与强化学习的鲁棒性问题
Wasserstein Robust Reinforcement Learning 论文解读

分享时间

（北京时间） 10月 10 日（星期四） 20:00

雷锋网雷锋网雷锋网

悉尼科技大学副校长张成奇：人工智能三大学派与智慧物流

Mon, 23 Sep 2019 21:04:00 +0800

9月19-20日，由临沂市人民政府、新一代人工智能产业技术创新战略联盟、中国物流与采购联合会物流装备专业委员会、中国科学院计算技术研究所联合主办，临沂市大数据局、临沂经济技术开发区管委会、临沂人才工作集团有限公司、中科院计算所临沂分所、华为技术有限公司、中关村视听产业技术创新联盟承办的“2019国际人工智能及智慧物流大会”在山东临沂隆重举行。

大会为期两天，设有一个主会议和“人工智能技术及应用专题会议”“智慧物流专题会议”“人工智能产业园区发展专题会议”“人工智能与健康养老专题会议”“计算所技术与产业对接专题会议”共五个专题会议。

此次大会以“人工智能技术赋能新旧动能转换”为主题，旨在促进人工智能等前沿技术与临沂地方产业特色的深入融合，探索出一条智能化的城市转型升级之路。

在19日的主会议中，悉尼科技大学副校长、澳大利亚人工智能协会理事长张成奇教授以《人工智能发展与智能物流》为题发表演讲，介绍了人工智能技术的发展脉络与应用，并重点探讨了人工智能与物流产业的交集。

张成奇教授介绍，人工智能技术在物流领域有几点重要的应用方向，包括流量和流向预测、智能仓储、客户管理、风险管理等等。

作为一名临沂人，张成奇教授也为家乡的物流产业发展献上宝贵的建议。他表示，人工智能与物流产业的结合不是单一，而是全面与综合的。如果临沂能够成立一个人工智能物流研究院，一定会对当地的物流产业升级大有裨益。

他强调，成立物流研究院并不是要找100个人工智能方面的人才来做研究，事实上这样的人才很难找。相反，我们更应该成立一个高级研究顾问组来策划和动员全国乃至世界的精英力量来共同为临沂的物流产业升级添砖加瓦。

以下是张成奇教授的全部演讲内容，雷锋网做了不改变原意的整理与编辑：

谢谢大会的邀请。我的分享主题是《人工智能发展及智能物流》，演讲共分为三部分：第一部分梳理人工智能的大致发展脉络，第二部分介绍它的主要应用方向，第三部分探讨人工智能与物流产业的交集。

人工智能的发展脉络

人工智能如今大家已经耳熟能详了。它提出至今已有63年的历史，但三年前才真正热门起来，直接原因是AlphaGo战胜了围棋世界冠军。此前人工智能经历了三起两落，一直不温不火。

我是从1982年读硕士开始研究人工智能的，至今也有37年了，这37年里人工智能的发展是有一定规律可循的。

人工智能的“热”并不是偶然，而是各方面条件成熟的结果，是一个厚积薄发的过程。算法、算力和数据三者缺少任何一个，人工智能都火不起来。事实上，即便现在火的也只是人工智能中一部分，没有做到全面开花。

图灵测试是人工智能发展历程中的一个重要里程碑。现在计算机界最大的奖项就叫“图灵奖”，相当于计算机界的诺贝尔奖。

图灵测试有几个非常伟大的地方。首先，它提出的时间非常早，1950年的时候计算机还只能做简单算数，图灵就想到了计算智能，非常具有前瞻性。图灵测试的内涵并不复杂，就是提出相同的问题分别让人类和机器来作答，由出题人来判断哪个是机器答的哪个是人答的。比如有100道题，分辨出谁是机器和人的概率小于70%，就代表机器已经具备智能了。里面包含了一个很重要的思想，它不管答案正确与否，也不管答案是怎么得出的，只关心机器与人的答案的相似性。

这个思想主导人工智能发展了至少60年，之后的人工智能研究基本都是沿着这个思路展开的。比如图像识别，人类和机器识别图像的方式几乎没有任何关联，但没关系，只要结果是一样的就行了。那么，究竟该怎样让机器来模仿人类的智能呢，由此诞生了人工智能的三大学派。

三大学派是如何划分的？实际上人的智能分成三大部分，第一部分是认知，它是人类所有独有的，其他生物都不具备。认知智能是机器最早要模拟的人类智能，我们认为人工智能主要就是认知智能。什么是认知智能？学习能力、推理能力、专家能力都属于认知智能。人工智能从1956年开始模拟认知智能，由此衍生出了人工智能的第一个大学派——符号主义人工智能。

人类还有一类智能叫做感知智能，眼、耳、鼻、舌、身对环境的感知能力都属于感知智能，动物也具备这个能力。过去机器的感知智能一直做得不好，准确率低到无法应用，现在随着深度学习、云计算和大数据技术的发展，这一类智能有了很大提高，这正是人工智能突然火起来的原因。现在人工智能的很多应用，比如识别图片、识别语句实际都属于感知智能。

第三类是行为类智能，叫做行为主义人工智能，比如机器人的操控。当然，机器人的操控也涉及到了认知和感知智能。

基于知识的认知类人工智能我们称之为第一代人工智能，而像图像识别、语音识别这类基于数据的感知智能，我们称之为第二代人工智能。机器人则是一种混合智能，既要用到感知和认知，也要用到行为。三者加起来就构成了人工智能发展的脉络。

50年代人工智能也曾红极一时，当时用到了符号推理，但后来发现不大成功，原因在于它没有知识。所以70年代的时候就开始发展基于知识的专家系统。当时大家认为，人的认知智能主要决定于知识而不是推理能力。专家系统在人工智能的发展中起到了很大的作用，现在依然有很多专家系统在使用，包括在保险理赔、法律顾问、医疗辅助、气象辅助等领域。

但专家系统也有它的局限性，就是太专一了，所以后来90年代初又发展出了分布式专家系统。我的博士论文就是专门研究分布式专家系统的，而且发表在了《世界人工智能杂志》上，这在大陆华人里还是第一个，当时是1992年。分布式专家系统的感知能力非常有限，但相比过去的专家系统已经有了很大的提升。其中数据挖掘作出了重要贡献，很多知识专家也不具备，但可以从数据挖掘中获得。可以说，数据挖掘是第二代人工智能的开始。

数据挖掘的应用非常广泛，从社会保障、保险、证券、银行到物流都大有用武之地。应用数据挖掘最成功的例子当属沃尔玛，它可以用数据预测客户需求，然后根据客户需求做仓储预测，希望借此将库存降低到0。但实际它只要把库存降低一个百分点就已经能够节省非常多的钱了。此外，数据挖掘做的比较好的企业还有京东和滴滴。

临沂的物流业也离不开数据挖掘，我建议在这方面加大投入。物流业的本质就是把商品从一个地方运往另一个地方，如果我们能通过数据挖掘预测需求，就不必等需求来了才去调度车辆。滴滴的空车调度就是一个很好的例子，它不但能在来订单的时候把车辆调过去，还能在所有空车都在等客的时候，把车提前调度到未来一小时客流量会大幅增加的地方。物流也是同样的道理，你对需求的预测越准确，物流的效率就越高。

人工智能的第二个学派称之为连接主义学派，主要对应图像和视频，它的成功得益于神经网络的发展。神经网络其实很早就有了，但只能做到三层，层数多了它就不收敛，算着算着就发散了，得不出结果。现在的深度学习是怎么做的呢？假如你有很多的数据，通过算法不断迭代，它就能知道哪一类特征应该识别出什么样的结果。它的本质通过大量数据迭代找到了一个复杂的函数关系，但是它太复杂了，很难去解释。现在整个行业面临的难题就是如何让深度学习算法具有可解释性。

深度学习算法的发展催生了感知智能的成功。目前人工智能领域的独角兽企业基本都可以归类为感知类企业。现在深度学习算法的准确率已经能够让人接受了，比如车牌识别和人脸识别的准确率都非常高了，京东有几万员工，但他们上班都不用刷卡，通过人脸识别比对一下就行了。

大家可以想象，等图像识别的准确度足够高的时候，整个世界会发生怎样的改变。现在我们去高铁站要刷票，去海关要带护照，本质上都是为了证明你是你。等人脸识别足够准确了，这些证件就都不需要了。

语音识别的应用范围就更广了，科大讯飞和云知声在这方面都做得很好。这项技术发展成熟后，我们出去旅游直接说中文就行了，别人说法文、西班牙文都没有关系。我们不用学英文，不用做翻译，可以节省大量的时间。

还是视频解析，现在大家习惯把视频解析理解成寻人或者追逃，实际它的价值远不止于此。

总而言之，连接主义人工智能或者第二波人工智能之所以火起来，主要是因为它的感知能力提高了。

第三个学派是行为主义人工智能。因为机器人不光要认知和感知，还要操作和行动。机器人可以代替我们完成很多工作，减轻工作负担。比如我们学校为日本东京电力集团研发的蜘蛛机器人，可以自动爬到铁塔上去检测维修。我们还和招商集团合作，在海门造船厂用螃蟹机器人除锈喷漆。

机器学习早期是基于符号的，现在是基于数据的。人工智能不仅要解决认知和感知问题，还要解决行为问题，三者融合是人工智能下一步非常重要的发展方向。有人说人工智能这么厉害，未来会不会比人还聪明。我认为至少这一代还做不到，因为它是基于数据的，和人类智能还有很大差别。所以说人工智能的研究接下来还有很多事情要做。

人工智能的应用范围

人工智能的应用范围非常广，比如自然语言处理，很多地方都用得到，包括物流行业。物流实际是一个综合性产业，人工智能的大部分技术都用得到，比如智能仓储、智能配送、客户管理都可以用到很多人工智能技术。

自动驾驶也是综合了人工智能的三大学派，其中图像视频理解属于感知智能，驾驶决策属于认知智能，驾驶控制属于行为智能。

智慧物流

做智慧物流首先要布局物联网，因为现在的人工智能都是基于数据的。数据从哪里来？一种是社交类数据，来自银行信息、社交网络等；还有一类是机器收集的，属于物联网的范畴。所以智慧物流要从物联网着手，增加信息的采集，收集数据后还要处理进和分析预测。

这里面涉及到了人工智能的方方面面，比如自然语言理解是感知智能，推理规划属于认知智能，智能控制是行为智能。人工智能在物流领域的具体应用包括需求预测、库存优化、仓库选址、自动分拣、机器人搬运、车货匹配、物流路线、自动驾驶、风险预测、客户画像、业务拓展、智能客服、订单管理，非常之广泛。

所以物流行业想要再上一个新台阶，在人工智能领域加入投入是非常有必要的。我认为临沂可以成立一个人工智能物流研究院，未来一定可以收到很大回报，但布局一定要趁早。

企业做智慧物流要加大与外界科研机构的合作。前面李院士说了一句话我很认同，就是“科研机构先做研究，有了成果再拿来转化，这种思路是错的”。因为科研院所的研究通常聚焦在核心技术，比如做机器人，我们可以做出样机但不知道市场上有爬铁塔的需求。这种定制化的需求我管它叫“最后一公里”。要迈过这最后一公里，一定是企业提供需求，和科研院所的核心技术结合起来，然后用两到三年的时间来共同开发，大家共同拥有知识产权。而不是我把爬铁塔的机器人造好了直接卖给你，科研院所没有这个能力，这也不是他们的主要目的。

经常有企业问我，你有什么技术我能帮你转化。我回答，“对不起，我开发的都是核心技术原型，还没到应用的阶段。如果你愿意，可以先投一点钱，我们一起来开发，知识产权共有。开发完成后就可以进行产业化了。”

其实市面上有很多的投资机构可以提供资金。那为什么还要产业界的人投一部分钱呢？因为不投钱你就不会专心。所以你可以把你的需求和产能投进来，再加上一部分的钱，我们找第三方投资机构合作，这是最理想的途径。

最后介绍几个智慧物流的具体应用。

首先是流量和流向预测，这对物流业非常重要。现在大多数还是被动型调度，订单来了我才安排，有了预测之后我们就可以进行主动调度，就像滴滴调度空车一样。里面需要用到数据挖掘技术，预测潜在的风险。物流高峰等等。

智能仓储。现在很多仓促都应用了机器自动分拣。其实合理安排库存也很重要，根据不同货物的属性和周期优化库存。做好了这些，物流的效率就能显著提高。

客户管理。物流行业里的所有物都是和人相关的。谁要？往哪运？运多少？什么时间运？这些都涉及到客户管理，包括客户画像、智能客服，知识图谱、个性化管理等。

风险管理也很重要，比如我们派单的时候可以分析司机的疲劳程度。如果他已经连续驾驶了12个小时，就必须进行干预，否则一旦出现交通事故，损失就将非常严重。此外还有包裹和集装箱的损坏检测等。

总而言之，人工智能在物流产业中的应用不是单一而是综合的。

我建议临沂成立一个人工智能物流研究院，这样就可以调动全国乃至全世界的相关人才来共同发挥力量。需要强调的是，成立研究院并不是要招100个人工智能人才来做研究，这很难做到。但我们可以成立一个高级研究顾问组来策划和组织全世界的人才来合作交流。

我今天的分享就到这里，谢谢大家。雷锋网雷锋网

北京物资学院物流学院院长姜旭：智慧物流的发展趋势与城市物流的破局之道

Mon, 23 Sep 2019 19:20:00 +0800

9月19日，由临沂市人民政府、新一代人工智能产业技术创新战略联盟、中国物流与采购联合会物流装备专业委员会、中国科学院计算技术研究所联合主办，临沂市大数据局、临沂经济技术开发区管委会、临沂人才工作集团有限公司、中科院计算所临沂分所、华为技术有限公司、中关村视听产业技术创新联盟承办的“2019国际人工智能及智慧物流大会”在山东临沂盛大开幕。

在下午的“智慧物流专题会议”中，北京物资学院物流学院院长姜旭作为开场嘉宾发表了主题为《智慧物流的创新与发展》的精彩演讲。

演讲中，姜旭院长为与会听众梳理了智慧物流的发展脉络，并提出了智慧物流发展的几大趋势：4P（product、price、place、promotion）-4C（customer solution、cost、convenience、communication），3R（range、response、resolution）-3V（value、visibility、velocity），VTT（visibility、traceability、transparency），EEE（earth、environment、effect）等。

演讲最后，姜旭院长还为城市物流的发展创新提供了几点建议。他表示，为了解决城市物流的拥堵问题，应该建立地上+地面+地下的综合物流体系。

地上，在城市内及周边构建高架快速通道，使配送车辆在卸完货后，快速离开室内；地面，在城市建立货物集散中心、共同配送中心，解决城市物流中货物混乱、交通事故增加等问题；地下，在写字馆内构建地下配送中心，解决有送货车辆造成的周边设施的交通堵塞、违法停车等问题。

以下是姜旭院长的全部演讲内容，雷锋网做了不改变原意的整理与编辑：

大家下午好，今天我为大家简单介绍一下智慧物流和城市物流相关的发展和创新。

首先明确一点，物流属于社会学科。我们先来梳理一下它的发展脉络。物流业的发展经历传统物流、现代物流、供应链管理和供应链集成四个阶段。它们的共同特点都是优化：传统物流是单项功能优化；现代物流是多种功能优化；供应链管理是企业之间的优化；供应链集成是国与国之间的优化。通过四个不同层次的优化，就能实现马歇尔提出的产业集聚效应，形成现在的供应链集群。

说到这里，要为大家介绍几位专家的观点。第一位是英国供应链管理专家马丁·克里斯托弗，他认为“市场上只有供应链而没有企业，21世纪的竞争不是企业和企业之间的竞争，而是供应链和供应链之间的竞争”。由此可见供应链对企业的重要程度。

此外，美国原通用电气董事长杰克·韦尔奇也指出，“如果在供应链方面不具备竞争优势，就干脆不要竞争”。

经济学家托马斯·弗里德曼写了一本书叫做《世界是平的》。他提出一个观点，供应链将成为十大力量之一，推动现在的生产和流通模式发生巨变。

美国麻省理工学院教授尤西·谢菲在《物流集群》这本书中指出，“通过物流相关活动在空间上要素集中，物流集群可以带动其他产业并达到增值效应，并推动产业供应链与城市供应链发展。”

美国经济学家帕拉格·康纳在《超级版图》中表示，今后四十年供应链的发展将产生比以前几千年更大的力量。

从这些专家的观点中，我们可以看出智慧物流发展脉络的转移。

下面再介绍一下智慧物流的五大主义——现场主义、动作主义、服务主义、改善主义和国际主义。如何通过改善活动和安全作业提高“现场力”，提供一体化服务、无缝式服务、打包式服务，是物流企业实现智慧物流的最大课题。物流从供应方到客户端，通过五大主义，使得货物实现货畅其流的有序流动。现在物流服务中最大的命题就是，通过IoT技术追求同步化、标准化和前置化。

智慧物流发展的目标是什么？首先当然是提供品质化的物流服务，此外还有差异化服务、性价比和安全性等要素。

提到智慧物流必须强调一个法则——海因里希法则，即任何一个重大事故背后往往隐藏着29个轻微事故和300个异常。物流人必须牢记这一法则，重视任何一个轻微异常。因为如果处理不当，很可能就会导致严重的事故。

智慧物流的特点是“吨/元”不断下降，“元/吨”不断上升。我们现在只运高附加值的商品，但正确的做法是从系统角度来思考物流问题，给物流服务创造更高的附加值。就像把小麦加工成面粉、面包、三明治、意大利料理，商品附加值不断升高。

今后智慧物流的发展方案就是标准化+模块化+弹性化+大量客制化。大量客制化生产已经成了今天每个企业都要考虑的问题，因为今后都是定制化消费。但定制化消费背后也需要有模块化和标准化的商品，这些要素加在一起才能满足各个层面的需求。

大家都知道微笑曲线，智慧物流和微笑曲线密切相关。但我们经常错误地理解微笑曲线，只看重微笑曲线上面的研发和服务。实际微笑曲线包含了十个链条——对接商品的生产链、延伸商品的交易链、完成商品的信息链、促成商品的金融链、形成商品的追溯链、构建商品的供应链等。智慧物流的使命就是赋能整个链条的发展，推动微笑曲线整体上移。

此外，最近还出现了一个第六产业的概念。什么叫第六产业？每年1月1日中央都会出一个一号文件，连续五年的一号文件中都提到了一、二、三产业的融合发展。一、二、三产业融合发展背后的理论就是第六产业，让产业和产业之间无缝对接，通过这样的融合形成增值效应。

现在我们已经看到一些企业在这样做：把客户的需求传递给工厂，工厂通过3D打印直接生产，然后通过工厂旁边的公司配送，真正实现零库存和按需生产。

智慧物流中有一个非常关键的要素——安全。我们常说，今天是一个没有隐私的时代，每一个人和每一家企业都是透明的。这意味着物流企业手里掌握了很多数据，如何合理应用这些数据，实现可视化追溯是物流企业和物流人每天都在思考的问题。

其中很重要的一个课题就是食品安全。要从食品的生产开始，对批次等各种信息进行收集和传递，在采集、生产、销售、流通等各个环节无缝对接，形成全程可视化追溯。只有这样才能保证我们吃到的食品是安全的。

智慧物流的发展还必须考虑到CSR和CSM。很多企业发展到一定程度后都会有CSR，但CSR是低端的，是企业的社会责任，是被动的。但CSM不一样，它是企业的社会使命，是主动的。

上午的嘉宾演讲中提到了中国物流发展的标准化问题。标准化其实就是CSM理念的体现，如果我们的物流托盘和中转箱都是标准的，就能更好地融入到社会物流体系当中，形成真正的智慧物流。

随着市场的变化，智慧物流的发展呈现出几点趋势：4P向4C转化、3R向3V转化、VTT和EEE转化、这些变化都是以客户为中心，以市场为驱动的。

智慧物流的发展以前是横向的时间管理，现在是纵向的时效管理，通过大数据、IoT等技术根据实时情况进行合理预测。

以前物流领域的投入中心是物流园区、物流中心和物流枢纽，但今后物流业的发展更多是围绕高品质的物流服务，提供安全安心的物流环境，考虑到无缝对接和救灾应急问题。以前物流更多考虑的是成本和效益，但智慧物流应该更多考虑我们的设备是不是会有噪音，是不是对环境有害，追求一物一价、地产地销。

我总结为，快递不是越快越好，冷链不是越冷越好，成本不是越低越好，物流也不是越动越好。

我们回顾一下人类的科技发展，工业1.0时代经历和100年，2.0时代经历了90年，3.0经历了60年，4.0预计将经历30年，然后进入5.0时代。可以看到，科技进步的速度越来越快。接下来我们将通过IoT、大数据、AI、3D等技术，以运力运联网和供应链为核心推动第五次产业革命。在第五次产业革命中，谁掌握了技术和数据，谁就拥有了主动和主导权。

刚刚提到，物流技术是分级的。以连接、替代、创造、人工智能等物流技术，可促使物流业转变，促使其在国际物流业中发挥竞争力，使物流业成为“价值创造型的高收益行业”。

物流业具有5层构造的网络（交通及物流基础设施、通信及信息基础设施、配送系统、信息互通基础设施、物流系统），其各层的机制设计、基础设施的网络化关系到整体的优化。

总结一下，今后智慧物流的发展将呈现出以下趋势：4P向4C转化、3R向3V转化、VTT、EEE，第六产业、五大主义、供应链集群和第五次产业革命。其目的是通过物流技术不断发展，构建完整的物流系统，这个系统应该是对环境没有危害的，最终让消费者的生活更加幸福。

我一再提到，物流是具有匠人精神的产业。物流服务就像自来水一样，但水管背后有很多物流师傅做了非常多的工作。只有通过匠人精神才能推动整个物流的发展。

下面介绍一下城市物流的发展创新。现在每个城市都面临着拥堵等城市病。怎么解决这个问题呢？概括来说就是建设地上+地面+地下的综合物流体系：地上通过高架桥建设立体配送通道，地面要有货物集散中心和共同配送中心；地下建设写字楼配送中心或楼宇配送中心。

首先，每个城市的外围应该建设货物集散中心，目的是让大卡和重卡不进城市内部，由微卡进行具体配送。这样一来可以解决两个问题：一是减少了大量重型卡车进入市内；二是通过合理使用微卡形成微循环，可以激活整个城市的配送。

解决城市病还需要建立共同配送体系。过去大家都是各送各的，共同配送可以减少车辆使用次数，减少二氧化碳和氮硫化物的排放。共同配送要有专门的车位和地点，而且服务可以不断升级。在共同配送体系中，即使竞争对手也可以把同类商品一起配送，解决配送次数过多的问题。此外还要有配送员和周转箱等核心要素。

地下写字楼配送中心也是解决城市病的重要途径之一。一个100层的写字楼，每天有700辆车进进出出，不但影响了写字楼的配送，而且影响了整个城市的交通。建设地下写字楼配送中心可以减少车辆进入馆内的时间，改善周围交通。

我们也可以尝试其他有效的办法，包括建设共同收发中心，解决包括电子商务在内的密集场所的送货上门问题。

此外，还应该建设一个“求车+求货+求库+求资金”的“四求”系统，帮助对接各方资源。我们也可以考虑便利店+快递的模式，因为不可能每个企业都设置自己的物流末端节点，因此我们可以考虑用商业节点作为物流末端节点来解决城市的物流问题。也就是说，便利店未来将成为城市物流发展的主要芯片。

城市物流还应该推动全渠道销售模式，实现跟客户、消费者的无缝式对接体验。比如地铁站的墙壁上可以设置虚拟超市作为线下提货点，顾客下车后可以顺带把货取回家。

城市物流的发展要充分考虑线上线下融合，消除线上线下DC条块分割、数据和条码分割的问题，。如果同一个消费者，不同国家的商品，可以经过同一个平台配送，就能大大减少配送压力。

2035年中国将正式进入老龄化社会，老年的物流配送问题怎么解决，这也是行业未来面临的一个重要课题。

总而言之，城市的智慧物流发展，需要从多个维度来综合考量，包括国家层面、城市层面、企业层面和消费者层面。

最后用16个子来总结物流人的初心——物尽其用，货畅其流，人尽其才，地尽其利。物流无国界，智慧无止境。雷锋网雷锋网

2019 国际人工智能及智慧物流大会第二日：三大专题同步展开，立体式探讨城市新旧动能转换

Sun, 22 Sep 2019 14:24:00 +0800

9月20日，继第一天的精彩议程后，由临沂市人民政府、新一代人工智能产业技术创新战略联盟、中国物流与采购联合会物流装备专业委员会、中国科学院计算技术研究所联合主办，临沂市大数据局、临沂经济技术开发区管委会、临沂人才工作集团有限公司、中科院计算所临沂分所、华为技术有限公司、中关村视听产业技术创新联盟承办的“2019国际人工智能及智慧物流大会”继续在临沂召开。

大会第二天的议程设有三个平行专题会议，分别为“计算所技术与产业对接专题研讨会”“人工智能与健康养老专题会议”和“人工智能产业园区发展专题会议”。

计算所技术与产业对接专题研讨会

马英矫：基于工业5G系统的电动车柔性智能制造平台

大会伊始，北京中科晶上科技股份有限公司的马英矫作为开场嘉宾，发表了题为《基于工业5G系统的电动车柔性智能制造平台》的演讲。

马英矫介绍，作为新生代消费群体的主力军，90后和00后对于商品的要求除了实用性还有个性化。这意味过去工厂用一套模具大规模生产的方法已经行不通了，未来工厂生产线必须朝着可重构、柔性化的方向发展。

建设柔性化的智能制造体系有几个关键要素：一是设备必须可灵活移动，而且能够互联互通；二是工艺能按需调整；三是人机物协同作业。

马英矫表示，未来的工厂将不受限于空间和地域，要做到设备互联网互通且所见即所得，高速度、大容量、低延迟的5G网络必不可少。

在此背景下，中科晶上联合华为发布了全球首枚5G-U工业芯片，并在电动单车的生产线上进行了试点。据了解，传统工厂一天能够生产600-700辆自行车，引入基于5G芯片的柔性智能制造体系后，其产能提高到了1000辆，并大幅节省了人力。

郭英杰：面向安全管理行业的人工智能解决方案

随后，北京中科天演科技有限责任公司的郭英杰以《面向安全管理行业的人工智能解决方案》为主题发表了精彩演说。

郭英杰介绍，目前中科天演主要聚焦于用深度学习、运动物体建模仿真等人工智能前沿技术来解决电力行业和驾驶行业的安全管理问题。

在电力行业， 2014-2018年间全国共发生人身伤亡事故238起，事故发生的原因主要可以归结为两类：一是人员违规操作，二是设备巡检不到位。

通过人工智能技术，中科天演不仅能够识别火焰等危险特征，还能分析工作人员是否有正确佩戴安全设备、有没有在安全距离内，以及作业是否规范等，并及时提供预警。

驾驶行业同样是安全事故的高发地带，其中疲劳驾驶和干扰驾驶导致的事故占据了不小的比重。中科天演可以通过对司机的头部姿态、面部表情、眼动数据等分析建模，判断司机的驾驶状态，并进行有效的安全预警。

邱林杰：知人识面辨万物，开源赋能共发展

紧接着，中科视拓（北京）科技有限公司的邱林杰以《知人识面辨万物，开源赋能共发展》为主题发表了精彩演讲。

今天，大众对于人脸识别技术已经不再陌生。而中科视拓正是人脸识别赛道上的一个重要玩家。邱林杰介绍，中科视拓同时提供离线和在线两种不同的人脸识别服务，采用1:1和1：N比对，支持公有云和私有云部署。

目前，在一万人的底库中，中科视拓的1：N验证通过率已经能够达到98%。其人脸识别技术也已经广泛应用于楼宇、校园、场馆等多个场景，包括通行管理、访客管理、人脸迎宾等。

此外，中科视拓在微表情识别领域也颇有建树。基于这项技术，除了能监测司机的疲劳驾驶情况，还能帮助高危生产现场和信贷行业做风险预警。

围绕计算机视觉技术，中科视拓还建立了一个通用AI管理平台——See TaaS，将以深度学习为代表的人工智能方法转换为标准化的服务产品，为不同企业提供自主可控人工智能生产能力。目前该平台已经服务了十余个行业。

汪玮：工业智算机在智能制造领域的应用

短暂的茶歇过后，中科海拓（无锡）科技有限公司的汪玮用题为《工业智算机在智能制造领域的应用》的演讲开启了专题会议的下半场。

汪玮表示，目前世界各国都在大力发展智能制造。制造业的智能化升级有三个关键要素——算法、算力和数据。现在我们已经有了非常多的数据和非常优秀的算法，但算力依旧比较稀缺或者说昂贵。很多工厂都希望在生产线引入智能算法来提高质检的效率，但听到一块GPU需要几万块钱时便陷入了沉默。这正是促使中科海拓进入智能工业计算机领域的重要原因之一。

今年9月8日，中科海拓在物博会上发布了首款灵知系列的工业计算机。汪玮表示，当前的工业计算机大多博而不精，功耗和成本高，实用性较差。相比之下，灵知系列具有专业的智能计算架构，可以动态调配算力，功耗低、操作简单，具有非常高的可靠性和性价比。

此外，中科海拓也为工业产业提供了多领域、全场景智能的计算平台，可以广泛应用于产品质检等诸多领域。

张节萍：人工智能与物联网感知、应用

然后，济宁中科智城电子科技有限公司的张节萍在题为《人工智能与物联网感知、应用》的演讲中介绍了物联网和人工智能技术是在各行各业落地应用的。

张节萍表示，物联网就像人的眼睛、鼻子、耳朵和四肢，人工智能则像大脑，两者相辅相成，缺一不可。

中科智城在物联网领域推出了云平台——智城云，聚焦PaaS和SaaS应用层，并提供包括微信小程序、手机APP在内的一整套解决方案。

以中科智城的云合超级APP为例，张节萍介绍，目前物联网领域有很多小微初创公司，他们需要将产品接入一款APP来实现家电的智能。云合超级APP可以接入各种各样的智能家电，而且开发费用只需要千元左右，研发周期非常短，仅需一周左右。同时还支持为大型企业定制独立的APP。

江树浩：中科驭数软件定义通用加速器

专题会议最后，中科驭数的江树浩以《中科驭数软件定义通用加速器》为主题压轴登台演讲。

江树浩介绍，IoT技术的发展创造了海量的数据，对算力提出了更高的要求；同时计算的范式也在不断演化，端设备不仅可以产生数据，也可以响应云端的计算任务。

这种变化为专用计算架构创造了巨大的机遇，不少国内外巨头纷纷布局专用芯片的研发和制造，希望专用芯片能在计算效率和计算性能上获得显著提升。

然而中间面临着两大挑战：一是摩尔定律逐渐失效，无论专用还是通用芯片的性能提升都开始减缓；二是软硬一体的解决方案很难应对快速变化的应用迭代。

在此背景下，中科驭数提出了KPU的概念，希望通过软件定义的方式打破这两重瓶颈。江树浩介绍， CPU虽然性能更高，但它只是通用的纸面性能，而KPU体现的完全是执行计算任务时的实际性能。同时中科驭数也提供软件，能够定义更复杂的运算。

因为这种软件定义的特点，KPU可以快速从一个专用领域切换到另一个专用领域，快速覆盖比较重要的长尾应用市场。

人工智能与健康养老专题会议

陈益强：面向医养结合的联邦学习方法及应用

在上午并行举办的“人工智能与健康养老专题会议”中，计算所泛在中心主任陈益强以《面向医养结合的联邦学习方法及应用》为主题率先发表了演讲。

陈益强介绍，现在很多医学AI方面的研究都是围绕医院场景展开的，但医院的数据基本都是发病以后的数据。事实上很多疾病发病前都有一个前驱期，找到这个前驱期的特征对于疾病的早诊早治至关重要。

因此医学AI的研究还必须找到一个养老的场景，建立医养结合的模式。但这个过程中面临着许多挑战。因为这两个场景有着很大不同，医院的数据量比较小，类型也比较单一，好处是质量很高。养老场景却恰恰相反，数据量非常大，但质量不高。

解决这问题的课题之一就是如何在保护隐私的前提下，最大化利用医院的小数据。针对这个问题国际上提出了联邦学习的方法，即只传参数，数据在本地。

这种方法可以通过横向迁移来解决小数据的问题，然后再通过纵向迁移来解决共性向个性转换的问题，相当于有了举一反三的能力。

卢映希：智慧养老与人工智能

随后，乔治梅森大学教授卢映希围绕《智慧养老与人工智能》发表了精彩演讲。

卢映希的演讲分三个部分：一、介绍人工智能的和作用；二、探讨为何要构建养老产业的智慧平台；三、介绍人工智能养老的实际案例。

卢映希表示，未来就像电影《钢铁侠》中描绘的那样，人类除了大脑其他脏器都可以替换。借助生物科技和人工智能技术的发展，人类将拥有更加健康的身体，变成增强人类。

在这个前提下，养老产业无论是建设城市还是养老院都要从平台开始打造。在这个平台上，不管来自何方的人都可以发展业务，利用平台上技术和设施独立生活和发展。

卢映希强调，比起单一技术的开发，这种融合性平台的构建是最重要的。因为世界早已融为了一个整体，联合全球的专家和企业共同努力，才能最大限度促进行业的发展。

董少杰：人工智能在脑卒中管理实践的应用

紧接着，华翌科技创始人及CEO董少杰发表演讲，介绍了人工智能在脑卒中管理实践的应用。

董少杰介绍，脑卒中全球是第二大的致死疾病，在中国更是位居首位。脑卒中分为出血性脑卒中和缺血性脑卒中，目前60%-70%的死亡都是缺血型脑卒中引起的。因此，利用人工智能手段提升脑卒中的防治效果有着极为重要的意义。

董少杰指出，脑卒中防治与人工智能等信息化技术的结合必须紧贴临床治疗流程，主要分几个重要部分：一是急性期的治疗，二是二次预防，三是康复治疗，四是出院随访。

目前相关信息化系统的应用，主要还集中在急性期的治疗当妈，把院前的急救和医院的信息系统之前的断层地带打通，其次还有在诊疗过程中用AI算法来协助医生做诊断。

孙玉宁：国产医用机器人技术的研发与产业化进展

而后，在题为《国产医用机器人技术的研发与产业化进展》的演讲中，苏州协同创新研究院副院长孙玉宁介绍了高内外在医疗机器人方面的进展，以及苏州协同创新研究院所做的一些工作。

孙院长介绍，手术机器人具有精准、出血量小、恢复快等优点，受到世界各国的高度重视。目前，全球的手术机器人装机量已经超过了5000台，国内装机量也超过了100台。

近几年，中国政府也出台了很多政策来鼓励相关技术的发展。在政策和技术进步的双重驱动下，中国的手术机器人产业已经有了很大进步。

按细分形态来说，腹腔镜手术机器人和骨科机器人在国内是进展比较快的；其中前者已经进入到临床，还没有拿证；后者已经拿到证，也进入到了临床阶段。

孙玉宁预测，未来三到五年，将会有大量的国产机器人涌现出来。

邬向前：人工智能维护人类健康

第五位演讲嘉宾是来自哈尔滨工业大学长聘教授邬向前博士，他在会上带来了名为《人工智能维护人类健康》的主题分享。

邬向前博士从人工智能的发展史出发，逐步深入到它在医疗领域的落地应用。邬博士介绍，中国是全世界盲人数量最多的国家，20%的人口中诞生了40%的盲人，共计1700万人。其中很多致盲是因为不可逆的眼底病变，比如糖尿病视网膜病变。

其实，很多眼底疾病都是可以通过早发现早治疗治愈或得到控制的，只不过中国的眼科医生非常稀缺，往往顾不上眼底筛查。因此很多企业提出了用人工智能中的图像识别技术来代替医生进行读片筛查，比如谷歌2016年就涉足了这一领域。而邬向前博士的尝试更早，从2008年就开始了。

邬博士介绍，目前其团队在AI眼底筛查方面已经取得了不错的成果，未来还将继续开展乳腺癌和肺癌检测方面的研究。

张博宁：睡眠智能化产品的技术方向与应用

继邬博士之后登台的是绵眠（上海）智能科技有限公司CTO张博宁，他用题为《睡眠智能化产品的技术方向与应用》的演讲，为现场听众打开了新的视野。

张博宁在演讲中反复强调了睡眠的重要性，一个人的睡眠好坏和他的健康状况息息相关。有痛点地方就有市场需求，有需求的地方就有人涌入。

张博宁介绍，与睡眠相关的技术应用有两大技术分支：一是监测睡眠情况的好坏；二是用技术手段改善睡眠。其中，绵眠智能主要聚焦于前者。

把这个环节做好之后，还可以延展到非常多的领域，比如把睡眠有问题的用户导流给医疗机构，或者与灯光、空调等联动，根据用户睡眠的不同阶段营造最舒适的睡眠环境。

胡建军：中美医用机器人前沿发展之比较

最后，中科院自动化所常州智能机器人研究所所长胡建军压轴登台，用主题为《中美医用机器人前沿发展之比较》的精彩演讲为专题会议画上了圆满句号。

胡建军结合自己在国内外的研究经历，介绍了许多医用机器人的具体应用。他指出，协同控制是人工智能提升医用机器人的重要方式之一。

在手术机器人领域，过去大家关注比较多的是操作者跟机器之间的协同，忽略了系统机械臂和病人之间的有效协同，事实上后者可以给手术的有效性和效率带来显著提升。而在康复机器人领域，内骨骼动力和外骨骼动力间的融合，决定着病人康复后能否真正地脱离装备。

人工智能产业园区发展专题会议

人工智能产业园区发展专题会议由中科院计算所李锦涛书记致辞，共有7名嘉宾发表精彩演讲。

李锦涛书记在致辞中表示，人工智能与实体经济深度融合已是大势所趋，人工智能新兴产业加速发展，正成为带动经济增长的重要引擎，新旧动能转换通过新模式代替旧模式，新业态代替旧业态，从而实现产业转型升级，实现数量增长型向质量增长型，外延增长型向内涵增长型，劳动密集型向知识密集型经济增长方式转换，山东新旧动能转换综合试验区是党的十九大后获批的首个区域性国家发展战略综合试验区，也是中国第一个以新旧动能转换为主题的区域发展战略综合试验区。计算所在山东临沂召开技术发展工作会议，研讨如何发挥人工智能技术在新旧动能转换中的作用，具有十分重要的现实意义。

巫英坚：自主创新

会议开始，前长虹集团副总经理巫英坚围绕《自主创新》这一主题发表演讲，点燃了会场气氛。

巫英坚表示，自主创新不是领导一号召，投资一到位，大家一哄而上就能做成的，而是一个艰巨而长期的过程。

自主创新有两个重要话题，一个是精益创业，一个是隐形冠军。精益创业的核心思想是，市场、技术和产品本身是一体的，如果把它们分割开来实际是在把简单的问题复杂化。所以乔布斯有一句名言，简单比复杂更难。

关于精益创业有四个核心要点：一、创业者无处不在，你只要创造了价值就是企业家；二、创业就是管理；三、创新、创业可以通过学习和实践来学会；四、要学会衡量创业、创新的价值。

所谓隐形冠军，有两点非常重要的准则：一是复杂的问题简单化，寻找最小可用化的产品痛点和解决方案；二是简单的问题重复做，形成技术上的高度专业化。有了这两大前提，再加上市场上的全球化，以及稳定的员工组织和流程，企业就能获取持续的高利润。

梅彦川：浅谈人工智能园区的创建与发展

随后，驭势科技联合创始人梅彦川以《浅谈人工智能园区的创建与发展》为题，介绍了自己对人工智能园区创建和发展的心得体会。

梅彦川指出，以发展智能产业为导向、企业运用智能科技规划建设与运营管理和探索建立支持人工智能园区价值创新的体制，共同构成了一个可以落地的人工智能园区的基本框架。

但有了框架还不够，人工智能园区的发展还必须抓住重点，主要有四个任务：技术示范、政策试验、社会实验、基础设施建设。

梅彦川表示，作为一家初创企业，驭势科技有两点非常深刻的感触：一是产业必须深度融合，以驭势科技为例，它在芯片领域很有优势，但并不懂得造车，必须与外力深度融合；二是从创业到量产，企业九死一生。

作为过来人，驭势科技可以给企业们输出许多宝贵经验和教训，从侧面加速工智能园区的创建与发展。

任浩：人工智能产业园的愿景与路径

同济大学发展研究院的任浩先生第三位登台演讲，阐述了人工智能产业园区建设愿景、目标和实现路径。

任浩指出，人工智能产业园的建设和发展需要朝着三个方向努力：建立市场细分、应用广泛、智能示范的人工智能产业集聚地；打造产业生态、社会生态和自然生态为一体的系统；使之成为国内人工智能转化、制造和交易的重要平台和基地。

他表示，如果人工智能产业园只是泛泛地引入人工智能相关企业，很可能会不聚焦，因此必须垂直和细分。临沂本身是物流重镇和农业大市，人工智能产业园的建设可以重点考虑与这两个特色产业结合。同时，完善教育、医疗等社会生态和自然生态对人才引进有着重要作用，是建设人工智能产业园不可分割的重要部分。

具体而言，任浩给人工智能产业园的建设路径提出了四条重要意见：一、从补主体走向强关联，由单一的产业生态向自然生态、产业生态和社会生态转变；二、用政策、行政化、硬基础“三要求”驱动园区1.0走向2.0；三、从硬基础环境向软环境转变；四、园区管理要从轻管理走向精管理。

陈青洲：用明天的眼光办今天的事-完善营商环境，服务AI企业

短暂的茶歇过后精彩继续。上海漕河泾开发区原总经理陈青洲以《用明天的眼光办今天的事-完善营商环境，服务AI企业》介绍了上海漕河泾开发区在服务AI企业方面的先进经验。

陈青洲介绍，漕河泾的人工智能企业在2017年底就达到了300多家，总营收620多亿元。原定2020年达到1000亿元营收的目标有望今年就能实现，可谓成绩傲然。

但漕河泾开发区的发展存在几点不足：首先产业链高端引领不足；其次项目储备以及在孵的企业以后成为小巨人、大巨人的偏少；再次企业互动及产业园融合不够；最后营商服务有待提升。

为此，漕河泾开发区从“爱”出发，形成了六项常态服务、五大平台建设（园区政务服务平台、园区商务服务平台、园区双创服务平台、园区人才服务平台、园区综合服务平台），并推行了园区特色服务22项。

陈青洲介绍，深化推动人工智能产业园区的发展必须秉持四个并举原则，即规划现行和政策引导并举，项目引进和孵化培育并举、平台打造和应用示范并举、营造氛围和务实联动并举。

冯俊涛：产业空间运营的机会与逻辑

随后，赛迪集团高级分析师冯俊涛以《产业空间运营的机会与逻辑》为题发表演讲，阐述了他对产业空间和如何向空间要效益的深刻理解。

冯俊涛表示，人工智能产业的发展已经步入了黄金窗口期，但人工智能等新兴产业快速发展的同时，一个矛盾也日益凸显出来，即产业空间的滞后。她认为，未来的产业空间不能仅仅提供基础配套服务，同时还要有技术、人才、金融等等这些增值服务。

冯俊涛表示，过去以低成本进行城镇化开发的时代已经过去了，未来将是城镇化高成本发展的时代。这个过程中需要大量的财政投入，单单依靠政府是不够的，还必须引入新的市场化主体。我们的发展环境也需要从原来的“大政府、小市场”切换为“小政府大市场”，政府只要充当好裁判员的角色就好了，主要负责政策制定和营商环境的打造，让新进入的主体发挥好市场化作用。

马兴庆：人工智能在山东临工智能制造中的探索

紧接着，山东临工工程机械有限公司副总经理马兴庆发表题为《人工智能在山东临工智能制造中的探索》的演讲，分享了人工智能与传统制造业相结合美好的场景以及临工的智能制造实践，让与会听众对人工智能来赋能新旧动能转换有了更加具体深刻的认识。

马兴庆介绍，山东临工在2013年提出了“一全双创三结合”的创新模式，即全员参与，技术创新和管理创新并举，技术人员、管理人员和一线技术工人紧密结合。他表示，不管智能制造还是人工智能，最后都必须聚焦于客户价值，围绕如何提高产品质量和设备效益来展开。

在这一理念的引导下，山东临工近几年在智能化方面取得了丰硕的成果。比如，核心零部件、挖掘机主控阀生产线全面实现了智能化应用，并在去年推动了一台全自动挖掘机。

钱诚：智能芯片及其产业生态

大会最后，寒武纪科技副总裁钱诚用题为《智能芯片及其产业生态》的演讲结束了上午的精彩分享。

钱诚表示，由于技术和数据积累的限制，2007年以前AI对芯片要求不高，大多是采用通用的CPU芯片提供所需算力。如今，随着产业向纵深发展，应用规模扩大，AI芯片需要更强的性能、更高的效率和更小的体积才能支撑AI技术和产业更进一步的发展，这给新兴企业带来了机会。

作为AI芯片领域的重要玩家，寒武纪目前主要分为两条线，一条是面向嵌入式终端提供IP授权，这些芯片通过提供强大的推理能力赋予终端设备AI处理能力；另一条是面向云端服务器提供芯片和加速卡，在面向深度学习、机器学习的专用处理器上，在云端或者在数据中心大规模的学习中提供推理+训练的能力，使得端移一体的架构能为人工智能提供强大的助力。雷锋网雷锋网雷锋网

2019 国际人工智能及智慧物流大会首日盛况：三大院士同台论道，百位 AI 精英齐聚临沂

Fri, 20 Sep 2019 19:57:00 +0800

2019年9月接近过去三分之二，临沂这座位于黄海西岸的城市忽然变得异常热闹起来。世界各地人工智能领域的顶级精英和物流领域的商业翘楚们纷纷经由机场和火车站朝这里汇集；这个中华大地上的物流重镇，一时间变身成为了全世界最智慧的城市之一。而这些都要归功于一场大会。

19日，由临沂市人民政府、新一代人工智能产业技术创新战略联盟、中国物流与采购联合会物流装备专业委员会、中国科学院计算技术研究所联合主办，临沂市大数据局、临沂经济技术开发区管委会、临沂人才工作集团有限公司、中科院计算所临沂分所、华为技术有限公司、中关村视听产业技术创新联盟承办的“2019国际人工智能及智慧物流大会”在山东临沂盛大开幕。

主会议

嘉宾致辞

大会伊始，临沂市委副书记、市长孟庆斌，科技部高新司信息与空间处处长王力，中国工程院院士、中国曙光信息产业股份有限公司董事长李国杰，中国工程院院士、新一代人工智能产业技术战略联盟理事长、深圳鹏城实验室主任高文，中国物流与采购联合会、物流装备专业委员会主任、中国物流技术协会秘书长马增荣，先后为大会发表了精彩致辞。

孟庆斌市长介绍，临沂是山东省人口最多、面积最大的地级市之一，同时也具有非常鲜明的产业特点，这些都为发展人工智能等新兴技术提供了契机。

随着城市的不断扩张和发展，未来不管服务民生、治理城市还是升级产业仅仅依靠人力都是远远不够的，必须借助人工智能等新兴技术手段。

他表示，不久前山东省委省政府提出了“现代优势产业集群+人工智能”的发展战略，意在促进山东省的新旧动能转换。在这个大战略下，如何更好地顺应新一轮科技发展和产业变革，更好地将人工智能与实体经济、新型城镇化和现代社会治理深度融合，趟出一条智能化、特色化的发展道路，是临沂市面临的重大课题。

孟庆斌市长指出，希望以此次大会为契机，吸引各方人才共同为临沂建言献策，加速临沂市的人工智能规模化应用，全面提升产业发展。

随后，王力处长在致辞中着重强调了积极发展人工智能相关产业的重要意义。他指出，人工智能是开启未来智能世界的钥匙，是未来科技发展的战略制高点；谁掌握人工智能，谁就将成为未来核心技术的掌控者。

为此，2017年7月8是国务院印发并组织实施了《新一代人工智能发展规划》。与此同时，科技部高度重视人工智能技术在未来社会发展的战略性地位，2019年先后发布了《国家新一代人工智能开放创新平台建设工作指引》和《国家新一代人工智能创新发展实验区建设工作指引》，对人工智能的技术创新和产业化应用示范做出全面部署。

王力处长表示，希望在国务院、科技部的号召，以及临沂市政府及各界力量的共同努力下，能为人工智能与临沂新旧动能转换架起一座桥梁，为临沂的经济腾飞插上人工智能的翅膀。

李国杰院士则为临沂市的人工智能与地方产业结合提出了几点宝贵意见。李院士指出，过去国内通行的做法是，科研界先出了成果再拿到地方去进行转化，鲜有成功案例。失败的根源在于思路出了问题，正确的做法是倒过来，从需求出发，让市场来引领技术研究。

他说道，假如把关键技术比作一头牛，想让牛往前走，扛牛腿是不行的，必须牵牛鼻子，而市场就是那个牵牛鼻子的人。

李院士还指出，做传统产业改造不一定要在老单位进行，还可以通过合作成立研究所的方式，灵活结合新的机制和技术。

高文院士则在致辞中提到，物流行业作为临沂经济发展的重要载体和引擎，随着消费者与企业对物流需求的急剧上升，正面临着前所未有的挑战与升级空间。如果我们能够用人工智能等新兴技术将物流的成本1%，就能给地方乃至全国经济做出巨大的贡献。

他坚信，此次大会的召开将促进人工智能前沿技术与临沂地方产业特色进行深度结合，并为临沂打开一个与世界人工智能产业对话的窗口。

作为最后一位致辞的嘉宾，马增荣主任对当前中国物流行业的现状和未来进行了总结和展望。马主任指出，今天中国的物流行业不管在规模、技术方面都已经不次于其他国家，但由于我国经济引进了全球不同国家和地区的经济成分，使得我们在经济快速发展的同时，标准化功能仍然十分混乱和落后。

他表示，未来互联网技术将在物流的组织方式、业务方式及运作模式等方面发挥深远的影响。纵向来说，它将与各个产业的供应链与金融深度容，成为产业供应链推进的核心力量；横向来说，它将与劳动者和劳动工具等物流基本生产要素深度融合，形成新的商业及服务形式。

赵春江：农业机器人展望

嘉宾致辞结束后，中国工程院院士、国家农业信息化工程技术研究中心主任赵春江以《农业机器人展望》为主题发表了精彩演讲。

赵春江院士介绍，目前世界各国都非常重视智慧农业的发展并推出了许多实践项目，其中人工智能和农业机器人受到各方重点关注。据国际咨询机构预测，未来人工智能应用于农业领域的复合增长率将达到22.68%，应用最活跃的是农业机器人技术，预计2020年市场规模将达到111亿美元， 2025年更是高达308亿美元。

赵院士指出，虽然目前世界各国在农业机器人方面做了很多尝试，但整体来说还有很大的改进空间。现有的机器人产品要么无法满足农业的需求，要么效率不高或者稳定性较差。由于我国整体工业技术水平相对落后，加上农业生产环境的非结构化，我国在农业机器人领域相比西方发达国家仍有不小的差距。其中最主要的差距体现在电子信息控制系统和传感器等方面。

与此同时，作为一个农业大国，我国农村人口空心化日益严重，这对农业机器人的发展既是机遇也是挑战。

现场签约仪式

赵春江院士的演讲结束后，现场举行了简短的签约仪式。签约仪式分为三轮，第一轮为临沂中科图灵基金项目签约；第二轮为中科院计算所临沂分所项目集中签约，第三轮为临沂经济技术开发区2019年秋季新旧动能转换重点项目集中签约。

其中，第二轮签约分为两组，分别为产业园区资源转移共享项目、人工智能战略合作伙伴项目、临沂中韩智慧养老健康城项目、大型工业级无人机农林植保项目、炬星智能仓储机器人项目，和临沂中科计算技术转移中心项目、中物联战略合作项目、慧医智能机器人项目、移动医疗智能芯片项目、中科劲点智能定位项目、青少年人工智能编程教育产品体系项目。

第三轮签约同样也分为两组共八个项目，分别为重庆猪八戒临沂项目、力诚高档休闲食品生产基地项目、仁和时代广场项目、斯泰重工新能源蓄电式重型机车生产项目，和格力空调鲁南区域总部项目、上海徕堡激光钣金工程机械配件及不锈钢整体厨房项目、山东隆利数控机床项目、香港鸿升盛贸易有限公司临沂总部项目。

张成奇：人工智能发展与智能物流

简短的签约仪式后，精彩演讲继续。悉尼科技大学副校长、澳大利亚人工智能协会理事长张成奇教授以《人工智能发展与智能物流》为题，介绍了人工智能技术的发展脉络与应用，并重点探讨了人工智能与物流产业的交集。

张成奇教授介绍，人工智能技术在物流领域有几点重要的应用方向，包括流量和流向预测、智能仓储、客户管理、风险管理等等。

花房陵：日本对物流的期待和解决方案

上午主论坛的最后，日本株式会社Logistics Trend董事长花房陵先生用题为《日本对物流的期待和解决方案》的精彩演讲为与会听众提供了另一种视角。

花房陵先生非常重视生产物流现场的实际操作，他致力于将从业35年积累了28个行业200余家公司的经营业态和经营业绩导入到各个企业，用于提高整体水平，并著有多部物流相关的作品。

花房陵先生介绍，日本的物流产业具有琐碎、细致、少量运输和服务过剩的特点。在日本物流行业中，小微物流业者占据了绝大多数。目前日本物流产业的成本压缩已经到达了极限，因此通过新兴技术来改善物流行业十分必要。其中，商品的关联性分析、突发需求的预测和自动订货，以及无人车配送是今后需要重点研究的三个技术方向。

上午的主会议告一段落后，下午“智慧物流专题会议”和“人工智能技术与应用专题会议”两大专题会议并行召开。

智慧物流专题会议

姜旭：智慧物流的创新与发展

其中，在“智慧物流专题会议”中，物资学院院长姜旭用主题为《智慧物流的创新与发展》的精彩演讲率先点燃了气氛。

演讲最后，姜旭院长还为城市物流的发展创新提供了几点建议。他表示，为了解决城市物流的拥堵问题，应该建立地上+地面+地下的综合物流体系。

王辉：物流技术助力智慧物流发展

随后，中国物流与采购联合会物流装备专业委员会副秘书长王辉女士在题为《物流技术助力智慧物流发展》针对智慧物流做了进一步的详细介绍。

王辉女士指出，在市场需求的倒逼下物流行业近几年迎来了蓬勃发展，2011-2018年物流行业的融资事件高达400多起，融资额700多亿。与此同时，5G、人工智能、大数据、物联网等新兴技术也逐渐融合到了物流产业链的各个环节当中，比如无人驾驶、车货匹配、智能仓储等等。

在这些技术的助推下，物流产业的发展进一步提速。据相关统计， 2016年智慧物流的总规模是2000亿，到2018年就翻了一倍达到了4000亿，而且未来还将持续不断扩大，预计到2025年总规模可以超过万亿。

同时，王辉女士也指出，当前国内的智慧物流仍然处于起步阶段，存在不少突出问题，比如末端配送成本高、标准化建设不够完善、物流设备整体水平比较落后、高端人才缺乏等等。

西田光男：日本当今的物流技术

紧接着，日本专家日本株式会社IO系统常务董事西田光男在题为《日本当今的物流技术》的演讲中介绍了日本是如何进行物流技术创新的。

西田光男先生表示，日本物流技术的进化过程是一个很漫长的过程，从60年代的物流机器发展到70年代自动化，再到80年代的数字化、 90年代的信息通信技术化，以及2000年的物联网化和2010年的人工智能化，直至现在的无人自动化。

他认为，中国物流业的发展速度是日本的十倍以上，目前中国的物流技术也已经全面超越了日本。

西田光男先生表示，物流不仅仅包含路面上的商品配送，工厂里的零配件和成品运输也十分重要。以戴尔电脑为代表的许多企业的生产线如今都已经实现了物流的自动化。

陈文辉：跨境电商，中国制造业的突围之道

“智慧物流专题会议”的下半场由盘古集团总裁、深圳跨境电商协会名誉会长陈文辉先生率先发言，他演讲的主题为“跨境电商：中国制造业的突围之道”。

陈文辉先生表示，得以于制造业的发展，中国在过去四十年里迎来了飞速发展。但过去中国制造业走的是代工模式，缺少自主品牌，只能赚取非常微薄的利润。如今随着人力成本飙升、环保监管日趋严格，不少小微制造企业已经走向了死亡的边缘。

这种情况下，中国制造业亟需寻找一个新的发展机遇，陈文辉先生认为，跨进电商恰好提供了这样一个宝贵的窗口。它使得中国的制造企业不仅能把货卖出去，而且还能用自己的品牌直接面对海外的终端消费者去获得零售和品牌的利润，堪称阿里巴巴中国黄页后中国制造业的第二次革命。陈文辉相信，未来在跨境电商的大背景下，一定会有一批像华为这样的中国品牌企业走出去。

梁渝：数据智能驱动跨境物流变革

而上海柒计信息科技有限公司董事梁渝则在题为《数据智能驱动跨境物流变革》的演讲中，介绍了跨境物流领域的最新发展现状与趋势。

梁渝介绍，跨境电商和传统卖家对物流的需求有很大区别。传统卖家更看重物流的性价比，而跨境电商最看重的是稳定，其次是时效，最后才是价格。因为跨境电商中B2C的货有很强的季节性，比如快过圣诞节了，就必须提前备货相关的商品，导致运力紧张。这时候卖家必须保证货想运的时候一定能运出去。

然而跨境物流由于跨越国界，参与的环节过多，货物的物流情况很多时候是不可追溯的。而且一个货要找很多服务商，收费也不菲，信息高度不匹配。

柒计信息希望能用AI和数据智能解决跨进物流当中存在的这些痛点。在柒计信息的平台上，卖家只要输入自己的需求，系统就会自动搜索出合适的物流产品，并根据卖家的需求进行排序，大大提高了资源的对接效率。同时，系统还能根据卖家的发货目的地自动对成千上万个包裹的路径和成本进行规划。

韩海涛：智城网络智慧物流仓储解决方案

继梁渝的精彩演讲后，中科智城网络总经理韩海涛先生也以“智城网络智慧物流仓储解决方案”为题发表了演讲。

韩海涛先生表示，当前物流行业的发展主要面临四个方面的问题：一是物流仓储的规范性与管理问题，主要针对大宗商品的物流，有些可燃性的物体不能混着存放；二是物流仓储的消防安全问题；三是物流仓储的智能环境的监测，尤其是针对冷链仓储，它对温度和湿度要求非常高；四是物流仓储的安全智能化改造。

为了解决这些问题，中科智城基于人工智能和物联网技术打造了一系列解决方案。比如室内定位，解决人员的定位问题，能有效避免人员非法移动；智慧消防解决了报警慢、接警慢、出警单一的问题；智慧环境监测取代了原来人为管理的问题。

程晓鑫：物流服务发展趋势-Robot as a Service

专题会议最后由北京极智嘉科技有限公司物流规划总监程晓鑫发表压轴演说，程晓鑫的演讲主题为《物流服务发展趋势：Robot as a Service》。

程晓鑫介绍，当前仓储物流行业普遍面临着用工难、用工成本逐年攀升的问题。用自动化代替传统人力的生产方式已经成了行业共识。

传统的物流自动化系统需要投入高昂的资金，但企业的业务又常常发生变化，这样一来之前的自动化方案反而成了瓶颈和累赘。因此程晓鑫认为，新一代的仓储物流自动化解决方案除了要更加高效、更加准确外，还要做到快速部署，柔性扩张。这也是极智嘉一直以来努力的方向。

目前，极智嘉的仓储机器人软硬一体化解决方案已经深度应用在了自动拣选、智能搬运、自动分拣和自动存区等丰富的业务场景当中。

比如在武汉和中油合作的自动分拣项目，占地5000平，整体投入了机器人320台，包括大型的分拣机器人、小型的分拣机器人以及搬运机器人。整个项目上线之后，可以同时做到大件和小件的分拣，节省了70%的人力。

人工智能技术与应用专题会议

潘榕：智能语音与人工智能的发展现状

在与“智慧物流专题会议”并行召开的“人工智能技术与应用专题会议”中，科大讯飞战略发展总监、科大讯飞北京公司副总经理潘榕博士担任开场嘉宾，发表了题为《智能语音与人工智能的发展现状》的精彩演讲。

演讲中，潘榕博士着重介绍了科大讯飞在智能语音方面的技术进展和应用情况。潘榕博士介绍，科大讯飞在人工智能领域的研究分为两块：一块是感知智能，包括语音识别、语音合成等；一块是认知智能，典型的应用有自然语言处理。目前在这两块科大讯飞都取得了十分出色的成果。

比如在感知智能领域，科大讯飞连续14年在Blizzard Challenge国际语音合成大赛中夺得了冠军。认知智能领域，去年年底科大讯飞的语音翻译系统参加了全国翻译专业资格水平测试，并达到了《口译实务》的标准。

袁小龙：AI加持下的IoT实践应用

在“人工智能技术与应用专题会议”中第二位发表演讲的是金山云副总裁袁小龙先生，他的演讲主题为《AI加持下的IoT实践应用》。

袁小龙介绍，借助于云的能力，金山云将AI落地到了人居、楼宇、社区、园区等众多场景当中。值得强调的是，金山云的AI能力落地非常重视与垂直场景的深度结合，而且不局限于单个设备，大部分是跨设备的互联互通。

以智能家居为例，假如一个用户对着小爱音箱说“帮我关灯”，那么它究竟该关客厅灯还是卧室灯呢？这就是AI落地过程中亟需解决的现实问题，它考验的不是语音识别的能力有多强，而是能否通过工程化手段与场景深度融合。

此外，跨品类设计的组合与落地也是智能家居当中的一大难题。基于强大的技术和方案能力，金山云可以将用户的物联网设备和空间组合在一起，并提供软件平台、交互平台、APP小程序等一系列服务。

张兴福：基于人工智能技术的生猪智能养殖体系

继袁小龙之后，北京小龙潜行科技有限公司副总经理兼CEO张兴福博士也登台发表了题为《基于人工智能技术的生猪智能养殖体系》的精彩演讲。

张兴福介绍，2018年以来智能养殖尤其是智能养猪受到行业热捧，BAT等巨头厂商也纷纷加入了智能养猪的行列。这一方面是因为我国生猪养殖规模占比达整体肉类的56%，市场非常庞大；另一方面是因为，中国的生猪养殖技术相比国外还有很大的提升空间。

这些入局的厂商大多侧重于通过数据分析来提升养殖场的管理效率，然而对于养殖场来说，更迫切的需求反而是数据获取。由于生猪的行为很难控制，因此无论是体重还是背膘数据的获取都十分困难。无论是穿戴式设备还是植入式芯片都容易造成生猪的应激反应，效果适得其反。

而小龙潜行倡导的是非接触式的测量手段，通过声音、视觉等来获取生猪的关键指标，并推出了轨道巡视机器人等一系列软硬件产品。

王成：AI助力步态诊疗：揭秘步态密码

随后，中科汇成CEO王成博士以“AI助力步态诊疗：揭秘步态密码”为主题，介绍了AI技术在医疗领域的深度应用。

王成博士介绍，错误的步态不仅影响美观而且会影响青少年的正常发育，带来严重的健康问题；反过来，通过步态也可以反映出人体的一系列健康问题。因此，步态诊断在医学领域是一个非常重要的课题。

目前国内很多医院的步态诊断采用的仍然是医生观察、尺子量等非常原始的手段，精度缺乏保障。同时医院的特殊测量环境也会引起患者应激反应，导致测量的数据缺乏真实性。

在王成博士看来，低成本的便携式穿戴设备是目前比较可靠的解决方案。中科汇成在这方面也做了非常多的研究，并创新性地提出了基于双通道音频信号检测的脚步算法、基于压力的脚步算法，以及基于惯性传感器的脚步算法三大核心技术。

刘军发：融合多源感知的智慧视频安监系统

紧接着杭州羿腾科技公司总经理刘军发博士登台发表了题为《融合多源感知的智慧视频安监系统》的精彩演讲。

今天视频监控已经不再是新鲜事物，哪怕是一个小小的园区也可能存在几百路视频。但视频路数增加的同时，监测的人力却无法增加，于是绝大多数视频只能沉睡在硬盘里用于事后追溯，而且即便是事后追溯效率也非常低。

在这一背景下诞生了不少AI视频分析系统。然后这些系统大多走向了两个低端，要么将所有视频通通上传到云端，要么把所有计算都放在前端，前端之间无法有效联动。刘军发博士认为这两种模式都是不可取的。因此，杭州羿腾科技基于高文院士提出的“数字视网膜”架构推出了一套应急联动解决方案。

所谓“数字视网膜”是指，视觉前端像人类的视网膜一样，只是对有用信息进行加工和传输。它对视觉的理解是一个逐级加工、逐级处理的过程，而且利用到了多源感知、联动协同的机理。

在这个架构中，前端摄像头本身具备一定的计算能力，可以对视频场景进行结构化处理，然后将结构化的数据传输至云端用各种算法进行更加深层次的分析。

刘军发博士强调，光发现问题不解决是没有意义的，因为在赋予摄像头智能外，还应该建立一套应急联动机制，有效调动人员进行处理。

吴琼：新型智慧城市建设中人工智能应用探索

专题会议最后，大数据研究院院长助理吴琼女士以主题为《新型智慧城市建设中人工智能应用探索》的演讲结束了一整天的精彩分享。

吴琼女士介绍，物联网、大数据、云计算和人工智能技术在智慧城市建设中有着非常广泛的应用，典型的有智慧医疗、环境综合治理、应急管理、天气预测。中科院计算所大数据研究院在这几个方面都做了许多的实际应用。比如舆情系统，通过主动采集开源的多通道数据并加上被动数据，做热点突发事件的预警和线索分析。还有属地管理系统，面对不同政府关心的信息源，发现这些信息源中的安全问题。雷锋网雷锋网雷锋网

2019国际人工智能及智慧物流大会议程出炉，大咖云集异彩纷呈

Thu, 05 Sep 2019 11:00:00 +0800

2019年9月19-20日，由临沂市人民政府、新一代人工智能产业技术创新战略联盟、中国物流与采购联合会物流装备专业委员会、中国科学院计算技术研究所联合主办，临沂市大数据局、临沂经济技术开发区管委会、临沂人才工作集团有限公司、中科院计算所临沂分所、华为技术有限公司、中关村视听产业技术创新联盟承办的“2019国际人工智能及智慧物流大会”将在山东临沂隆重开幕。

大会将以“人工智能技术赋能新旧动能转换”为主题，汇聚政、产、学、研各界顶级智囊，旨在促进人工智能等前沿技术与临沂地方产业特色的深入融合，探索出一条智能化的城市转型升级之路。

雷锋网最为大会的独家战略合作媒体，届时将奔赴现场第一时间带来精彩报道。

大会议程介绍

目前大会议程已经基本敲定，共分为一个主会议和五个专题会议。大会既从从宏观角度捋清当前人工智能技术的发展趋势，也从从芯片、语音、视觉等不同的技术细分维度，探讨人工智能技术在各个行业的落地应用。同时，大会还从实践与落地的角度出发，和物流、健康养老等临沂地方产业特点紧密结合，可谓干货满满。

大会主要嘉宾介绍

此次大会不仅有各级领导致辞，从宏观政策层面为临沂的转型升级提供指引，更汇集了多位学术和产业界的明星大咖一同建言献策，堪称众星云集。以下是部分大会重点嘉宾介绍：

高文

中国工程院院士、北京大学数字媒体研究所所长、系统芯片研究所所长。

高文院士的研究领域为人工智能、模式识别与多媒体计算。近几年主要研究集中在视频编码与分析、计算机视觉等。主持973（首席）、863、国家自然科学基金等国家级项目二十余项。2008年被评为IEEE Fellow；2013年底当选ACM Fellow。

赵春江

中国工程院农业学部院士，国家农业信息化工程技术研究中心主任、首席专家。

主要从事人工智能、专家系统、数据挖掘、网络中间件技术等领域的研究与应用。先后主持完成国家863计划、973计划、国家科技攻关等项目20多项，获得重要科研成果11项，获得省部级科技奖励6项。

2017年11月27日当选中国工程院院士。

张成奇

悉尼科技大学副校长。

张成奇教授研究的重点领域是数据挖掘及其应用。迄今为止，共发表了319篇科技论文，其中很多论文都发表在了国际顶级期刊上。自2004年以来，张成奇教授累计获得了13项国家级研究基金，总科研经费达580万澳元。

张成奇教授是第一位在人工智能顶级期刊“Artificial Intelligence”发表论文的大陆华人。他发起并领导在澳大利亚享有盛名的UTS量子计算和智能系统研究中心（QCIS）。

孙凝晖

中国科学院计算技术研究所所长、中国科学院大学计算机与控制学院副院长。

孙凝晖所长主要从事计算机体系结构方面研究，发表论文100多篇。

曾作为负责人参加了曙光2000、曙光3000超级服务器及曙光系列可扩展服务器等高性能计算机研制工作，主持完成曙光4000L、863计划重大项目“曙光4000A高性能计算机”等多项重大科研项目的研制工作。由其主持研制的曙光高性能计算机，打破国外产品对我国高性能计算机市场的垄断并成为国内市场主流产品。

同期展会异彩纷呈

大会除了精彩纷呈的嘉宾演讲，还将同期举办人工智能产品展览，为与会观众打造一场技术的视听盛宴，同时为参会企业提供一个展示交流和深度合作的平台与契机。相信无论你是人工智能技术的爱好者，还是各个垂直行业的从业者，都可以满载而归，找到你心中的答案。

参会注册请戳：http://gails.cn/Default.aspx 雷锋网雷锋网

2019国际人工智能及智慧物流大会9月将于山东临沂开幕，几大亮点抢先看

Wed, 28 Aug 2019 17:26:00 +0800

2016年再度兴起至今，人工智能技术已经逐渐走出实验室，在各行各业形成了遍地开花之势。与此同时，如何借力技术发展的浪潮，联动政、产、学、研各界形成合力，为城市的转型升级提供新动能，成了摆在各级政府面前的重大课题。

为此，2019年9月19-20日，由临沂市人民政府、新一代人工智能产业技术创新战略联盟、中国物流与采购联合会物流装备专业委员会、中国科学院计算技术研究所联合主办，临沂市大数据局、临沂经济技术开发区管委会、临沂人才工作集团有限公司、中科院计算所临沂分所、华为技术有限公司、中关村视听产业技术创新联盟承办的“2019国际人工智能及智慧物流大会”将在山东临沂盛大开幕。

大会将以“人工智能技术赋能新旧动能转换”为主题，汇聚政、产、学、研各界顶级头脑，共同探讨如何将人工智能等前沿技术与地方产业特点相结合，趟出一条智能化和特色化的城市发展道路。

雷锋网作为“2019国际人工智能及智慧物流大会”的独家战略合作媒体，届时将奔赴现场带来精彩的第一手报道。

“1+5”会议矩阵，亮点纷呈

据了解，大会将设置一个主会议和五个专题会议。19日上午的主会议，将邀请中国工程院院士赵春江、中国科学院计算技术研究所所长孙凝晖、悉尼科技大学副校长张成奇，以及华为等重要企业的代表发表重磅演讲，从宏观角度捋清当前人工智能技术的发展趋势。

19日下午的“人工智能技术及应用专题会议”将由北京大学信息科学技术学院黄铁军教授领衔，齐聚寒武纪、科大讯飞、中科视拓等人工智能领域的代表企业，从芯片、语音、视觉等不同的技术细分维度，探讨人工智能技术在各个行业的落地应用。

同一时间举行的还有“智慧物流专题会议”。临沂地处长三角经济圈与京津唐经济圈结合点、中国东部南北大通道中心枢纽、亚欧大陆桥东桥头堡的核心区域，是中国北方最大的市场集群和商品集散中心，被誉为“中国物流之都”。“智慧物流专题会议”正是人工智能等前沿技术与临沂地方产业特色的一次深度结合。论坛将邀请国内外物流学界专家，百度、传化智联、日日顺、易货滴、G7等智慧物流领域最具创新力的企业，共同为临沂物流产业发展建言献策。

20日上午，“人工智能产业园区发展专题会议”和“人工智能与健康养老专题会议”两大专题会议将平行举办，分别探讨人工智能技术在智慧园区和智慧健康领域的落地应用。20日下午举行的“计算所技术与产业对接专题会议”则是一次产学融合的重要尝试，对各界有着重要的启发和借鉴意义。

同期展会，实现企业合作对接

大会同期还将举办人工智能产品展览，因此这不仅是一次学术与思想的洗礼，更是一场技术的视听盛宴。在这里，你可以看遍全球最酷最炫的人工智能创新产品和解决方案。对于参展的企业而言，这也是一次展示“肌肉”和寻求深度合作对接的重要契机。你还在等什么？雷锋网雷锋网

参会注册：http://gails.cn/Default.aspx

全免观看 | AI研习社最全干货公开课整理合辑（超详细）

Thu, 22 Aug 2019 16:29:00 +0800

各位社区的小伙伴，大家好，我是饭饭。

今天，我们把过去一年的公开课，做了一份超详细的精选合辑。

这份合辑，涵盖了计算机视觉、自然语言处理、数据挖掘、AI医疗、智能驾驶、AI+等人工智能领域热点话题。

分享嘉宾囊括了百度、阿里、腾讯、地平线、商汤、旷视、杉数科技、Momenta等人工智能企业，以及清华、北大、人大、港中大、中科院、卡内基梅隆大学、剑桥大学等国内外知名高校。

而且，从今天开始，这些优质分享，都将全部免费开放给大家观看啦~

如果你对相关的领域感兴趣，却苦于没有能够聆听大咖分享的机会，那么，今天的这篇文章，可能是目前最系统的一次梳理；如果你一时没法全部阅读完，我们也强烈推荐你收藏这篇文章（点击即可观看）。

Ps：偷偷告诉个消息，现在只要完成社区认证，就可以一次性观看往期所有公开课分享及回放哦~

点击认证

计算机视觉

自然语言处理

数据挖掘

LoT相关

AI芯片

面向低功耗AI芯片上视觉任务的神经网络设计（附地平线2019年招聘解读）黄李超，帝国理工硕士，地平线初创人员

智能驾驶

AI+

医疗影像

机器人及其应用

职播间

GRIR峰会

其它

结语

目前，AI研习社已累计开设300+场次公开课啦，有累计数百位各大知名院校、科研实验室及企业相关从业人员，在平台分享了自己的经验与心得。并吸引了逾万人次的交流学习。

往后，我们还将会根据大家的需求，为大家带来更多优质的内容分享（还有各种吐血整理~）。

最后，大家只要在社区完成简单的资料认证，就可以观看这些辛苦整理的全部公开课回放啦（看不了你找我）~

心动不如行动，热爱学习的你，赶紧行动起来吧~

完。

雷锋网雷锋网雷锋网

首发 | 获 2200 万美元 Pre-B 轮融资，扩博智能诠释 To B 赛道的“慢哲学”

Thu, 08 Aug 2019 07:59:00 +0800

好事成双似乎是扩博智能生长脉络中的一组隐秘基因。

去年8月，扩博智能完成1100万美元A++轮融资，与此同时，前微软全球首席运营官凯文·特纳加盟扩博智能战略委员会。

时隔一年，扩博智能再度传来喜讯。8月8日，扩博智能正式对外宣布，在行业处于资本寒冬的关键节点，公司获得了由CMC资本（CMC Capital）和中华开发领投，GGV纪源资本、开发国际、首建投资本跟投的2200万美元Pre-B轮融资。一同宣布的还有，国务院参事、中国可再生能源学会理事长石定寰将出任其中国战略顾问。

石定寰毕业于清华大学工程物理系剂量与防护专业，历任国家科委预测局副处长、工业技术局副局长、工业科技司司长等要职，长期负责国家工业及高新技术领域科技计划与重大项目组的组织实施。石定寰是新能源科技产业的推动者和传播者，曾荣获“剑桥世界杰出华人榜”“能源科技领域杰出华人”称号，他的加盟无疑将对扩博智能的风电业务产生巨大的推动作用。

随着石定寰加盟，扩博智能战略委员会中已经囊括了卡内基梅隆大学计算机视觉和机器人学科领军人物Martial Hebert教授，谷歌计算机视觉、机器学习、机器人方向项目领导人Rahul Sukthankar教授，以及前微软全球副总裁陈实博士等多位顶级智囊。如此豪华的顾问团队在创业公司中可以说极为罕见。

与星光熠熠的战略委员会相比，扩博智能在资本市场却显得极为克制。2016年成立至今，累计只进行了4轮融资，总金额不超过5000万美元。

To B 赛道，慢就是快

创始人兼CEO严治庆坦言，扩博智能是一家慢公司，这种慢更多是有意而为之。

创立扩博智能前，严治庆在微软工作了16年，从一个普通码农一步步做到了微软大中华区副总裁。作为一名深耕To B市场的行业老兵，他深刻地认识到，这个领域讲究的是慢工出细活，创业公司跑得太快未必是件好事。

在To C市场，创业公司几个月就能做出一款爆品，一跃成为行业新贵，这样的故事在To B市场是不存在的。无论对行业和场景的理解，还是团队之间的配合与默契，都需要时间来打磨和沉淀。可以说，在这条赛道上，慢就是快。

严治庆表示，创业公司要掌握好自己的节奏，必须把目光放得很长远。“你会看到这是一次长跑，如果一开始就冲得很猛，可能在前面1000米就累死了”。道理虽然简单，真正践行起来却并不容易，“当你看到身边的人一个个都跑得很快时，内心难免还是会焦虑”。

严治庆笑言，作为一个创业者，自己唯一的优势就是年纪比较大。这一方面是说，年轻的创业者通常缺少经验和资源，年长些的有了经验和资源又容易失去闯劲，而他身上很好地平衡了这两点。另一方面则是说，当你拥有更加丰富的人生阅历后，面对压迫和焦虑，会更容易与自己和解。

对于严治庆来说，更大的压力其实来自于团队。“你可以云淡风轻，但团队里很多人不理解，明明我们的产品更好，为什么估值却不如别人”。他不得不一遍遍地给团队打鸡血，即便这样，还是有人会选择离开。这成了严治庆的“至暗时刻”。

团队成员的离开固然让人痛苦，但扩博智能在这个过程中也越发拧成了一股绳，因为留下来的人都拥有相同的使命感。

另一方面的压力来源于资本。过去十年，中国互联网产业创造了无数的神话。这片土地上的创业者和资本方还没有彻底脱离互联网高速发展的惯性，他们还在学习如何用To B的思维赋予创业公司更多的时间和耐心。

扩博智能的幸运之处在于，它与资本的合作并非单纯的财务投资，而是一种相互陪伴和共同成长的关系。这使得它能够按照自己的节奏，做一家慢的公司。

“纪源资本的Jenny（李宏玮）、KTB的Amy Ye、网宿科技的CEO刘成彦都和我认识多年，彼此知根知底。不管团队遇到什么样的大风大浪，我们都可以一步步走下去，这种信任最最重要的。有了这个前提，再去看估值多少，应该投多少钱，就完全是技术性的问题了”。严治庆对雷锋网说道。

双擎驱动，接力式赛跑

作为扩博智能最早的投资方，纪源资本对前者可谓影响深远。

严治庆透露，扩博智能成立之初曾选定了四个业务方向，但纪源资本管理合伙人李宏玮认为，初创公司应该更加聚焦。于是在她的建议下，扩博智能最后将业务方向缩减成了两个——风电和零售。这一产品布局延续至今，成为了扩博智能稳步发展的双引擎。

目前，在风电行业扩博智能已经服务了国电能源、上海电气、双瑞集团等头部客户。今年2月，它更是和风电运维商 GEV达成了深度战略合作。据了解，GEV 是欧洲最大的风电运维商，服务了全球众多知名风电客户，包括西门子歌美飒、通用电气、MHI VESTAS、德国风机制造商 Nordex 等。扩博智能与GEV 达成合作，意味着其风机叶片全自动巡检解决方案已经从中国市场走向了全球化落地。

零售业务方面，扩博智能也已经相继拿下了可口可乐、沃尔玛、宝洁等世界领军企业。

严治庆向雷锋网介绍，风电和零售两条产品线背后的核心都是计算机视觉，但他们面向的市场有很大不同，对公司发展的战略意义也随之而异。

长远来看，拥有万亿规模的零售市场是一片更加广阔的蓝海。但同时这也是一片充分竞争的市场，各路玩家鱼龙混杂，优秀的企业并不一定很快就能脱颖而出。另外，零售市场利润微薄，即便扩博智能今天已经有了很多头部客户，要在短期内盈利依旧不是一件容易的事。换言之，这是一个需要用钱去养的市场。

企业在市场的早期阶段进行适当补贴是非常常见的打法。但如果补贴是以烧投资人的钱为基础，那么它的根基一定是不稳的。严治庆希望扩博智能可以有自我造血的能力，这意味着它必须找到一个高壁垒的行业，这样才能赢得利润空间。

从结果来看，风电业务完美扮演了这样一个造血泵的角色。严治庆表示，清洁能源是全球范围内的热点话题，而风电目前应用最为广泛。在风电行业，风机叶片巡检是一个刚性需求，而且痛点非常明显。过去风机叶片的巡检工作完全依赖人力，不仅危险而且效率低下。

以无人机为载体，借助计算机视觉技术自动进行风机叶片巡检，是一件非常复杂的事情，拥有很高的技术壁垒。同时，风电也是一个商务壁垒很高的市场，并非所有创业公司都能进入风电能源的采购系统。这些为都扩博智能创造了肥沃的生长土壤。

严治庆表示，扩博智能的两台引擎并非并行驱动，而更像是在以接力跑的方式运行。早期阶段，风电业务是公司的主要驱动力，它将推动扩博智能由河流平稳驶向入海口，抵达大海后，零售业务将切换为主引擎，引领公司全速航行。

软硬一体，才能黏住客户

从河流驶向大海的航程中，最重要的是进化出软硬一体的实力。

严治庆认为，创业公司的技术壁垒主要来自于软件，因为硬件很容易被抄袭。他表示，硬件的壁垒主要源于规模效应，而不是技术。要在短时间内形成规模效应，就必须烧钱去铺市场，这种打法并不适合创业公司。

扩博智能的首要目标是打磨软件和算法，但硬件也是他们十分看重的部分。严治庆表示，扩博智能选择业务方向时，标准之一就是看它是不是软硬结合的业务场景。“因为只有形成了软硬一体的解决方案，你的替换成本和用户黏性才是最高的”。

无人机巡检无疑是软硬结合的标准范本，同样的理念也体验在扩博智能的零售产品当中。扩博智能的初代零售产品——扩博智维是一款纯软件产品，需要品牌商派出的督导人员拿着手机到门店的货架前拍照，然后上传到云端进行分析。而其第二代产品——扩博智瞭则是地地道道的软硬一体解决方案。它包含一款智能硬件，可以很方便地安装到门店的冰柜上。每次有顾客打开冰柜门时，它便会自动拍摄一张照片上传至云端，对商品的陈列和销售情况进行系，并为店主提供相应的指导意见。

以可口可乐为例，它在中国拥有超过150万台冰柜，其中很多分布在郊区和农村地区，运营和管理起来非常困难。可口可乐无法准确掌握冰柜里的商品陈列是否符合要求，小店的店主也不知道该如何通过陈列优化来最大限度地提升销售额。而扩博智瞭通过软硬一体的解决方案很好地解决了这些问题。

严治庆表示，纯软件的产品相对容易替代，但有了这款智能硬件后，客户的替换成本就更高了，而且后续还有运维等一系列服务可以增加客户的黏性。只有形成了这样一整套闭环，企业的竞争优势才是相对稳固的。

以中国市场为跳板，迈向国际化

对有志于零售行业的企业来说，中国市场无疑是最佳的练兵场。

如今，中国在消费创新领域已经全球领先，这片大地上每天都有新的业态和商业模式出现，蕴藏着无限可能。在这种充满活力的创新环境下，企业可以不断地学习和试错，持续地打磨和优化产品。

同时，中国的市场环境也是最为复杂和严苛的，这里几乎汇聚了所有可能出现的问题。严治庆坦言，扩博智能在研发“智瞭”这款产品时就踩过很多坑，“几乎所有问题都遭遇了一遍”，比如镜头起雾，设备被人为破坏等。更夸张的是，有些门店里的冰柜太过老旧，运行时会剧烈抖动，导致设备在冰柜门处于非开启状态时也会被不断唤醒，电池寿命很快就耗尽了。而且摄像头也没法准确对焦，拍出来的照片都是糊的。

“你可以想象，当我们在这么严苛的环境下也能应对自如时，再将产品复制到国外，比如是一种降维打击。”严治庆信心满满地说道。

在他看来，国际化几乎是一条必然之路。因为国内激烈的竞争环境导致企业很多时候只能赔本赚吆喝，国外市场反而是真正的利润来源。但从国外赚取真金白银并非一件易事，首先你的产品必须过硬，其次你的团队必须足够国际化，懂得海外市场的运行规律。而这正是扩博智能的另一重优势所在。

微软的16年工作经历赋予了严治庆丰富的全球化商业运营经验，扩博智能的核心团队成员也大多与他有着相似的背景，这赋予了扩博智能强烈的国际化基因。

严治庆向雷锋网透露，新一轮融资的资金，除了用于继续加大软、硬件方面的研发投入，很大一部分将用于国际客户的交付和落地。

直播预告 | AI 研习社邀您观看全网独家直播 IJCAI 2019

Tue, 06 Aug 2019 17:57:00 +0800

直播预告

今年，IJCAI（国际人工智能联合会议，International Joint Conferences on Artificial Intelligence）将于 8 月 10 日至 16 日在中国澳门隆重召开。作为人工智能领域最顶级的国际学术会议之一，IJCAI 的举办自然备受瞩目，预计将有超过 3000 名 AI 研究人员和专家来到中国澳门，共同探讨人工智能的现状和未来。

今年，雷锋网作为 IJCAI 官方合作媒体，AI 研习社将全网独家直播 IJCAI 2019，同时，将会有更多来自第一现场的报道，敬请期待！

直播时间

2019 年 8 月 13 日至 2019 年 8 月 16 日

观看方式

AI 研习社将进行独家直播，加入【 IJCAI 交流】讨论小组后即可开始观看：

直达链接：https://ai.yanxishe.com/page/meeting/47?=from leifeng

演讲嘉宾阵容

IJCAI 2019 的演讲嘉宾将介绍人工智能，机器学习，自主代理和其他与人工智能相关主题的一些最重要的贡献和进展。许多受邀演讲者将为非业内参会者提供「更易于理解」的演讲。

演讲嘉宾由一些最知名的人工智能研究人员组成，包括：

Giuseppe de Giacomo，罗马第一大学计算机科学与工程系教授

Leslie Kaelbling，麻省理工学院计算机科学与工程系教授

周志华，南京大学计算机科学与人工智能学院教授

Adnan Darwiche，加州大学洛杉矶分校计算机科学教授

Hadas Kress-Gazit，康奈尔大学机械与航空航天工程学院副教授

Hiroaki Kitano，索尼公司计算机科学实验室总裁兼首席执行官

Michela Milano，博洛尼亚大学计算机科学与工程系教授

（可通过以下链接访问会议页面查看主题演讲嘉宾，https://www.ijcai19.org/invited-talks.html）

面基邀请

AI 研习社为了感谢大家一直以来的支持，特邀请能够来到 IJCAI 现场的小伙伴相约“阿里之夜”，一同畅想 AI 未来。

地点：澳门君悦酒店

时间：8.13 晚

酒会流程

• 18：00-18：30 酒会签到及开场

• 18：30-18：40 开场致辞阿里文娱&阿里安全整体介绍

• 18：40-19：10 主题pannel

• 19：10-20：30 自由交流及正餐

报名方式

参与 AI 研习社话题活动：使用 #我在 IJCAI 2019#标签（https://dwz.cn/v7ZcUQzw），晒出你的IJCAI 注册成功邮件截图，附上你想对 AI 研习社所说的话，我们会从中挑选“评论”+“赞”最多的 TOP 10 位社友，参加“阿里之夜” IJCAI 酒会活动。

期待能够在现场见到你~~

雷锋网雷锋网雷锋网

AR近眼显示中的光波导| AI 研习社 158期大讲堂总结

Fri, 26 Jul 2019 18:23:00 +0800

雷锋网AI研习社按：光波导显示技术是增强现实（AR）领域最具挑战性、最复杂的难题之一，因其轻薄和外界光线的高穿透特性而被认为是消费级AR眼镜的必选光学方案，又因其价格高和技术门槛高让人望而却步。目前诸如微软 HoloLens 和 Magic Leap One 等多家明星 AR 产品均采用光波导显示技术。在本次公开课中，讲者将深度解读光波导的工作原理及不同光波导方案的优缺点分析，同时分享 Rokid R-Lab 团队在 AR 眼镜领域的技术探索与应用。

回放地址：http://www.mooc.ai/open/course/675?=from%20leiphone0726

分享嘉宾：李琨，Rokid R-Lab 光学研究科学家，美国加州伯克利大学电子工程系博士，主要研究方向包括光学成像系统、光电子器件、半导体激光器和纳米技术等。

分享主题：AR近眼显示中的光波导

分享提纲：

Rokid R-Lab介绍：打造先进的AR解决方案
沉浸式的近眼显示系统——光波导
几何光波导的工作原理及优缺点
衍射光波导的工作原理及优缺点
各光学方案的发展现状及可量产性综合比较

雷锋网AI研习社将其分享内容整理如下：

大家晚上好，我是来自Rokid的Linda,很高兴AI研习社今天给我这个机会，能够和大家一起探讨在AR眼镜的光学系统中最近比较热的一个词——光波导。简单介绍一下Rokid，是致力于AI人机交互的创业公司，代表产品有大家熟悉的智能语音产品若琪，以及AR眼镜Rokid Glass 和 Rokid Vision。

今天要讲到的光波导是衍射型的光波导，被用在Rokid Vision之中，如果大家有机会在展会上遇到，可以体验一下。

今天我们来讲光波导，它是AR近眼显示系统的一个核心器件，那么是什么组成了AR近眼显示系统呢？因为AR和VR是比较相近的，都是属于近眼显示系统如何在离眼睛很近的位置显示图像，通常情况下都是由一系列光学成像的棱镜等一些器件将微型显示屏上的像素投到很远的地方并形成一个虚拟的图像，然后再投到人的眼睛里，人眼看上去就像是真实的物体一样。与VR系统不同的是，AR显示系统需要透视，在看到虚像的同时要看到外界真实的世界，就多了一个光学组合器，将虚像和外界的光和在一起之后投在眼睛里。目前市面上的AR眼镜基本都是各种不同的微型显示屏和不同形式的光学组合器。在光学组合器里，有带optical power的和不带optical power的，今天所说的光波导就不属于成像系统的一部分，是独立存在的，只负责把像传递到人们眼前，不对像做任何改变。

市面上主要的光学方案可以简单分一下类，基本上是各种微型显示屏和各种光学组合器的这样一个组合，如图所示：

今天讲的光波导是目前综合看来AR眼镜走上消费市场最好的一个选择，也是应运而生的一个光学元件，它的发明一开始不是为了AR眼镜，但是后面却歪打正着，特别适合AR眼镜。

今天主要介绍一下光波导是怎样一个工作原理，与其他的AR眼镜光学方案相比有什么优点和不足。光波导主要分为两大类，分别是几何光波导和衍射光波导。

先来看一下光波导到底是什么，它其实不是一个新的概念，最早是说如何将光在一个介质里面百分之百地保留住而没有漏光，我们比较熟悉的光通信传导的光纤、海底的光缆等都是用这个原理，传输的介质要满足两个条件，第一个条件就是图中的折射率n,n1要大于n2,第二个条件就是光进入波导的时候入射角需要大于临界角，临界角就是通过n1和n2之间的关系计算出来的。如果满足了这两个条件，光在达到表面穿梭时都会将近百分百地反射回来。在AR眼镜中的光波导基本上说的是玻璃的基底，为了达到更好的效果，一般都是用小于1毫米的基底。光波导其实就是一个玻璃基底，可以使一定条件打进去的光产生全反射，就能实现我们想要的将光从光机搬运到人眼睛前面的任务。

在光波导产生之后，到底为AR眼镜、AR头盔做出什么样的贡献？有什么好处？主要它是实现了把眼睛周围很庞大的光机搬到旁边去，比如在侧面、额头等，可以不挡住视线，通过光波导这样一个传输的媒介，再把光带到眼睛前面来。另外一个比较大的优点就是，可以增大动眼眶（戴上眼镜之后，眼睛在系统中心点周围移动多大的x和y的范围仍然能够清晰地看到图像）的范围。因为光波导是动用了扩瞳技术，所以可以增大动眼眶的范围，在做产品时更加容易适应所有的人群。第三个优点就是更加有利于外观的改善。第四个优点就是提供了“真”三维图像的可能性。当然也有一些不足，比如光学效率相对较低，几何光波导来说制造工艺流程比较繁冗复杂，对于衍射波导来说会有一些色散导致的彩虹现象以及色彩不均匀，而且设计门槛要高一些。

下面我们来看一下光波导的分类，第一类就是几何光波导，是纯几何光学的形式，光的入波导和出波导都是通过一些镜面或者棱镜实现的。第二类就是衍射光波导，衍射光波导又分为表面浮雕光栅和全息体光栅，表面浮雕光栅是通过在玻璃的表面刻设一些沟壑来形成不同的n的对比度，全息体光栅就是通过激光干涉条纹在物体内部构成的变化来形成折射差。

接下来看一下几何光波导的工作原理以及一维扩瞳的发明，几何光波导是怎样工作的呢？首先需要有一个光机，成像之后将像耦合到玻璃镜片里面，只要反射的角度达到全反射的条件，就可以进行全反射继续往下走，会遇到一系列比较特殊的镜面阵列，如下图所示：

由于几何光波导是通过一系列镜面阵列，在生产和设计达到了百分百匹配的前提下，其成像是无色散的。然后一维扩瞳也解决了不同人群瞳距不同的问题，使得产品能够更加走向消费级。再一个光波导玻璃的厚度也是非常小的，非常轻薄，并且设计也不是很有挑战。它的不足在于很多我们看到的真实产品中，总有一些比如说黑条纹、鬼影、杂光甚至看到一些畸变的现象，主要还是生产没有做到设计想要的程度。目前市面上还没有一个产品达到足够的量来证明几何光波导的量产性，所以在进行方案选择的时候这是几何光波导最令人堪忧的地方。

下面来看一下衍射光波导，相比几何光波导有什么优缺点以及它自己的分类。来看一下衍射光波导的核心，就是一个衍射光栅，衍射光栅简单来说就是一个具有周期结构的光学元件，周期可以表现为下图中左边那种形式，可以是光波导表面做一层凹凸不平的沟壑，也可以是中间这种形式，光波导表面涂一层材料，用材料内部化学物理性质的变化来引起周期，周期主要是指折射率的周期。在表面浮雕光栅里体现为材料和空气之间的周期性变化，在全息体光栅中Δn是由于自身材料受干涉条纹光照程度的不同引起的n的变化情况。最右这个图上面是衍射光栅，下面是普通的分光棱镜，分光棱镜是通过折射来分光的，上面是通过衍射来分光的，不同之处在于除了把颜色分开之后衍射光栅还把光分成了不同的级，在每一个级里面还分了不同的颜色，所以可以看到多个彩虹，而分光棱镜只看到了一束彩虹。后面可以看到由于分光的特征它有一些优点，但同时也带来了一些限制。

我们来看一下一个简单的结构，就是几何光波导一维扩瞳这个功能完全用衍射光栅来代替，如下图所示：

在一维光栅的基础上，又出现了一维光栅二维扩瞳这个概念，如下图。这种方案除了在左右眼睛横向之间的距离增大以外，动眼眶在纵向也增大了，这样就可以适用于更多脸型的人群。

当然也可以直接用二维光栅来进行二维扩瞳，如图所示：

衍射光波导有一个很大的优点，就是可以实现二维扩瞳并且设计上有很大的自由度，没有几何光波导那么复杂的工艺。衍射光波导中一个比较大的缺点就是它的色散问题，会导致动眼眶内颜色不均匀。针对这个问题，业内主流的解决办法就是用多层的光波导，但是也不能完全解决。另外一个问题就是彩虹效应，这主要是由于衍射光栅对于不同的入射角度衍射效率不同。综合这两个，就是衍射光波导中的色散问题。

最后讲一下衍射光栅分类，如图所示：

目前表面浮雕光栅(SRG)占市场上衍射光波导AR眼镜产品的大多数，得益于传统光通信行业中设计和制造的技术积累。

它的设计门槛比传统光学要高一些，主要在于衍射光栅由于结构进入微纳米量级，需要用到物理光学的仿真工具，然后光进入波导后的光线追踪(ray tracing)部分又需要和传统的几何光学仿真工具结合起来。

它的制造过程先是通过传统半导体的微纳米加工工艺(Micro/Nano-fabrication)，在硅基底上通过电子束曝光(Electron Beam Lithography)和离子刻蚀(Ion Beam Etching)制成光栅的压印模具(Master Stamp)，这个模具可以通过纳米压印技术(Nanoimprint Lithography)压印出成千上万个光栅。

表面浮雕光栅已经被Microsoft, Vuzix, Magic Leap等产品的问世证明了加工技术的高量产性，只不过精度和速度都可靠的电子束曝光和纳米压印的仪器都价格不菲，并且需要放置在专业的超净间里，导致国内有条件建立该产线的厂商屈指可数。

在做全息体光栅(VHG)波导方案的厂家比较少，包括十年前就为美国军工做AR头盔的Digilens，曾经出过单色AR眼镜的Sony，还有由于被苹果收购而变得很神秘的Akonia，还有一些专攻体光栅设计和制造的厂家。

由于全息体光栅由于受到可利用材料的限制，能够实现的Δn有限，导致它目前在FOV、光效率、清晰度等方面都还未达到与表面浮雕光栅同等的水平。但是由于它在设计壁垒、工艺难度和制造成本上都有一定优势，业内对这个方向的探索从未停歇。

最后我们来总结一下，光波导作为AR眼镜中应运而生的一个光学组合器的选择，本身不带任何的optical power，由于它的轻薄能扩瞳使得动眼眶增大这些优点，我们认为它是目前AR眼镜走向消费市场的选择。

但是由于光栅设计门槛高和“彩虹效应”的存在，做出理想的AR眼镜仍然任重道远，需要业内各个产业链的共同努力，Rokid AR团队也致力与大家一起探索AR眼镜这一核心技术的突破与应用，以期为用户带来真正轻薄便携、体验优秀的AR眼镜。

今天的分享就到这里，谢谢大家。

以上就是本期嘉宾的全部分享内容。更多公开课视频请到雷锋网(公众号：雷锋网) AI 研习社社区https://ai.yanxishe.com/观看。关注微信公众号：AI 研习社（okweiwu），可获取最新公开课直播时间预告。

如何加速开启 AI 普惠时代？这四家企业交出了最完美的答卷 | CCF-GAIR 2019

Fri, 19 Jul 2019 10:29:00 +0800

7 月 12 日至 7 月 14 日，2019 第四届全球人工智能与机器人峰会（CCF-GAIR 2019）于深圳正式召开。大会第一天，在经过一整天的「人工智能前沿专场」和「人工智能四十年纪念专场」之后，2019 年度 AI 最佳成长榜颁奖典礼在 CCF-GAIR 2019 晚宴上隆重进行。

相对于往年，2019 年度 AI 最佳成长榜更具权威性和代表性。经过三个月的报名、提名，15 天的专家集中评审，最终在 436 家被提名和申请榜单的 AI 创业公司中，就当下最受关注的 13 个 AI + 领域分别评选出最佳壁垒成长奖、最佳产品成长奖、最佳商用成长奖、最佳未来成长奖四大奖项，最终评选出 52 家在产品能力、技术能力、商用价值，以及未来成长潜力最具代表性的 AI 企业。

此次评选中，码隆科技、百度飞桨、京东人工智能和神州泰岳，凭借各自在技术突破、落地应用、生态建设等多方面的快速发展脱颖而出，荣获AI+应用平台四大奖项。其中，码隆科技获最佳壁垒成长奖，百度飞桨获最佳产品成长奖，京东人工智能获最佳商用成长奖，神州泰岳获最佳未来成长奖。

AI+应用平台最佳壁垒成长奖：码隆科技

成立于2014年的码隆科技，是一家专注于计算机视觉技术创新的人工智能企业。

2016年10月，码隆科技基于自主研发的“弱监督学习”算法，推出了ProductAI人工智能视觉应用平台。这是一个由数十亿商品数据训练而成的人工智能系统，具备精准识别图片、视频中商品及其属性的强悍能力。

作为一项PaaS服务，ProductAI主要面向企业端客户，开发者可通过调用其接口来获得人工智能服务，以精确识别服装面料等易变形、遮挡、扭曲的物体。迄今为止，码隆科技已经为零售、时尚、纺织等多个行业提供了人工智能技术支持。

比如在时尚领域，ProductAI 平台通过 AI 技术把原来的定性分析变成了实时、定量的大数据定量分析。以时装周分析为例，过去需要时尚专家奔赴现场总结流行趋势，这种分析不仅主观而且耗时耗力。而ProductAI 通过分析时装周的海量图片，就能快速得出量化分析结果，总结出流行趋势的变化。

在零售领域，ProductAI 平台可以让普通货柜在安装摄像头后，就能实时监测顾客购买的商品种类、数量和价格，并自动完成结算。

凭借技术创新，码隆科技竖起了企业的护城河，同时也成功推动商品供应链条更加高效地运行，为实体经济装上了一台“涡轮引擎”。

2018年，码隆科技获得埃森哲战略投资，并与后者达成AI战略合作，将商业版图拓展到了全球范围。这头AI独角兽还在高速成长当中，平台服务也进一步向零售等垂直行业深化，布局端到端的解决方案。

AI+应用平台最佳产品成长奖：百度飞桨

飞桨是百度自主研发的集深度学习核心框架、工具组件和服务平台为一体的技术领先、功能完备的开源深度学习平台，有全面官方支持的工业级应用模型，涵盖自然语言处理、计算机视觉、推荐引擎等多个领域，并开放多个预训练中文模型。

作为国内唯一功能完备的端到端开源深度学习平台，百度飞桨具有五大优势：

第一，同时支持动态图和静态图的编程，能够兼顾易用性和效率。

第二，飞桨有大量在产业实践当中沉淀出来的模型，并提供官方的支持，能够保证开发者的应用效果是最佳的，真正可靠的。

第三，针对大规模的工业化场景，飞桨提供大规模分布式训练能力，在真正的工业场景应对自如。

第四，端到端的部署是应用深度学习的一个非常关键的环节，飞桨提供非常完备的支持各种硬件的端到端的部署能力，能够使得开发者推理、预测的过程足够顺畅。

第五，飞桨是国内唯一一个提供系统化的深度学习技术服务支持的深度学习平台。跟飞桨合作，或者用飞桨的时候，就可以得到百度非常全面的技术支持。

目前飞桨已开源70多个经过真实业务场景验证、达到工业级应用效果的模型，涵盖视觉、NLP、推荐等 AI核心技术领域，完全达到了世界水平。飞桨以完备的框架、工具和服务，帮助广大开发者和企业利用工具化、平台化的方式进一步降低深度学习应用门槛，加速推动产业智能化变革。

AI+应用平台最佳商用成长奖：京东人工智能

2018年4月正式发布的NeuHub京东人工智能开放平台，是京东AI战略全景图的重要组成部分。

京东AI致力于将NeuHub京东人工智能开放平台打造成一个开放、共享、共建的平台。就在近期，为了迎接2019年京东618全球年中购物节，NeuHub京东人工智能开放平台进行了全线升级，全新升级的NeuHub京东人工智能开放平台包含开发平台、应用平台和创新应用的平台级服务，连接人工智能的供需两侧，提供能力、工具、SaaS等一站式人工智能服务和应用，还面向不同场景的端到端集成创新产品和解决方案，以多层次的人工智能产品和应用，打造围绕零售及零售基础设施的开发和交易平台。

作为从零售垂直场景里成长起来的平台，NeuHub天然具备超强的适应性与落地性。2019年618期间，NeuHub平台累计调用量达到237.66亿；生态伙伴服务调用是日常日均调用量的11.7倍。其中内容审核场景下，NeuHub平台调用量是去年同期的10倍。

凭借出色的创新性、安全稳定性、易用及实用性，未来NeuHub平台还将把京东AI的丰富能力开放给上下游的合作伙伴，投入到无穷的应用场景中去，广泛深度地推动零售等行业的智能化升级。截至日前，NeuHub京东人工智能开放平台生态已吸纳超过300家优秀的合作伙伴，并与超过10家合作伙伴深度合作进行联合产品打造。

AI+应用平台最佳未来成长奖：神州泰岳

应用落地是人工智能技术发展的关键。

神州泰岳紧紧把握时代机遇，以智慧语义认知技术作为突破方向，与行业应用开发商和企业客户共同构建行业生态，在人工智能领域形成了强劲的核心竞争力和市场影响力。

截止目前，神州泰岳联合多家权威机构，依托国家顶级的中国中文信息学会，打造了中文信息（深度）处理开放创新平台、智能写作机器人平台等多个产业级平台；同时，结合自身技术创新能力与丰富的行业经验，神州泰岳还陆续推出了泰岳语义工厂、智脑2.0、睿达控SaaS平台等多个行业应用平台，目前已在智慧公安、智慧金融、智慧教育、智慧城市等领域落地应用，并取得了良好的市场口碑。

结语

历经多年探索，AI技术的发展在纵向突破上已经卓有成果，逐步迈向了横向落地应用阶段。AI技术的大规模普及和应用，离不开一个个应用平台的支撑和助推。2019 AI最佳成长榜特设“AI+应用平台”奖项，正是意在挖掘和鼓励这一领域的生力军，加速AI平民化时代的到来。而码隆科技、百度飞桨、京东人工智能和神州泰岳四大应用平台的卓越表现，无疑让我们对未来充满了信心和期待。雷锋网雷锋网雷锋网

TCL研究院俞大海：我从智能制造实践中总结出的几点经验丨CCF-GAIR 2019

Wed, 17 Jul 2019 15:52:00 +0800

雷锋网 AI 掘金志按：7 月 12 日-7 月 14 日，2019 第四届全球人工智能与机器人峰会（CCF-GAIR 2019）于深圳正式召开。峰会由中国计算机学会（CCF）主办，雷锋网、香港中文大学（深圳）承办，深圳市人工智能与机器人研究院协办。

在大会第三天的〖智能商业专场〗，阿里巴巴集团副总裁、CEO助理肖利华，京东零售首席科学家兼技术副总裁胡鲁辉，美国德州农工大学数据挖掘实验室主任胡侠，苏宁零售技术研究院院长王俊杰，TCL研究院（香港）研究所总经理俞大海，扩博智能CTO柯严先后登台发表精彩演讲，分享了各自对智能商业的理解与实践。

其中TCL研究院（香港）研究所总经理俞大海以《AIxIoT-TCL人工智能技术在智能制造的应用》为主题，分享了TCL在智能制造领域的实践与经验。

俞大海介绍，制造行业的数据极其不平衡，正样本多，负样本少。用传统机器学习的做法训练模型效果非常差。TCL的做法是用生成对抗网络去模拟真实的生产环境，产生更多的负样本，然后通过强化学习去训练模型。

他指出，现在行业的通行做法是在已有的业务流程上去应用人工智能，效果比较有限。因为现有的业务流程是为人服务的，未来我们也可以尝试去设计一套为机器学习服务的业务流程。

俞大海还提到，很多工厂不便把数据上传到公有云，但在私有云上做人工智能的应用成本又太高。这个问题可以用边缘计算来解决，先在边缘端处理数据，只将特征信息上传至云端，甚至直接在边缘端实现某些功能。

以下是俞大海的全部演讲内容，雷锋网做了不改变原意的整理与编辑：

非常高兴能来这里分享我关于智能制造的经验。今天我分享的主题是“人工智能技术在智能制造的应用实践”。为什么要强调“应用实践”呢？因为智能制造是一个非常大的话题，可以专门开一个这样规模的论坛来讨论。智能制造并不是一个新概念，想必在座各位都很熟悉。无论中国的智能制造2015还是欧洲的工业4.0，内涵都非常接近。所以我今天不给大家科普，而是聚焦我们在一些应用上的实践。

智能制造并不是一件容易的事。尤其是人工智能在制造行业的应用，并不像它在安防、零售这些行业那样立竿见影。因为制造领域的流程从数字化和信息化的角度来说非常复杂。

人工智能可以在制造领域起到怎样的作用呢？过去很多年我们一直在做这方面的研究，做了大量尝试，尤其是TCL，在过去十年里下了很大功夫。我来自TCL研究院，我们聚焦的是人工智能可以为生产、检测等环节带来哪些改变。今天我想跟大家分享我们的一些实践和对于未来趋势的思考。

提到TCL，大家首先想到的是电视，但其实我们不光做电视。TCL有两大事业群：第一个是智能终端和新兴业务版块，包括刚刚说到的电视，目前我们已经超过LG做到了全球第二，仅次于三星；此外我们还有手机和家电，比如黑莓、阿尔卡特等品牌都是TCL旗下的。第二个是半导体显示及材料版块，我们在这个领域探索得非常深入，位居先进制造行业的一线阵营。半导体显示跟传统的组装、OEM行业不一样，它属于精密制造，对自动化、信息化程度的要求非常高。这给我们发展智能制造奠定了非常好的基础。

简单介绍下我们研究院的技术布局，主要有三个方向：一是人工智能及大数据；二是半导体显示技术和材料，后者包括材料的研发和制造；三是智能制造和工业互联网。TCL在全球拥有香港、欧洲、美国、西安、武汉和深圳6大研发中心，有很多的科学家和算法工程师共同为TCL的新材料研发、智能制造和工业互联网服务。

下图是我们一些具体的研究方向，基本涵盖了所有人工智能相关的技术，无论是图像识别、机器学习、数据分析建模，还是NLP、ASR等。其中部分是为智能终端服务的，包括电视、手机、智能家居等。

下图展示了我们智能制造的物联网平台。我们有自己的工业云、大数据云、IoT云，以及人工智能平台。后者在TCL的工业物联网中可以提供机器学习、计算机视觉、NLP、BI等能力，服务于我们的智能工厂、供应链、市场前端甚至研发。这里面的每一个板块都有很多内容可讲，这里不展开叙述。

下面这张图展示了我们的AI服务。最底层是我们团队在过去五六年里积累的各种能力，可以整合成一套高性能计算解决方案进行统一输出，也可以输出给第三方平台。这套高性能计算解决方案可以移植和转化到不同的应用场景当中。我们知道人工智能是由非常复杂的算法组成的，要把它运用到具体的场景中就必须进行移植和转发。我们的这套方案可以完美应用到应用层的各个产品中，包括手机、电视等等；这是我们独有的优势。

工业物联网做为TCL的一个产品，不仅服务于自身，也可以输出给上下游的合作伙伴。我们提供的除了云端解决方案，还有边缘端的解决方案，不同的算法和技术都可以根据客户的需求，形成个性化的解决方案。

接下来分享一些具体案例。我们在这方面有很多案例，比如跟中国最好的电池企业和整机生产代工企业合作，去提升他们的制造能力。但我觉得半导体显示行业是TCL探索非常深的一个领域，而且非常具有代表性，由于时间关系，就只以我们自己的工厂举例。

首先回顾一下TCL在半导体显示领域的投入。2009年我们投建了第一家半导体显示工厂，迄今刚好十年。目前TCL一共有8家半导体显示工厂，3家在深圳，2家在武汉，还有2家在建，一家刚刚立项。半导体显示通俗来说就是显示屏，我们的产品线覆盖了大大小小各种电子设备的显示屏，也包括柔性屏。已经投产的5家工厂，T1、T2、T3都是智能制造2025的示范单位。

我们在建这些工厂的时候就想得非常远，怎么把智能制造做到最优。2016年开始，我们对所有工厂陆续进行了自动化和数据的改造，目前改造工作已经全部完成。2017年至今，我们成功搭建了物联网平台，依托这个平台，所有工厂都能够收集、管理和分析我们想要的数据，真正做到了可视化。去年开始，我们在人工智能领域也进行了很多时间，逐步收获了成效；预计明年我们将把人工智能技术应用到所有工厂。

在智能制造领域，我们关注三个核心部分：

一是IoT平台。如果你的工厂足够自动化，信息化程度很高，精益化管理也没有任何问题。你想让它真正走向智能化，就必须发展IoT平台。因为你的数据是多维度和多模态的，如果没有IoT平台采集数据，让它和机器相关联，后面的智能化是无法实现的。这对工厂提出了很大挑战。

二是大数据平台。大量数据涌进来，可能有些有用，有些没用，怎么对数据进行清洗和管理，把数据转化成服务，这一点非常重要。

最后才是人工智能的平台。用数据结合生产流程去提供智能化的服务，帮助提高效率和降低成本。为什么要智能化？

所有制造企业面临的最根本问题，一是降低成本，二是提高效率，三是产能和良率达到最优的平衡状态。之前精益制造要解决的是这些问题，现在的智能化也是。

其中的挑战非常大。智能制造流程复杂，通过精益制造和自动化我们已经把产能和良率提得很高了，但任有进步的空间。智能化的过程中，我们要做的依托各个设备产生的数据对每一个环节进行优化，以数据为驱动，实现高效的管理和精准的判断。

总而言之，制造业需要解决三个问题：降低成本、提高效率、提高良率。具体怎么做呢？下面用两个案例为大家解答。

下面这张图展示了我们工厂的一条生产线，它大概包含了20道工序，每天会产生70万张图像。我们希望通过这些图像，在保证产品的情况下提高良率。怎么做呢？

过去我们人工总结了100多种缺陷，派10个人三班倒（也就是30个人）来检查这些图象，如果发现问题就进行修补。刚建厂的时候这种方法还是很有效的，使得我们在同行中的良率非常高。但随着产能和良率的提升，我们意识到不能再这样做了，一是成本非常高，二是人工的方法已经很难再提升了。

我们是怎么做的呢？用深度学习技术去分析机器产生的大量图像，这个过程并不复杂，很快就把这个问题给解决了。

过去的人工流程用了5年时间总结经验才达到比较完美的效果，现在我们用人工智能技术一年就把它替换掉了，而且效率还更高。

不需要再人工总结问题和标注，而是让机器从上百万的图片中自动学习，就可以找到自动找到这些缺陷，而且还能发现新的问题。我们原来需要10个人，需要只要一个就行了，他只要保证机器不出大的问题就可以了。

由此甚至还产生了一些边际效应。通过长期的数据积累和自学习，我们在某些环节提前就能发现问题，不必等到良率出问题了再去解决。我们甚至可以提前一到两个小时预警，把问题扼杀在萌芽期。因此我们的检测效率提升了20%，同时节省了大量人力成本。

再看另一个案例。刚才我们说的是用算法检查产品的缺陷，下面谈谈怎么用数据和算法去发现生产流程中的问题。以前这件事情完全依赖于专家，需要一个干了十多年的老工人去判断哪台机器出了问题。以前我们觉得这个事情AI做不了。后来才发现不是，因为人的经验也是一个数据和知识积累的过程，只要把知识和信息数据化，让算法在流程和数据之间寻找相关性，就能够做到。

下图是传统的深度学习或机器学习的做法。用机器学习的方法建模，对大量的数据做分类或回归，从而找到问题，做一些简单的分类预测。这种做法对数据的要求非常高，需要数据非常干净，还需要人去做标注，把人的知识转化过来。

但我们不这样做，我们用对抗生成网络，用历史数据去生成一个环境，模拟数据产生的过程，让数据更贴近真实情况。为什么要做这个呢？因为生产制造行业的数据极其不平衡，正常的数据非常多，负样本非常少，可能99%都是正样本。如果单纯用这些样本分析，效果非常差。如果我模拟一个环境，就可以让他在线下学习，就像下围棋一样，让机器跟自己下3000万盘棋。这样就会产生更多贴近真实情况的负样本，我们把它用于强化学习去训练预测模型。这个预测模型可以根据你的任务去调整，最终得到想要的效果。

举一个Pump寿命预测的例子。这个工作以前完全靠人的经验，没有几年产线工作经验的人做不了这个。人工检测，稍微判断失误就会导致停机，停机一个小时，将给企业带来非常大的损失。我们现在用机器学习做，一次停机都没有。而且还是提前预测它的健康寿命，提前进行维护和维修，保证它绝不宕机。

前面介绍了TCL在工厂里应用人工智能的两个案例，下面再分享一些我们的经验。

人工智能在工厂里可以做到什么？我觉得有三项：发生了什么、为什么发生、还会发生什么；这是我们已经在实践中证明过的。我们接下来要思考的是，如何更好地把人工智能应用到这些环节。过程中有不少的挑战，因为我们面临着大量结构化和非结构化的数据，如何把数据和人工智能有效结合起来，充分发挥其价值，是我们需要思考的命题。

此外，人工智能能不能做决策，能不能做认知智能，怎么去做，这是很多人关心的话题。从实践来看，我们暂时还没有做到，但这是不是值得研究的方向呢，会不会出来一些新的应用。

还有知识图谱。我们调研大量制造业企业后发现，知识图谱对智能决策和智能预测非常关键。没有知识图谱，说明你对自己的生产工艺流程并不了解。我们希望大家都能建立自己的知识图谱，不是画出来的文本，而是真正数字化的知识图谱。

我们的实践证明，深度学习非常好用。未来它能不能跟自动化学习或者强化学习结合起来呢？从我们的时间来看，这是有效果的。我认为这个方向值得深入研究。

数据方面，有标签的数据实在太重要了。即使我们做了一些自动化学习的方案，也仍然很依赖有标签的数据，有标签的数据越多，对效果的提升就越快。

我们现在的做法是把人工智能加到已有的生产流程中去，它可以起到一些作用，但不能发挥全部价值。于是我们开始思考，现有的生产流程是不是可以改进呢？改变生产的整个框架和流程，把人工智能作为一个核心部件放进去。因为现有的流程一开始就是为人服务的，如果人工智能有效，是不是可以专门为它去设计一个流程呢？我想不只是智能制造，在零售等其他领域这个问题也同样值得思考。

另外，我觉得边缘计算将是人工智能的关键。很多企业——尤其是工厂，很难把数据上传到公有云，他们都有自己的私有云。但是如果所有东西都在私有云上做，成本太高了，这时候边缘计算就可以发挥作用了。我们希望未来的人工智能不需要把所有数据都上传到云端，而是在机器端就已经处理了，只上传一些特征信息，甚至某些功能直接在机器端就能实现。

最后插播一则小广告。TCL跟香港大学合作成了一个人工智能联合研究中心，我们投入了很多资源，也获得了香港政府和香港大学的大力支持。希望有志于人工智能的朋友可以跟我们联系，寻找合作的机会。TCL开放了13个项目，包括智能终端、智能制造、半导体显示材料等，我们将提供自己优势，比如数据和应用场景，欢迎大家来合作。

HiPU设计简介——DAC19目标检测设计竞赛FPGA赛道亚军方案介绍| AI 研习社 157期大讲堂总结

Wed, 17 Jul 2019 14:51:00 +0800

雷锋网AI研习社按：DAC19目标检测设计是一个面向移动端的单目标物体检测的比赛，检测精度高且能耗低者胜出。我们团队设计了单目标检测的深度学习算法ShuffleDet，和面向Xilinx ZU3的AI硬件加速器，获得了FPGA赛道的第二名。本次分享主要介绍我们团队的设计方案。

分享嘉宾：赵文哲，西安交通大学人工智能与机器人研究所研究员，伦斯勒理工学院访问学者，主要研究方向为计算机体系结构，纠错码设计，以及企业级存储方案设计。

公开课链接：http://www.mooc.ai/open/course/674?=from%20leifeng0717

分享主题：HiPU设计简介--DAC19目标检测设计竞赛FPGA赛道亚军方案介绍

分享提纲：

DAC19比赛背景介绍；
算法选择及训练介绍；
一种通用目的的AI加速器设计简介；
性能分析与结论。

雷锋网AI研习社将其分享内容整理如下：

大家好，我们来自于西安交通大学人工智能研究所。在今年DAC会议举办的自动化系统设计大赛上获得了亚军，今天主要介绍一下我们的设计方案。我负责这个方案的算法部分，算法部分主要进行了目标检测递层框架的搭建、神经网络算法的压缩，后面主要由赵老师讲一下硬件架构的设计。

这个是由英伟达、大疆他们共同组建的一个比赛，数据集由大疆提供——基于大疆无人机拍摄出的目标检测的数据集，比赛从准确率、速率、网络效率等方面综合考量之后，给参赛队伍一个相应的分数，以上这些是关于比赛的大概介绍。

在比赛中，算法方面主要是两个工作，第一个是神经网络的选取，这个工作需要在一非常小的BP上配置神经网络，所以首选储存空间小、效率高的这种来作为特征提取的基本网络。在这个网络训练过程中，主要进行了两个部分的优化，首先是将神经网络进行预训练，第二个优化是针对硬件优化的，将ShuffleNet V2变成8的倍数，方便后面进行配置。

算法方面的第二个工作主要是介绍网络的量化，网络的量化也分为两个主要的部分，首先是将一些特殊的层进行融合，如图示左边部分。其次是8bit的量化过程，如图示右边部分。

下面介绍一下量化过程中的一些关键点，第一个点就是神经网络越小，量化难度越高，来看一下下图所示右边部分，是当时我们为了验证这个说法做的一个实验。第二个点就是上一页的cabs函数，这个函数主要是保护权重和输出在要求的范围内不产生溢出，最好是先让网络训练一段时间，在权重和输出都比较稳定的时候再把函数加入进去。第三个点就是ratio_a,指的是输出值，这个值的统计是一个非常精细的过程。第四个需要注意的点就是，在完成离线的量化工作之后，在实际操作中，需要跳过round函数的梯度。

关于量化这个领域，建议大家读一下以下这些论文，如下图。

我这部分讲完了，接下来是赵老师来介绍。

在我们的网络和参数训练完成之后，就需要设计一套硬件加速处理器，以便让神经网络能够高效的运行。为了实现上述目标，我们设计了一个通用的，可以支持几乎所有网络的加速器，将它命名为HiPU。这个加速器主要包括这样几个模块，首先是一般的控制模块，除此之外有矩阵运算和矢量运算。在HiPU里面，主要是处理卷积、Depth-wise卷积、padding、pooling、跟channel相关的shuffle操作以及concat操作。

先看一下几个基本操作，如下图右侧所示，是HiPU的基本结构图。

接下来看一下计算过程，以卷积为例，当数据已经放在MRa、MRb中之后，通过计算器发出开始卷积的命令，然后conv_ctrl模块会把一个卷积拆解成很多矩阵运算和矢量运算的指令,MPU和VPU内部会把数据读上来，计算完之后再送到VPU做一次运算的结尾部分，算完之后再写回到MRa之中，流程大概就是这样。DW卷积也是类似，如图所示。

接下来看一下相关的几个优化，首先我们并不是算完一层就立刻返回，以module_c为例，先做一个切分，把前一半的数据直接传到后面，后一半的数据分别经过1x1的卷积，然后经过3x3的卷积，再经过1x1的卷积，和之前的数据做一个shuffle之后输出。在这个过程中，并不是说做一个卷积就算完了就立刻输出。继续讲第二个优化，在此之前说一下我们这种做法的问题，问题是一次需要读入8个输入channel的数据，但是输入层只有RGB三个通路，如果要处理这样的数据，就必须要补上5个channel的0，计算效率也就只有八分之三。针对这个问题，如果第一层卷积是3x3的，可以考虑做这样一个变换，把相关的数据排列过来，如下图，这样的做法可以让卷积效率提高很多。

除此之外我们再看一下作为系统的优化，系统分为PS侧和PL侧，大部分卷积运算都是放在PL侧进行的，最后一层的输出是放在PS侧来做的。在PL侧做大量卷积运算的时候，PS侧是空闲着的，但是现在在做当前图的卷积运算的时候，PS侧会进行下一张图的预读取，通过这种方式可以显著地减少读图所消耗的时间。除此之外是对计算Calc bbox的优化，通过外扩C函数，把计算时间从2毫秒降到0.6毫秒，而且，读图像的时间也可以减少。最后还有一个问题，之前使用的SD卡并不是最好的SD卡，会出现这种PS侧一直在读图，但是PL侧已经算完了的尴尬情况，于是增加了一个门控时钟来降低功耗。

接下来是HiPU的一个总结。我们的HiPU可以在单倍频和双倍频模式下工作在233MHz，峰值算力为268Gops。资源占比中，LUT站到62%左右，还有继续提升的空间。编程API为C以及RISC-V风格的汇编。支持的主要操作如下图所示：

下图是HiPU在不同的配置环境下执行这次比赛的任务的性能分析：

介绍一下我们的Roadmap,如图所示：

最后请欣赏我们设计的2个Demo:

今天的介绍主要就是这些，谢谢大家。

以上就是本期嘉宾的全部分享内容。更多公开课视频请到雷锋网(公众号：雷锋网) AI 研习社社区http://ai.yanxishe.com/观看。关注微信公众号：AI 研习社（okweiwu），可获取最新公开课直播时间预告。

美国德州农工大学胡侠教授：AI落地开花如何翻过“可解释性”和“自动化”两座大山丨CCF-GAIR 2019

Tue, 16 Jul 2019 12:01:00 +0800

其中美国德州农工大学数据挖掘实验室主任胡侠教授以《增强人工？促进智能？？》为主题，分享了他在深度学习可解释性与自动机器学习方面的最新研究成果。

胡侠教授表示，AI要真正落地为人所用，必须要有另外一个“AI”的支撑，其中其中A代表Automation（自动化），I代表Interpreation（可解释性）。

他指出，深度学习的发展给各行各业带来了巨大的便利，但如果解决不了深度学习算法的可解释性问题，它的价值就会大大受限。

比如在用深度学习处理医保骗保问题时，光分析出哪一桩理赔可能存在问题还不够，还必须精准定位出上千页的理赔文件中究竟是哪一页出了问题，这样才能帮助专家快速符合，这就需要算法的可解释性。

同时，自动机器学习也是行业目前非常热门的方向。它主要有两重价值：一是帮助没有很强数据科学背景的用户更好地利用AI这一工具；二是帮助专业的数据科学家提高效率，毕竟现实生活中千变万化，光靠科学家应付不过来。

以下是胡侠教授的全部演讲内容，雷锋网做了不改变原意的整理与编辑：

深度学习算法的可解释性

报告开始前先给大家讲一个故事。两年前，一位叫Ali Rahimi的谷歌研究员在机器学习顶会NIPS上获得了“Test of Time”论文奖。“Test of Time”论文奖是NIPS为过去十年发表的论文中的最优者颁发的奖项，可以说分量十足。当时，Ali Rahimi在颁奖典礼上发表演讲，将深度学习比作炼金术，指出了这项技术的缺陷

在欧洲历史上，炼金术和占星术一样，都属于神学的范畴。所以Ali Rahimi把深度学习比作炼金术，是一种非常严厉的抨击。

Ali Rahimi抨击深度学习的主要论据是，深度学习算法缺乏可解释性。算法的可解释性为什么如此重要呢？我将用几个行业案例来说明。

先说保险行业。我们跟美国最大的一家保险公司合作，希望用人工智能技术做反欺诈。因为在美国保险业，一些小诊所的医生会联合病人骗保。我们的做法是用人工智能分析某个理赔案例跟其他案例在特征上是否有显著不同，如果有则说明它存在欺诈的风险，我们会将它移交给专家复核。

这件事的难点在于，理赔涉及的文档多达上千页，复核难度非常大。所以我们必须让算法精准定位出究竟是哪一页文档存在问题，这样算法才有意义。

再比如医院场景。假如人工智能系统预测病人得了糖尿病，却说不出依据是什么，病人肯定不会买单，医生也无法对症下药采取措施。

还有自动驾驶。前两年自动驾驶汽车出了不少事故，这是一件很严肃的事情。我们必须对自动驾驶系统进行检查，分析这个软件是怎么写成的，为什么它会在事故发生的瞬间做出错误判断。要回答这些问题，就必须依靠算法的可解释性。

深度学习算法的可解释性非常复杂。因为它的目标（分类、排序）、模型（CNN、RNN、CF）和数据类型（文本数据、图片数据）都很丰富。

我们在深度学习算法的可解释性方面做了大量工作，总结出了三大解决方向：

一是从模型架构入手。传统的深度学习架构缺乏可解释性，但我们可以对它进行修改，增加可解释性的元素。基于这种方法，你可以根据自身业务灵活调整模型，但它对模型设计能力的要求也比较高，而且每来一个新任务，都需要重新设计模型。

二是重新设计一套验证模型。很多时候我已经有了一个模型，运行效果非常好，那么我就不需要去改动它，而是重新设计一个模型去对它进行验证。比如在医院场景中。医生诊断糖尿病的思路就相当于独立于算法外的验证模型。

三是去解释预测的对象本身。比如一个得了病，我们需要去定义的是他本身，而不是判定他得病的过程。大家有兴趣可以去搜索《Techniques for Interpretable Machine Learning》这篇论文。

下面举例说明怎么做可解释的CNN模型。下面这张幻灯片的图片里有一头大象和一匹斑马，我们想知道CNN模型是如何运作的，它是根据图片中的哪些部分判断出谁是大象谁是斑马的。

解决这个问题主要有两项挑战：一是怎么找出图片中的重点（大象和斑马），我们很容易就能判断，但机器不是；二是图片中的哪些部分使系统识别了大象或办法。

为了解决这些问题，我们提出了遮罩的办法，即把图片中的某些部分去掉，分析它对系统输出结果产生了多大的影响。比如我们把关于大象部分的图片去掉，对结果影响巨大，这就说明它是图片中非常重要的部分。

我们很快将推出一个叫做XDeep的软件包，里面包含了目前市场上比较重要的深度学习可解释性方案。我上面提到的三种方案，在里面都有开源代码供大家尝试。

自动机器学习

前面介绍了“人工”的部分，即深度学习可解释性的重要性，下面再讲讲“智能”的部分，即自动机器学习。

自动机器学习是所有大厂都在密切关注的话题，比如谷歌就正在大力推广它的Automated系统。在座很多人都听说过自动机器学习的概念，我简单介绍下它在各个行业的应用。

自动机器学习在金融、医疗、零售等领域都有广泛的应用，它只需要少量数据就能迅速输出结果。虽然结果的准确性可能比不过专业人士，但至少在某些任务上是旗鼓相当的。

自动机器学习一是允许你在某个方向上进行快速尝试；二是可以让你在这个方向有比较好的基础，不必从头开始研究。

比如在零售领域，商品推荐通常有两种做法：一是不分品类，把所有商品混在一起，做一个协同过滤系统；二是针对商品大类做更精细化的推荐。后者的效果显然优于前者，但工作量也更大，有了自动机器学习，问题便迎刃而解。

再比如我们跟LG合作的案例。LG的中央空调中有三个很重要的指标，控制着空调的运行状态，把它们设置在一个合适的值，就能提高空调的能效和使用寿命。但空调的安装位置不同，外界的环境也在不断变化，这三个指标对应的最佳数值也是变化的。我们不可能安排工程师一天到晚守着它，还好自动机器学习可以解决这个问题。现在LG的空调只需要安装好就行，不必人工再去管理了。

通过上面两个案例，我们可以总结出自动机器学习的两大优势：一是能让没有很强数据科学背景的用户更好地利用这一工具；二是可以帮助专业的数据科学家提高效率，毕竟现实生活中千变万化，光靠科学家应付不过来。

当然，如果你的业务提升0.1%的准确率就能带来上亿元收入，那么自动机器学习对你就没有那么重要，因为你完全可以雇全世界最优秀的人来做。

自动机器学习同样可以从类型（AutoFE、AutoMHL、AutoDL）、技术路线（BO、RL、EA）和框架（AutoKeras、AutoSklearn）几个维度来衡量。

简单介绍下我们是如何实现AutoDL的，主要分三个步骤：

一是用训练中的历史数据更新替代模型。自动深度学习无外乎要解决两个问题：一是确定搜索空间，二是确定搜索方法；也就是在哪搜、怎么搜的问题。现有的方法主要有遗传算法和强化学习，但这两种算法都要多次搜索才能取得比较理想的效果。

二是生成新的架构用于评估。

三是评估新的架构，决定下一步搜哪里，如此循环，不断地去尝试。

我们在这个过程中引入了一项叫做贝叶斯优化的技术，它只需要极少量数据就能取得很好的效果，在药物研发等诸多领域都具备显著优势。

另外，即使我们已经确定了用某个算法，训练的过程还是非常慢；如果能充分利用历史上训练好的模型就能加速这一进程。为此，我们开发了一个叫做Autokeras的自动深度学习系统。

AutoKeras自去年七八月份发布以来广受欢迎，很多人在用。两个月前AutoKeras已经和谷歌Keras团队正式合并，目前正在做基于Keras的优化，很快就有新版本出来。

由于精力有限，我们的首要目标是基于现有的任务做好优化，真正把它应用到企业级的系统当中。同时我们也希望能和大公司合作，开发面向更多任务的应用。

AutoKeras之外我们还做了一个叫做AutoKaggle的软件包。我们做这个软件包是因为Kaggle上有丰富的数据资源，代表了很多现实中的应用场景。

我们希望在AutoKeras的深度学习之外，也尝试做Automated的机器学习，覆盖不同类型和形态的数据。因为我们在实验中发现，深度学习并不是放之四海而皆准的工具，在很多任务中，传统的机器学习算法反而效率更高，效果也更好。

最后我想用下图中的公式来结束今天的演讲。这里我提出了一个AI POW的概念，POW在科学计算中相当于乘方的概念，也就是说AI之上还有一个AI。人工智能要真正落地为人所用，就必须有另外一个AI支撑，其中A代表Automation（自动化），I代表Interpreation（可解释性）。希望在大家的共同努力下，人工智能能在各行各业落地开花。

雷峰网

大华、宇视、商汤、旷视......扒一扒冬奥会上的「AI」力量

旷视：区间智能防疫系统+室内视觉定位导航

商汤：AI观赛+AR导航

大华股份：智能视频跟踪系统

宇视：户外LED大屏+智能安防系统

中科智云：智能哨兵机器人

科大讯飞：语音交互终端

当虹科技：8K编码器

天地伟业：环保卡口+超星光违停球

苏州科达：AI超微光电警+AR实景指挥

结语

工业视觉「春秋时代」：五派博弈、诸侯迭兴

1、号令一方视觉江湖的世家大族

2、异军突起的武林高手

3、大步迈进的豪商巨贾

4、与世界工厂同崛起的地主豪强

5、傲视群雄的三朝元老

混战中，晨光熹微

虚拟更衣室火了！Revery.ai 用计算机视觉来增强购物体验

AI 商业模式的脱靶、崩塌、救赎

标准化、通用化的黄粱美梦

高度定制化解决方案的利润困局

欧美的高分作业，国内企业抄不来

不在死局中消耗，就在“三大激进商业模式”上九死一生

时代万象，成王败寇

《AI冰与火之歌· 五问》第三篇预告

专访文安智能董事长陶海：AI 企业要「输血」，更要「造血」

泡沫破裂

自食其力

开源节流

顺势增长，逆势突围

关于AI的四个最常见的谬论

狭窄的AI和一般的AI规模不一样

简单的事情很难自动化

拟人化AI没有帮助

没有身体的AI

人工智能常识

百度AI这一年的"足迹"

突破0到1的挑战，百度打造AI基础设施

百度AI规模化落地

百度的AI长期主义

思谋科技完成超1亿美元的A轮融资，加码智能制造、超高清视频的研发

快速商业化部署落地

两大赛道并驾齐驱

加快推进全球商业布局

云测数据99.99%标准发布，或将影响下游AI算法厂商

寻找工业AI『独角兽』的发源地

让工业Know How开口说话

独行快，众行远

AI落地到工业

华为云的下一站

旷视研究院田忠博：旷视深度学习框架天元的开源演进 | CCF-GAIR 2020

美团夏华夏：人工智能如何应用到"吃喝玩乐"？|CCF-GAIR 2020

几起几落 AI终迎爆发

以场景推动人工智能发展

AI+生活 打造未来生活新基建

1．生活服务引擎

2．助力产业升级

3.成为未来生活的新基建

总结

百度技术平台部高级总监马艳军：开源深度学习框架，生态构建是核心，产业赋能是试金石 | CCF-GAIR 2020

顶级算法竞技来袭，2020腾讯广告算法大赛迎来最终决战！

用AI分析姓名识别男女，Genderify为啥被骂到服务下线？

颠覆性变革！青松智慧携手英特尔AI百佳创新激励计划引领网络安全AI时代

容器必将取代虚拟机，但还有一个问题没有解决

绝佳的「C 位」，必看的「AI 安防顶会」丨倒计时 7 天

AI「试验厨房」在路上：让机器为新材料的发掘按下快进键

中国企业包揽主办权，奖金池 12 万美金， KDD Cup 2020 开赛

复杂场景下的多目标定位——深度学习算法综述

复杂场景下的复杂缺陷检测方法——深度学习算法综述

从算法爬坡到 AI 基建，旷视“天元”开源背后的 AI 生产力破局

mathor 大佬聊赛事：处理「微博立场检测」赛事，数据比模型重要

春招专场 | 阿里大牛直播第 3 讲：有文娱特色的 CV 算法和应用场景（附内推岗位）

春招专场 | 阿里文娱大牛直播第 2 讲：我的算法工程师之路（附内推渠道）

复杂场景下的 OCR 如何实现——深度学习算法综述

阿里文娱算法大牛重磅来袭，春招专场直播倒计时 2 天（附内推渠道）

来一场特别的春招吧！线上公益宣讲来了，欢迎优秀企业报名

深度学习实践课｜旷视研究院 X 北大联合出品，正式上线，免费报名！

继小米后，Facebook F8大会也要走直播

AI+生活打造未来生活新基建