雷峰网 //www.xyschoolife.com //www.xyschoolife.com/resWeb/images/common/lp_logo.png 雷峰网 //www.xyschoolife.com 2015 www.xyschoolife.com All rights reserved. zh_cn Thu, 24 Mar 2022 00:49:43 +0800 验证码的发展史与未来预测 | 科普 //www.xyschoolife.com/category/zhuanlan/RQhlZsU66kVuaHJR.html Chrome浏览器的用户对于下面这个框框应该不陌生:

当你勾选方框,Google会根据风险分析引擎判定浏览网页的到底“是不是人”。这是一种简洁又相对有效的人机识别方式,作用是把一些机器爬虫筛掉。

“在网上,没有人知道你是一条狗。”这是互联网刚刚开始进入大众市场的一句经典宣言,现在大数据的加持下,这个结论可能被动摇了,但是对于网页和应用的所有者来说,他们很多时候都无法识别网络的另一端到底是机器还是人。

21岁天才少年的创举

最早遭遇这个问题的是雅虎。2000年,雅虎邮箱是当时的当红炸子鸡,弄潮儿人手一个,是信息收发的主流方式。一些黑产盯上了这个渠道,用机器注册了大量的马甲邮箱,用于发垃圾邮件、网络诈骗。一个时年21岁的、还在CMU上学的天才少年路易斯·冯·安给雅虎设计了一套人机验证方案,就是最初的字符验证码。

当时,图像识别对于计算机是个挑战,对人类而言却是小菜一碟,通过这种方式,验证码可以轻松地把黑产拦截在门外。验证码从此变成了一种身份认证标配,被广泛使用在各种网站上,发明者路易斯·冯·安在计算机行业声名鹊起。

随着OCR、计算机视觉技术的发展,计算机在图像识别上的能力升级,单纯基于字符的验证码被爆破了。为了给机器制造一点麻烦,安全人员采用了各种办法去“弄脏”字符,包括字体变形、扭曲、翻转等等。在这个过程中,路易斯·冯·安还做了一件创举,当时有很多古书籍、旧报刊需要电子化,而很多古籍由于印刷质量、保存状况等原因,很多内容是OCR无法识别的,路易斯·冯·安想,既然每天有很多人在电脑前识别一些电脑认不出来的字符,能不能在做人机验证的同时顺便把古籍电子化把这个工作“众包”给网友?于是,文章开头的reCaptcha也诞生了。

这是reCaptcha一个经典的交互界面,两个字符中其中一个是计算机能判别的,另一个是古籍上面扫描下来的无法识别的。用户在输入验证码的同时,顺便也参与了古籍电子化工作。

2009年,reCaptcha被Google收购,如文章开头展示的一样,Google现在很多人机认证的场景都是由reCaptcha在提供技术支持。

单纯从技术攻防角度,基于字符的验证方式早就被爆破了。无论是变形多厉害的字符,用图像分割技术切到一定的颗粒度,采用卷积神经网络算法也能很准确地识别出来。腾讯安全曾经协助警方破获过一个国内的“打码”团伙,他们用AI对验证码进行爆破,爆破率最高可以达到98%,剩余2% 以用众包的方式找人去解决。

我们网上看到的“想做兼职吗?动动手指就能赚钱”的短信,很多时候就是黑产团伙发的招募信息。一些三四线城市空闲时间很充裕的用户坐在电脑前手动输入一个个验证码,积攒到一定数量后,从中介手里拿到一定的报酬。据不完全统计,这个链条上有百万级别的从业者。

但黑产是一个典型的讲究成本收益的“生意”,好比我们随处可见的家用大门机械锁,其实就是有限的排列组合,只要是小偷精力无限,总有一天能试到一把钥匙能打开。在验证码黑灰产也是一样,AI计算需要高性能的计算机、人工识别需要酬劳,都需要付出成本,目前在无利可图的网站,字符验证码还是一种很流行的人机验证方式。

独树一帜的12306

“一辈子保持对生活和世界的新鲜感和好奇心,不断探究身边事物的本质,虚怀若谷,格物致知,再加上那么一点点运气,你就能通过12306的购票验证了。”

这是一个关于12306的段子,看到的人都会会心一笑。

在验证码领域,12306绝对是独树一帜的存在,它有着极高的安全系数,不仅有效地拦截住了机器人、各种自动化抢票助手,也把很多真人拦截在门外。

对大多数人来说,买火车票是低频场景,一年可能买不了几次;加之也没有第二个渠道可以买,12306会设置这样的验证码环节,可能也是吃准了这一点。但是对于绝大多数需要顾及用户体验的服务提供商来说,过分复杂的验证码会让用户流失,不可取。

目前应用比较广泛的几种人机验证方式,包括上文提过的字符验证、图像识别(例如“点击下图中倒立的文字”)、滑块验证(例如“拖动鼠标完成拼图”)等等。

滑块是用户体验比较友好、同时安全系数也相对较高的一种认证方式,因为它在图像验证的基础上往前走了一步,基于采集用户的行为数据、环境数据等等多维度来判断用户是人还是机器,例如人类拖动滑块一般是先快后慢:先是快速拖到缺口附近,再在缺口附近进行精准地校验,并停留片刻释放;机器的活动轨迹相对而言比较规则。

在网上搜索“滑块验证码”,有N个帖子是关于“如何用***破解滑块验证”的,很多已经被证明有60%以上的识别率,但是识别成本也会比较高。又回到一个老生常谈:没有攻不破的系统。安全人员要做的事情,就是把攻击门槛提高,让黑产觉得投入产出比不值得而放弃。

易用优先还是安全优先,这是安全人员吾日三省吾身的问题。像票务网站、炒鞋、电商网站,这些网站的用户账号体系很有价值,对黑灰产而言是“大户人家”,这些网站在设置验证码的时候,安全性是首要考虑的。

腾讯云防火墙,最近对远程登录的身份校验也进行了一次功能升级,采用了账号密码+微信双因子认证方式。常规情况下双因子认证一般需要一个物理令牌,能保障安全性但是使用体验欠佳,而借助微信辅助身份认证,提前对运维人员的微信号进行授权,就可以通过账号密码+微信认证远程登陆服务器,解决了一些移动办公场景下服务器运维的需求。

在可见的未来,验证码还是一种行之有效的人机识别方式,安全人员和黑产在在验证码上的对抗还会持续。但我们可以稍微宽慰的是,现在市面上大部分验证码在实操层面上都是比较难以攻克的,一是单个验证码生命周期很短暂,很快会失效;第二个是验证码需要很强的图片识别技术,而且有些图片只能在前端浏览器、客户端显示出来,对于根本就没有前端的服务器来说,用机器去跑脚本可能都看不到,也就无法解码。

除了黑产之外,对于各种密码、验证码来说,还有更大的对手,据腾讯安全云防火墙产品负责人周荃推测,就是量子计算。业界普遍承认的一个事情,量子计算被开发出来了之后,现有的密码体系和信任体系、网络信任体系会全部崩溃,可能最难的密码可能也只需要几分钟的时间就可以尝试出来。但安全研究人员也认为,后量子时代正常的密码也可以设置得非常复杂,所有的计算机也可以基于量子计算去设计一套密码,届时也会有相应的办法能够去保护安全。


]]>
专栏 //www.xyschoolife.com/category/zhuanlan/RQhlZsU66kVuaHJR.html#comments Sat, 03 Apr 2021 10:05:00 +0800
机器学习算法中分类知识总结! //www.xyschoolife.com/category/zhuanlan/j7s1ddyXcveytASc.html

转自丨 公众号Datawhale

作者丨张峰


本文将介绍机器学习算法中非常重要的知识—分类(classification),即找一个函数判断输入数据所属的类别,可以是二类别问题(是/不是),也可以是多类别问题(在多个类别中判断输入数据具体属于哪一个类别)。与回归问题(regression)相比,分类问题的输出不再是连续值,而是离散值,用来指定其属于哪个类别。分类问题在现实中应用非常广泛,比如垃圾邮件识别,手写数字识别,人脸识别,语音识别等。

一、指定阈值

逻辑回归返回的是概率。你可以“原样”使用返回的概率(例如,用户点击此广告的概率为 0.00023),也可以将返回的概率转换成二元值(例如,这封电子邮件是垃圾邮件)。

如果某个逻辑回归模型对某封电子邮件进行预测时返回的概率为 0.9995,则表示该模型预测这封邮件非常可能是垃圾邮件。相反,在同一个逻辑回归模型中预测分数为 0.0003 的另一封电子邮件很可能不是垃圾邮件。可如果某封电子邮件的预测分数为 0.6 呢?为了将逻辑回归值映射到二元类别,你必须指定分类阈值(也称为判定阈值)。如果值高于该阈值,则表示“垃圾邮件”;如果值低于该阈值,则表示“非垃圾邮件”。人们往往会认为分类阈值应始终为 0.5,但阈值取决于具体问题,因此你必须对其进行调整。

我们将在后面的部分中详细介绍可用于对分类模型的预测进行评估的指标,以及更改分类阈值对这些预测的影响。

⭐️ 注意:

“调整”逻辑回归的阈值不同于调整学习速率等超参数。在选择阈值时,需要评估你将因犯错而承担多大的后果。例如,将非垃圾邮件误标记为垃圾邮件会非常糟糕。不过,虽然将垃圾邮件误标记为非垃圾邮件会令人不快,但应该不会让你丢掉工作。


二、阳性与阴性以及正类别与负类别

在本部分,我们将定义用于评估分类模型指标的主要组成部分先。不妨,我们从一则寓言故事开始:

伊索寓言:狼来了(精简版) 有一位牧童要照看镇上的羊群,但是他开始厌烦这份工作。为了找点乐子,他大喊道:“狼来了!”其实根本一头狼也没有出现。村民们迅速跑来保护羊群,但他们发现这个牧童是在开玩笑后非常生气。(这样的情形重复出现了很多次。)
...
一天晚上,牧童看到真的有一头狼靠近羊群,他大声喊道:“狼来了!”村民们不想再被他捉弄,都待在家里不出来。这头饥饿的狼对羊群大开杀戒,美美饱餐了一顿。这下子,整个镇子都揭不开锅了。恐慌也随之而来。

我们做出以下定义:

“狼来了”是正类别。

“没有狼”是负类别。

我们可以使用一个 2x2的混淆矩阵来总结我们的“狼预测”模型,该矩阵描述了所有可能出现的结果(共四种):

真正例是指模型将正类别样本正确地预测为正类别。同样,真负例是指模型将负类别样本正确地预测为负类别。

假正例是指模型将负类别样本错误地预测为正类别,而假负例是指模型将正类别样本错误地预测为负类别。

在后面的部分中,我们将介绍如何使用从这四种结果中衍生出的指标来评估分类模型。


三、准确率

准确率是一个用于评估分类模型的指标。通俗来说,准确率是指我们的模型预测正确的结果所占的比例。正式点说,准确率的定义如下:

对于二元分类,也可以根据正类别和负类别按如下方式计算准确率:

其中,TP = 真正例,TN = 真负例,FP = 假正例,FN = 假负例。让我们来试着计算一下以下模型的准确率,该模型将 100 个肿瘤分为恶性 (正类别)或良性(负类别):

准确率为 0.91,即 91%(总共 100 个样本中有 91 个预测正确)。这表示我们的肿瘤分类器在识别恶性肿瘤方面表现得非常出色,对吧?

实际上,只要我们仔细分析一下正类别和负类别,就可以更好地了解我们模型的效果。

在 100 个肿瘤样本中,91 个为良性(90 个 TN 和 1 个 FP),9 个为恶性(1 个 TP 和 8 个 FN)。

在 91 个良性肿瘤中,该模型将 90 个正确识别为良性。这很好。不过,在 9 个恶性肿瘤中,该模型仅将 1 个正确识别为恶性。这是多么可怕的结果!9 个恶性肿瘤中有 8 个未被诊断出来!

虽然 91% 的准确率可能乍一看还不错,但如果另一个肿瘤分类器模型总是预测良性,那么这个模型使用我们的样本进行预测也会实现相同的准确率(100 个中有 91 个预测正确)。换言之,我们的模型与那些没有预测能力来区分恶性肿瘤和良性肿瘤的模型差不多。

当你使用分类不平衡的数据集(比如正类别标签和负类别标签的数量之间存在明显差异)时,单单准确率一项并不能反映全面情况。

在下一部分中,我们将介绍两个能够更好地评估分类不平衡问题的指标:精确率和召回率。

学习理解

在以下哪种情况下,高的准确率值表示机器学习模型表现出色?

一只造价昂贵的机器鸡每天要穿过一条交通繁忙的道路一千次。某个机器学习模型评估交通模式,预测这只鸡何时可以安全穿过街道,准确率为 99.99%。

一种致命但可治愈的疾病影响着 0.01% 的人群。某个机器学习模型使用其症状作为特征,预测这种疾病的准确率为 99.99%。

在 roulette 游戏中,一只球会落在旋转轮上,并且最终落入 38 个槽的其中一个内。某个机器学习模型可以使用视觉特征(球的旋转方式、球落下时旋转轮所在的位置、球在旋转轮上方的高度)预测球会落入哪个槽中,准确率为 4%。


四、精确率和召回率

4.1 精确率

精确率指标尝试回答以下问题:在被识别为正类别的样本中,确实为正类别的比例是多少?

精确率的定义如下:

⭐️ 注意:如果模型的预测结果中没有假正例,则模型的精确率为 1.0。

让我们来计算一下上一部分中用于分析肿瘤的机器学习模型的精确率:

该模型的精确率为 0.5,也就是说,该模型在预测恶性肿瘤方面的正确率是 50%。

4.2 召回率

召回率尝试回答以下问题:在所有正类别样本中,被正确识别为正类别的比例是多少?

从数学上讲,召回率的定义如下:

⭐️ 注意:如果模型的预测结果中没有假负例,则模型的召回率为 1.0。

让我们来计算一下肿瘤分类器的召回率:

该模型的召回率是 0.11,也就是说,该模型能够正确识别出所有恶性肿瘤的百分比是 11%。

4.3 精确率和召回率:一场拔河比赛

要全面评估模型的有效性,必须同时检查精确率和召回率。遗憾的是,精确率和召回率往往是此消彼长的情况。也就是说,提高精确率通常会降低召回率值,反之亦然。请观察下图来了解这一概念,该图显示了电子邮件分类模型做出的 30 项预测。分类阈值右侧的被归类为“垃圾邮件”,左侧的则被归类为“非垃圾邮件”。

图 1. 将电子邮件归类为垃圾邮件或非垃圾邮件

我们根据图 1 所示的结果来计算精确率和召回率值:

精确率指的是被标记为垃圾邮件的电子邮件中正确分类的电子邮件所占的百分比,即图 1 中阈值线右侧的绿点所占的百分比:

召回率指的是实际垃圾邮件中正确分类的电子邮件所占的百分比,即图 1 中阈值线右侧的绿点所占的百分比:

图 2 显示了提高分类阈值产生的效果。

图2. 提高分类阈值

假正例数量会减少,但假负例数量会相应地增加。结果,精确率有所提高,而召回率则有所降低:



相反,图 3 显示了降低分类阈值(从图 1 中的初始位置开始)产生的效果。

图 3.降低分类阈值

假正例数量会增加,而假负例数量会减少。结果这一次,精确率有所降低,而召回率则有所提高:

我们已根据精确率和召回率指标制定了各种指标。有关示例,请参阅 F1 值。

学习理解

让我们以一种将电子邮件分为“垃圾邮件”或“非垃圾邮件”这两种类别的分类模型为例。如果提高分类阈值,精确率会怎样?

可能会提高。

一定会提高。

一定会降低。

可能会降低。

让我们以一种将电子邮件分为“垃圾邮件”或“非垃圾邮件”这两种类别的分类模型为例。如果提高分类阈值,召回率会怎样?

始终下降或保持不变。

始终保持不变。

一定会提高。

以两个模型(A 和 B)为例,这两个模型分别对同一数据集进行评估。以下哪一项陈述属实?

如果模型 A 的精确率优于模型 B,则模型 A 更好。

如果模型 A 的精确率和召回率均优于模型 B,则模型 A 可能更好。

如果模型 A 的召回率优于模型 B,则模型 A 更好。


五、ROC 和 AUC

5.1 ROC 曲线

ROC 曲线(接收者操作特征曲线)是一种显示分类模型在所有分类阈值下的效果图表。该曲线绘制了以下两个参数:

真正例率

假正例率

真正例率 (TPR) 是召回率的同义词,因此定义如下:

假正例率 (FPR) 的定义如下:

ROC 曲线用于绘制采用不同分类阈值时的 TPR 与 FPR。降低分类阈值会导致将更多样本归为正类别,从而增加假正例和真正例的个数。下图显示了一个典型的 ROC 曲线。

图 4. 不同分类阈值下的 TP 率与 FP 率

为了计算 ROC 曲线上的点,我们可以使用不同的分类阈值多次评估逻辑回归模型,但这样做效率非常低。幸运的是,有一种基于排序的高效算法可以为我们提供此类信息,这种算法称为曲线下面积。

5.2 曲线下面积:ROC 曲线下面积

曲线下面积表示“ROC 曲线下面积”。也就是说,曲线下面积测量的是从 (0,0) 到 (1,1) 之间整个 ROC 曲线以下的整个二维面积(参考积分学)。

图 5. 曲线下面积(ROC 曲线下面积)

曲线下面积对所有可能的分类阈值的效果进行综合衡量。曲线下面积的一种解读方式是看作模型将某个随机正类别样本排列在某个随机负类别样本之上的概率。以下面的样本为例,逻辑回归预测从左到右以升序排列:


图 6. 预测按逻辑回归分数以升序排列

曲线下面积表示随机正类别(绿色)样本位于随机负类别(红色)样本右侧的概率。

曲线下面积的取值范围为 0-1。预测结果 100% 错误的模型的曲线下面积为 0.0;而预测结果 100% 正确的模型的曲线下面积为 1.0。

曲线下面积因以下两个原因而比较实用:

曲线下面积的尺度不变。它测量预测的排名情况,而不是测量其绝对值。

曲线下面积的分类阈值不变。它测量模型预测的质量,而不考虑所选的分类阈值。

不过,这两个原因都有各自的局限性,这可能会导致曲线下面积在某些用例中不太实用:

并非总是希望尺度不变。例如,有时我们非常需要被良好校准的概率输出,而曲线下面积无法告诉我们这一结果。

并非总是希望分类阈值不变。在假负例与假正例的代价存在较大差异的情况下,尽量减少一种类型的分类错误可能至关重要。例如,在进行垃圾邮件检测时,你可能希望优先考虑尽量减少假正例(即使这会导致假负例大幅增加)。对于此类优化,曲线下面积并非一个实用的指标。

学习理解

以下哪条 ROC 曲线可产生大于 0.5 的 AUC 值?

将给定模型的所有预测结果都乘以 2.0(例如,如果模型预测的结果为 0.4,我们将其乘以 2.0 得到 0.8),会使按 AUC 衡量的模型效果产生何种变化?

这会使 AUC 变得更好,因为预测值之间相差都很大。没有变化。AUC 只关注相对预测分数。这会使 AUC 变得很糟糕,因为预测值现在相差太大。


六、预测偏差

逻辑回归预测应当无偏差。即:


预测偏差指的是这两个平均值之间的差值。即:

预测偏差=预测平均值−数据集中相应标签的平均值

⭐️ 注意:“预测偏差”与偏差(“wx + b”中的“b”)不是一回事。

如果出现非常高的非零预测偏差,则说明模型某处存在错误,因为这表明模型对正类别标签的出现频率预测有误。

例如,假设我们知道,所有电子邮件中平均有 1% 的邮件是垃圾邮件。如果我们对某一封给定电子邮件一无所知,则预测它是垃圾邮件的可能性为 1%。同样,一个出色的垃圾邮件模型应该预测到电子邮件平均有 1% 的可能性是垃圾邮件。(换言之,如果我们计算单个电子邮件是垃圾邮件的预测可能性的平均值,则结果应该是 1%。)然而,如果该模型预测电子邮件是垃圾邮件的平均可能性为 20%,那么我们可以得出结论,该模型出现了预测偏差。

造成预测偏差的可能原因包括:

特征集不完整

数据集混乱

模型实现流水线中有错误

训练样本有偏差

正则化过强

你可能会通过对学习模型进行后期处理来纠正预测偏差,即通过添加校准层来调整模型的输出,从而减小预测偏差。例如,如果你的模型存在 3% 以上的偏差,则可以添加一个校准层,将平均预测偏差降低 3%。但是,添加校准层并非良策,具体原因如下:

你修复的是症状,而不是原因。

你建立了一个更脆弱的系统,并且必须持续更新。

使用校准层来修复模型的所有错误。

如果可能的话,请避免添加校准层。使用校准层的项目往往会对其产生依赖

最终,维护校准层可能会令人苦不堪言。

⭐️ 注意:出色模型的偏差通常接近于零。即便如此,预测偏差低并不能证明你的模型比较出色。特别糟糕的模型的预测偏差也有可能为零。例如,只能预测所有样本平均值的模型是糟糕的模型,尽管其预测偏差为零。


七、分桶偏差和预测偏差

逻辑回归可预测 0 到 1 之间的值。不过,所有带标签样本都正好是 0(例如,0 表示“非垃圾邮件”)或 1(例如,1 表示“垃圾邮件”)。因此,在检查预测偏差时,你无法仅根据一个样本准确地确定预测偏差;你必须在“一大桶”样本中检查预测偏差。也就是说,只有将足够的样本组合在一起以便能够比较预测值(例如 0.392)与观察值(例如 0.394),逻辑回归的预测偏差才有意义。

你可以通过以下方式构建桶:

以线性方式分解目标预测。

构建分位数。

请查看以下某个特定模型的校准曲线。每个点表示包含 1000 个值的分桶。两个轴具有以下含义:

x 轴表示模型针对该桶预测的平均值。

y 轴表示该桶的数据集中的实际平均值。

两个轴均采用对数尺度。

图 7. 预测偏差曲线

为什么只有模型的某些部分所做的预测如此糟糕?以下是几种可能性:

训练集不能充分表示数据空间的某些子集。

数据集的某些子集比其他子集更混乱。

该模型过于正则化。(不妨减小 lamdba的值。)

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/j7s1ddyXcveytASc.html#comments Tue, 09 Mar 2021 17:46:00 +0800
神经网络浅讲:从神经元到深度学习 //www.xyschoolife.com/category/zhuanlan/qEskICz0FjJr36tU.html

转自丨博客园

作者丨计算机的潜意识


神经网络是一门重要的机器学习技术。它是目前最为火热的研究方向——深度学习的基础。学习神经网络不仅可以让你掌握一门强大的机器学习方法,同时也可以更好地帮助你理解深度学习技术。

本文以一种简单的,循序的方式讲解神经网络。适合对神经网络了解不多的同学。本文对阅读没有一定的前提要求,但是懂一些机器学习基础会更好地帮助理解本文。

神经网络是一种模拟人脑的神经网络以期能够实现类人工智能的机器学习技术。人脑中的神经网络是一个非常复杂的组织。成人的大脑中估计有1000亿个神经元之多。

图1 人脑神经网络

那么机器学习中的神经网络是如何实现这种模拟的,并且达到一个惊人的良好效果的?通过本文,你可以了解到这些问题的答案,同时还能知道神经网络的历史,以及如何较好地学习它。

由于本文较长,为方便读者,以下是本文的目录:

一.前言

二.神经元

三.单层神经网络(感知器)

四.两层神经网络(多层感知器)

五.多层神经网络(深度学习)

六.历史回顾

七.学习建议

八.展望

九.总结

十.后记

 

一. 前言

让我们来看一个经典的神经网络。这是一个包含三个层次的神经网络。红色的是输入层,绿色的是输出层,紫色的是中间层(也叫隐藏层)。输入层有3个输入单元,隐藏层有4个单元,输出层有2个单元。后文中,我们统一使用这种颜色来表达神经网络的结构。

图2 神经网络结构图 

在开始介绍前,有一些知识可以先记在心里:

设计一个神经网络时,输入层与输出层的节点数往往是固定的,中间层则可以自由指定;

神经网络结构图中的拓扑与箭头代表着预测过程时数据的流向,跟训练时的数据流有一定的区别;

结构图里的关键不是圆圈(代表“神经元”),而是连接线(代表“神经元”之间的连接)。每个连接线对应一个不同的权重(其值称为权值),这是需要训练得到的。  

除了从左到右的形式表达的结构图,还有一种常见的表达形式是从下到上来表示一个神经网络。这时候,输入层在图的最下方。输出层则在图的最上方,如下图:

图3 从下到上的神经网络结构图

从左到右的表达形式以Andrew Ng和LeCun的文献使用较多,Caffe里使用的则是从下到上的表达。在本文中使用Andrew Ng代表的从左到右的表达形式。

下面从简单的神经元开始说起,一步一步介绍神经网络复杂结构的形成。


二. 神经元

1.引子

对于神经元的研究由来已久,1904年生物学家就已经知晓了神经元的组成结构。

一个神经元通常具有多个树突,主要用来接受传入信息;而轴突只有一条,轴突尾端有许多轴突末梢可以给其他多个神经元传递信息。轴突末梢跟其他神经元的树突产生连接,从而传递信号。这个连接的位置在生物学上叫做“突触”。

人脑中的神经元形状可以用下图做简单的说明:

图4 神经元

1943年,心理学家McCulloch和数学家Pitts参考了生物神经元的结构,发表了抽象的神经元模型MP。在下文中,我们会具体介绍神经元模型。

图5 Warren McCulloch(左)和 Walter Pitts(右)

2.结构

神经元模型是一个包含输入,输出与计算功能的模型。输入可以类比为神经元的树突,而输出可以类比为神经元的轴突,计算则可以类比为细胞核。

下图是一个典型的神经元模型:包含有3个输入,1个输出,以及2个计算功能。

注意中间的箭头线。这些线称为“连接”。每个上有一个“权值”。

图6 神经元模型

连接是神经元中最重要的东西。每一个连接上都有一个权重。

一个神经网络的训练算法就是让权重的值调整到最佳,以使得整个网络的预测效果最好。

我们使用a来表示输入,用w来表示权值。一个表示连接的有向箭头可以这样理解:在初端,传递的信号大小仍然是a,端中间有加权参数w,经过这个加权后的信号会变成a*w,因此在连接的末端,信号的大小就变成了a*w。

在其他绘图模型里,有向箭头可能表示的是值的不变传递。而在神经元模型里,每个有向箭头表示的是值的加权传递。

图7 连接(connection)

如果我们将神经元图中的所有变量用符号表示,并且写出输出的计算公式的话,就是下图。

图8 神经元计算

可见z是在输入和权值的线性加权和叠加了一个函数g的值。在MP模型里,函数g是sgn函数,也就是取符号函数。这个函数当输入大于0时,输出1,否则输出0。

下面对神经元模型的图进行一些扩展。首先将sum函数与sgn函数合并到一个圆圈里,代表神经元的内部计算。其次,把输入a与输出z写到连接线的左上方,便于后面画复杂的网络。最后说明,一个神经元可以引出多个代表输出的有向箭头,但值都是一样的。

神经元可以看作一个计算与存储单元。计算是神经元对其的输入进行计算功能。存储是神经元会暂存计算结果,并传递到下一层。

图9 神经元扩展 

当我们用“神经元”组成网络以后,描述网络中的某个“神经元”时,我们更多地会用“单元”(unit)来指代。同时由于神经网络的表现形式是一个有向图,有时也会用“节点”(node)来表达同样的意思。

3.效果

神经元模型的使用可以这样理解:

我们有一个数据,称之为样本。样本有四个属性,其中三个属性已知,一个属性未知。我们需要做的就是通过三个已知属性预测未知属性。

具体办法就是使用神经元的公式进行计算。三个已知属性的值是a1,a2,a3,未知属性的值是z。z可以通过公式计算出来。

这里,已知的属性称之为特征,未知的属性称之为目标。假设特征与目标之间确实是线性关系,并且我们已经得到表示这个关系的权值w1,w2,w3。那么,我们就可以通过神经元模型预测新样本的目标。 

4.影响

1943年发布的MP模型,虽然简单,但已经建立了神经网络大厦的地基。但是,MP模型中,权重的值都是预先设置的,因此不能学习。

1949年心理学家Hebb提出了Hebb学习率,认为人脑神经细胞的突触(也就是连接)上的强度上可以变化的。于是计算科学家们开始考虑用调整权值的方法来让机器学习。这为后面的学习算法奠定了基础。

图10 Donald Olding Hebb 

尽管神经元模型与Hebb学习律都已诞生,但限于当时的计算机能力,直到接近10年后,第一个真正意义的神经网络才诞生。


三. 单层神经网络(感知器)

1.引子

1958年,计算科学家Rosenblatt提出了由两层神经元组成的神经网络。他给它起了一个名字--“感知器”(Perceptron)(有的文献翻译成“感知机”,下文统一用“感知器”来指代)。

感知器是当时首个可以学习的人工神经网络。Rosenblatt现场演示了其学习识别简单图像的过程,在当时的社会引起了轰动。

人们认为已经发现了智能的奥秘,许多学者和科研机构纷纷投入到神经网络的研究中。美国军方大力资助了神经网络的研究,并认为神经网络比“原子弹工程”更重要。这段时间直到1969年才结束,这个时期可以看作神经网络的第一次高潮。

图11 Rosenblat与感知器

2.结构

下面来说明感知器模型。

在原来MP模型的“输入”位置添加神经元节点,标志其为“输入单元”。其余不变,于是我们就有了下图:从本图开始,我们将权值w1, w2, w3写到“连接线”的中间。

图12 单层神经网络

在“感知器”中,有两个层次。分别是输入层和输出层。输入层里的“输入单元”只负责传输数据,不做计算。输出层里的“输出单元”则需要对前面一层的输入进行计算。

我们把需要计算的层次称之为“计算层”,并把拥有一个计算层的网络称之为“单层神经网络”。有一些文献会按照网络拥有的层数来命名,例如把“感知器”称为两层神经网络。但在本文里,我们根据计算层的数量来命名。

假如我们要预测的目标不再是一个值,而是一个向量,例如[2,3]。那么可以在输出层再增加一个“输出单元”。

下图显示了带有两个输出单元的单层神经网络,其中输出单元z1的计算公式如下图。

图13 单层神经网络(Z1)

可以看到,z1的计算跟原先的z并没有区别。

我们已知一个神经元的输出可以向多个神经元传递,因此z2的计算公式如下图。

图14 单层神经网络(Z2) 

可以看到,z2的计算中除了三个新的权值:w4,w5,w6以外,其他与z1是一样的。

整个网络的输出如下图。

图15 单层神经网络(Z1和Z2)

目前的表达公式有一点不让人满意的就是:w4,w5,w6是后来加的,很难表现出跟原先的w1,w2,w3的关系。

因此我们改用二维的下标,用wx,y来表达一个权值。下标中的x代表后一层神经元的序号,而y代表前一层神经元的序号(序号的顺序从上到下)。

例如,w1,2代表后一层的第1个神经元与前一层的第2个神经元的连接的权值(这种标记方式参照了Andrew Ng的课件)。根据以上方法标记,我们有了下图。

图16 单层神经网络(扩展)

如果我们仔细看输出的计算公式,会发现这两个公式就是线性代数方程组。因此可以用矩阵乘法来表达这两个公式。

例如,输入的变量是[a1,a2,a3]T(代表由a1,a2,a3组成的列向量),用向量a来表示。方程的左边是[z1,z2]T,用向量z来表示。

系数则是矩阵W(2行3列的矩阵,排列形式与公式中的一样)。

于是,输出公式可以改写成:g(W * a) = z; 

这个公式就是神经网络中从前一层计算后一层的矩阵运算。

3.效果

与神经元模型不同,感知器中的权值是通过训练得到的。因此,根据以前的知识我们知道,感知器类似一个逻辑回归模型,可以做线性分类任务。

我们可以用决策分界来形象的表达分类的效果。决策分界就是在二维的数据平面中划出一条直线,当数据的维度是3维的时候,就是划出一个平面,当数据的维度是n维时,就是划出一个n-1维的超平面。

下图显示了在二维平面中划出决策分界的效果,也就是感知器的分类效果。

图17 单层神经网络(决策分界)

4.影响

感知器只能做简单的线性分类任务。但是当时的人们热情太过于高涨,并没有人清醒的认识到这点。于是,当人工智能领域的巨擘Minsky指出这点时,事态就发生了变化。

Minsky在1969年出版了一本叫《Perceptron》的书,里面用详细的数学证明了感知器的弱点,尤其是感知器对XOR(异或)这样的简单分类任务都无法解决。

Minsky认为,如果将计算层增加到两层,计算量则过大,而且没有有效的学习算法。所以,他认为研究更深层的网络是没有价值的。

图18 Marvin Minsky

由于Minsky的巨大影响力以及书中呈现的悲观态度,让很多学者和实验室纷纷放弃了神经网络的研究。神经网络的研究陷入了冰河期。这个时期又被称为“AI winter”。

接近10年以后,对于两层神经网络的研究才带来神经网络的复苏。


四、两层神经网络(多层感知器)

  1. 引子

两层神经网络是本文的重点,因为正是在这时候,神经网络开始了大范围的推广与使用

Minsky说过单层神经网络无法解决异或问题。但是当增加一个计算层以后,两层神经网络不仅可以解决异或问题,而且具有非常好的非线性分类效果。不过两层神经网络的计算是一个问题,没有一个较好的解法。

1986年,Rumelhar和Hinton等人提出了反向传播(Backpropagation,BP)算法,解决了两层神经网络所需要的复杂计算量问题,从而带动了业界使用两层神经网络研究的热潮。目前,大量的教授神经网络的教材,都是重点介绍两层(带一个隐藏层)神经网络的内容。

这时候的Hinton还很年轻,30年以后,正是他重新定义了神经网络,带来了神经网络复苏的又一春。

图19 David Rumelhart(左)以及 Geoffery Hinton(右)

2.结构

两层神经网络除了包含一个输入层,一个输出层以外,还增加了一个中间层。此时,中间层和输出层都是计算层。我们扩展上节的单层神经网络,在右边新加一个层次(只含有一个节点)。

现在,我们的权值矩阵增加到了两个,我们用上标来区分不同层次之间的变量。

例如ax(y)代表第y层的第x个节点。z1,z2变成了a1(2),a2(2)。下图给出了a1(2),a2(2)的计算公式。

图20 两层神经网络(中间层计算)

计算最终输出z的方式是利用了中间层的a1(2),a2(2)和第二个权值矩阵计算得到的,如下图。

图21 两层神经网络(输出层计算)

假设我们的预测目标是一个向量,那么与前面类似,只需要在“输出层”再增加节点即可。

我们使用向量和矩阵来表示层次中的变量。a(1),a(2),z是网络中传输的向量数据。W(1)和W(2)是网络的矩阵参数。如下图。

图22 两层神经网络(向量形式) 

使用矩阵运算来表达整个计算公式的话如下:  g(W(1) * a(1)) = a(2); g(W(2) * a(2)) = z; 

由此可见,使用矩阵运算来表达是很简洁的,而且也不会受到节点数增多的影响(无论有多少节点参与运算,乘法两端都只有一个变量)。因此神经网络的教程中大量使用矩阵运算来描述。

需要说明的是,至今为止,我们对神经网络的结构图的讨论中都没有提到偏置节点(bias unit)。事实上,这些节点是默认存在的。它本质上是一个只含有存储功能,且存储值永远为1的单元。在神经网络的每个层次中,除了输出层以外,都会含有这样一个偏置单元。正如线性回归模型与逻辑回归模型中的一样。

偏置单元与后一层的所有节点都有连接,我们设这些参数值为向量b,称之为偏置。如下图。

图23 两层神经网络(考虑偏置节点)

可以看出,偏置节点很好认,因为其没有输入(前一层中没有箭头指向它)。有些神经网络的结构图中会把偏置节点明显画出来,有些不会。一般情况下,我们都不会明确画出偏置节点。

在考虑了偏置以后的一个神经网络的矩阵运算如下:  g(W(1) * a(1) + b(1)) = a(2); g(W(2) * a(2) + b(2)) = z; 

需要说明的是,在两层神经网络中,我们不再使用sgn函数作为函数g,而是使用平滑函数sigmoid作为函数g。我们把函数g也称作激活函数(active function)。

事实上,神经网络的本质就是通过参数与激活函数来拟合特征与目标之间的真实函数关系。初学者可能认为画神经网络的结构图是为了在程序中实现这些圆圈与线,但在一个神经网络的程序中,既没有“线”这个对象,也没有“单元”这个对象。实现一个神经网络最需要的是线性代数库。

3.效果

与单层神经网络不同。理论证明,两层神经网络可以无限逼近任意连续函数。

这是什么意思呢?也就是说,面对复杂的非线性分类任务,两层(带一个隐藏层)神经网络可以分类的很好。

下面就是一个例子(此两图来自colah的博客),红色的线与蓝色的线代表数据。而红色区域和蓝色区域代表由神经网络划开的区域,两者的分界线就是决策分界。

图24 两层神经网络(决策分界)

可以看到,这个两层神经网络的决策分界是非常平滑的曲线,而且分类的很好。有趣的是,前面已经学到过,单层网络只能做线性分类任务。而两层神经网络中的后一层也是线性分类层,应该只能做线性分类任务。为什么两个线性分类任务结合就可以做非线性分类任务?

我们可以把输出层的决策分界单独拿出来看一下。就是下图。

图25 两层神经网络(空间变换)

可以看到,输出层的决策分界仍然是直线。关键就是,从输入层到隐藏层时,数据发生了空间变换。也就是说,两层神经网络中,隐藏层对原始的数据进行了一个空间变换,使其可以被线性分类,然后输出层的决策分界划出了一个线性分类分界线,对其进行分类。

这样就导出了两层神经网络可以做非线性分类的关键--隐藏层。联想到我们一开始推导出的矩阵公式,我们知道,矩阵和向量相乘,本质上就是对向量的坐标空间进行一个变换。因此,隐藏层的参数矩阵的作用就是使得数据的原始坐标空间从线性不可分,转换成了线性可分。

两层神经网络通过两层的线性模型模拟了数据内真实的非线性函数。因此,多层的神经网络的本质就是复杂函数拟合。

下面来讨论一下隐藏层的节点数设计。在设计一个神经网络时,输入层的节点数需要与特征的维度匹配,输出层的节点数要与目标的维度匹配。而中间层的节点数,却是由设计者指定的。因此,“自由”把握在设计者的手中。但是,节点数设置的多少,却会影响到整个模型的效果。如何决定这个自由层的节点数呢?目前业界没有完善的理论来指导这个决策。一般是根据经验来设置。较好的方法就是预先设定几个可选值,通过切换这几个值来看整个模型的预测效果,选择效果最好的值作为最终选择。这种方法又叫做Grid Search(网格搜索)。

了解了两层神经网络的结构以后,我们就可以看懂其它类似的结构图。例如EasyPR字符识别网络架构(下图)。

图26 EasyPR字符识别网络 

EasyPR使用了字符的图像去进行字符文字的识别。输入是120维的向量。输出是要预测的文字类别,共有65类。根据实验,我们测试了一些隐藏层数目,发现当值为40时,整个网络在测试集上的效果较好,因此选择网络的最终结构就是120,40,65。

4.训练

下面简单介绍一下两层神经网络的训练。

在Rosenblat提出的感知器模型中,模型中的参数可以被训练,但是使用的方法较为简单,并没有使用目前机器学习中通用的方法,这导致其扩展性与适用性非常有限。从两层神经网络开始,神经网络的研究人员开始使用机器学习相关的技术进行神经网络的训练。例如用大量的数据(1000-10000左右),使用算法进行优化等等,从而使得模型训练可以获得性能与数据利用上的双重优势。

机器学习模型训练的目的,就是使得参数尽可能的与真实的模型逼近。具体做法是这样的。首先给所有参数赋上随机值。我们使用这些随机生成的参数值,来预测训练数据中的样本。样本的预测目标为yp,真实目标为y。那么,定义一个值loss,计算公式如下。

loss = (yp - y)2

这个值称之为损失(loss),我们的目标就是使对所有训练数据的损失和尽可能的小。

如果将先前的神经网络预测的矩阵公式带入到yp中(因为有z=yp),那么我们可以把损失写为关于参数(parameter)的函数,这个函数称之为损失函数(loss function)。下面的问题就是求:如何优化参数,能够让损失函数的值最小。

此时这个问题就被转化为一个优化问题。一个常用方法就是高等数学中的求导,但是这里的问题由于参数不止一个,求导后计算导数等于0的运算量很大,所以一般来说解决这个优化问题使用的是梯度下降算法。梯度下降算法每次计算参数在当前的梯度,然后让参数向着梯度的反方向前进一段距离,不断重复,直到梯度接近零时截止。一般这个时候,所有的参数恰好达到使损失函数达到一个最低值的状态。

在神经网络模型中,由于结构复杂,每次计算梯度的代价很大。因此还需要使用反向传播算法。反向传播算法是利用了神经网络的结构进行的计算。不一次计算所有参数的梯度,而是从后往前。首先计算输出层的梯度,然后是第二个参数矩阵的梯度,接着是中间层的梯度,再然后是第一个参数矩阵的梯度,最后是输入层的梯度。计算结束以后,所要的两个参数矩阵的梯度就都有了。

反向传播算法可以直观的理解为下图。梯度的计算从后往前,一层层反向传播。前缀E代表着相对导数的意思。

图27 反向传播算法

反向传播算法的启示是数学中的链式法则。在此需要说明的是,尽管早期神经网络的研究人员努力从生物学中得到启发,但从BP算法开始,研究者们更多地从数学上寻求问题的最优解。不再盲目模拟人脑网络是神经网络研究走向成熟的标志。正如科学家们可以从鸟类的飞行中得到启发,但没有必要一定要完全模拟鸟类的飞行方式,也能制造可以飞天的飞机。

优化问题只是训练中的一个部分。机器学习问题之所以称为学习问题,而不是优化问题,就是因为它不仅要求数据在训练集上求得一个较小的误差,在测试集上也要表现好。因为模型最终是要部署到没有见过训练数据的真实场景。提升模型在测试集上的预测效果的主题叫做泛化(generalization),相关方法被称作正则化(regularization)。神经网络中常用的泛化技术有权重衰减等。

5.影响

两层神经网络在多个地方的应用说明了其效用与价值。10年前困扰神经网络界的异或问题被轻松解决。神经网络在这个时候,已经可以发力于语音识别,图像识别,自动驾驶等多个领域。

历史总是惊人的相似,神经网络的学者们再次登上了《纽约时报》的专访。人们认为神经网络可以解决许多问题。就连娱乐界都开始受到了影响,当年的《终结者》电影中的阿诺都赶时髦地说一句:我的CPU是一个神经网络处理器,一个会学习的计算机。

但是神经网络仍然存在若干的问题:尽管使用了BP算法,一次神经网络的训练仍然耗时太久,而且困扰训练优化的一个问题就是局部最优解问题,这使得神经网络的优化较为困难。同时,隐藏层的节点数需要调参,这使得使用不太方便,工程和研究人员对此多有抱怨。

90年代中期,由Vapnik等人发明的SVM(Support Vector Machines,支持向量机)算法诞生,很快就在若干个方面体现出了对比神经网络的优势:无需调参;高效;全局最优解。基于以上种种理由,SVM迅速打败了神经网络算法成为主流。

图28 Vladimir Vapnik

神经网络的研究再次陷入了冰河期。当时,只要你的论文中包含神经网络相关的字眼,非常容易被会议和期刊拒收,研究界那时对神经网络的不待见可想而知。


五、多层神经网络(深度学习)

  1. 引子    

在被人摒弃的10年中,有几个学者仍然在坚持研究。这其中的棋手就是加拿大多伦多大学的Geoffery Hinton教授。

2006年,Hinton在《Science》和相关期刊上发表了论文,首次提出了“深度信念网络”的概念。与传统的训练方式不同,“深度信念网络”有一个“预训练”(pre-training)的过程,这可以方便的让神经网络中的权值找到一个接近最优解的值,之后再使用“微调”(fine-tuning)技术来对整个网络进行优化训练。这两个技术的运用大幅度减少了训练多层神经网络的时间。他给多层神经网络相关的学习方法赋予了一个新名词--“深度学习”。

很快,深度学习在语音识别领域暂露头角。接着,2012年,深度学习技术又在图像识别领域大展拳脚。Hinton与他的学生在ImageNet竞赛中,用多层的卷积神经网络成功地对包含一千类别的一百万张图片进行了训练,取得了分类错误率15%的好成绩,这个成绩比第二名高了近11个百分点,充分证明了多层神经网络识别效果的优越性。

在这之后,关于深度神经网络的研究与应用不断涌现。

图29 Geoffery Hinton

由于篇幅原因,本文不介绍CNN(Conventional Neural Network,卷积神经网络)与RNN(Recurrent Neural Network,递归神经网络)的架构,下面我们只讨论普通的多层神经网络。

2.结构

我们延续两层神经网络的方式来设计一个多层神经网络。

在两层神经网络的输出层后面,继续添加层次。原来的输出层变成中间层,新加的层次成为新的输出层。所以可以得到下图。

图30 多层神经网络 

依照这样的方式不断添加,我们可以得到更多层的多层神经网络。公式推导的话其实跟两层神经网络类似,使用矩阵运算的话就仅仅是加一个公式而已。

在已知输入a(1),参数W(1),W(2),W(3)的情况下,输出z的推导公式如下:

g(W(1) * a(1)) = a(2);    

g(W(2) * a(2)) = a(3);

g(W(3) * a(3)) = z; 

多层神经网络中,输出也是按照一层一层的方式来计算。从最外面的层开始,算出所有单元的值以后,再继续计算更深一层。只有当前层所有单元的值都计算完毕以后,才会算下一层。有点像计算向前不断推进的感觉。所以这个过程叫做“正向传播”。

下面讨论一下多层神经网络中的参数。

首先我们看第一张图,可以看出W(1)中有6个参数,W(2)中有4个参数,W(3)中有6个参数,所以整个神经网络中的参数有16个(这里我们不考虑偏置节点,下同)。

图31 多层神经网络(较少参数)

假设我们将中间层的节点数做一下调整。第一个中间层改为3个单元,第二个中间层改为4个单元。

经过调整以后,整个网络的参数变成了33个。

图32 多层神经网络(较多参数)

虽然层数保持不变,但是第二个神经网络的参数数量却是第一个神经网络的接近两倍之多,从而带来了更好的表示(represention)能力。表示能力是多层神经网络的一个重要性质,下面会做介绍。

在参数一致的情况下,我们也可以获得一个“更深”的网络。

图33 多层神经网络(更深的层次)

上图的网络中,虽然参数数量仍然是33,但却有4个中间层,是原来层数的接近两倍。这意味着一样的参数数量,可以用更深的层次去表达。

3.效果

与两层层神经网络不同。多层神经网络中的层数增加了很多。

增加更多的层次有什么好处?更深入的表示特征,以及更强的函数模拟能力。

更深入的表示特征可以这样理解,随着网络的层数增加,每一层对于前一层次的抽象表示更深入。在神经网络中,每一层神经元学习到的是前一层神经元值的更抽象的表示。例如第一个隐藏层学习到的是“边缘”的特征,第二个隐藏层学习到的是由“边缘”组成的“形状”的特征,第三个隐藏层学习到的是由“形状”组成的“图案”的特征,最后的隐藏层学习到的是由“图案”组成的“目标”的特征。通过抽取更抽象的特征来对事物进行区分,从而获得更好的区分与分类能力。

关于逐层特征学习的例子,可以参考下图。

图34 多层神经网络(特征学习)

更强的函数模拟能力是由于随着层数的增加,整个网络的参数就越多。而神经网络其实本质就是模拟特征与目标之间的真实关系函数的方法,更多的参数意味着其模拟的函数可以更加的复杂,可以有更多的容量(capcity)去拟合真正的关系。

通过研究发现,在参数数量一样的情况下,更深的网络往往具有比浅层的网络更好的识别效率。这点也在ImageNet的多次大赛中得到了证实。从2012年起,每年获得ImageNet冠军的深度神经网络的层数逐年增加,2015年最好的方法GoogleNet是一个多达22层的神经网络。

在最新一届的ImageNet大赛上,目前拿到最好成绩的MSRA团队的方法使用的更是一个深达152层的网络!关于这个方法更多的信息有兴趣的可以查阅ImageNet网站。

4.训练

在单层神经网络时,我们使用的激活函数是sgn函数。到了两层神经网络时,我们使用的最多的是sigmoid函数。而到了多层神经网络时,通过一系列的研究发现,ReLU函数在训练多层神经网络时,更容易收敛,并且预测性能更好。因此,目前在深度学习中,最流行的非线性函数是ReLU函数。ReLU函数不是传统的非线性函数,而是分段线性函数。其表达式非常简单,就是y=max(x,0)。简而言之,在x大于0,输出就是输入,而在x小于0时,输出就保持为0。这种函数的设计启发来自于生物神经元对于激励的线性响应,以及当低于某个阈值后就不再响应的模拟。

在多层神经网络中,训练的主题仍然是优化和泛化。当使用足够强的计算芯片(例如GPU图形加速卡)时,梯度下降算法以及反向传播算法在多层神经网络中的训练中仍然工作的很好。目前学术界主要的研究既在于开发新的算法,也在于对这两个算法进行不断的优化,例如,增加了一种带动量因子(momentum)的梯度下降算法。

在深度学习中,泛化技术变的比以往更加的重要。这主要是因为神经网络的层数增加了,参数也增加了,表示能力大幅度增强,很容易出现过拟合现象。因此正则化技术就显得十分重要。目前,Dropout技术,以及数据扩容(Data-Augmentation)技术是目前使用的最多的正则化技术。

5.影响

目前,深度神经网络在人工智能界占据统治地位。但凡有关人工智能的产业报道,必然离不开深度学习。神经网络界当下的四位引领者除了前文所说的Ng,Hinton以外,还有CNN的发明人Yann Lecun,以及《Deep Learning》的作者Bengio。

前段时间一直对人工智能持谨慎态度的马斯克,搞了一个OpenAI项目,邀请Bengio作为高级顾问。马斯克认为,人工智能技术不应该掌握在大公司如Google,Facebook的手里,更应该作为一种开放技术,让所有人都可以参与研究。马斯克的这种精神值得让人敬佩。

图35 Yann LeCun(左)和 Yoshua Bengio(右)

多层神经网络的研究仍在进行中。现在最为火热的研究技术包括RNN,LSTM等,研究方向则是图像理解方面。图像理解技术是给计算

机一幅图片,让它用语言来表达这幅图片的意思。ImageNet竞赛也在不断召开,有更多的方法涌现出来,刷新以往的正确率。


六、历史回顾

  1. 影响

我们回顾一下神经网络发展的历程。神经网络的发展历史曲折荡漾,既有被人捧上天的时刻,也有摔落在街头无人问津的时段,中间经历了数次大起大落。

从单层神经网络(感知器)开始,到包含一个隐藏层的两层神经网络,再到多层的深度神经网络,一共有三次兴起过程。详见下图。

图36 三起三落的神经网络 

上图中的顶点与谷底可以看作神经网络发展的高峰与低谷。图中的横轴是时间,以年为单位。纵轴是一个神经网络影响力的示意表示。如果把1949年Hebb模型提出到1958年的感知机诞生这个10年视为落下(没有兴起)的话,那么神经网络算是经历了“三起三落”这样一个过程,跟“小平”同志类似。俗话说,天将降大任于斯人也,必先苦其心志,劳其筋骨。经历过如此多波折的神经网络能够在现阶段取得成功也可以被看做是磨砺的积累吧。

历史最大的好处是可以给现在做参考。科学的研究呈现螺旋形上升的过程,不可能一帆风顺。同时,这也给现在过分热衷深度学习与人工智能的人敲响警钟,因为这不是第一次人们因为神经网络而疯狂了。1958年到1969年,以及1985年到1995,这两个十年间人们对于神经网络以及人工智能的期待并不现在低,可结果如何大家也能看的很清楚。

因此,冷静才是对待目前深度学习热潮的最好办法。如果因为深度学习火热,或者可以有“钱景”就一窝蜂的涌入,那么最终的受害人只能是自己。神经网络界已经两次有被人们捧上天了的境况,相信也对于捧得越高,摔得越惨这句话深有体会。因此,神经网络界的学者也必须给这股热潮浇上一盆水,不要让媒体以及投资家们过分的高看这门技术。很有可能,三十年河东,三十年河西,在几年后,神经网络就再次陷入谷底。根据上图的历史曲线图,这是很有可能的。

2.效果

下面说一下神经网络为什么能这么火热?简而言之,就是其学习效果的强大。随着神经网络的发展,其表示性能越来越强。

从单层神经网络,到两层神经网络,再到多层神经网络,下图说明了,随着网络层数的增加,以及激活函数的调整,神经网络所能拟合的决策分界平面的能力。


图37 表示能力不断增强 

可以看出,随着层数增加,其非线性分界拟合能力不断增强。图中的分界线并不代表真实训练出的效果,更多的是示意效果

神经网络的研究与应用之所以能够不断地火热发展下去,与其强大的函数拟合能力是分不开关系的。

3.因素

当然,光有强大的内在能力,并不一定能成功。一个成功的技术与方法,不仅需要内因的作用,还需要时势与环境的配合。神经网络的发展背后的外在原因可以被总结为:更强的计算性能,更多的数据,以及更好的训练方法。只有满足这些条件时,神经网络的函数拟合能力才能得已体现,见下图。

图38 发展的外在原因 

之所以在单层神经网络年代,Rosenblat无法制作一个双层分类器,就在于当时的计算性能不足,Minsky也以此来打压神经网络。但是Minsky没有料到,仅仅10年以后,计算机CPU的快速发展已经使得我们可以做两层神经网络的训练,并且还有快速的学习算法BP。

但是在两层神经网络快速流行的年代。更高层的神经网络由于计算性能的问题,以及一些计算方法的问题,其优势无法得到体现。直到2012年,研究人员发现,用于高性能计算的图形加速卡(GPU)可以极佳地匹配神经网络训练所需要的要求:高并行性,高存储,没有太多的控制需求,配合预训练等算法,神经网络才得以大放光彩。

互联网时代,大量的数据被收集整理,更好的训练方法不断被发现。所有这一切都满足了多层神经网络发挥能力的条件。

“时势造英雄”,正如Hinton在2006年的论文里说道的

“... provided that computers were fast enough, data sets were big enough, and the initial weights were close enough to a good solution. All three conditions are now satisfied.”,外在条件的满足也是神经网络从神经元得以发展到目前的深度神经网络的重要因素。

除此以外,一门技术的发扬没有“伯乐”也是不行的。在神经网络漫长的历史中,正是由于许多研究人员的锲而不舍,不断钻研,才能有了现在的成就。前期的Rosenblat,Rumelhart没有见证到神经网络如今的流行与地位。但是在那个时代,他们为神经网络的发展所打下的基础,却会永远流传下去,不会退色。 


七、学习建议

神经网络虽然很重要,但是对于神经网络的学习,却并不容易。这些学习困难主要来自以下三个方面:概念,类别,教程。下面简单说明这三点

  1. 概念

对于一门技术的学习而言,首先最重要的是弄清概念。只有将概念理解清楚,才能顺畅的进行后面的学习。由于神经网络漫长的发展历史,经常会有一些概念容易混淆,让人学习中产生困惑。这里面包括历史的术语,不一致的说法,以及被遗忘的研究等。

历史的术语

这个的代表就是多层感知器(MLP)这个术语。起初看文献时很难理解的一个问题就是,为什么神经网络又有另一个名称:MLP。其实MLP(Multi-Layer Perceptron)的名称起源于50-60年代的感知器(Perceptron)。由于我们在感知器之上又增加了一个计算层,因此称为多层感知器。值得注意的是,虽然叫“多层”,MLP一般都指的是两层(带一个隐藏层的)神经网络。

MLP这个术语属于历史遗留的产物。现在我们一般就说神经网络,以及深度神经网络。前者代表带一个隐藏层的两层神经网络,也是EasyPR目前使用的识别网络,后者指深度学习的网络。

不一致的说法

这个最明显的代表就是损失函数loss function,这个还有两个说法是跟它完全一致的意思,分别是残差函数error function,以及代价函数cost function。loss function是目前深度学习里用的较多的一种说法,caffe里也是这么叫的。cost function则是Ng在coursera教学视频里用到的统一说法。这三者都是同一个意思,都是优化问题所需要求解的方程。虽然在使用的时候不做规定,但是在听到各种讲解时要心里明白。

再来就是权重weight和参数parameter的说法,神经网络界由于以前的惯例,一般会将训练得到的参数称之为权重,而不像其他机器学习方法就称之为参数。这个需要记住就好。不过在目前的使用惯例中,也有这样一种规定。那就是非偏置节点连接上的值称之为权重,而偏置节点上的值称之为偏置,两者统一起来称之为参数。

另外一个同义词就是激活函数active function和转移函数transfer function了。同样,他们代表一个意思,都是叠加的非线性函数的说法。

被遗忘的研究

由于神经网络发展历史已经有70年的漫长历史,因此在研究过程中,必然有一些研究分支属于被遗忘阶段。这里面包括各种不同的网络,例如SOM(Self-Organizing Map,自组织特征映射网络),SNN(Synergetic Neural Network,协同神经网络),ART(Adaptive Resonance Theory,自适应共振理论网络)等等。所以看历史文献时会看到许多没见过的概念与名词。

有些历史网络甚至会重新成为新的研究热点,例如RNN与LSTM就是80年代左右开始的研究,目前已经是深度学习研究中的重要一门技术,在语音与文字识别中有很好的效果。

对于这些易于混淆以及弄错的概念,务必需要多方参考文献,理清上下文,这样才不会在学习与阅读过程中迷糊。

2.类别

下面谈一下关于神经网络中的不同类别。

其实本文的名字“神经网络浅讲”并不合适,因为本文并不是讲的是“神经网络”的内容,而是其中的一个子类,也是目前最常说的前馈神经网络。根据下图的分类可以看出。

图39 神经网络的类别

神经网络其实是一个非常宽泛的称呼,它包括两类,一类是用计算机的方式去模拟人脑,这就是我们常说的ANN(人工神经网络),另一类是研究生物学上的神经网络,又叫生物神经网络。对于我们计算机人士而言,肯定是研究前者。

在人工神经网络之中,又分为前馈神经网络和反馈神经网络这两种。那么它们两者的区别是什么呢?这个其实在于它们的结构图。我们可以把结构图看作是一个有向图。其中神经元代表顶点,连接代表有向边。对于前馈神经网络中,这个有向图是没有回路的。你可以仔细观察本文中出现的所有神经网络的结构图,确认一下。而对于反馈神经网络中,结构图的有向图是有回路的。反馈神经网络也是一类重要的神经网络。其中Hopfield网络就是反馈神经网络。深度学习中的RNN也属于一种反馈神经网络。

具体到前馈神经网络中,就有了本文中所分别描述的三个网络:单层神经网络,双层神经网络,以及多层神经网络。深度学习中的CNN属于一种特殊的多层神经网络。另外,在一些Blog中和文献中看到的BP神经网络是什么?其实它们就是使用了反向传播BP算法的两层前馈神经网络。也是最普遍的一种两层神经网络。

通过以上分析可以看出,神经网络这种说法其实是非常广义的,具体在文章中说的是什么网络,需要根据文中的内容加以区分。

3.教程

如何更好的学习神经网络,认真的学习一门课程或者看一本著作都是很有必要的。

说到网络教程的话,这里必须说一下Ng的机器学习课程。对于一个初学者而言,Ng的课程视频是非常有帮助的。Ng一共开设过两门机器学习公开课程:一个是2003年在Standford开设的,面向全球的学生,这个视频现在可以在网易公开课上找到;另一个是2010年专门为Coursera上的用户开设的,需要登陆Coursera上才能学习。

但是,需要注意点是,这两个课程对待神经网络的态度有点不同。早些的课程一共有20节课,Ng花了若干节课去专门讲SVM以及SVM的推导,而当时的神经网络,仅仅放了几段视频,花了大概不到20分钟(一节课60分钟左右)。而到了后来的课程时,总共10节的课程中,Ng给了完整的两节给神经网络,详细介绍了神经网络的反向传播算法。同时给SVM只有一节课,并且没有再讲SVM的推导过程。下面两张图分别是Ng介绍神经网络的开篇,可以大致看出一些端倪。

图40 Ng与神经网络

为什么Ng对待神经网络的反应前后相差那么大?事实上就是深度学习的原因。Ng实践了深度学习的效果,认识到深度学习的基础--神经网络的重要性。这就是他在后面重点介绍神经网络的原因。总之,对于神经网络的学习而言,我更推荐Coursera上的。因为在那个时候,Ng才是真正的把神经网络作为一门重要的机器学习方法去传授。你可以从他上课的态度中感受到他的重视,以及他希望你能学好的期望。


八、展望

  1. 量子计算

回到我们对神经网络历史的讨论,根据历史趋势图来看,神经网络以及深度学习会不会像以往一样再次陷入谷底?作者认为,这个过程可能取决于量子计算机的发展。

根据一些最近的研究发现,人脑内部进行的计算可能是类似于量子计算形态的东西。而且目前已知的最大神经网络跟人脑的神经元数量相比,仍然显得非常小,仅不及1%左右。所以未来真正想实现人脑神经网络的模拟,可能需要借助量子计算的强大计算能力。

各大研究组也已经认识到了量子计算的重要性。谷歌就在开展量子计算机D-wave的研究,希望用量子计算来进行机器学习,并且在前段时间有了突破性的进展。国内方面,阿里和中科院合作成立了量子计算实验室,意图进行量子计算的研究。

如果量子计算发展不力,仍然需要数十年才能使我们的计算能力得以突飞猛进的发展,那么缺少了强大计算能力的神经网络可能会无法一帆风顺的发展下去。这种情况可以类比为80-90年时期神经网络因为计算能力的限制而被低估与忽视。假设量子计算机真的能够与神经网络结合,并且助力真正的人工智能技术的诞生,而且量子计算机发展需要10年的话,那么神经网络可能还有10年的发展期。直到那时期以后,神经网络才能真正接近实现AI这一目标。

图41 量子计算

2.人工智能

最后,作者想简单地谈谈对目前人工智能的看法。虽然现在人工智能非常火热,但是距离真正的人工智能还有很大的距离。就拿计算机视觉方向来说,面对稍微复杂一些的场景,以及易于混淆的图像,计算机就可能难以识别。因此,这个方向还有很多的工作要做。

就普通人看来,这么辛苦的做各种实验,以及投入大量的人力就是为了实现一些不及孩童能力的视觉能力,未免有些不值。但是这只是第一步。虽然计算机需要很大的运算量才能完成一个普通人简单能完成的识图工作,但计算机最大的优势在于并行化与批量推广能力。使用计算机以后,我们可以很轻易地将以前需要人眼去判断的工作交给计算机做,而且几乎没有任何的推广成本。这就具有很大的价值。正如火车刚诞生的时候,有人嘲笑它又笨又重,速度还没有马快。但是很快规模化推广的火车就替代了马车的使用。人工智能也是如此。这也是为什么目前世界上各著名公司以及政府都对此热衷的原因。

目前看来,神经网络要想实现人工智能还有很多的路要走,但方向至少是正确的,下面就要看后来者的不断努力了。

图42 人工智能 


九、总结

本文回顾了神经网络的发展历史,从神经元开始,历经单层神经网络,两层神经网络,直到多层神经网络。在历史介绍中穿插讲解神经网络的结构,分类效果以及训练方法等。本文说明了神经网络内部实际上就是矩阵计算,在程序中的实现没有“点”和“线”的对象。本文说明了神经网络强大预测能力的根本,就是多层的神经网络可以无限逼近真实的对应函数,从而模拟数据之间的真实关系。除此之外,本文分析了神经网络发展的外在原因,包括计算能力的增强,数据的增多,以及方法的创新。接着,本文给出了神经网络学习的建议,即理清概念,分清类别,以及系统地学习一门课程。最后,本文对神经网络的未来进行了展望,包括量子计算与神经网络结合的可能性,以及探讨未来人工智能发展的前景与价值。 


十、后记

本篇文章可以视为作者一年来对神经网络的理解与总结,包括实验的体会,书籍的阅读,以及思考的火花等。神经网络虽然重要,但学习并不容易。这主要是由于其结构图较为难懂,以及历史发展的原因,导致概念容易混淆,一些介绍的博客与网站内容新旧不齐。本篇文章着眼于这些问题,没有太多的数学推导,意图以一种简单的,直观的方式对神经网络进行讲解。在2015年最后一天终于写完。希望本文可以对各位有所帮助。

最后,作者很感谢能够阅读到这里的读者。如果看完觉得好的话,还请轻轻点一下赞,你们的鼓励就是作者继续行文的动力。

目前为止,EasyPR的1.4版已经将神经网络(ANN)训练的模块加以开放,开发者们可以使用这个模块来进行自己的字符模型的训练。有兴趣的可以下载。


版权说明:

本文中的所有文字、图片、代码的版权都是属于作者和博客园共同所有。


参考文献:

  1. Neural Networks

  2. Andrew Ng Neural Networks

  3. 神经网络简史

  4. 中科院 史忠植 神经网络 讲义

  5. 深度学习 胡晓林



]]>
专栏 //www.xyschoolife.com/category/zhuanlan/qEskICz0FjJr36tU.html#comments Thu, 04 Mar 2021 19:06:00 +0800
5G手机芯片简史 //www.xyschoolife.com/category/zhuanlan/bSGA0SxRq3UNNacG.html

转自丨鲜枣课堂

作者丨小枣君


2020年,是国内5G网络全面商用的第一年。虽然我们遭受了新冠疫情的冲击,但5G的建设步伐并没有受到太多影响(反而有所刺激)。

根据工信部副部长刘烈宏前天在世界互联网大会的发言数据,中国目前已经建成5G基站70万个,占全球比例接近70%,5G连接终端超过1.8亿。而运营商提供的数据则显示,国内的5G套餐用户数已经超过2亿(中移1.29亿,电信0.72亿,联通未公布)。

在手机方面,根据信通院的统计,1-10月国内市场5G手机上市新机型183款,累计出货1.24亿部,占比为49.4%。

毫无疑问,5G手机现在已经成为市场的主流、用户的首选。

5G手机

回顾5G手机这些年来的发展历程,其实并不平坦。围绕5G手机的纷争,从来就没有停止过。

最开始的时候,大家争论“谁是第一款5G手机(芯片)”。后来,开始争“NSA是不是假5G”。再后来,又争“集成基带和外挂基带”。再再后来,争“有没有必要支持N79频段”……

对于不太懂技术的普通用户来说,这些无休止的争吵实在是让人懵圈——不就是买个5G手机么?怎么就这么麻烦呢?

其实,争来争去,主要原因还是因为5G芯片技术的不成熟。或者说,这些都是5G手机发展早期的正常现象。

5G手机和4G手机的最大区别,在于是否支持5G网络。而5G网络的支持与否,主要由手机的基带芯片决定。

基带芯片(高通X55)

基带芯片(有时候简称“基带”),有点像手机的“网卡”、“猫(调制解调器)”。而大家常说的SoC芯片(System-on-a-Chip,片上系统、系统级芯片),有点像电脑的CPU处理器。

5G SoC芯片(联发科)

注:基带芯片不一定集成在SoC芯片内部(后文会介绍)

有了5G基带芯片,手机才能够接入5G网络。所以说,5G手机的发展史,其实就是5G芯片的发展史。而5G芯片的发展史,又和5G基带密不可分。

是不是有点晕?别急,我们还是从头开始说起吧。

2016-2018年:第一代5G芯片

全球第一款5G基带芯片,来自老牌芯片巨头——美国高通(Qualcomm)。

高通在2016年10月,就发布了X50 5G基带芯片。那时候,全球5G标准都还没制定好。

因为推出时间确实太早,所以X50的性能和功能都比较弱,主要用于一些测试或验证场景。没有哪个手机厂商敢拿这款基带去批量生产5G手机。

到了2018年2月,华为在巴塞罗那MWC世界移动大会上,发布了自己的第一款5G基带——巴龙5G01(Balong 5G01)。华为称之为全球第一款符合3GPP 5G协议标准(R15)的5G基带。

巴龙Balong 5G01

不过,这款5G01基带,技术也还不够成熟,没办法用在手机上,只能用在5G CPE上。

CPE:把5G信号转成Wi-Fi信号的小设备。

紧接着,联发科、三星和英特尔,陆续在2018年发布了自己的5G基带芯片(当时都没商用)。

我们姑且把这些5G基带叫做第一代5G基带吧。

数据仅供参考(部分是PPT芯片,你懂的)

这一代芯片有一个共同特点——它们都是通过“外挂方式”搭配SoC芯片进行工作的。

也就是说,基带并没有被集成到SoC芯片里面,而是独立在SoC之外。

集成VS外挂,当然是集成更好。集成基带在功耗控制和信号稳定性上,明显要优于外挂基带。

“外挂”,相当于这样

可是没办法,当时的技术不成熟,只能外挂。

总而言之,2018年,5G手机基本处于无“芯”可用的状态,市面上也没有商用发布的5G手机。


2019年:第二代5G芯片

到了2019年,情况不同了。

随着5G第一阶段标准(R15)的确定、第二阶段标准(R16)的推进,各个芯片厂商的技术不断成熟,开始有了第二代5G基带。

首先有动作的,是华为。

华为在2019年1月,发布了巴龙5000(Balong5000)这款全新的5G基带。支持SA和NSA,采用7nm工艺,支持多模。

综合来说,笔者个人认为,这是第一款达到购买门槛的5G基带。

紧接着,高通在2月份,发布了X55基带,也同时支持SA/NSA,也是7nm,也支持多模。从纸面数据上来说,X55的指标强于Balong5000。

不过,华为的动作更快。

2019年7月,就在高通X55还停留在口头宣传上的时候,华为采用“麒麟980+外挂巴龙5000”的方案,发布了自己的第一款5G手机——Mate20 X 5G。 这也是国内第一款获得入网许可证的5G手机。

因为高通的X55要等到2020年一季度才能批量出货,所以,当时包括小米、中兴、VIVO在内的一众手机厂商,只能使用外挂X50基带的高通SoC芯片,发布自家5G旗舰。

站在客观角度,只看5G通信能力的话,这差距是非常明显的。

当时,围绕SA和NSA,爆发了很大的争议。很多人认为,仅支持NSA的手机是“假5G”手机,到了2020年会无法使用5G网络。

这种说法并不准确。事实上,NSA和SA都是5G。在SA独立组网还没有商用的前提下,仅支持NSA也是够用的。

2019年9月,华为又发布了麒麟990 5G SoC芯片,采用7nm EUV工艺,更加拉开了差距。

所以,在2019年中后期的很长一段时间内,华为5G手机大卖特卖,销量一骑绝尘。

9月4日,三星发布了自家的5G SoC,Exynos 980(猎户座980),采用8nm工艺。

一个月后,三星又发布了Exynos 990(猎户座990)。相比于Exynos 980集成5G基带,Exynos 990反而是外挂的5G基带(Exynos Modem 5123),令人费解。

正当大家觉得失衡的局面要持续到X55上市时,一匹黑马杀出来了,那就是来自宝岛台湾的芯片企业——联发科(MEDIATEK)

11月26日,联发科发布了自家的5G SoC芯片——天玑1000,纸面参数和性能跑分都全面领先,顿时炸开了锅。

12月5日,姗姗来迟的高通终于发布了自家的新5G SoC芯片,分别是骁龙765和骁龙865。

高通是国内各大手机厂商(华为除外)的主要芯片供应商。包括小米、OPPO、vivo在内的众多厂家,都在等高通的这款骁龙865芯片。不过,骁龙865推出之后,大家发现,这款芯片仍然是外挂基带。(骁龙765是集成基带,集成了X52,支持5G,但是整体性能弱于865,定位中端。)

我们把这几家厂商的SoC芯片放在一起,比较一下吧:

当时(2019年底)的纸面数据,仅供参考

三星的芯片基本上是三星手机自己在用。这些年,三星手机在国内的市场份额不断下滑,基本退出了第一阵营的争夺。所以,实际上国内市场就是华为、高通、联发科三家在激烈竞争。

我们具体看一下当时这些芯片的参数差异

从工艺制程来看,几款芯片都是7nm,但是EUV(极紫外光刻,Extreme Ultra-violet)比传统工艺要强一些。

从组网支持来看,NSA和SA,大家都同时支持,没什么好说的。

最主要的区别,集中在基带外挂/集成,毫米波支持,以及连接速度上。

1.基带外挂

关于这个问题,虽然前面我们说集成肯定比外挂好。但是这里的情况有点特殊:

华为之所以集成了5G基带,并不代表他完全强于高通。有一部分原因,是因为华为麒麟990采用的是2018年ARM的A76架构(其它几家是2019年5月ARM发布的A77架构)。A77集成5G基带难度更大。

而且,华为集成5G基带,也牺牲了一部分的性能。这就是上面表格中,华为连接速率指标明显不如其它三家的原因之一。

换言之,以当时(2019年底)的技术,想要做到性能、功耗、集成度的完美平衡,非常非常困难。

联发科这一点很牛。它的天玑1000,既采用了A77架构,又做到了基带集成,整体性能不输对手,令人出乎意料。

2.毫米波

高通骁龙865不支持集成,有一部分原因是因为毫米波(支持毫米波之后,功耗和体积增加,就没办法集成了)。

什么是毫米波?5G信号是工作在5G频段上的。3GPP标准组织对5G频段有明确的定义。分为两类,一类是6GHz(后来3GPP改为7.125GHz)以下的,我们俗称Sub-6频段。另一类是24GHz以上的,俗称毫米波频段。

高通的SoC芯片,为什么要支持毫米波频段呢?

因为他要兼顾美国市场。美国运营商AT&T在使用毫米波频段。除了美国等少数国家之外,大部分国家目前还没有使用毫米波5G。

3.连接速度

最后就是看连接速度

抛开毫米波,我们只看Sub-6的速度。天玑1000的公布数据比其它两家快了一倍。

这个地方也是有原因的。因为天玑采用了双载波聚合技术,将两个100MHz的频率带宽聚合成200MHz来用,实现了速率的翻倍。

值得一提的是,这个100MHz+100MHz,基本上就是为联通电信5G共享共建量身定制的。他们俩在3.5GHz刚好各有100MHz的频段资源。

4.N79频段支持

最后,我们再来说说N79这个事情。当时围绕这个N79,也爆发了不少口水战。

前面我说了,5G有很多个频段。Sub-6GHz的频段,如下所示:

N79频段,就是4400-5000MHz。

下面这个,是国内运营商5G频段分布:

很清楚了,联通或电信用户,无需理会N79,因为用不到。

那移动用户是不是一定要买支持N79频段的5G手机呢?答案是:不一定。当时移动还没有用N79。不过,后期应该会用。

站在普通消费者的角度,如果我是移动用户,当然会倾向购买支持N79频段的5G手机,一步到位。

这么一看的话,华为又占了优势:

是吧?搞来搞去,三家就是各有千秋。

以上,就是2019年年底各家5G SoC芯片的大致情况。


2020年:第2.5代5G芯片

进入2020年后,受新冠疫情的影响,5G芯片和手机的发布速度有所放慢。

最先有动作的,是联发科

前面我们说到,联发科发布了纸面数据爆表的天玑1000。可是,后来我们一直没有看到搭载天玑1000的手机问世,只看到两款搭载了天玑1000L(天玑1000的缩水版)的手机。

2020年5月7日,在消费者苦等半年之后,联发科线上发布了天玑1000的升级版——天玑1000plus(天玑1000+)。

从联发科发布的信息看,硬件升级不大,主要是通过软件调优,在功耗、游戏体验、屏幕刷新率,以及视频画质上进行提升。

不久后的5月19日,vivo发布了首款搭载天玑1000Plus芯片的机型——iQOO Z1,售价2198元起。

高通方面,2020年2月12日,三星S20发布会上,高通骁龙865正式亮相。此后,陆续被搭载在各大手机厂商的旗舰手机上,成为2020年的主流5G SoC芯片。

2020年搭载骁龙865芯片的主要机型

2020年10月,华为随同Mate 40 Pro发布了麒麟9000芯片。该芯片基于5nm工艺制程,集成了5G基带(还是巴龙5000),性能上有所升级,支持5G超级上行(Super Uplink)和下行载波聚合(CA),上下行速率比其它手机有明显提升。

因为众所周知的制裁原因,华为芯片局面日益艰难。在Mate 40的发布会上,余承东表示,麒麟9000很可能是最后一代华为麒麟高端芯片

同样是10月,苹果公司推出了iPhone12,这是第一款支持5G的iPhone。iPhone12使用的是自家的A14仿生芯片,采用的是台积电5nm工艺,外挂了一颗高通 X55 5G基带芯片。

以上,就是截至目前5G芯片的整个发展历程。

当然了,故事还没有结束。

根据此前曝光的消息,联发科即将推出基于6nm工艺的天玑2000芯片(据说华为P50可能搭载)。

而高通基于5nm的骁龙875,也很有可能在12月初发布,明年Q1商用。据说,骁龙875将会集成高通在今年2月就已经发布的X60基带。

值得一提的还有紫光展锐。他们在此前虎贲T7510的基础上,推出了新款5G手机SoC芯片虎贲T7520。该芯片采用6nm EUV的制程工艺,搭载自研的春藤510 5G基带,据称技术成熟,明年(2021年)将实现量产。

不管怎么说,2020行将结束,2021即将开启。随着5G网络建设的不断深入,越来越多的用户将投入5G的怀抱。这也就意味着,围绕5G手机和芯片的江湖纷争,将会愈演愈烈。

究竟谁能够在这场纷争中笑到最后?只能让时间来告诉我们答案了……


]]>
专栏 //www.xyschoolife.com/category/zhuanlan/bSGA0SxRq3UNNacG.html#comments Tue, 02 Mar 2021 17:52:00 +0800
5G词汇通俗释义(5G核心网部分) //www.xyschoolife.com/category/zhuanlan/V6gCGn7lT0k0U9yF.html

转自丨5G通信

作者丨5G哥


5GC

即5G核心网,5G核心网对用户面和控制面分离,采用服务化架构设计,主要由网络功能(NF)组成,采用分布式的功能,根据实际需要部署,新的网络功能加入或撤出,并不影响整体网络的功能。

5G系统架构被定义为支持数据连接和服务,使部署能够使用诸如网络功能虚拟化(NFV)和软件定义网络(SDN)之类的技术。5G系统架构应利用已识别的控制平面(CP)网络功能之间基于服务的交互。


NF(网络功能)

5G采用了全新的架构,打破了原来的层级结构,不再使用大而全的集成化节点,而是将相关的功能分别拆解,各司其职,通过参考点接入,它们被成为网络功能(NF)。

网络功能(NF)常见的有AMF,SMF,UPF,UDM等,NF可以随时新加入和退出,只要资源池中还有其它相同的网络功能,就不会影响网络,这极大的方便了组网部署。也便于负荷分担、升级等。


参考点

在5G核心网中,参考点是特定两个功能之间的交互界面,是标准的双方之间的协议映射关系,类似于以往移动通信中的接口的概念,但又只是逻辑性的。

服务化接口和参考点是5G架构所引入的两种不同的网络实体之间的模型化的交互方式,通过对网络功能块和网络实体之间的接口和连接的灵活的定义来实现5G网络对于多样的特定的服务类型在各个协议层的灵活的处理方法和处理流程的实现。

服务化接口和参考点有联系、相同点,也有区别。一个服务化接口只针对于某个网络功能块,网络功能块通过这个接口向外与其他的功能块进行交互,而其他的功能块通过与那个接口相应的接口与此功能块进行交互;而参考点是特定两个功能块之间的交互界面,是标准的双方之间的协议映射关系。所以,两个功能块之间的参考点一般可以通过一个或更多的服务化接口来代替,从而提供完全相同的功能实现。


MEC(移动边缘计算)

移动边缘计算(MobileEdge Computing, MEC)是5G中的关键技术,可利用无线接入网络就近提供电信用户所需服务和云端计算功能,而创造出一个具备高性能、低延迟与高带宽的电信级服务环境。

MEC一方面可以改善用户体验,节省带宽资源,另一方面通过将计算能力下沉到移动边缘节点,提供第三方应用集成,为移动边缘入口的服务创新提供了无限可能。移动网络和移动应用的无缝结合,将为应对各种OTT应用提供了有力的武器。


NG接口

NG接口是无线接入网和5G核心网之间的接口。它是一个逻辑接口,规范了NG接口,NG-RAN节点与不同制造商提供的AMF的互连。

NG接口分为NG-C接口(NG-RAN和5GC之间的控制面接口)和NG-U接口(NG-RAN和5GC之间的用户面接口)。分离NG接口无线网络功能和传输网络功能,以便于引入未来的技术。

 

AMF

接入和移动管理功能,是5G中非常重要的网络功能,它直接管理5G无线接入的请求,进行注册管理,连接管理,可达性管理,移动性管理等功能。 

在AMF的单个实例中可以支持部分或全部AMF功能,无论网络功能的数量如何,UE和CN之间的每个接入网络只有一个NAS接口实例,至少实现NAS安全性和移动性管理的网络功能之一。

 

UPF

用户平面功能,是5G中重要的网络功能之一。分组路由和转发,数据包检查,用户平面部分策略规则实施,例如门控,重定向,流量转向等。

5G核心网的用户面和控制面彻底分离,使能UPF(用户面功能)实现下沉和分布式部署。这种分离架构,使MEC(多接入边缘计算)成为可能,并分布式部署于网络接入侧、本地侧、汇聚侧和核心侧。

 

SMF

会话管理功能,5G中重要的网络功能之一。会话管理,例如会话建立,修改和释放,包括UPF和AN节点之间的通道维护,UEIP地址分配和管理等。

有了SMF,5G能轻松对用户会话进行管理和功能的扩展,如网络切片、双连接等。在SMF的单个实例中可以支持部分或全部SMF功能,并非所有功能都需要在网络切片的实例中得到支持。SMF还可以包括与安全策略相关的功能。

 

PCF

策略控制功能(PCF),5G核心网的网络功能之一。它的主要功能是使用统一的策略框架来管理网络行为,并协同UDR中的用户信息,来执行相关的策略。

PCF类似于以往移动通信系统中的智能网控制部分,PCF包括以下功能:支持统一的策略框架来管理网络行为;为控制平面功能提供策略规则以强制执行它们;访问与统一数据存储库(UDR)中的策略决策相关的用户信息。

 

UDR

统一数据存储库(UDR),通过UDM存储和检索用户数据,由PCF存储和检索策略数据,存储和检索用于开放的结构化数据。

在5G核心网中,用户数据通过UDM进行鉴权和存储,有UDR进行整体的管理,并按照规范提供标准接口供调取和查询,既实现开发,又保障数据的安全性。

 

UDM

统一数据管理(UDM),5G核心网的网络功能之一。通过生成3GPPAKA身份验证凭据,通过对SUPI的存储和管理,对用户进行识别处理,对用户进行合法性验证。

通过UDM,可以对非法用户进行有效拦截,UDM使用可能存储在UDR中的用户数据(包括身份验证数据),在这种情况下,UDM实现应用流程逻辑,不需要内部用户数据存储。


NRF 

网络存储库功能(NRF),5G核心网的网络功能之一。支持服务发现功能,从NF实例接收NF发现请求,并将发现的NF实例(被发现)的信息提供给NF实例。

在5G中可以灵活配置,在网络分切片的背景下,基于网络实现,可以在不同级别部署多个NRF,包括:PLMN级别(NRF配置有整个PLMN的信息),共享切片级别(NRF配置有属于一组网络切片的信息),切片特定级别(NRF配置有属于S-NSSAI的信息)。


NEF

网络开放功能(NEF),是5G对外开放和提供标准接口的网络功能。基于3GPP网络功能通过NEF向其他系统公开功能和事件,既提供开放性,又能保障系统的安全。 

NEF的存在,将5G系统的功能实现标准化的展现,极大的便利了第三方接入,例如应用功能,边缘计算等,同时,对网络和用户敏感信息的屏蔽,又保证了系统的安全。


DNN

数据网络名称(DNN),DNN在5G中的定义等同于以往定义的APN。两个标识符具有相同的含义并且具有相同的信息。

DNN可以应用为PDU会话选择SMF和UPF,为PDU会话选择N6接口,以及确定要应用于此PDU会话的策略。DNN可以与S-NSSAI一起用于运营商,以允许订户接入与S-NSSAI关联的网络切片中支持的任何数据网络。



UCMF 

UE无线能力管理功能(UCMF),用于存储与PLMN分配或制造商分配的UE无线功能ID对应的字段条目。AMF可以向UCMF用户,以从UCMF获得UCMF分配的UE无线功能ID的新值,以在本地缓存它们。

从与UCMF直接交互或通过NEF(或通过网络管理)与UCMF交互的AF执行UCMF中制造商分配的UE无线功能ID条目的配置。UCMF还分配PLMN分配的UE无线功能ID值。每个PLMN分配的UE无线能力ID也与其相关的UE模型的TAC相关联。当AMF请求UCMF为一组UE无线能力分配UE无线能力ID时,它指示UE无线能力与之相关的UE的TAC。

 


SMSF

短信网络功能(SMSF),支持基于NAS的SMS,主用用于管理用户数据检查并相应地进行SMS传递。

SMSF将带有UE的SM-RP / SM-CP传递,将SM从UE中继到SMS-GMSC / IWMSC / SMS-Router,将SMS从SMS-GMSC / IWMSC / SMS-Router中继到UE。同时,验证短信相关的CDR,并进行合法拦截。

与AMF和SMS-GMSC的交互,用于UE不可用于SMS传输的通知流程(即,当UE不可用于SMS时,通知SMS-GMSC通知UDM)。


NSSF

网络切片选择功能(NSSF),是5G支持网络切片网络功能。选择为UE提供服务的网络切片实例集,以为用户提供个性化的网络服务。

NSSF确定允许的NSSAI,并在必要时确定到用户的S-NSSAI的映射,对于已配置的NSSAI,并在需要时确定到已用户的S-NSSAI的映射,确定AMF集用于服务UE,或者,基于配置,可能通过查询NRF来确定候选AMF列表。

 

NWDAF

网络数据分析功能(NWDAF),是运营管理的网络分析逻辑功能。NWDAF为NF提供特定于网络切片的网络数据分析。NWDAF在网络切片实例级别上向NF提供网络分析信息(即,负载级别信息),并且NWDAF不需要知道使用该网络切片的当前用户。

NWDAF将网络切片特定的网络状态分析信息通知给用户它的NF。NF可以直接从NWDAF收集切片特定的网络状态分析信息,这极大的增强了5G网络对切片用户的大数据掌握。PCF和NSSF都是网络分析的使用者。PCF可以在其策略决策中使用该数据。NSSF可以使用NWDAF提供的负载级别信息进行切片选择。


]]>
专栏 //www.xyschoolife.com/category/zhuanlan/V6gCGn7lT0k0U9yF.html#comments Mon, 01 Mar 2021 17:41:00 +0800
5G真的更耗电吗? //www.xyschoolife.com/category/zhuanlan/bfgQbmUZstkNUgKA.html

转自丨鲜枣课堂

作者丨通信ROCK老师


2020年,庚子年,“中国战疫”举世瞩目。这一年,5G元年,中国通信同样表现抢眼。

根据最新的统计数据,中国完成5G基站建设超过70万座,5G终端连接数突破2亿。毫无疑问,中国通信人交出了一份令人满意的答卷,国内5G市场正在全面爆发。

但另一方面,关于5G基站高耗电的议论,时有出现。人们担心,5G的基站用电成本,会让运营商不堪重负。

今天这篇文章,笔者将详细分析5G的能耗,以及产品设计中的节能环节。


5G其实更省电

5G设备的耗电真的比4G多吗?

非常遗憾,这个答案是肯定的。5G的耗电高,主要有两点原因:

1.1 5G使用Massive MIMO技术

4G基站RRU使用8天线,天线矩阵实现2D MIMO,满功率输出160W射频信号;5G基站AAU使用64天线,天线矩阵实现3D MIMO,满功率输出320W射频信号。如果效率相同,5G AAU的耗能是4G RRU的2倍。

实际上,得益于更高效的PA(Power Amplifier,功率放大器)芯片和更好的DPD(Digital Pre-Distortion,数字预失真)算法,5G设备的效率是比4G高的。也就是说,AAU的耗能不到RRU的2倍。

1.2 5G使用了更高的频段

由于高带宽和Massive MIMO的要求,5G使用较高频率频段。在SUB-6GHz的频谱中,中国移动使用2.6GHz频段(和4G相同);中国电信和中国联通使用3.5GHz频段(两家运营商4G TDD LTE频段是2.6GHz频段)。

根据无线信号自由空间传输损耗公式:

Los (dB)= 32.44 +20lg( d(km)) +20lg( f(MHz))

中国移动5G覆盖和4G相当,而中国电信和中国联通的5G覆盖距离大概是4G时的0.75倍,站点数理论上增加1.8倍。达到与4G相同的覆盖效果,5G站点数理论上是4G的1.2~1.4倍。

以上两点因素叠加,5G全网的耗能将是4G全网耗能的2.4~2.8倍。

看来5G的能耗确实不可小觑。那么,又是什么原因让5G选择Massive MIMO和高频段呢?
Massive MIMO的优势显而易见:

  • 利用垂直纬度和水平纬度的天线自由度,时频资源利用率提升;

  • 用户间的干扰降低;

  • 提升小区吞吐率;

  • 提升小区边缘用户体验。

而高频段频谱助力5G Massive MIMO的实现。

天线的尺寸和频率有关。频率越高,射频信号波长越短,相应的天线尺寸越小。

5G的AAU现在使用64天线阵,往后发展还会有128天线阵和256天线阵。大规模的天线阵,促使5G选择高频段频谱资源。

5G确实比4G耗能更多,但不能片面看待这个问题。5G这匹“千里马”吃得虽然多,但是,它拉了辆更大的车——5G系统容量是4G的20倍以上。

实际上,就传输单位比特信息量的功耗而言,5G 是更省电的。5G每比特数据消耗的能量约是4G的1/10。


节能减排永远在路上

我们再来看一组数据——2018年三大运营商的电费:中国移动245亿元,中国电信140亿元,中国联通120亿元。

按之前的估算,5G能耗是4G的2.2~2.4倍。预计5G全网建成后,全网年电费将达到1200~1400亿元。虽然5G会给运营商带来利润回报,但基站设备的节能减排,是运营商必须重视的问题。

毛主席在《矛盾论》中提出——要抓住问题的主要矛盾。基站能耗的主要矛盾是AAU(RRU),AAU能耗的主要矛盾是发射机的射频功率放大器

谈到AAU中射频功率放大器效率的提升,这里必须要提到一套“黄金提效方案”:Doherty+CFR+DPD。

我们首先来看这套高效率方案生成的背景。

实际上,这套高效率方案在4G时代就开始使用了,它是针对OFDM系统提出的。

由于OFDM符号是由多个独立的调制的信号相加而成的,这样合成的信号就有可能产生比较大的峰值功率。并且载波数越多,峰值信号功率越大。

在分析这种类型信号时,提出了峰均比(PAR,Peak-to-Average Ratio)的概念。PAR是符号的峰值功率与平均功率的比值:

PAR(dB)=Ppeak(dbm)-Pmean(dbm)

OFDM时频信号

OFDM系统信号的特点是时域为非恒包络状态,峰值功率随机出现。大峰均比信号的出现,会降低射频前端功放的效率。

伴随高峰均比信号的出现,削峰技术(CFR)就诞生了。

CFR即降低信号峰均比的技术。信号的削峰会带来一定的失真,过多的削峰会影响接收机的误码率。

在4G、5G移动通信中,信号的原始峰均比有十几dB,经过削峰后,送给发射单元的信号的峰均比一般为6~7dB。

为了满足发射机的线性指标,工程师在设计放大器时,可能会选择功率回退方案。功率回退是指,让功率放大器输出比自己饱和功率低得多的功率信号,以保证输出信号的线性指标。

该方案实现难度小,结构简单。

比如,输出10W的信号,工程师会选择饱和功率大于10W的功率放大器做方案。

但高峰均比信号的出现,使功率回退需要回退到峰值功率以上。比如输出平均功率为10W,峰均比为6dB的信号,工程师需选择饱和功率大于40W的功放管来做方案。

但是功放的输出功率和效率是正比关系,为了满足瞬时大信号的线性指标,高峰均比系统使用回退方案会导致效率低下。如果AAU发射机放大器使用纯回退方案,末级功放效率将不足15%,整机效率不足10%。

Doherty放大器解决了高峰均比系统效率低的问题。

其结构如图,Doherty放大器通常情况下使用两个完全相同的放大管来对信号进行放大。限于篇幅,其工作原理无法展开细说。它最大的特点是,放大器在输出功率低于饱和功率6db时的效率,与输出饱和功率时的效率相当。


Doherty结构

即在5G系统中,Doherty放大器输出平均功率时具有饱和功率效率。比如Doherty功放的饱和功率是100W,输入信号的峰均比是6db,当输出25W功率时,其效率与放大器输出100W功率相同。

Doherty效率曲线

目前国内几个大厂的AAU末级Doherty功放的效率已经做到50%以上,AAU整机效率超过40%。相对于纯回退方案,Doherty方案的整机能耗是其1/4。

但有得必有失,Doherty放大器并不是全能的,其在功率回退6db处得到了输出饱和功率时的效率,这是以线性指标劣化为代价的。为了保证系统的线性指标,DPD出场了。

先了解预失真技术(PD),它是人为地加入一个特性与系统非线性失真恰好相反的系统,两种非线性互相补偿,最终消除非线性分量,如图。DPD是数字预失真技术,预失真信号在数字域产生。

预失真的线性补偿

DPD技术通过采集分析Doherty放大器输出信号的非线性特性,在数字域内对原始基带信号进行补偿,使发射机输出的信号符合协议要求的线性指标(ACPR)。

现在各大厂商AAU的效率,很大一部分取决于其DPD算法对非线性功放的校正能力。其校正能力越强,发射机的效率就能做得越高。

梳理一下这套高效率发射机方案的工作流程:

  • CFR技术将高峰均比的信号削峰致6~7dB;

  • Doherty放大器放大削峰后的信号,其输出平均功率时具有输出饱和功率时相同的效率,但其线性指标(ACPR)较差;

  • DPD技术校正放大器的非线性,使发射机达到协议要求线性指标。


结语

除了使用Doherty+CFR+DPD外,5G还在其他方面实施了提高效率的举措:

  • 选择效率更高GaN功放,取代LDMOS功率放大器;

  • 将太阳能、风能等清洁能源应用于5G基站的能源补给;

  • “AI+大数据”智能监测、控制AAU通道开关,使5G基站的负荷更高效;

  • CU与DU分离,CU的集中管理一定程度上也提高了效率,降低5G能耗。


中国通信人正在不断创新和努力,优化AAU射频方案和能源方案,以获得更高的5G效率。虽然5G耗能较4G有所提高,但其带来的直接影响和间接影响都是非凡的。

中国信通院在《5G经济社会影响白皮书》中预测:“2030 年,在直接贡献方面,5G 将带动的总产出、经济增加值、就业机会分别为 6.3 万亿元、2.9 万亿元和 800 万个;在间接贡献方面,5G 将带动的总产出、经济增加值、就业机会分别为 10.6 万亿元、3.6 万亿元和 1150 万个。”

4G改变生活,5G将改变社会。让我们拭目以待吧!

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/bfgQbmUZstkNUgKA.html#comments Mon, 01 Mar 2021 16:37:00 +0800
从0G到5G,移动通信的百年沉浮 //www.xyschoolife.com/category/zhuanlan/psUFIA3BATwlorWW.html

转自丨鲜枣课堂

作者丨小枣君


二战期间,摩托罗拉的SCR系列步话机在战场上屡建功勋,向全世界展示了无线通话的神奇魅力,也激起了人们将其应用于民用市场的渴望。

SCR-300

战争结束后,1946年,美国AT&T公司将无线收发机与公共交换电话网(PSTN)相连,正式推出了面向民用的MTS(Mobile Telephone Service)移动电话服务。

在MTS中,如果用户想要拨打电话,必须先手动搜索一个未使用的无线频道,然后先与运营商接线员进行通话,请求对方通过PSTN网络进行二次接续。

整个通话采用半双工的方式,也就是说,同一时间只能有一方说话。说话时,用户必须按下电话上的“push-to-talk(按下通话)”开关。

MTS的计费方式也十分原始。接线员会全程旁听双方之间的通话,并在通话结束后手动计算费用,确认账单。

尽管MTS现在看来非常另类,但它确实是有史以来人类第一套商用移动电话系统

等等!不是说移动电话发明于70年代嘛?怎么40年代就有了?

大家别慌,MTS所指的Mobile Telephone(移动电话),并不是手机,而是Mobile Vehicle Telephone(移动车载电话)。更准确来说,是车载半双工手动对讲机。

MTS系统(1946年)

以当时的电子技术和电池技术,是不可能发明出手机的。能造出车载电话,就已经非常不错了。

汽车后备箱里庞大的信号收发装置

当时的“基站”也非常庞大,有点像广播电视塔,一座城市只有一个,位于市中心,覆盖方圆40公里,功率极高。

1947年12月,贝尔实验室的研究人员Douglas H. Ring(道格拉斯·H·瑞因),率先提出了“cellular(蜂窝)”的构想。

他认为,与其一味地提升信号发射功率,不如限制信号传输的范围,将信号控制在一个有限的区域(小区)内。

这样一来,不同的小区可以使用相同的频率,互不影响,提升系统容量。

道格拉斯当时的论文,标题为“移动电话——广域覆盖”

蜂窝通信的设想虽然很好,但是,同样受限于当时的电子技术(尤其是切换技术),无法实现。贝尔实验室只能将其束之高阁。

到了50年代,陆续有更多的国家开始建设车载电话网络。例如,1952年,西德(联邦德国)推出的A-Netz。

1961年,苏联工程师列昂尼德·库普里亚诺维奇(Leonid Kupriyanovich)发明了ЛК-1型移动电话,同样是安装在汽车上使用的。后来,苏联推出了Altai汽车电话系统,覆盖了本国30多个城市。

列昂尼德和他的ЛК-1型便携移动电话

1969年,美国推出了改进型的MTS车载电话系统,称为IMTS(improved MTS)

IMTS支持全双工、自动拨号和自动频道搜索,可以提供了11个频道(后来为12个),相比MTS有了质的飞跃。

IMTS移动电话(摩托罗拉)

1971年,芬兰推出了公共移动电话网络ARP(Auto Radio Puhelin,puhelin是芬兰语电话的意思),工作在150MHz频段,仍然是手动切换,主要为汽车电话服务。

不管是Altai,还是IMTS或ARP,后来都被称为“0G”或“Pre-1G(准1G)”移动通信技术。


 1G

进入70年代后,随着半导体工艺的发展,手机的诞生条件终于成熟。

1973年,摩托罗拉的工程师马丁·库珀(Martin Cooper)和约翰·米切尔(John F.Mitchell)终于书写了历史,发明了世界上第一款真正意义上的手机(手持式个人移动电话)。

马丁·库珀(右)和约翰·米切尔(左)

这款手机被命名为DynaTAC(Dynamic Adaptive Total Area Coverage),高度22cm,重量1.28kg,可以持续通话20分钟,拥有一根醒目的天线。

第一代DynaTAC

1974年,美国联邦通信委员会(FCC)批准了部分无线电频谱,用于蜂窝网络的试验。然而,试验一直拖到1977年才正式开始。

当时参与试验的,是AT&T和摩托罗拉这两个死对头。

AT&T在1964年被美国国会“剥夺”了卫星通信商业使用权。无奈之下,他们在贝尔实验室组建了移动通信部门,寻找新的机会。

1964–1974年期间,贝尔实验室开发了一种叫作HCMTS(大容量移动式电话系统)的模拟系统。该系统的信令和话音信道均采用30kHz带宽的FM调制,信令速率为10kbps。

由于当时并没有无线移动系统的标准化组织,AT&T公司就给HCMTS制定了自己的标准。后来,电子工业协会(EIA)将这个系统命名为暂定标准3(Interim Standard 3,IS-3)。

1976年,HCMTS换了一个新名字——AMPS(Advanced Mobile Phone Service,先进移动电话服务)。

AT&T就是采用AMPS技术,在芝加哥和纽瓦克进行FCC的试验。

再来看看摩托罗拉。

在早期的时候,摩托罗拉搞了一个RCCs(无线电公共载波)技术,赚了不少钱。所以,他们一直极力反对FCC给蜂窝通信发放频谱,以免影响自己的RCCs市场。但与此同时,他们也在拼命研发蜂窝通信技术,进行技术储备。这才有了前面DynaTAC的诞生。

FCC发放频谱后,摩托罗拉基于DynaTAC,在华盛顿进行试验。

就在他们还在慢悠悠地进行试验的时候,别的国家已经捷足先登了。

1979年,日本电报电话公司(Nippon Telegraph and Telephone,NTT)在东京大都会地区推出了世界首个商用自动化蜂窝通信系统。这个系统后来被认为是全球第一个1G商用网络。

当时,系统拥有88个基站,支持不同小区站点之间的全自动呼叫切换,不需要人工干预。

系统采用FDMA技术,信道带宽25KHz,处于800MHz频段,双工信道总数为600个。

两年后,1981年,北欧国家挪威和瑞典建立了欧洲的首个1G移动网络——NMT( Nordic Mobile Telephones,北欧移动电话)。不久后,丹麦和芬兰也加入了他们。NMT成为全球第一个具有国际漫游功能的移动电话网络。

再后来,沙特阿拉伯、俄罗斯和其它一些波罗的海和亚洲国家也引入了NMT。


NMT电话(爱立信制造)

1983年,后知后觉的美国终于想起来要搞自己的1G商用网络。    

1983年9月,摩托罗拉发布了全球第一部商用手机——DynaTAC 8000X,重量1kg,可以持续通话30分钟,充满电需要10小时,售价却高达3995美元。

DynaTAC 8000X

1983年10月13日,Americitech移动通信公司(来自AT&T)基于AMPS技术,在芝加哥推出了全美第一张1G网络。

当时的第一个用户,Dave Meilhan

这张网络既可以使用车载电话,也可以使用DynaTAC 8000X。

FCC在800MHz频段为AMPS分配了40MHz带宽。借助这些带宽,AMPS承载了666个双工信道,单个上行或下行信道的带宽为30KHz。后来,FCC又追加分配了10MHz带宽。因此,AMPS的双工信道总数变为832个。

商用第一年,Americitech卖出了大约1200部DynaTAC 8000X手机,累积了20万用户。五年后,用户数变成200万。

迅猛增长的用户数量远远超过了AMPS网络的承受能力。后来,为了提升容量,摩托罗拉推出的窄带版AMPS技术,即NAMPS。它将现有的30KHz语音信道分成三个10KHz信道(信道总数变成2496个),以此节约频谱,扩充容量。

除了NMT和AMPS之外,另一个被广泛应用的1G标准是TACS(Total Access Communication Systems),首发于英国。

1983年2月,英国政府宣布,BT(英国电信)和Racal Millicom(沃达丰的前身)这两家公司将以AMPS技术为基础,建设TACS移动通信网络。

1985年1月1日,沃达丰正式推出TACS服务(从爱立信买的设备),当时只有10个基站,覆盖整个伦敦地区。

TACS的单个信道带宽是25KHz,上行使用890-905MHz,下行935-950MHz,一共有600个信道用于传输语音和控制信号。

TACS系统主要是由摩托罗拉开发出来的,实际上是AMPS系统的修改版本。两者之间除了频段、频道间隔、频偏和信令速率不同,其它完全一致。

和北欧的NMT相比,TACS的性能特点有明显的区别。NMT适合北欧国家(斯堪的纳维亚半岛)人口稀少的农村环境,采用的是450MHz(后来改成800MHz)的频率,小区范围更大,

而TACS的优势是容量,而非覆盖距离。TACS系统发射机功率较小,适合英国这样人口密度高、城市面积大的国家。

随着用户数量的增加,后来TACS补充了一些频段(10MHz),变成ETACS(Extended TACS)。日本NTT在TACS基础上,搞出了JTACS。

值得一提的是,1987年中国在广州建设的第一个移动通信基站,采用的就是TACS技术,合作厂商是摩托罗拉。

中国第一个基站(广州)

除了AMPS,TACS和NMT之外,1G技术还包括德国的C-Netz、法国的Radiocom 2000和意大利的RTMI等。这些百花齐放的技术,宣告了移动通信时代的到来。(事实上,当时并没有1G这样的叫法,只是2G技术出现后,才把它们称为1G,以作区分。)


2G

1982年,欧洲邮电管理委员会成立了“移动专家组”,专门负责通信标准的研究。

这个“移动专家组”,法语缩写是GroupeSpécialMobile,后来这一缩写的含义被改为“全球移动通信系统”(Global System for Mobile communications),也就是大名鼎鼎的GSM。

GSM的成立宗旨,是要建立一个新的泛欧标准,开发泛欧公共陆地移动通信系统。他们提出了高效利用频谱、低成本系统、手持终端和全球漫游等要求。

随后几年,欧洲电信标准组织(ETSI)完成了GSM 900MHz和1800MHz(DCS)的规范制定。

1991年,芬兰的Radiolinja公司(现为ELISA Oyj的一部分)在GSM标准的基础上,推出了全球首个2G网络。

众所周知,2G采用数字技术取代1G的模拟技术,通话质量和系统稳定性大幅提升,更加安全可靠,设备能耗也大幅下降。

除了GSM之外,另一个广为人知的2G标准就是美国高通公司推出的CDMA。准确来说,是IS-95或cdmaOne。

IS-95有两个版本,分别是IS-95A和IS-95B。前者可以支持高达14.4kbps的峰值数据速率,而后者则达到115kbps。

除了IS-95之外,美国还搞出过IS-54(North America TDMA Digital Cellular)和IS-136(1996年)。

其实,2G并不是只有GSM和CDMA。

美国蜂窝电话工业协会(Cellular Telephone Industries Association)基于AMPS技术搞出了一个数字版的AMPS,叫做D-AMPS(Digit-AMPS),其实也算是2G标准。1990年,日本推出的PDC(Personal Digital Cellular),也属于2G标准。


2.5G

20世纪末,随着互联网的大爆发,人们对移动上网提出了强烈的需求。于是,GPRS(General Packet Radio Service,通用分组无线业务)开始出现。

我们可以把GPRS看作是GSM的一个“插件”。在GPRS的帮助下,网络可以提供最高114Kbps的数据业务速率。

GPRS最早在1993年提出,1997年出台了第一阶段的协议。它的出现,是蜂窝通信历史的一个转折点。因为它意味着数据业务开始崛起,成为移动通信的主要发展方向。


2.75G

GPRS技术推出之后,电信运营商还搞出了速率更快的技术,名字叫做Enhanced Data-rates for GSM Evolution(GSM演进的增强速率),也就是很多人可能比较熟悉的EDGE。

手机信号边上经常看到的E,就是EDGE

EDGE最大的特点就是在不替换设备的情况下,可以提供两倍于GPRS的数据业务速率。因为得到了部分运营商的青睐。世界上首个EDGE网络,是美国AT&T公司于2003年在自家GSM网络上部署的。


3G

1996年,欧洲成立UMTS(Universal Mobile Telecommunications System,通用移动通信系统)论坛,专注于协调欧洲3G的标准研究。以诺基亚、爱立信、阿尔卡特为代表的欧洲阵营,清楚地认识到CDMA的优势,于是,开发出了原理相类似的W-CDMA系统。

之所以叫做W-CDMA(Wide-CDMA),是因为它的信道带宽达到5MHz,比CDMA2000的1.25MHz更宽。

很多人搞不清楚UMTS和WCDMA的关系。其实,UMTS是欧洲那边对3G的统称。WCDMA是UMTS的一种实现,一般特指无线接口部分。待会我们提到的TD-SCDMA,也属于UMTS。

为了能够和美国抗衡,欧洲ETSI还联合日本、中国等共同成立了3GPP组织(3rd Generation Partnership Project,第三代合作伙伴计划),合作制定全球第三代移动通信标准。

反观北美阵营这边,内部意见存在分歧。

以朗讯、北电为代表的企业,支持WCDMA和3GPP。而以高通为代表的另一部分势力,联合韩国,组成了3GPP2组织,与3GPP抗衡。他们推出的标准,是基于CDMA 1X(IS-95)发展起来的CDMA2000标准。

CDMA2000虽然是3G标准,但一开始的峰值速率并不高,只有153kbps。后来,通过演进到EVDO(EVolution Data Optimized),数据速率有了明显的提升,可以提供高达14.7Mbps的峰值下载速度和5.4Mbps的峰值上传速度。

中国在这一时期,也推出了自己的3G标准候选方案(也就是大家熟知的TD-SCDMA),共同参与国际竞争。

经过激烈的角逐和博弈,最终,ITU国际电信联盟确认了全球3G的三大标准,分别是欧洲主导的WCDMA,美国主导的CDMA2000,还有中国的TD-SCDMA。

在3G商用进度方面,走在前面的又是日本NTT。

1998年10月1日,NTT Docomo在日本推出了世界上第一张商用3G网络(基于WCDMA)。


3.75G

在UMTS的基础上,ETSI和3GPP又开发出了HSPA(High Speed Packet Access,高速分组接入)、HSPA+、dual-carrier HSPA+(双载波HSPA+), 以及HSPA+ Evolution(演进型HSPA+)。这些网络技术的速率明显超过传统3G,人们将其称为3.75G。

正因为HSPA+的速率很快,甚至超过了早期的LTE和WiMAX。所以,当时有一些运营商(例如美国T-Mobile),没有立刻启动LTE的建设,而是将现有的HSPA网络升级为HSPA+。我们国家的中国联通,当时也有类似的想法。


4G&5G

1999年,IEEE标准委员会成立了一个工作组,专门制定无线城域网标准。2001年,IEEE 802.16的第一个版本正式发布,后来发展为IEEE 802.16m。

IEEE 802.16,也就是后来广为人知的WiMAX(全球微波互联接入)。

WiMAX引入了MIMO(多天线)、OFDM(正交频分复用)等先进技术,下载速率得到极大提升,给3GPP带来了很大的压力。

于是,3GPP在UMTS的基础上,加紧推出了LTE(同样引入了MIMO和OFDM),与WiMAX进行竞争。后来,又持续演进出了LTE-Advanced(2009年),速率有了数倍的提升。

2008年,ITU国际电信联盟发布了4G标准应该遵循的要求,并将之命名为IMT-Advanced。真正符合要求的,只有3GPP的LTE-Advanced,IEEE的802.16m,以及中国工信部提交的TD-LTE-Advanced。也就是说,它们是真正的4G标准。

2009年12月14日,全球首个面向公众的LTE服务网络(以4G的名义),在瑞典首都斯德哥尔摩和挪威首都奥斯陆开通。网络设备分别来自爱立信和华为,而用户终端则来自三星。

经过激烈的产业大战,LTE最终战胜WiMAX,获得全球范围的拥护和认可。WiMAX迅速失势,被打入冷宫。(大家有兴趣的话,可以看看这篇文章:WiMAX的坑爹史)

再往后,3GPP推出5G(IMT-2020),一统天下。这里面的故事,就不用我多说什么了吧?我们每个人,都是新历史的见证者。

时光荏苒,岁月蹉跎。历经将近一个世纪的发展,移动通信网络从无到有,从弱到强。它推动了历史的车轮,也加速了社会的变迁。

未来的移动通信将何去何从,让我们拭目以待!


]]>
专栏 //www.xyschoolife.com/category/zhuanlan/psUFIA3BATwlorWW.html#comments Thu, 25 Feb 2021 18:33:00 +0800
芯片自主可控深度解析 //www.xyschoolife.com/category/zhuanlan/d08aiK9Iyw8TkD5r.html

转载自丨SiP系统级封装技术

作者丨Suny Li


首先,什么叫自主可控,最直观的理解就是当别人“卡脖子”的时候不会被卡住。集成电路产业通常被分为芯片设计、芯片制造、封装测试三大领域,参看下图:

我们逐一进行分析,芯片设计主要从EDA、IP、设计三个方面来分析;芯片制造主要从设备、工艺和材料三个方面来分析;封装测试则从封装设计、产品封装和芯片测试几方面来分析。


芯 片 设 计

如何开始一款芯片设计呢?

首先要有工具(EDA),然后借助现有的资源(IP),加上自己的构思和规划就可以开始芯片设计了。

这里,我们就从芯片设计工具EDA,知识产权IP,以及集成电路的设计流程来分析芯片设计。

1.1 EDA

EDA(Electronic Design Automation)电子设计自动化,常指代用于电子设计的软件。

曾经有人跟我说:“EDA有啥呀,不就是个工具嘛?”是啊,确实就是个工具,可是没这个工具,你啥也设计不了啊!

现在的大规模集成电路在芝麻粒大小的1平方毫米内可以集成1亿只以上的晶体管,这些晶体管之间的连接网络更是多达数亿个。当今主流的SoC芯片,其晶体管数量已经超过百亿量级。如果没有精准的,功能强大的EDA工具,怎么设计呢?

EDA是芯片设计的必备工具,目前,Synopsys、Cadence和Mentor(Siemens EDA)占据着超过90%以上的市场份额。在10纳米以下的高端芯片设计上,其占有率甚至高达100%。也就是说,现在研发一款10nm以下的芯片,没有以上三家的EDA工具几乎是不可能实现的。

下表所示是目前芯片设计中主流的EDA工具:

芯片设计分为设计、仿真、验证等环节,对应的EDA工具分为设计工具、仿真工具、验证工具等。

设计工具解决的是模型的构建,也就是从0到1(从无到有)的问题,仿真和验证工具解决模型的确认,也就是1是1还是0.9或者1.1的问题。因此,从EDA开发的角度,设计工具的开发难度更大。

此外,设计规模越大,工艺节点要求越高,EDA工具的开发难度也越大。

国产EDA工具目前在一些仿真验证点工具上取得一些成绩,在模拟电路设计方面也初步具备了全流程工具,但在大规模集成电路设计上和三大厂商还有很大的差距,尤其在高端数字芯片设计流程上基本还是空白。

1.2 IP

IP(Intelligent Property)代表着知识产权的意思,在业界是指一种事先定义、经过验证的、可以重复使用,能完成特定功能的模块,IP是构成大规模集成电路的基础单元,SoC甚至可以说是基于IP核的复用技术。

IP一般分为硬核、软核和固核。IP硬核一般已经映射到特定工艺,经过芯片制造验证,具有面积和性能可预测的特点,但灵活性较小;

IP软核以HDL形式提交,灵活性强,但性能方面具有不可预测性;

IP固核通过布局布线或利用通用工艺库,对性能和面积进行了优化,比硬核灵活,比软核在性能和面积上更可预测,是硬核和软核的折中。

下表为目前全球前10大IP提供商,可以看到中国有两家入围前十,但是两家市场份额加起来也仅有3%,而ARM一家就占据了40%以上的市场份额,美国的企业则占据了30%的市场份额,如果ARM被英伟达收购,基本上IP市场就是美国的天下了。此外我们也发现,全球最大的两家EDA公司Synopsys和Cadence,在IP领域也同样占据的第二、第三的位置。

下图所示为IP的种类,其中处理器占51%,接口IP占22.1%,数字类占8.1%,其他占18.8%,处理器类ARM一家独大,在接口类IP中,Synopsys是业界领导者。

我们需要考虑的是,在设计的芯片中那些IP是自主设计的,那些是外购的,这些外购的IP是否存在不可控因素?如果你设计的SoC仅仅是把别人的IP打包整合,那自主可控性就要大打折扣了。

下面,我们以华为麒麟980为例,了解一下芯片研发中的IP使用情况。

麒麟980芯片集成的主要部件有CPU、GPU(俗称显卡)、ISP(处理拍照数据)、NPU(人工智能引擎)和基带(负责通信)。

根据华为官方资料,ISP是华为自研,NPU是华为和寒武纪合作的成果,至于CPU(Cortex-A76)和GPU(Mali-G76)则是华为向ARM公司购买的授权,包括指令集授权和内核授权。

如果没有IP授权,还有没有可能自研麒麟980芯片,目前看来,没有 。

1.3 设计流程

芯片设计流程通常可分为:数字IC设计流程和模拟IC设计流程。

数字IC设计流程:芯片定义 → 逻辑设计 → 逻辑综合 → 物理设计 → 物理验证 → 版图交付。

芯片定义(Specification)是指根据需求制定芯片的功能和性能指标,完成设计规格文档。

逻辑设计(Logic Design)是指基于硬件描述语言在RTL(Register-Transfer Level)级实现逻辑设计,并通过逻辑验证或者形式验证等验证功能正确。

逻辑综合(Logic Synthesis)是指将RTL转换成特定目标的门级网表,并优化网表延时、面积和功耗。

物理设计(Physical Design)是指将门级网表根据约束布局、布线并最终生成版图的过程,其中又包含:数据导入 → 布局规划 → 单元布局 → 时钟树综合 → 布线。

  • 数据导入是指导入综合后的网表和时序约束的脚本文件,以及代工厂提供的库文件。

  • 布局规划是指在芯片上规划输入/输出单元,宏单元及其他主要模块位置的过程。

  • 单元布局是根据网表和时序约束自动放置标准单元的过程。

  • 时钟树综合是指插入时钟缓冲器,生成时钟网络,最小化时钟延迟和偏差的过程。

  • 布线是指在满足布线层数限制,线宽、线间距等约束条件下,根据电路关系自动连接各个单元的过程。

物理验证(Physical Verificaiton)通常包括版图设计规则检查(DRC),版图原理图一致性检查(LVS)和电气规则检查(ERC)等。

版图交付(Tape Out)是在所有检查和验证都正确无误的前提下,传递版图文件给代工厂生成掩膜图形,并生产芯片。

模拟IC设计流程:芯片定义 → 电路设计 → 版图设计 → 版图验证 → 版图交付。

其中芯片定义和版图交付和数字电路相同,模拟IC在电路设计、版图设计、版图验证和数字电路有所不同。

模拟电路设计是指根据系统需求,设计晶体管级的模拟电路结构,并采用SPICE等仿真工具验证电路的功能和性能。

模拟版图设计是按照设计规则,绘制电路图对应的版图几何图形,并仿真版图的功能和性能。

模拟版图验证是验证版图的工艺规则、电气规则以及版图电路图一致性检查等。

这里,我们做一个简单的总结:

芯片设计:就是在EDA工具的支持下,通过购买IP授权+自主研发(合作开发)的IP,并遵循严格的集成电路设计仿真验证流程,完成芯片设计的整个过程。在这个过程中,EDA、IP、严格的设计流程三者缺一不可。

目前看来,在这三要素中最先可能实现自主可控的就是设计流程了。

下表列出了当前世界前10的芯片设计公司,供大家参考。

 

芯 片 制 造

芯片制造目前是集成电路产业门槛最高的行业,怎么看待门槛的高低呢,投资越高、玩家越少就表明门槛越高,目前在高端芯片的制造上也仅剩下台积电(TSMC)、三星(SAMSUNG)和英特尔(Intel)三家了。下面,我们分别从设备、工艺和材料三个方面来分析芯片制造,寻找我们和先进制造技术的差距。

2.1 设备

芯片制造需要经过两千多道工艺制程才能完成,每个步骤都要依赖特定设备才能实现。

芯片制造中,有三大关键工序:光刻、刻蚀、沉积。三大工序在生产过程中不断重复循环,最终制造出合格的芯片。

三大关键工序要用到三种关键设备,分别是光刻机、刻蚀机、薄膜沉积设备。三大设备占所有设备投入的22%、22%、20%左右,是三种占比最高的半导体设备。

下面就以最为典型的光刻机和刻蚀机为例进行介绍并分析自主可控。

1)光刻机

光刻机的原理其实像幻灯机一样,就是把光通过带电路图的掩膜(也叫光罩)Mask投影到涂有光刻胶的晶圆上。60年代末,日本尼康和佳能开始进入这个领域,当时的光刻机并不比照相机复杂多少。

为了实现摩尔定律,光刻技术需要每两年把曝光关键尺寸(CD)降低30%-50%。需要不断降低光刻机的波长λ。然而,波长被卡在193nm无法进步长达20年。后来通过工程上最简单的方法解决,在晶圆光刻胶上方加1mm厚的水,把193nm的波长折射成134nm,称为浸入式光刻。

浸入式光刻成功翻越了157nm大关,加上后来不断改进的镜头、多光罩、Pitch-split、波段灵敏光刻胶等技术,浸入式193nm光刻机一直可以做到今天的7nm芯片(苹果A12和华为麒麟980)。

2)EVU光刻机

EUV极紫外光刻(Extreme Ultra-Violet)是一种使用极紫外(EUV)波长的新一代光刻技术,其波长为13.5纳米。由于光刻精度是几纳米,EUV对光的集中度要求极高,相当于拿个手电照到月球光斑不超过一枚硬币。反射的镜子要求长30cm起伏不到0.3nm,相当于北京到上海的铁轨起伏不超过1毫米。一台EUV光刻机重达180吨,超过10万个零件,需要40个集装箱运输,安装调试要超过一年时间。

2000年时,日本尼康还是光刻机领域的老大,到了2009年ASML已经遥遥领先,市场占有率近7成。目前,最先进的光刻机也只有ASML一家可以提供了。

国内的情况,上海微电子(SMEE)已经有分辨率为90nm的光刻机,新的光刻机也在研制中。

在集成电路制造中,光刻只是其中的一个环节,另外还有无数先进科技用于前后道工艺中。

3)刻蚀机

刻蚀是将晶圆表面不必要的材质去除的过程。刻蚀工艺位于光刻之后。

光刻机用光将掩膜上的电路结构复制到硅片上,刻蚀机把复制到硅片上的电路结构进行微雕,雕刻出沟槽和接触点,让线路能够放进去。

按照刻蚀工艺分为干法刻蚀以及湿法刻蚀,干法刻蚀主要利用反应气体与等离子体进行刻蚀,湿法刻蚀工艺主要是将刻蚀材料浸泡在腐蚀液内进行刻蚀。

干法刻蚀在半导体刻蚀中占据主流,市场占比达到95%,其最大优势在于能够实现各向异性刻蚀,即刻蚀时可控制仅垂直方向的材料被刻蚀,而不影响横向材料,从而保证细小图形保真性。湿法刻蚀由于刻蚀方向的不可控性,在先进制程很容易降低线宽,甚至破坏线路本身,导致芯片品质变差。

目前普遍采用多重模板工艺原理,即通过多次沉积、刻蚀工艺实现需要的特征尺寸,例如14nm制程所需使用的刻蚀步骤达到64次,较 28nm提升60%;7nm制程所需刻蚀步骤更是高达140次,较14nm提升118%。

下图所示为多次刻蚀原理。

和光刻机一样,刻蚀机的厂商也相对较少,代表企业主要是美国的 Lam Research(泛林半导体)、AMAT(应用材料)、日本的TEL(东京电子)等企业。这三家企业占据全球半导体刻蚀机的94%的市场份额,而其他参与者合计仅占6%。其中,Lam Research 占比高达55%,为行业龙头,东京电子与应用材料分别占比20%和19%。

国内的情况,目前刻蚀设备代表公司为中微公司、北方华创等。中微公司较为领先,工艺节点已经达到5nm。在全球前十大晶圆企业中,中微公司已经进入其中六家,作为台积电的合作伙伴协同验证14nm/7nm/5nm等先进工艺。

基于此,如果目前在光刻机领域我们还无力做出改变,那么已经有一定优势的刻蚀机势必会成为国产替代的先锋。

2.2 工艺制程

芯片制造过程需要两千多道工艺制程,下面,我们按照8大步骤对芯片制造工艺进行简单介绍。

1.)光刻(光学显影)

光刻是经过曝光和显影程序,把光罩上的图形转换到光刻胶下面的晶圆上。光刻主要包含感光胶涂布、烘烤、光罩对准、 曝光和显影等程序。曝光方式包括:紫外线、极紫外光、X射线、电子束等。

2.)刻蚀(蚀刻)

刻蚀是将材料使用化学反应或物理撞击作用而移除的技术。干刻蚀(dry etching)利用等离子体撞击晶片表面所产生的物理作用,或等离子体与晶片表面原子间的化学反应,或者两者的复合作用。湿刻蚀(wet etching)使用的是化学溶液,经过化学反应达到刻蚀的目的。

3)化学气相沉积(CVD)

CVD利用热能、放电或紫外光照射等化学反应的方式,将反应物在晶圆表面沉积形成稳定固态薄膜(film)的一种沉积技术。CVD技术在芯片制程中运用极为广泛,如介电材料(dielectrics)、导体或半导体等材料都能用CVD技术完成。

4)物理气相沉积(PVD)

PVD是物理制程而非化学制程,一般使用氩等气体,在真空中将氩离子加速以撞击溅镀靶材后,可将靶材原子一个个溅击出来,并使被溅击出来的材质如雪片般沉积在晶圆表面。

5)离子植入(Ion Implant)

离子植入可将掺杂物以离子型态植入半导体组件的特定区域上,以获得精确的电特性。离子先被加速至足够能量与速度,以穿透(植入)薄膜,到达预定的植入深度。离子植入可对植入区内的掺质浓度加以精密控制。

6)化学机械研磨(CMP)

化学机械研磨技术具有研磨性物质的机械式研磨与酸碱溶液的化学式研磨两种作用,可以使晶圆表面达到全面性的平坦化,以利后续薄膜沉积。

7)清洗

清洗的目的是去除金属杂质、有机物污染、微尘与自然氧化物;降低表面粗糙度;几乎所有制程前后都需要清洗。

8)晶片切割(Die Saw)

晶片切割是将加工完成的晶圆上一颗颗晶粒裸芯片(die)切割分离,便于后续封装测试。


虽然不同的Foundry厂的流程大致相同,但不同的工艺控制能力造就了各厂家在先进制程上的区别,随着制程进入5nm,能够量产的芯片制造商就屈指可数了,目前能够量产5nm芯片的只有TSMC和SAMSUNG。

两千多道工艺制程中隐藏着Foundry的无穷的智慧和雄厚的财力,并不是说有了先进的设备,就能造出合格的芯片。

虽然先进制程是技术发展的方向,我们也不能忽视成熟制程。成熟制程依然有很大市场份额。下图是按成熟制程(节点≥40nm)产能排序的全球晶圆代工厂商Top榜单。

可以看出,成熟制程产能排名前四的厂商分别为:台积电(市占率28%),联电(13%),中芯国际(11%),三星(10%)。成熟制程在2020年非常火爆,产能严重短缺,这给各大晶圆代工厂带来了巨大的商机。而从2021年的产业发展形势来看,这种短缺状况在近期内还难以缓解。

2.3 材料

生产集成电路的材料有成千上万种,我们就以最为典型的硅晶圆和光刻胶进行分析。

1)硅晶圆

硅晶圆是集成电路行业的粮食,是最主要最基础的集成电路材料,90%以上的芯片在硅晶圆上制造,目前300mm硅晶圆是芯片制造的主流材料,使用比例超过70%。曾经,我国300mm半导体硅片100%依赖进口,是我国集成电路产业链建设与发展的主要瓶颈。

全球主要的半导体硅晶圆供应商包括日本信越化学(Shin-Estu)、日本盛高(SUMCO)、德国Siltronic、韩国SK Siltron以及中国台湾的环球晶圆、合晶科技等公司。五大晶圆供货商的全球市占率达到了92%,其中日本信越化学占27%,日本盛高占26%,台湾环球晶圆占17%,德国Silitronic占13%,韩国SK Siltron占9%。

下表列出了全球10大硅晶圆提供商,供参考。

国内的情况,中国大陆半导体硅晶圆销售额年均复合增长率达到41.17%,远高于同期全球半导体硅片市场的25.75%。但这块市场并没有掌握在本土厂商手中,在打造国产化产业链的今天,还有很大的空间供国内晶圆制造商去发展。

2)光刻胶

光刻胶是光刻过程最重要的耗材,光刻胶的质量对光刻工艺有着重要影响。光刻胶可分为半导体光刻胶、面板光刻胶和PCB光刻胶。其中,半导体光刻胶的技术壁垒最高。

目前全球光刻胶主要企业有日本合成橡胶(JSR)、东京应化(TOK)、信越化学(ShinEtsu)、富士电子(FUJI)、美国罗门哈斯(Rohm&Hass)等,市场集中度非常高,所占市场份额超过85%。

下图显示的是光刻胶企业的市场占有率。

高分辨率的半导体光刻胶是半导体化学品中技术壁垒最高的材料,日美企业技术领先国内企业二十年至三十年。从光刻胶技术水平来看,国内企业在缺乏经验、缺乏专业技术人才、缺失关键上游原材料和设备的条件下,探索出一条自主研发之路,光刻胶高端技术短期内尚难突破,还要很长的路要走。在PCB领域,国产光刻胶具备了一定的量产能力,已经实现对主流厂商供货。


封 装 测 试

封装测试是集成电路三大产业中的最后一个环节。一般认为封装测试的技术含量和实现难度比前两者低,但是随着SiP及先进封装技术的出现和迅速发展,需要重新定义芯片的封装和测试。

SiP及先进封装在封装原来的三个特点:芯片保护、尺度放大、电气连接的基础上,增加了三个新特点:提升功能密度、缩短互联长度、进行系统重构,因此其复杂程度和实现难度与传统的封装相比有很大程度的提升。

同时,SiP及先进封装也给封装测试提出了新的机遇和挑战。

3.1 芯片封装

我们从封装设计和产品封装两方面来分析芯片封装。

1)封装设计

早先的封装中没有集成(Integration)的概念,封装设计是比较简单的,对工具要求也很低,Auto CAD就是常用的封装设计工具,随着MCM、SiP技术的出现,封装设计变得越来越复杂,加上目前SiP、先进封装、Chiplet、异构集成概念的市场接受度越来越高,封装内集成的复杂度和灵活度急剧上升,对封装设计的要求也越来越高。

SiP和先进封装设计工具目前只有Cadence和 Siemens EDA(Mentor)两家,Cadence是老牌的封装设计EDA提供商,市场占有率高,用户的忠诚度也比较高。

Siemens EDA(Mentor)是封装设计领域的后起之秀,但其技术先进性上则体现了“后浪”的特点。业界大佬TSMC, Intel, SAMSUNG纷纷选择Siemens EDA作为其先进封装(HDAP)的首选工具,主要在于两点:先进的设计工具和强悍的验证工具。

首先我们说说设计工具,在一次技术论坛中,我说:“不同于传统封装设计,先进封装和SiP设计对3D环境要求很高,3D设计环境不在于是否看上去很直观、绚丽,而在于对客观元素的精准描述,包括键合线、腔体、芯片堆叠、硅转接板、2.5D集成、3D集成,Bump...”

在这一点上,Siemens EDA的SiP及先进封装设计工具已经远远将其竞争对手抛在身后。下图为先进封装版图设计工具XPD中的封装设计3D截图,4组芯片堆叠中,每组5颗芯片(4HBM+1Logic)以3D TSV连接在一起,和GPU一起集成在硅转接板(2.5D TSV)上,硅转接板和电阻、电容等一起集成在封装基板上。

XPD中的先进封装设计截图(3D)

该设计中包含了3D集成、2.5D集成、倒装焊、Bump、多基板集成等多种方式,在XPD设计环境中得到了精准的实现。

先进封装验证工具包括电气验证和物理验证,电气验证包含80多条规则,对整个系统进行信号完整性、电源完整性、EMI\EMC等电气相关的检查和验证,物理验证则是基于IC验证工具Calibre,整合出Calibre 3D STACK,专门用于3D先进封装的物理验证。

随着封装内的集成度、设计复杂度越来越高,对工具的要求也越来越高,另外,在先进封装领域,封装设计和芯片设计的协同度日益提高,在某种程度上有逐渐融合的趋势,因此对协同设计的要求也日益提升。

2)产品封装

根据材料和工艺不同,封装可以分为塑料封装、陶瓷封装和金属封装三种类型。

塑封主要基于有机基板,多应用于商业级产品,体积小、重量轻、价格便宜,具有大批量、低成本优势,但在芯片散热、稳定性、气密性方面相对较差。

陶瓷封装和金属封装则主要基于陶瓷基板,陶瓷封装一般采用HTCC基板,金属封装则多采用LTCC基板,对于大功耗产品,散热要求高,可选用氮化铝基板。

陶瓷封装特点包括:密封性好,散热性能良好,对极限温度的抵抗性好,容易拆解,便于问题分析;和金属封装相比体积相对小,适合大规模复杂芯片,适合航空航天等对气密性有要求的严苛环境应用;但价格昂贵,生产周期长,重量和体积都比同类塑封产品大。

金属封装特点包括:密封性好,散热性能良好,容易拆解,灵活性高;但体积相对较大,引脚数量较少,不适合复杂芯片,价格贵,生产周期长,需要组装金属外壳和基板,工序复杂,多应用于MCM设计,航空航天领域应用较为普遍。

陶瓷封装和金属封装内部均为空腔结构,具有可拆解的优势,便于故障查找和问题“归零”, 因此受到航空航天等领域用户的欢迎。

3.2 芯片测试

芯片测试的项目非常多,这里我们重点了解一下机台测试的系统测试。

1)机台测试

一般是指采用ATE(Automatic Test Equipment)自动测试设备来进行芯片测试,测试芯片的基本功能和相应的电参数。机台可以提供待测器件DUT(Device Under Test)所需的电源、不同周期和时序的波形、驱动电平等。

测试向量(Test Vector)是每个时钟周期应用于器件管脚的用于测试的逻辑1和逻辑0数据,是由带定时特性和电平特性的波形代表,与波形形状、脉冲宽度、脉冲边缘或斜率以及上升沿和下降沿的位置都有关系。

测试向量可基于EDA工具的仿真向量(包含输入信号和期望的输出),经过优化和转换,形成ATE格式的测试向量。利用EDA工具建立器件模型,通过建立一个Testbench仿真验证平台,对其提供测试激励,进行仿真,验证结果,将输入激励和输出响应存储,按照ATE向量格式,生成ATE向量文件。

2)系统测试

系统测试也称为板级系统测试,是指模拟芯片真实的工作环境,对芯片进行各种操作,确认其功能和性能是否正常。

除了机台测试和系统测试之外,还需要对芯片进行了一系列的试验和考核,内容包括:热冲击、温度循环、机械冲击、扫频震动、恒定加速度、键合强度、芯片剪切强度、稳态寿命、密封、内部水汽含量、耐湿气等试验。

只有所有的测试都顺利通过了,一颗芯片才能算成功,作为合格的产品应用到下一个环节。

4.自主可控总结

最后,结合下面表格,我们对自主可控作一个简单总结。

从表格可以看出,我们在IC设计流程、封装(SiP)设计,以及在产品封装、芯片测试环节的自主可控程度比较高;在刻蚀机、芯片工艺制程上有一定的自主可控性,而在EDA,IP,光刻机,硅晶元,光刻胶等环节自主可控的程度非常低,所以高端芯片很容易被“卡脖子”,因为高端芯片所用到的EDA,IP,光刻机,硅晶元,光刻胶几乎全部依赖进口。

自主可控相对较高的IC设计流程、封装(SiP)设计也几乎全部依赖进口的EDA工具,在产品封装和芯片测试环节,封装设备和测试设备大约80%以上是进口设备;工艺制程上高端芯片同样也无法自主生产。考虑到这些,不由得让我们无法盲目乐观,因为越往源头挖掘,自主可控的比例就越低。

当别人不卡脖子的时候,不要趾高气扬,似乎一切尽在掌控;当别人卡脖子的时候,不要突然发现,竟然全身上下都是脖子!


]]>
专栏 //www.xyschoolife.com/category/zhuanlan/d08aiK9Iyw8TkD5r.html#comments Thu, 25 Feb 2021 16:52:00 +0800
DevOps到底是什么意思? //www.xyschoolife.com/category/zhuanlan/tDWdq7ZKXlg5Avj8.html

转自丨鲜枣课堂

作者丨小枣君


提到DevOps这个词,我相信很多人一定不会陌生。

作为一个热门的概念,DevOps近年来频频出现在各大技术社区和媒体的文章中,备受行业大咖的追捧,也吸引了很多吃瓜群众的围观。

那么,DevOps是什么呢?
有人说它是一种方法,也有人说它是一种工具,还有人说它是一种思想。更有甚者,说它是一种哲学。

越说越玄乎,感觉都要封神啦!DevOps这玩意真的有那么夸张吗?它到底是干嘛用的?为什么行业里都会对它趋之如骛呢?

今天这篇文章,小枣君就和大家好好聊一聊这个DevOps。

DevOps的起源

这个故事有点长,从头开始讲起吧。

上个世纪40年代,世界上第一台计算机诞生。从诞生之日起,它就离不开程序(Program)的驱动。而负责编写程序的人,就被称为“程序员”(Programmer)。

程序员是计算机的驾驭者,也是极其稀缺的人才。那个时候,只有高学历、名校出身的人,才有资格成为程序员,操控计算机。

随着人类科技的不断发展,PC和Internet陆续问世,我们进入了全民拥抱信息化的时代。越来越多的企业开始将计算机作为办公用的工具,用以提升生产力。而普通个人用户也开始将计算机作为娱乐工具,用以改善生活品质。

于是,计算机的程序,开始变成了一门生意。程序,逐步演进为“软件(software)”,变成了最赚钱的产品之一。

在软件产业里,程序员有了更专业的称谓,叫做“软件开发工程师(Software Development Engineer)”,也就是我们常说的“码农”。

我们知道,一个软件从零开始到最终交付,大概包括以下几个阶段:规划、编码、构建、测试、发布、部署和维护。

最初,程序比较简单,工作量不大,程序员一个人可以完成所有阶段的工作。

随着软件产业的日益发展壮大,软件的规模也在逐渐变得庞大。软件的复杂度不断攀升。一个人已经hold不住了,就开始出现了精细化分工。

码农的队伍扩大,工种增加。除了软件开发工程师之外,又有了软件测试工程师软件运维工程师

分工之后,传统的软件开发流程是这样的:

软件开发人员花费数周和数月编写代码,然后将代码交给QA(质量保障)团队进行测试,然后将最终的发布版交给运维团队去布署。所有的这三个阶段,即开发,测试,布署。

早期所采用的软件交付模型,称之为“瀑布(Waterfall)模型”

瀑布模型,简而言之,就是等一个阶段所有工作完成之后,再进入下一个阶段。

这种模型适合条件比较理想化(用户需求非常明确、开发时间非常充足)的项目。大家按部就班,轮流执行自己的职责即可。

但是,项目不可能是单向运作的。客户也是有需求的。产品也是会有问题的,需要改进的。

随着时间推移,用户对系统的需求不断增加,与此同时,用户给的时间周期却越来越少。在这个情况下,大家发现,笨重迟缓的瀑布式开发已经不合时宜了。

于是,软件开发团队引入了一个新的概念,那就是大名鼎鼎的——“敏捷开发(Agile Development)”

敏捷开发在2000年左右开始被世人所关注,是一种能应对快速变化需求的软件开发能力。其实简单来说,就是把大项目变成小项目,把大时间点变成小时间点,然后这样:


敏捷开发

有两个词经常会伴随着DevOps出现,那就是CI和CD。CI是Continuous Integration(持续集成),而CD对应多个英文,Continuous Delivery(持续交付)或Continuous Deployment(持续部署)。

美其名曰:“持续(Continuous)”,其实就是“加速——反复——加速——反复……”,这样子。

画个图大家可能更明白一点:

敏捷开发大幅提高了开发团队的工作效率,让版本的更新速度变得更快。

很多人可能会觉得,“更新版本的速度快了,风险不是更大了吗?”

其实,事实并非如此。

敏捷开发可以帮助更快地发现问题,产品被更快地交付到用户手中,团队可以更快地得到用户的反馈,从而进行更快地响应。而且,DevOps小步快跑的形式带来的版本变化是比较小的,风险会更小(如下图所示)。即使出现问题,修复起来也会相对容易一些。

虽然敏捷开发大幅提升了软件开发的效率和版本更新的速度,但是它的效果仅限于开发环节。研发们发现,运维那边,依旧是铁板一块,成为了新的瓶颈。

运维工程师,和开发工程师有着完全不同的思维逻辑。运维团队的座右铭,很简单,就是“稳定压倒一切”。运维的核心诉求,就是不出问题。

什么情况下最容易出问题?发生改变的时候最容易出问题。所以说,运维非常排斥“改变”。

于是乎,矛盾就在两者之间集中爆发了。

这个时候,我们的DevOps,隆重登场了。

DevOps到底是什么    

DevOps这个词,其实就是Development和Operations两个词的组合。它的英文发音是 /de'vɒps/,类似于“迪沃普斯”。

DevOps的维基百科定义是这样的:

DevOps是一组过程、方法与系统的统称,用于促进开发、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

这个定位稍微有点抽象,但是并不难理解。反正它不是某一个特定软件、工具或平台的名字。

从目标来看,DevOps就是让开发人员和运维人员更好地沟通合作,通过自动化流程来使得软件整体过程更加快捷和可靠。

破墙工具


很多人可能觉得,所谓DevOps,不就是Dev+Ops嘛,把两个团队合并,或者将运维划归开发,不就完事了嘛,简单粗暴。

注意,这个观点是不对的。这也是DevOps这些年一直难以落地的主要原因。

想要将DevOps真正落地,首先第一点,是思维转变,也就是“洗脑”。不仅是运维的要洗,开发的也要洗。员工要洗,领导更要洗。

DevOps并不仅仅是组织架构变革,更是企业文化和思想观念的变革。如果不能改变观念,即使将员工放在一起,也不会产生火花。

除了洗脑之外,就是根据DevOps思想重新梳理全流程的规范和标准

在DevOps的流程下,运维人员会在项目开发期间就介入到开发过程中,了解开发人员使用的系统架构和技术路线,从而制定适当的运维方案。而开发人员也会在运维的初期参与到系统部署中,并提供系统部署的优化建议。

DevOps的实施,促进开发和运维人员的沟通,增进彼此的理(gan)解(qing)。

在思维和流程改变的同时,想要充分落地DevOps,当然离不开软件和平台的支持。

目前支持DevOps的软件实在是太多了。限于篇幅,就不一一介绍了。话说回来,现在DevOps之所以被吹得天花乱坠,也有这些软件和平台的功劳,可以趁机卖钱啊。

DevOps生态圈中令人眼花缭乱的工具

上述这些关键要素里面,技术(工具和平台)是最容易实现的,流程次之,思维转变反而最困难。

换言之,DevOps考验的不仅是一家企业的技术,更是管理水平和企业文化。

对比前面所说的瀑布式开发和敏捷开发,我们可以明显看出,DevOps贯穿了软件全生命周期,而不仅限于开发阶段。

下面这张图,更明显地说明了DevOps所处的位置,还有它的价值:


DevOps的发展现状

DevOps这个词来源于2009年在比利时根特市举办的首届DevOpsDays大会,为了在Twitter上更方便的传播,由DevOpsDays缩写为DevOps。

目前,DevOps处于高速增长的阶段。尤其是在大企业中,DevOps受到了广泛的欢迎。

根据2018年的调查发现,74%的受访者已经接受了DevOps,而前一年这一比例为66%。

越大的企业,越喜欢DevOps。包括Adobe、Amazon、Apple、Airbnb、Ebay、Etsy、Facebook、LinkedIn、Netflix、NASA、Starbucks、Walmart、Sony等公司,都在采用DevOps。

如今,DevOps几乎已经成为了软件工程的代名词。

DevOps迅猛发展,相关专业人才的薪资待遇也跟着水涨船高。

根据调研,DevOps工程师在美国的平均年薪为130000美金,在中国平均年薪也在40万-50万区间,能力强者年薪百万也是比比皆是。

数据来自招聘网站

薪资的猛涨,又带动了IT工程师们学习和认证的热潮。

DevOps的认证目前最受欢迎的就是EXIN DevOps Master和EXIN DevOps Professional。这些认证的培训费用不低,但是仍然吸引了很多人踊跃报名。

EXIN DevOps认证体系


DevOps与虚拟化、容器、微服务

这几年云计算技术突飞猛进,大家应该对虚拟化、容器、微服务这些概念并不陌生。当我们提到这些概念的时候,也会偶尔提及DevOps。

它们之间有什么联系呢?

其实很简单。

大家可以设想一下,如果要对一项工作进行精细化分工,我们是对一个大铁疙瘩进行加工方便?还是拆成一块一块进行加工更加方便?

显然是拆分之后会更加方便。

所谓“微服务”,就是将原来黑盒化的一个整体产品进行拆分(解耦),从一个提供多种服务的整体,拆成各自提供不同服务的多个个体。如下图所示:

单体式架构(Monolithic)→ 微服务架构(Microservices)

微服务架构下,不同的工程师可以对各自负责的模块进行处理,例如开发、测试、部署、迭代。
而虚拟化,其实就是一种敏捷的云计算服务。它从硬件上,将一个系统“划分”为多个系统,系统之间相互隔离,为微服务提供便利。
容器就更彻底了,不是划分为不同的操作系统,而是在操作系统上划分为不同的“运行环境”(Container),占用资源更少,部署速度更快。

明白了吧?虚拟化和容器,其实为DevOps提供了很好的前提条件。开发环境和部署环境都可以更好地隔离了,减小了相互之间的影响。

这也是DevOps为什么2009年时不火,现在越来越火的一个主要原因之一。


DevOps和通信

作为一名通信工程师,小枣君再说说DevOps和通信的关系。

最开始接触DevOps的时候,我和很多人一样,都以为这是一个纯IT的概念,和我们通信没有什么关系。

后来,随着对DevOps的深入了解,我才发现,这个理念和我们通信有密切的关系。甚至说,早在十多年我刚入行的时候,其实就已经遇到了DevOps所面对的问题。

那时候(2005年左右)的电信业,产品的稳定性和可靠性是压到一切的(其实现在也是)。所以,电信业的软件版本,更新速度非常慢。对朗讯、爱立信这样的传统巨头来说,通常大半年才出一个正式版本。这个版本经过重重把关、精雕细琢,所以非常稳定。

随着3G的兴起,全球运营商开始对网络进行更新换代。华为和中兴开始趁机切入国际运营商市场,试图从国际巨头那边分一杯羹。

除了价格之外,华为中兴最大的杀手锏是什么?就是响应速度。

那个时候,运营商客户对电信设备软硬件的需求非常多、非常频繁。像印度这样的地方,客户尤其难缠,每天都会提出新的需求。

当时几家海外设备商的响应速度是非常慢的,从不轻易同意接受需求。即使接受,也会答复半年甚至一年后实现。客户听了直接就崩溃了。

而华为和中兴则不同,两家公司的售前市场人员对于客户需求非常“大方”,基本上有求必应。(当时售后同事都会骂售前同事,可是仔细想来,不答应的话,根本没有进入市场的机会。)

当时华为和中兴的版本发布频率,快到什么程度呢?最快的时候,三天一个版本。甚至,长期都有大批研发人员驻扎在客户办公室,现场改版本,提交“热补丁”。

那时候是2006年,DevOps这个概念的影子都还没有。研发那边,好像也就是刚刚提出敏捷开发。在没有理论框架和工具平台的支持下,纯靠人力,实现了版本的飞速迭代。当然,这其中的代价和风险也是很高的。

不仅是开发人员很累很辛苦,项目里的工服(工程服务)工程师,也就是技术支持工程师,本文里面的运维工程师,更是苦不堪言。你想啊,以前几个月升一次级,现在几天就要升一次级,能不辛苦么?

但就是这样的辛苦付出,才硬生生从传统巨头嘴里抢下来市场份额,最终一步一步做大做强。

后来,才慢慢有了敏捷开发的概念,现在更是有了DevOps,各种工具啊平台啊都有了,给版本快速迭代提供了很好的条件。

对通信行业的运维来说,DevOps是机遇更是挑战。

就像前面说的容器、虚拟化。5G核心网采用的NFV虚拟化技术,让网元功能隔离,就大大降低了核心网工程师的操作风险和难度。这是一个积极的变化。但是,DevOps对运维工程师的能力要求,是大大提高了。。。

通信软件是IT软件的一个重要分支,和DevOps有很紧密的关系。建议通信工程师好好了解一下DevOps,升级一下自己的知识库,做好技能储备。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/tDWdq7ZKXlg5Avj8.html#comments Thu, 25 Feb 2021 16:49:00 +0800
赚了20亿美元GandCrab的兴衰史 //www.xyschoolife.com/category/zhuanlan/ht6dC7vHVQ0K8q98.html

文章源自:微信公众号CyberThreatAnalyst

原创作者:pandazhengzheng

原文链接:https://mp.weixin.qq.com/s/DlPaBxIDN0G_xc4o_1SFKw

轻轻的我走了,正如我轻(高)轻(调)的来。挥一挥衣袖,捎带走20亿美元。

GandCrab,这款2018年最流行的勒索病毒,现在终于宣告退场......它的故事完了,钱赚够了、准备撤了,留下最后一波被勒索的人们,独自在风中凌乱。

2019年6月,GandCrab勒索病毒团队相关论坛发表俄语官方声明,将在一个月内关闭其RaaS(勒索软件即服务)业务。详情如图:

翻译之后,大概意思就是:

“在与我们合作的那一年里,人们已经赚了20多亿美元,我们已经成为地下市场中勒索软件制造方向的代表者。 我们每周的收入平均为250万美元。我们每人每年赚得超过1.5亿美元。我们成功兑现了这笔钱,并在现实生活和互联网上的将收获的钱成功合法化。我们很高兴与你合作,但是,所有的好事都会结束。我们将开启这次当之无愧的退休生活。”

其关停业务将包括:

1、停止代理商活动;

2、我们要求代理商暂停流量

3、从这个日期起的20天内,我们要求代理商以任何方式通过他们的僵尸主机将赎金货币化

4、受害者 – 如果您现在想购买密钥,您的数据将依旧无法恢复,因为密钥将被删除

正如开头说的,这家公司靠勒索软件赚取了超过20亿美元的赎金,运营商每周大约赚250万美元。

然鹅,对于这一年半的“丰功伟绩”,GandCrab对自己的评价是:

“我们已经证明,通过做恶行为,报复不会到来。我们用一年时间,赚够了一生花不完的钱,然后还能用这些钱去做有益的事情。”

看来,GandCrab“跑路”前,还给自己的行为来了个五星好评。


初识GandCrab

“当时是在一个国外安全研究人员的相关论坛网站。当时我觉得勒索比较有意思,于是就从app.any.run网站下载到了相关的样本。”这是身为安全研究员的29A第一次接触GandCrab勒索病毒。

2018年1月26号,29A第一次分析了GandCrab1.0版本的样本。29A称,它的第一代,使用了代码自解密技术,在内存中解密出勒索病毒的核心代码,然后替换到相应的内存空间中执行,当时它只向用户勒索达世币,加密后缀为:GDCB,分析完之后GandCrab运营团队在2018年1月28号,在论坛上发布了相关的出售贴子,如下所示:

“说实话,当时我并没发现这款勒索病毒在后面一年半的时间里会变的如此火爆。”


GandCrab演变史

3月初,GandCrab勒索病毒的服务器被罗马尼亚一家安全公司和警方攻破,可以成功恢复GandCrab加密的文件。于是,病毒开发人员迅速升级了版本V2,并将服务器主机命名为politiaromana.bit,挑衅罗马尼亚警方,之前服务器的主机为gandcrab.bit.....

“这是一个契机,没过多久GandCrab就演变出了GandCrab2.0版本。”

分析GandCrab2.0版本发现,它使用了代码混淆,花指令,反调试等技术,同时使用了反射式注入技术,将解密出来的勒索病毒核心Payload代码,注入到相关的进程当中,然后执行相应的勒索加密操作,加密后缀为:CRAB......

“2018年4月,我接到客户应急处理,发现了第一例GandCrab勒索案例,通过分析,发现它就是之前分析过的GandCrab2.0版本的升级,该版本号为GandCrab2.1。

在发布预警之后,29A再次监控到了一款新的GandCrab变种,并将其命名为GandCrab3.0,这款勒索病毒主要通过邮件附件的方式,在一个DOC文档中执行VBS脚本,然后下载GandCrab3.0勒索病毒并执行,加密后缀与之前2.0版本一样为:CRAB,如下所示:

到了GandCrab4.0,勒索运营团队在勒索信息中首次使用了TOR支付站点的方式,让受害者联系,然后解密,29A也在第一时间发布了相关的预警。

29A称,发现新版本是在2018年7月,当时再次接到了客户应急响应,通过分析发现它属于GandCrab家族,这次加密后缀为:KRAB。

“当时本以为GandCrab要歇一阵了,没想到仅仅是过了一个月GandCarb4.3就出现了。其更新速度之快,映射出GandCrab对于勒索产业重要程度。而紧随其后的,还有GandCrab5.0。”

最后一次更新使用了更多的方式传播,不仅仅通过VBS脚本执行下载,还会使用PowerShell脚本,JS脚本的方式下载传播执行,捕获取了它的相关样本,并解密出相应的脚本,如下所示:

在这之后,是基于GandCrab5.0的两次小更新——GandCrab5.0.3和GandCrab5.0.4。而前者可以说是当时最流行的勒索病毒,中招用户也都多集中在这一版本。

通过对捕获到的最新GandCrab5.0.3传播JS脚本进行分析,其主要功能分为如下4种:


在这之后,GandCrab5.0.4开始活跃起来。


5.0.4小插曲

有趣的是,在GandCrab5.0.4版本向5.0.5迭代前,有一个小插曲让GandCrab更加出名了。

29A称,在GandCrab5.0.4版本活跃了一段时间之后,全球多家企业以及个人用户中招。在10月16日,一位叙利亚用户在twitter上表示GandCrab勒索病毒加密了他的电脑文件,因为无力支付高达600美元的“赎金”,他再也无法看到因为战争丧生的小儿子的照片,如下所示:

事情之后,GandCrab勒索病毒运营团队发布了一条道歉声明,并放出了所有叙利亚感染者的解密密匙,GandCrab也随之进行了V5.0.5更新,将叙利亚加进感染区域的“白名单”。至此,GandCrab得到了一个“侠盗勒索病毒”的美称。


GandCrab的衰落

这之后不久,安全公司Bitdefender与欧州型警组织和罗马尼亚警方合作开发了GandCrab勒索软件解密工具。该解密工具适用于所有已知版本的勒索软件。可解密的版本,如下所示:

该工具是No More Ransom项目的最新研究成果,它的诞生也预示着GandCrab勒索病毒快走到了尽头......

29A将GandCrab、Satan、CrySiS、Globelmpster并成为2018年四大勒索病毒,而GandCrab更是被“誉为”四大勒索病毒之首。在其发布的相关预警总结报告中,GandCrab被比喻成是勒索界海王。

随后,GandCrab5.1、GandCrab5.2版本陆续发布,但这更像是残阳西下前的最后一缕余光,安全厂商很快跟进了其解密工具。

正所谓天下没有不散的宴席,GandCrab5.1火了一段时间,然后随着GandCrab5.1版本解密工具的放出,2019年3月,GandCrab运营团队再次发布了GandCrab5.2版本的勒索病毒,同时国内又有多家企业中招。

“在GandCrab爆发的一年半时间里,接到过N起客户应急响应事件,直到近期,我发现它的传播渠道开始传播其他勒索病毒样本(Sodinokibi、GetCrypt、EZDZ),我心里在想难不成GandCrab换人了?”


后记

之后的事情,大家都已经知道了。

2019年6月1日,GandCrab运营团队就在国外论坛上官方宣布了,停止GandCrab勒索病毒的更新。

“GandCrab运营团队究竟赚了多少,我们不知道,不过肯定不会少,勒索现在成了黑产来钱最快,也是最暴力的方式,每年全球的勒索运营团队都会有几百亿的黑产收入,很多大型企业中了勒索而不敢声张,偷偷交赎金解决,相关政企事业单位会找安全公司进行应急响应处理。”

GandCrab解密工具

在29A看来,GandCrab勒索虽然结束了,然而安全防护并没有结束,而且在后面一定会有越来越多的黑产团队加入。GandCrab算是打开了潘多拉之盒,之后会有多少像GandCrab的黑产团队出来作恶就不得而知了。

“这些年做勒索和挖矿的黑产,基本都发财了,而且是闷声发着大财。抵御诱惑是做安全的人的基本素养,这么多年做安全,我一直保持着两点,一个是坚持安全研究,一个是不做黑产,至少现在我能坚守这两点。”雷锋网雷锋网雷锋网

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/ht6dC7vHVQ0K8q98.html#comments Thu, 06 Jun 2019 12:06:00 +0800
剖析:5G赋能下的工业物联网怎么走 //www.xyschoolife.com/category/zhuanlan/uojbiFijayc9Nm8t.html 雷锋网转载于|公众号宽带资本《当工业物联网遇上5G》,作者宋鹏飞。

日本总务省今年推出了一部热门短片《连接5G以后的世界》。在3分多钟时间里,短片密集呈现了5G支持下超高清视频、自动驾驶、远程医疗、智能零售、即时翻译、AR/VR等等应用场景。虽然人们对这些概念已不再陌生,但有了5G加持,似乎梦想照进现实的距离又更近了一点。

值得注意的是,面向消费者的领域仅是5G赋能的一部分。5G更大的价值将发挥在并不太受公众关注的工业领域。事实上,去年12月1日韩国全球首推5G商用服务,三大运营商的第一个5G客户都是企业。

本期「CBC洞见」特邀宽带资本副总裁宋鹏飞来谈谈「工业物联网」,结合案例为大家分析企业存在的痛点与需求,以及与之契合的5G应用场景。

文章主要围绕以下话题展开:

❶ 工业物联网与消费物联网的区别

❷ 工业物联网应用的四个层级解析

❸ 5G对工业物联网可能产生的影响

❹ 5G在工业物联网的应用

当工业物联网遇上5G

对于普通消费者来说,5G的概念可能就是更高的网速,5G大带宽带来的上网体验提升是最直观的,用手机可以实时观看清晰度更高的视频。

而更低的时延与更高的可靠性对C端用户带来的体验改善,相对来说就小很多,打开网页的时延从50ms降低到10ms,消费者基本是感知不到差异的。

在工业领域,情况则完全不同。很多年前,工业互联网的概念就已提出,但直到移动互联网如此普及的现在,工业领域设备联网的比例还是很小,联网设备涉及的应用也都还很浅。主要原因在于,目前互联网在时延和可靠性方面还达不到要求。

物联网的边界

物联网是一个大而泛的概念,从大的应用领域来说,可以分为消费级物联网和工业级物联网。

这两类对物联网性能的要求差别很大,消费级物联网比较大的场景有可穿戴设备、共享经济、智能家居等,这些场景与消费者的生活息息相关,连接上以GPRS、WiFi和蓝牙等方式为主,主要的性能要求是低功耗。

智能家居是最近快速发展的一个领域。一方面是交互领域技术进步带来语音交互体验的提升,另一方面是产业链上连接模组成本的降低,从而使得以音箱作为入口,连接并控制家庭内部大量的电器成为可行的场景,并产生了像小米IoT、涂鸦、乐鑫等行业内领先的业务或公司。

但在工业物联网领域,情况并不一样。工业各垂直领域行业特性迥异 ,知识壁垒很高,而且工业制造流程对可靠性和稳定性要求非常高,目前的运营商网络还很难满足工业物联网对性能方面要求。因此物联网在工业领域的进展一直比较缓慢,还没有产生比较成熟的商业模式和相对大体量的公司。

工业物联网的现状

工业领域包括众多垂直行业,比较大的行业有制造业、运输业、能源、建筑业、采掘业等,每个行业的特性差异巨大,物联网与每个行业的结合,也都要根据行业自身特性来调整。

如果把物联网在行业里的应用抽象出来,我们可以总结为四个层次:数据的采集与展示、基础的数据分析与管理、深度数据分析与应用、工业控制。

这四个层次根据涉及业务流程的深度,由浅入深的总结了工业物联网目前的应用和价值,越浅层次的应用,涉及到的业务流程越少,通用性会比较强,应用领域越广。

1、数据采集与展示

主要是将工业设备传感器上采集到的数据信息传输到云平台,并用可视化的方式将数据呈现出来。

现在的大部分工业设备,例如数控机床、风力发电机、工业车辆等,自身就带有大量传感器,并提供集中的数据接口,只有一小部分老旧设备,或者有特殊的数据需求场景,需要单独加装传感器和数据采集装置。

在数据传输方面,厂房内的设备,环境比较复杂,一般会使用网线将机床设备连接到集中的数据处理装置上,再通过4G或者固网连接到云平台;厂房外的设备,比如工业车辆,则通过内置4G通信模块的终端来完成数据采集和传输。

数据采集业务的难点在于,面对大量不同种类的品牌的工业设备时,设备数据协议的适配和兼容。最后的数据可视化,是客户比较核心的需求,可以通过统一的平台监控在网设备的状态,便于及时了解设备异常信息,提高管理人员效率。

2、 基础的数据分析与管理

基于云平台采集到的设备数据,进行基本的数据分析,并产生一些SaaS应用,比如设备性能指标异常的告警、故障代码查询、故障原因的关联分析等。

这一层的数据分析还偏向于通用分析工具的阶段,不涉及基于垂直领域深入行业知识的数据分析,基于这些数据分析结果,也会有一些通用的设备管理功能,像设备的开关机、调整状态、远程锁机及解锁等,这些管理应用根据具体的领域需求而不同。

3、深度数据分析与应用

深度的数据分析,则涉及到具体领域的行业知识,需要特定领域的行业专家来实施,具体根据设备的领域和特性建立数据分析模型。

目前比较多应用在故障预测领域,大型工业设备的故障预测一直是难以解决的问题,比如机床、风机等,一旦有大的故障发生,带来的影响以及随后产生的修复成本都是巨大的,实时采集数据并预测设备故障,可以大幅度降低设备故障带来的影响。

在大量数据的基础上,使用机器学习,结合行业专家的知识,可以产生深度的行业应用,比如改进制造工艺,优化制造流程等,可以提高工业设备使用效率。

4、工业控制

工业物联网的目的就是能对工业过程实施精准控制。

基于前述传感器数据的采集、展示、建模、分析、应用等过程,在云端形成决策,并转换成工业设备可以理解的控制指令,对工业设备进行操作,实现工业设备资源之间的精准的信息交互和高效协作。

当前大部分场景的工业控制系统还需要部署在本地,受通信技术和处理能力的限制,工业云平台涉及工业控制的的深度还不够。5G技术可以满足工业系统对通信能力的要求,实现工业控制的目标。

工业物联网应用案例

制造业按其产品制造工艺过程的特点,总体上可分为离散制造业和流程制造业。

离散制造业的产品往往是零部件由多道不连续的工序加工装配而成,比如3C产品、汽车、机械等,生产过程是离散的。而流程制造业则是原材料按照固定的工艺流程,经过一系列设备和装置加工而形成产品,生产流程自动化程度很高,比如石油、化工、天然气、造纸等等。

离散制造业涉及的整个生产链条很长,而生产链条上的各个环节相互独立,产能差异很大,这样就会造成各环节衔接出现问题,而影响最终产品的生产。比如手机制造领域,有时候新机发布后产能却跟不上,可能就是因为生产链条中,某个部件良品率过低导致的。因此,在离散制造业领域,提供统一的物联网平台,从信息层面把生产的各个环节联通起来,就显得非常有意义。

具体到生产制造环节,大多时候涉及到的设备都是机床,目前国内也有一些公司,在机床信息联网这个方向上探索,这也是工业物联网里一个比较典型的应用。

通过采集与管理数控机床和相关传感器的信息,可以实现两个方面的价值:

设备层面

获得设备性能的数据,可以对设备后面的二手定价起到帮助,另外也可以获得设备故障信息代码,及时了解设备故障情况,方便后续维修。

管理层面

可以将车间的操作人员与生产过程连通起来,方便对人员的管理,这种自下而上的数据,可以解决车间现场管理靠人的问题。

通过SaaS层面的应用,一方面可以将设备的状态信息清晰的展示出来,另一方面,也可以开发一些管理和控制方面的应用,提高机床和工厂生产效率。离散制造业链条上各个环节都通过统一的物联网平台联通之后,可以从全局的角度更加方便对整体制造流程的管理。

工程机械领域也是工业物联网的一个行业应用,工程机械设备加装物联网接入终端之后,可以及时获取设备的位置和状态信息,提高设备使用和管理效率。物联网接入服务一般包含两部分,第一部分是提供物联网接入终端,第二部分是工业物联网大数据平台。

物联网接入终端主要包含定位模块和通信模块,一般采用GPRS或者4G的接入方式。其主要的功能是获取设备的位置信息,将其部署到工程机械设备里面,也可以获取设备的部分状态信息,并将这些信息及时传送到云平台。

▲ 来源:铁甲网 铁甲云盒

物联网云平台可实时、准确地查询每一台机械设备的位置等参数和工况信息,实时监测设备生产作业数据,并在设备参数异常时推送预警信息,以实现对设备的精准监控。同时,平台还可以对车辆故障进行诊断分析,并找到故障解决方案,以协助售后人员及时赶到现场维修,提高服务质量。

此外,物联网平台还可以对设备在线数量分布、设备开工率、设备平均工时、设备区域工作热度等进行分析,可以对售后服务备件市场进行预测分析,从而优化生产计划及库存。

▲ 来源:铁甲网 铁甲物联网云平台

以上两个只是比较典型的应用案例,市场上有很多做工业物联网平台的公司,专注在各个细分领域,业务上大部分集中在数据的采集与展示这一层,也有一部分涉及到第二层,会根据客户的行业特性做一些基础的数据分析和管理,但做到第三层和第四层的非常少。

究其原因,一方面是浅层的应用更加通用,相对来说技术上易于实现,对团队的技术和行业深度的要求不会太高;另一方面是目前连接的技术水平还无法达到工业级的应用要求,尤其是在网络的低时延和可靠性方面,导致网络连接无法参与到工业系统自身的业务和生产流程。

5G对工业物联网可能产生的影响

5G的技术特点

5G并不是为某一个“杀手级应用”而设计的系统,而是面向很多至今甚至尚未可知的应用场景。5G系统的设计采用的是一种自上而下的方法,先定义未来的应用场景,然后从场景里抽象出技术的需求,再根据每个特定的需求,寻找解决办法,研发具体的解决方案。

因为系统的要求十分的广泛,过去几代通信系统的技术并不适用于5G的需求。在5G众多的预设场景之中,5G在技术方面的需求被ITU(国际电信联盟)归纳为3个大的方面:

■ 超高数据速率(增强型移动带宽,eMBB)

提供极高的数据传输速率,以及极端的信号覆盖能力

■ 超大连接量(大规模机器类通信,mMTC)

提供海量设备的数据连接能力,是物联网的基础需求

■ 超低时延(超可靠低时延通信,uRLLC)

提供超可靠低时延的通信连接服务,要求极高的可用性和可靠性、极低的时延

工业物联网的需求

对于工业领域来说,高可靠低时延的通信系统可以说是至关重要。

一直以来工业物联网的应用只能停留在表层的数据采集展示和由此延伸出来的一些管理功能,很难涉及到工业系统的控制等核心领域,其中通信系统的稳定性和延时达不到要求是其中主要的制约因素。

工业领域的设备投入巨大,无论是机床、生产线,还是机械设备,生产过程中的故障导致的停工,往往会影响整条生产线,甚至整个产品交付周期。

为确保稳定性,工业领域的控制系统还是以本地为主,部署大量的硬件和软件系统。这一方面导致整个控制系统非常复杂,投入巨大,另一方面,也限制了系统的灵活性和可扩展性。在消费者需求日新月异的今天,生产系统的更新跟不上消费者需求的变化,也会导致错失很多新的机会。

当前的移动通信系统在工业物联网领域的应用涉及并不深入,虽然4G在网速上已经有很大的提升,能满足用户随时观看视频的需求,但网络的可靠性和时延都还有很大的提升空间,并不能满足工业场景的要求。

4G在工业场景的应用,更多是在对实时性要求不高的场景里,作为数据上传到云端的一种方式。比如工厂里的机床设备,每5-10秒钟会采集一次数据,这些数据汇总一般会汇集到一个统一的终端,由终端通过4G发送到云平台。

为了保证机床设备数据传输的稳定性,在工厂内部,各个机床与统一终端的连接上,一般都会采用有线连接的方式。这样的连接方式还是比较重,大量的线缆也会导致工厂内部结构比较复杂。移动网络系统的性能提升到可以替代有线电缆的时候,工厂内部结构复杂度也会降低,更加便于管理。

工业领域对通信系统的这些需求,5G的技术标准可以很好的满足,极低的时延,保证了工业领域实时监测和控制的要求;高可靠的网络质量,确保了工业系统对稳定性的要求;大带宽则可以实现高清3D视频,甚至AR的传输,在远程操控领域大幅提高了操作精度。

5G在工业物联网的应用

在2018年6月上海举行的世界移动大会上,央视财经的记者体验了中国移动带来的5G智慧工业应用场景演示:

一台远在石家庄工地上的挖掘机,通过5G技术与设在现场的驾驶室相连,不仅可在恶劣环境下作业,甚至可以打造无人工地。

参观者可以在现场驾驶室真人驾驶,同步实时控制位于石家庄的挖掘机,进行挖掘机前后、旋转运动以及大臂、小臂、挖斗配合挖掘装车等操作,操作台对面的大屏幕通过现场实时高清视频同步传递真实场景及全景视频效果。

虽然这只是一个场景演示,但它代表了5G在工业领域潜在应用价值和未来应用的方向。目前5G的商用还没有正式开始,还没有成熟的5G应用场景出来,但有很多关注5G领域的研究机构,都在探索5G在工业领域会有哪些具体的应用场景,以及能带来什么样的商业价值。

爱立信为我们分享了2个具体的研究案例,给我们展示了5G技术的应用,提高了工业效率,提升了商业价值和社会价值。

爱立信和德国弗劳恩霍夫生产技术研究院(Fraunhofer IPT)共同合作研究新的方法来改进工业控制流程,实时检测生产制造过程中的缺陷。其中有一个应用领域就是叶盘的生产制造领域,叶盘是喷气式航空发动机中涡轮的重要组成部分,由轮盘和围绕轮盘边缘的众多叶片组成,叶盘制造是金属加工典型的应用。

▲ 来源:爱立信5G研究

确保叶盘的高质量至关重要,高质量的叶盘是航空发动机安全性的保障。叶盘是通过铣床加工完成的,加工过程中面临很多问题,其中最关键的一个问题是,加工的过程很难被监控,这也是金属加工领域普遍存在的问题。

这就意味着铣削加工过程全部结束之前,操作人员无法知道结果,而一个铣削加工的过程可以持续1天甚至达到100小时,由于加工缺陷的存在,最终加工产品的返工率却经常高达25%,拖长了整体的生产周期。

加工缺陷可能有很多原因产生,但其中主要的原因是铣刀或机床自身的震动,影响了加工结果,而这个震动则可以通过实时监控加工过程来发现,并通过数据反馈来实时优化加工过程,最终减少返工率。不能及时发现加工过程中产生的问题,是整个制造业都存在的现象。

虽然叶盘加工只是一个具体的案例,但是加工过程中的震动问题,却是机床加工领域普遍存在的。未来制造的叶盘会朝着更薄的方向发展,加工结果更容易受震动的影响。

Fraunhofer IPT对这个问题给出的解决方案分为2部分,实时监测和实时控制——

实时监测

在叶片部分贴上传感器,在轮盘部分加入通讯模组,这样可以实时监测叶盘加工的结果,一旦有加工缺陷产生,及时停止对有缺陷部件的进一步加工,或者定位到缺陷就启动返工;

实时控制

对加工过程建立数据模型,根据加工结果的数据,实时调整运行中的加工过程,比如改变铣刀转速等,以避免加工缺陷的产生。

▲ 来源:爱立信5G研究

最终的设想是建立完全的自动化工厂,实现所有设备连接,并通过统一的系统集成并管理。

但当前的通信技术还不能很好的支持这个解决方案,5G是这个解决方案的关键所在。这个案例中,5G最大的优势是可以提供极低的时延和稳定的网络。为了达到实时控制,传感器的信息需要在1毫秒内响应和处理,5G通过提供极低时延的能力确保了实时控制的实现,从而确保了可以应用在叶盘生产的过程中。

Fraunhofer也测算了引入5G改进生产技术后产生的经济价值,传统叶盘加工返工率高达25%,意味着每加工4个叶盘中就有1个需要返工。这个成本是非常高的,降低返工率就可以产生很大的经济价值。

如果通过引入5G与物联网技术实现自动化后,返工率可以降低10%,就相当于减少了单位产品的加工时间。换算成机器成本的话,单叶盘成本可以降低3600欧元,全球叶盘的产量大概一年10万片,这就意味着,通过5G技术实现实时监控,一年可以节省3.6亿欧元的成本。

矿业是全球经济活动的基础产业,市场规模巨大,全球前40家矿业公司年收入总和就超过了5000亿美元。

提高采矿行业的盈利能力,要求在采掘效率、运输和金属提取技术方面不懈的努力,来最优化矿石的流动效率。然而,在这些方面增加的投入却面临着边际效应递减的问题。自动化正在成为采矿行业新的机会和焦点。要实现自动化的一个前提条件是,矿区内要有比较完善的网络覆盖和连接能力,矿区内环境恶劣,部署移动通信网络是一个比较好的解决方案。

瑞典的Boliden公司是世界顶级矿业公司之一,在全球有8个矿场,其中位于瑞典北部的Aitik矿场是欧洲最大的露天矿场。Boliden和爱立信联合成立了一个研究小组,来探索5G技术如何帮助采矿行业提高效率和经济价值。

▲ 来源:Boliden官网

Aitik是一个快速扩张的矿场,为了获得铜矿石,必须转移大量的岩石。每年在矿场内来回运输的石头的量都在增长,根据矿石所处位置,岩矿比不同,平均下来每获得一吨铜矿石就要移额外移动一吨的岩石。Aitik目前的年产量是3600万吨矿石,并且预计很快会增长到4500万吨,这样需要移动的岩石的量也会相应增长。

矿场内的复杂和繁忙程度非常高,为移走岩石而增加巨型设备,以及保持住这些新增设备的利用率都不是一件简单的事。

▲ 来源:Boliden官网

另外,矿石都是通过钻孔爆破获得,每次爆破都会产生有毒气体,只有等这些有毒气体被驱散后,人类才能进入矿区进行挖掘作业,这些都是影响采矿效率的因素。

针对这些问题,比较好的解决方案是自动化和远程控制设备。

自动化钻机可以按照预设的路径自主从一个钻孔自动移动到下一个目标钻孔,并且可以自动重复任务。传统上需要人工在现场操作设备来移动钻机,如果某个任务或者移动路径并未被预先设定好,操作人员可以借助钻机上装备的摄像头远程控制他们的移动。

大多数情况下,自动化已经能完成大部分工作,然而少数只有人才能做出评估决策的情况下,比如对岩石状况的评估,还是需要人工参与远程甚至现场的评估。

▲ 来源:atlascopcomr

Aitik将5个传统钻机改造成了有自动化和远程控制功能的钻机,为这些传统钻机安装了摄像头,升级了控制系统,加装了通信模组,但由于当前的网络带宽只能支持中等质量视频的传输,这限制了远程控制的能力。

改造后的自动化钻机可以将年工作小时数从5000小时提高到了7000小时,相当于Boliden用5台改进后的钻机完成了之前需要7台或者更多钻机才能完成的工作量。

除此之外,自动化同样减少了对人员数量、服务站、停车区的需求,降低了矿区内繁忙运输路线的压力。因为人员的减少,也降低了矿区内人员安全的风险,Boliden可以在保持设备量和员工数量不变的情况下增加爆破工作量。经过测算,用自动化技术进行钻孔和爆破可以为Aitik矿场每年节省250万欧元。

而要实现完全的自动化,远程控制设备和高性能通信系统是必须的。目前采矿业中使用的通信技术还是WiFi,通过仔细优化后覆盖率和性能还可以被接受,但也只能处理自动化中简单、重复性的任务,比如调整钻孔的形式。

Boliden之前已经在Aitik矿场部署了WiFi通信系统来满足控制钻机的需要,虽然这样也提高了一定的生产力水平,但是WiFi的性能还是有很多不足。毕竟WiFi并不是为户外大区域覆盖设计的,而Aitik的露天矿场正是这样的场景。WiFi连接能力有限,也限制了新增连接其他自动化机器设备的可能。

大到整个采矿行业,小到Boliden这家公司,WiFi通信系统的性能严重限制了自动化方面的进一步发展,比如要实现复杂钻孔、自动驾驶矿车、自动规划和调度系统等,必须有高性能的通信系统才能满足这些需求。而5G正是最合适的通信系统,可以处理3D高清视频的传输,大幅提高远程操控的精度,从而实现远程管理高度复杂的任务。

▲ 来源:爱立信5G研究

为实现矿区自动化的目标,Boliden的通信系统需要满足以下的需求:

■ 首先,要确保实现远程监控,这就需要通信系统的大带宽和低时延能力;

■ 其次,矿区内的系统要能适配其他的自动化和远程控制设备,包括不同品牌和不同的控制系统;

■ 另外还要实现全覆盖,能覆盖到矿场的所有角落,确保所有的机器和人员能被连接和定位到;

■ 最后是在矿场这种复杂多变的环境下,保证系统的稳定运行。

5G通信系统可以满足Boliden最高的需求,包括带宽、网络服务质量、时延和定位。通过引入高性能的通信网络,矿场变得更加安全和高效。虽然有一部分应用需要传输的数据量并不大,但像远程实时操控机器这样的应用,只有5G通信系统才有实现的能力,有了5G的赋能之后,采矿业会成为创新领域之一,产生出新的应用和商业模式。

5G赋能,任重而道远

解决了时延和稳定性的问题,工业领域大量设备联网的制约因素就消除了。这个巨大的市场之前未曾被互联网触及,就好像4G和智能手机的出现,打开了移动互联网的大门,5G面对的可能是一个比移动互联网更大的机会。

因为5G连接的数量、提供的价值、付费的能力,都不是移动互联网可以比拟的。所以也有很多人认为,5G最大的机会在于产业互联网。

虽然5G技术目前还不成熟,大规模部署和应用还有很长的路要走,但我们相信,5G赋能工业领域的方向是明确的,未来可期。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/uojbiFijayc9Nm8t.html#comments Tue, 30 Apr 2019 11:22:00 +0800
一篇文章看懂,5G网络切片是什么? //www.xyschoolife.com/category/zhuanlan/5yKvgU66cQC88wBM.html 雷锋网 AI 科技评论按:如果说4G网络是一把刀,足可削铁如泥、吹毛断发。那么,5G网络就是一把瑞士军刀,灵活方便、多功能用途。

4G网络主要为智能手机而生。进入5G时代,我们将面临“下一件大事(the next big thing)” — 物联网。无物不联的时代,将有大量的设备接入网络,这些设备分属不同的工业领域,它们具有不同的特点和需求。换句话说,它们对于网络的移动性、安全性、时延、可靠性,甚至是计费方式的需求是不同的。所以,5G网络必须得像瑞士军刀一样灵活方便且具有多功能性。

举两个例子。

用于森林防火的物联网应用中,分布于森林的大量传感器检测温度、湿度和降水,它们是静止不动的,它们并不需要像智能手机一样需要切换、位置更新等移动性管理。一份NOKIA的报告显示,预计5G网络中有70%的设备是静止不动的,而移动用户仅占30%。

当5G应用于无人驾驶、远程机器人控制等领域中,则要求超低的端到端时延,这个时延比智能手机无线上网的时延要低得多,通常不能超过几毫秒。

所以,面向不同的应用领域,5G网络得像瑞士军刀一样。怎么办?当全世界都在谈5G的时候,通信业界里谈论得最多的是 —— 5G网络切片技术(Network Slicing)。网络切片,已成为中国移动,韩国KT、SK电信,日本KDDI 和NTT,以及爱立信、诺基亚、华为等设备商公认的最理想的5G网络构架。

什么是网络切片?最简单的理解,就是将一个物理网络切割成多个虚拟的端到端的网络,每个虚拟网络之间,包括网络内的设备、接入、传输和核心网,是逻辑独立的,任何一个虚拟网络发生故障都不会影响到其它虚拟网络。每个虚拟网络就像是瑞士军刀上的钳子、锯子一样,具备不同的功能特点,面向不同的需求和服务。

或者可以这么说,就像你安装电脑的时候,将你的物理硬盘分区,划分成C盘、D盘、E盘…

为了进一步了解5G网络切片,我们先将5G网络的应用场景划分为三类:移动宽带、海量物联网(Massive IoT)和任务关键性物联网(Mission-critical IoT)。

如上表所示,5G网络的三类应用场景的服务需求是不一样的:

1)移动宽带

5G时代将面向4K/8K超高清视频、全息技术、增强现实/虚拟现实等应用,移动宽带的主要需求是更高的数据容量。

2)海量物联网

海量传感器部署于测量、建筑、农业、物流、智慧城市、家庭等领域,这些传感器设备是非常密集的,大部分是静止的。

3)任务关键性物联网

任务关键性物联网主要应用于无人驾驶、自动工厂、智能电网等领域,主要需求是超低时延和高可靠性。

4G网络主要服务于人,连接网络的主要设备是智能手机,不需要网络切片以面向不同的应用场景。

5G时代,不同领域的不同设备大量接入网络,网络将面向三类应用场景:移动宽带、海量物联网和任务关键性物联网。

如何网络切片呢?我们并不需要为每一类应用场景构建一个网络,所以,它不是这样的...

我们要做的是,将一个物理网络分成多个虚拟的逻辑网络,每一个虚拟网络对应不同的应用场景,这就叫网络切片。

5G白皮书里关于网络切片的架构是这样的:

我们将如何完成端到端的网络切片呢?上面的内容太抽象,在实际的网络部署中我们是怎么做的呢?

1)5G无线接入网和核心网:NFV

目前4G网络中主要终端设备是手机,网络中的无线接入网部分(包括数字单元(DU)和射频单元(RU))和核心网部分都采用设备商提供的专用设备。

如下图:


为了实现网络切片,网络功能虚拟化(NFV,Network Function Virtualization)是先决条件。本质上讲,所谓NFV,就是将网络中的专用设备的软硬件功能(比如核心网中的MME, S/P-GW和PCRF,无线接入网中的数字单元DU等)转移到虚拟主机(VMs,Virtual Machines)上。这些虚拟主机是基于行业标准的商用服务器,它们是COTS商用现成产品,低成本且安装简便。 简单的说,就是用基于行业标准的服务器、存储和网络设备,来取代网络中的专用的网元设备。

网络经过功能虚拟化后,无线接入网部分叫边缘云(Edge Cloud),而核心网部分叫核心云(Core Cloud)。边缘云中的VMs和核心云中的VMs,通过SDN(软件定义网络)互联互通。

这样,网络采用NFV和SDN后,执行切片就非常容易了,像切面包一样水平将网络“切”成多个虚拟子网络(片)就可以了。

如上图所示,针对不同的应用场景,网络被“切”成4“片”:

高清视频切片:原来网络中数字单元(DU)和部分核心网功能被虚拟化后,加上存储服务器,统一放入边缘云。而部分被虚拟化的核心网功能放入核心云。

手机切片:原网络无线接入部分的数字单元(DU)被虚拟化后,放入边缘云。而原网络的核心网功能,包括IMS,被虚拟化后放入核心云。

海量物联网切片:由于大部分传感器都是静止不动的,并不需要移动性管理,在这一切片里,核心云的任务相对轻松简单。

任务关键性物联网切片:由于对时延要求很高,为了最小化端到端时延,原网络的核心网功能和相关服务器均下沉到边缘云。

网络结构是这样的:

当然,网络切片技术并不仅限于这几类切片,它是灵活的,运营商可以随心所欲的根据应用场景定制自己的虚拟网络。

2)边缘云与核心云的连接: IP/MPLS-SDN

5G切片网络通过SDN连接边缘云和核心云里的VMs。核心云里有虚拟化的服务器,服务器的Hypervisor里运行着内置的vRouter/vSwitch,SDN控制器负责在虚拟服务器与DC G/W路由器之间创建SDN tunnels,随后,SDN控制器执行SDN tunnels和MPLS L3 VPN之间的映射,从而建立核心云与边缘云之间的连接。

3)边缘云与基站射频单元的网络切片

现在,我们来到前传部分。如何完成5G 射频单元(RU)与边缘云之间(前传)部分的切片?首先需要定义5G前传的标准,目前并没有统一的标准。下图是国际电信联盟(ITU)5G移动通信标准研究小组(Focus Group on IMT-2020)曾提出的一个虚拟化前传的结构图,有兴趣可以看看:

这就是5G网络切片技术,有了它,5G才会成为无线网络领域锋利的瑞士军刀。

通信路上,一起走!

雷锋网转载于|网优雇佣军

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/5yKvgU66cQC88wBM.html#comments Sun, 28 Apr 2019 12:43:00 +0800
远望资本程浩:渐进式创新都是给行业老大打工! //www.xyschoolife.com/category/zhuanlan/RwoO7b0IcfSafCZc.html 雷锋网按本文转载于|公众号远望资本iVision

大家好!我是迅雷创始人程浩,现在成立远望资本,聚焦人工智能领域投资。前两天我分别在混沌大学与2019产品创新大会上,跟很多创业者和科技从业者们分享了一些我对创新的理解和感悟,希望帮助大家还原出一些创新的真相。

迅雷在技术创新上还是很有发言权的。因为大家知道,迅雷不是第一个做下载的,但我们通过P2SP算法,把整个下载速度提高了5到10倍,革新了整个行业,给用户带来非常好的体验。

所以接下来,我主要跟大家分享两个话题,第一是有关创新的一些真相,第二是如何才能做到划时代创新。


一、有关创新的真相

小公司创新比大公司容易很多

大家第一反应可能说小公司既没钱又没资源,为什么反而更容易创新?其实正因为没钱没资源,所以逼着你必须创新。一家创业公司如果做一个3年前别人都做过的事,既不会有投资人投你,你也很难战胜同行业的前行者。

但对大公司来讲,其实创新反而非常困难。因为大公司内部有各种各样的掣肘。诸如沟通机制比较复杂,决策机制很慢,或者文化上不鼓励创新,老板不容忍失败,再或者激励机制不够等等,阻碍大公司内部创新的因素有很多。换句话说,如果大公司创新十分容易,那么创业公司就没什么机会了。

同时大公司还有一个创新惰性,就是大公司有钱。因为我有钱,可以把做得好的小公司直接收购了。特别是美国和硅谷的一些大公司,像Intel和苹果每年都会做大量的并购,其实都抱有这个想法。我等你创新好了,拿钱收获成果就行了,还不会分散主营业务的精力。

苹果公司在2018年公开收购的公司就有10家。从人工智能创业公司Silk Labs,到数据分析公司Silicon Valley Data Science,再到增强现实眼镜技术Akonia Holographics,以及从事半导体的Dialog等。

正是这些被收购公司,源源不断产生的创新能力,未来向苹果进行的技术转化,才保证了苹果公司能够在科技领域不断革新行业标准,给外界非常惊艳的感觉。所以小公司才是创新的最前线。


创新是手段,不是目的

为了创新而创新,这件事本身就错了。

大家看过这部截图里的电影吧?是周星弛的一部电影叫《国产凌凌漆》。

可以看到上面的台词,达文西发明了一个太阳能手电筒。只要在有光源的情况下,太阳照到的地方,这个手电筒就能发光,这确实是一个创新。但大家为什么会笑呢?这是典型的为了创新而创新,与实际使用目标完全背道而驰。

更搞笑的是周星驰就问他,那光源手电筒晚上怎么用呢?晚上没太阳啊。然后,达文西又拿出另外一个手电筒说,我拿这个照一下不就亮了吗?

再举一个例子,以前的老式电话亭都是投币式的,现在投币不方便了,那怎么办呢?贴个二维码,只要手机一扫,就可以打电话,挺创新吧?帮电话亭解决了缺乏移动支付的问题。但还是很搞笑,为什么?我都能手机扫码了,我为什么还要用公共电话呢。

所以,创新是手段,不是最终目的,那么创新的目的是什么?我觉得有三点,创新必须要达成下面中的其中一个。

①极大地提升效率  ②极大地降低成本  ③极大提升用户体验


什么叫极大提升效率?

搜索引擎的出现,极大提升了我们获取信息的效率;微信等即时通讯产品的出现,极大提升了我们人际沟通的效率。


什么叫极大降低成本?

中国制造业和服务业中已开始出现机器换人趋势。企业一次性投入或者租赁机器人,折算下来使用成本只有人工的1/3。这就叫极大地降低成本。而且还没有管理成本,要知道人员管理本身就是很大成本。

拿我们的被投企业擎朗机器人来说,他们的服务机器人非常受餐饮企业欢迎,已入驻了近40家海底捞门店。原因首先当然是国内人力成本在不断上升。另外就是现下年轻人特别是90后和00后们,根本不愿意去从事枯燥重复的体力工作。

基于同样的逻辑,我们还投资了工业和物流领域做无序分拣的熵智科技,以及把工人从高污染的喷涂环境中解放出来的喷绘机器人公司曲线智能等企业。机器换人目前已成为远望资本重要的赛道。


什么叫极大提升用户体验?

最典型的就是功能机(Feature  phone)向智能手机的进化。功能机只能打电话和发短信,现在智能手机什么都可以做,可以发微信,视频聊天,还可以打游戏,玩《王者荣耀》(顺便说下:浩哥这个赛季王者荣耀单排王者30星),这是极大地提升了用户体验。

大家看到三个创新目的,里面都提到了一个关键词,叫“极大”。什么叫“极大”,得做到5到10倍的提升改进。只有颠覆式的创新才能做到“极大”。


渐进式创新都是给行业老大打工

与此对应的,如果做不到“极大”,我们就管它叫渐进式创新。渐进式创新对创业公司是最不可取的,为什么?因为渐进式创新都是在给行业老大打工。

举个例子,记得我和傅盛第一次见面是在一个餐厅里吃饭,他那时主要精力还在杀毒软件上。他就讲自己很苦恼,说我们好不容易找到用户特别需要的一个点,创新出一个功能,结果一周后,发现友商也有这个功能了。

可以看出,如果你不是行业老大,这种微创新就是在给行业老大做嫁衣。

包括我们以前做迅雷时,依靠颠覆性创新的算法技术,一下变成了下载市场的老大。所有的竞争对手都开始抄我们。作为追赶者,后来他们也推出了一些不错的功能。但我们也有产品经理,每周都在观察这些竞争对手都发布了什么新功能,好的我们也直接就拿过来用了。

简单讲,如果你们在所处的行业,已经有一个NO.1了,你只做些微创新、做些渐进式创新是没有意义的,一律都是给市场NO.1打工。你想颠覆他基本没有可能。

再包括前几个月特别热闹的子弹短信。子弹短信刚出来的时候,它主打语音转文字的功能,这个做的相对比微信要更加友好。

坦率讲,微信这块确实做的比较差。但是,你很难指望这一点局部的功能创新就能颠覆微信。因为子弹短信的功能虽然很受大家欢迎,但是很难撼动微信这种强通讯录关系。而且腾讯随时都可以把自身不足改善起来,这对它来讲并不难。

所以等大家过了那个新鲜劲之后,很多人慢慢就不用了。因为我的好友都没有切过来,我自己没有使用的刚需环境。


创新是解四元方程式

我认为创新是解四元方程式。当然这里面的“四”是个表意,指的是变量。视你做的事情,这个变量可能是3个、也可能是4、5个。什么叫解四元方程式?就是说在创新或者在创业过程中有太多变量,如果这些变量每一个都在变的话,你其实是很难解的。

那怎么办?面对四元方程式中的四个变量,一定要先摁住其中两个,你把这两个就看成固定的值(常量),或者你觉得虽然可能不是最优的,但是还不错的值,你把它摁住了,然后剩下那两个就变成二元方程式了。

二元方程式就很好解了。所以一定不要四个变量同时都在解,那太复杂了。我通过一个例子给大家具体解说下。

过去一两年有一个新兴的行业叫订阅式电商,在美国有一家叫Stitch Fix的公司,目前已是近30亿美元市值的上市公司,做订阅式服装服务。

它的用户体验流程是什么样呢?你先到APP上填一些个人信息,你的身高、体重,喜欢什么颜色、哪个品类、哪款牌子的服装,把这些信息填上去后,它每个月给你寄几件衣服过来。

这几件衣服有的你喜欢,有的可能不喜欢,你觉得好就留下来,觉得不好再给它免费邮回去。

但在你邮回去的时候,你要告诉Stitch Fix我为什么不要这件衣服,是颜色不好、裤腰太紧了,还是材质不喜欢等。

那么,Stitch Fix就可以根据你的反馈,你留了哪些衣服,没留哪些,以及没留的原因是什么,他们下次再推衣服给你的时候,会更加符合你的个性需求。

现在国内已经有好几家公司在做这件事情。大家想,如果你做这件事变量都有哪些?我找到了4个比较核心的变量:

  • 第一个变量,你得有一个产品载体,APP或小程序。

  • 第二个变量非常重要,就是推荐算法。推荐算法在这里极其重要,如果你每次推荐的东西都被人退了,那你的生意肯定不行。如果你每次推荐的东西人都留下来,这肯定是一个非常赚钱的生意。所以推荐算法是个关键变量,能够个性化预测用户喜欢什么、不喜欢什么。

  • 第三个重要的变量是供应链,包括服装的设计、生产和制造。找到了用户偏爱的风格,你也得有货源,能不断提供应季的新品。

  • 第四个变量是获客,我能生产出好的服装,同时也有非常好的推荐算法,最后生产出来也得能够找到用户卖出去。

大家可以看到,这四点你都需要做。但是产业链很长,你想同时做好这4件事非常不容易,万一中间有哪一个环节掉了链子,生意都不成立。

比如推荐算法做的很好,小程序很易用,也找到了一个低成本的获客方法,结果最后发现供应链不行,用户喜欢的东西你没有,或者用户喜欢的东西,你做出来质量、品质都不达预期。这事一样跑不通。

如果拿四元方程式理论,你还有一种解决方案。就是先摁住其中的两个变量,先搞定另外两件事。比如说,我把供应链和获客摁住,先把推荐算法跟APP或者小程序做好。

你必须要主动去想有没有这种解决方法,其实是有的。

大家知道中国有很多网红电商,网红电商听起来好像挺赚钱的,因为服装是一个高毛利的生意。但其实网红电商把大把的钱都交给淘宝去买流量了。所以他们也希望能有自己的小程序,有自己的自主流量。

所以,你完全可以和网红电商做一个合作,供应链由他们负责。因为他们每年有几百甚至上千个SKU,是很成熟的一个产业。同时网红们都有自己的公众号、微信群能够触达到她们的粉丝。

由此获客方面也可以交给网红电商,你帮我在你的公众号里、朋友圈或者微信群里做宣传,我为你专门定制一个订阅式电商服务,里面卖的全是你的东西。这样一来,我的供应链和获客问题就解决了。

这两个交给合作伙伴了,我主要做APP/小程序,以及推荐算法。这道题一下子被简化了很多。那接下来,我的推荐算法和小程序一旦做的非常成熟、稳定和精准之后,我接下来再把这两个摁住,去解另外两个变量。

也就是说,我的推荐算法和APP一旦成熟之后,再去解决供应链和获客问题。那时候,我的供应链可能就不止这一家网红电商了,可能是无数家网红电商,甚至也可能和很多传统服装厂商合作,甚至未来建自己的供应链,都有可能。

所以对于创业公司来说,创业路上的变量太多,不要试图同时去解决这些变量,因为这个太复杂了。任何一个变量你解错了,最后这事还是要失败的。先把X、Y按住,去解决M和N。等M、N解决好,再回过头来看X、Y还有没有优化的空间。


创新需要天时

创新需要天时,天时指的是外在诱因,就是外界条件得发生点什么变化,使得这个事变成了一个生意。

天时有几种可能性,其中最大的可能性有两种,第一是市场变化。最简单的例子,现在中国的人均收入达到9000美金了,催生了消费升级市场。对于吃穿住行,大家不再是什么便宜什么好了,开始对品牌有追求了。

另一方面,随着过去很长一段时间,中国家庭都呈现421结构,人口开始老龄化,也催生了养老市场的火热。

拿互联网公司举例,BAT全都在1999年前后成立,为什么,因为那时中国第一代网民开始形成了,这就是BAT的天时。

任何一个创业机会的成立一定有外在的诱因,市场是其中一个,还有一个同样重要的可能性是技术的成熟。也就是过去市场一直都在,但以前没做,因为技术不成熟、做不到,或者技术实施成本太高、太贵,性价比不够。

正如现在很多购物中心的地下停车库都开始用机器视觉直接识别车牌,你说这种需求以前没有吗?以前当然有这种需求,但是以前为什么没人做这个事?是因为以前的识别算法不够好。你总识别错,造成无法进场或结算,那还不如不用机器识别。

包括今天视觉识别在安防领域有很多应用,以及手机上的指纹解锁、人脸识别,都是因为技术的演进,才诞生新的生意机会。

所以,假设今天有一个创业机会摆在你面前。你一定要分析一下这个创业机会的产生,到底是有什么天时,或者有什么外在诱因。到底是因为市场成熟了,还是说以前技术实现不了,现在技术开始平民化了。

如果你发现打算做的这个事,这个市场很多年前就存在,而且也很大,而且这个技术很多年前也可以实现,这时你一定要犹豫一下,思考为什么这个事之前没人做?你必须要问自己这个问题。难道这么多中国人都没想出来,就你想出来了,就你聪明。这个概率是极低的。

最大的可能是,这是一个伪需求,不是真正的市场。


商业模式创新 VS 技术创新

客观讲,中国过去20年互联网的发展,大多是商业模式的创新,我们真正的技术创新其实是凤毛麟角的。

看到这,大家千万别觉得,是不是浩哥你又要鼓吹技术创新,贬低商业模式创新了。

完全不是。技术创新和商业模式创新,各有各的优缺点,商业模式创新的缺点是门槛低,竞争极其激烈,它的优点是成长速度快,而且比较容易形成规模。最典型的例子就是拼多多,两年多时间干到了千亿市值。

技术创新刚好相反,它的门槛很高,周期也很长,做成功后壁垒也非常高。正如做汽车驾驶辅助系统(ADAS)的以色列公司Mobileye,公司成立于1999年,直到2007年才开始有收入,最终以153亿美元被英特尔收购。做达芬奇手术机器人的Intuitive Surgical,也是花了差不多20年时间,才成长为如今600多亿美元市值的公司。做技术创新,创业者要对自己有一个特别的要求:就是得能耐住寂寞。

所以,商业模式的创新和技术创新,它们各有优劣势,我们作为创业者应该选择哪个方向,完全取决于你对哪个方向更擅长。这个没有好坏一说。


创业公司必须要有持续创新能力

我先告诉大家一个残酷的事实,我们今天看到所有成功的公司,最后成功的几乎都不是他第一天想做的那件事。

腾讯非常厉害,但腾讯最早是做和寻呼机相关的一些服务。

迅雷第一天做的也不是下载,是分布式邮箱。我们折腾了大半年,最后觉得不行,换了一个方向,才换到下载这个方向。

百度早期有3个业务,门户搜索、企业搜索和CDN,百度算是非常幸运的,三个里面跑出了一个。

对于创业创新,很大程度都是你今天觉得挺好的事情,跳出来实际干了一阵,就会发现理想很丰满,但现实很骨干,跟你想像的会有偏差。要么放弃,要么你就得绞尽脑汁换个方向。

因此一个公司想要成功,它的商业模式一定是不断演进的。这就要求我们企业必须得有持续创新的能力。

所以我们作为早期VC,对人看的更为重要。简单讲,越是早期投资,创始人的比重越高,因为业务还没跑起来。越是中后期的投资,事的比重越高,你想公司已经这么大了,人应该没有大问题。

我们评判创业公司CEO有四个核心标准:

  • 第一个是领导力,就是我和你聊天,你能不能打动我,你说的东西能不能让别人信。如果这个人有领导力,就能聚人,这是极其重要的。

  • 第二个叫创业精神。创业无疑是九九八十一难,每一难必须得闯过去,别过了两三难,第四难就把你给挡住了,说这事我不做了。

  • 第三个叫执行力。做CEO的光说不练显然不行,执行力很重要。毕竟CEO叫首席“执行”官。

  • 而跟创新最相关的就是第四条,我们叫学习能力。这个决定了你这个公司能不能持续创新,到底能够走多远。是做成一个小生意,还是一份大事业。


前面的几条,领导力、创业精神、执行力,我跟你聊一聊,你这人气场怎么样,能否打动我。跟你的下属接触下,聊聊你在工作中的表现、威信等,大致都会有一个判断。但是对于投资人来讲,这四条里面,其实学习能力是最难看出来的,也很难尽调出来。但这又是持续创新所必需的东西。


大公司创新维艰

我刚才已简单提了一句,大公司的创新非常难。大公司如果内部创新都做好了,那就没创业公司什么事了。所以这对创业公司是件好事。

中国这些大公司里,大家觉得谁比较有创新能力?华为、腾讯都非常有创新精神,但坦率讲最让我印象深刻的是阿里。

为什么说阿里在创新能力里面绝对是一流的,我们可以回顾一下阿里巴巴的发展。

阿里巴巴最早做的是B2B业务。

大概在2003年左右,才推出了淘宝,淘宝又带动起了支付宝。后来,淘宝又演化出来了天猫,支付宝演化成了蚂蚁金服,这都是在第二个阶段(2004-2008)。

再看阿里第三个阶段干了什么?阿里云。阿里大概是从2009年左右开始做阿里云。现在阿里云是中国的NO.1,基本占了中国云计算市场40%以上的市场份额。

然后到现在又有什么呢?今天又有菜鸟、钉钉、盒马鲜生、还有芯片公司平头哥。阿里的进化曲线,基本上每3-4年都有一波新兴业务的兴起,都是很大的一波。阿里把中国电商所需要的基础设施全做了一遍,而且做的市场份额都是NO.1。

所以中国最大的广告公司,不是百度,其实是阿里。阿里把搜索引擎最肥的一个部分,就是电商搜索,从百度那里给剥离出来了。使得大家在购物想搜索的时候,不是去百度搜索,而是去淘宝搜索。淘宝的商业模式本质上是搜索引擎。当然淘宝也收取一定的交易费,但绝没有类似于搜索引擎竞价排名业务的收入多。

这样的持续创新能力对大公司来讲非常不容易,这是阿里发展势头比较猛的最重要原因。

而且阿里除了这个之外,还有一个更牛的,我觉得所有互联网公司都做不到,就是阿里的高管随便换。大概四个月前,阿里云的总裁胡晓明被调到蚂蚁金服去了,这是两个完全不同的业务。

你说作为领导者,空降之前不熟悉对方的业务,也没有自己核心的团队,怎么开展工作?但是这样的事情在阿里的历史上屡见不鲜。对别的公司来说,跨部门领导却是非常难的。打个比方,你要在腾讯、在百度,把两个BG的老大对调一下,这几乎不可能。但阿里没有这个问题。

后来,我带着这个问题和一些同行,和阿里的一些朋友做了些交流,其实核心答案是阿里强大的组织能力。除了业务高速扩张以外,从组织部、到政委体系、到湖畔大学,阿里内部还有组织进化的一条曲线。所以阿里实际上做到的是组织进化和业务增长的双螺旋式上升。这个与主题不相关,我就不详细展开了。

回到大公司如何做创新这个话题,我之前在精益创业的课程上讲过,也不展开说了。在这里针对公司内部创新,只单独讲一下KPI和OKR。

OKR和KPI最大的区别在前面那个O。KPI的全称叫Key Performance Indicator,OKR那个KR叫Key Results,其实跟那个KPI差不多,但区别就在前面那个O,O叫Objectives ,就是目标是什么。

有了O这个目标,KR才不会跑偏,否则只有KPI会带来什么问题,就是我为了KPI而KPI。

这是很多公司存在的弊病,你是企业管理者,给员工定了KPI,那员工有无数方法去满足你的KPI。举例子我们做一个APP,你要用户量,我就买积分墙。你想要活跃,我就天天弹很大尺度的Push,留存度肯定会高。你想要收入,我就搞个自充值。

所以没有这个O,KPI经常会变形,大家忘了目标是什么,变成纯去完成任务了。

反观OKR鼓励你,给自己set  up一个比较有挑战性的目标,你把目标设在一个高点,实际完成了70%、80%、甚至只完成了50%,你只要努力了,都OK。它不会跟你的业绩考核直接挂钩。

而KPI最大的弊端就是这个数和你的业绩直接挂钩。你完成了110%,年终奖多发一个月。但只完成了90%,你得年终奖可能要少发一个月。如果你是业务的负责人,你会怎么做?

因为跟你的考核直接挂钩。使得大家并不是绞尽脑汁去想更好的办法,更好的策略去怎么实现这个KPI,而是绞尽脑汁怎么跟老板谈一个更低的KPI。甚至为了下季度或明年的KPI不要太高,这个季度或今年我要悠着做。不然我这季度达成120%了,下季度KPI可能就150%起了。

我以前在迅雷就非常痛苦,我们每年都要做预算会,最大的痛苦就是跟这些部门的负责人聊他的KPI,他一定会想各种原因,说我的KPI不应该在这,应该在这,但如果是OKR就没这个问题,反正做不到,也不会影响到你的业绩。

所以大家记住,创业公司也好,创新业务也好,一定要避免唯KPI论。


二、如何做划时代的创新


苹果创新的秘密

第二块跟大家讲讲划时代创新的话题。说到现代科技领域,一讲这种非常伟大的创新、非常划时代的创新,大家通常会想到哪家公司?苹果。

这是第一张MacBook  Air发布会的照片 。我印象极其深刻,就是乔布斯带着一个信封上来,说这信封里是什么东西呢?上来之后,人家把信封解开,从里面掏出一笔记本电脑出来,哇!整个世界轰动了。

之前笔记本电脑没有做过这么薄的,苹果为什么能在MacBook  Air上做到这么薄?这本身就是一个勇于创新的表现。苹果其实干了几件事:

  • 第一件事是什么呢?它用了全SSD硬盘,机械式硬盘厚,SSD硬盘很小,你只有用了SSD硬盘,它才有可能那么薄,这是第一点。

  • 第二点,它取消了CD-ROM,反正U盘、移动存储都可以替代。

  • 第三点,它把网口给去掉了,必须都用无线。但其实那时候乔布斯做这个决定的时候,我相信是很有挑战的。

大家说SSD硬盘虽然启动是很快,但只有64G或128G,这够用吗?事实证明够了,我就用的128G的,用了3年,觉得也够用。因为是工作本,你又不是下很多电影,玩儿很多游戏。所以这是非常伟大的创新。

所以,乔布斯发明了这个MacBook  Air之后,所有笔记本厂商都跟进了,都开始用SSD硬盘了。SSD还有一个特别的好处,你关上它,打开、启动特别快。

苹果这样的发明非常多,包括iPhone真的是Reinvent了手机行业,触摸式操作让手机的交互体验上了一个台阶。还有iPod,那个旋钮的操作方式体验非常Unique。包括苹果手机是第一个做指纹识别的、刘海屏,还有把耳机口去掉,它也是第一个做的,这都需要一些勇气。

但客观讲,苹果这几年,我觉得创新少了。但是还是有亮点,是什么呢?苹果的AirPods,AirPods颠覆了以前我对蓝牙耳机的使用感受。

以前蓝牙耳机有一个最不方便的地方是,蓝牙耳机一旦接上之后,就一直连着。但你到了公司,或者你不打电话了,你可能就把它摘掉了。这个时候,一个电话进来,我接起电话,说半天,怎么没声音了,其实都连到蓝牙耳机里了。

要么赶紧找到蓝牙耳机带上,要么赶紧把蓝牙断开。这样非常傻。而苹果在这里加了一个传感器,你的耳机一摘下来就自动给你断开了,这是非常创新的。

总之,苹果的创新产品非常多,包括Macintosh,可能很多人都不知道,因为大家都普遍比较年轻。

Macintosh是1984年1月份发布的,是苹果电脑继LISA后的第二部采用图形界面的个人计算机。当年这个东西一发出来,真的是全世界轰动,大家都说苹果怎么能做出这么伟大的产品。

后来就一个记者采访乔布斯,问苹果怎么能做出这么牛的产品,然后乔布斯就带着记者参观了一下团队。然后他说这位叫什么名字,他是一个非常伟大的建筑师,那位是谁,他是一个非常有名的钢琴师,然后那位叫什么,他是一名历史学家,而这些人又都是最一流的电脑科学家。

这说明一个什么事情?实际上就是一点,苹果创新的秘密就是科技与人文相结合。


最后,我们重复一下,对于划时代创新,刚才提了两点:

第一点,科技与人文结合。

第二点,跨学科。

客观讲,中国人很聪明,很勤奋,我们也做出来很多我们认为很不错的产品。但说它是伟大的产品,或者说它是一件艺术品,我们觉得好像还有些差距。

核心原因是什么?我有一个观点,不一定百分之百正确。拿科技公司举例,我认为中国的科技公司跟苹果相比,最大的差距是我们在人文方面的积累。因为无论是科技产品也好,人文艺术也好,我认为美学是相通的。正因为我们在人文艺术这块积累不足,使得我们很难做出像艺术品那样的科技产品。

但是这不赖我们,至少不赖我们这一代,因为有个伟人说了这么一句话:

我们这一代人,要学习战争和政治。是为了我们的孩子们能学习数学、造船、商业…。这样他们的孩子们才能学习绘画、诗歌、音乐和建筑…。

讲这句话的人是美国第二任总统约翰·亚当斯。

美国1776年建国,已经繁荣了200多年,所以他们在人文艺术方面的积累已经非常深厚了。反观我们中国,虽然40年改革开放后取得了翻天覆地的变化,但话说回来,在40年前,我们可能连饭还没有吃饱,还谈什么人文艺术。

我是70后,像我这么大的人,普遍都不会弹钢琴。我后来稍微学了点吉他,还是大学的时候为了追女孩儿。

但是,我们现在的小朋友,基本都会些乐器,现在的小朋友在人文、艺术方面的积累,我觉得会慢慢赶上发达国家。

所以,我坚信有一天,如果我们的创业主力军是中国的00后和10后的时候,我们一定会诞生出像苹果一样伟大的公司,以及出现像苹果一样伟大的创新。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/RwoO7b0IcfSafCZc.html#comments Tue, 16 Apr 2019 16:41:00 +0800
一文看懂:光学行业 三摄+潜望式+3D //www.xyschoolife.com/category/zhuanlan/I7z1FD9Dh7QHqaic.html 雷锋网按: 本文转载于|公众号湖杉资本。

研究背景

光学创新因为能给用户带来非常直观而明显的体验提升,成为各大手机厂商进行差异化竞争的焦点,也让光学成为智能手机创新的主战场之一,当前三摄像头、潜望式摄像头和3D Sensing正成为光学下一阶段创新的主轴。三摄像头在华为的带动下成为2018年的亮点,可以带来更好的成像质量和变焦效果,有望在2019年被更多厂商采用;潜望式摄像头则在OPPO的带领下,有望被华为等厂商迅速跟进,快速渗透;自从iPhoneX开始搭载3D Sensing功能以来,苹果已在2019年新款iPhone和iPad中全面配备3D Sensing,未来苹果有望在旗下产品中全面配备3D Sensing。

我们区别于市场的观点

光学创新永不眠,当前三摄像头、潜望式摄像头和3D Sensing正逐渐成为新的潮流,给产业链带来更大的市场空间。我们区别于市场的观点主要有以下两点:

1)我们认为三摄像头和潜望式摄像头有望成为2019年创新的重头戏。在手机进入存量市场之后,任何能吸引用户换机的创新都将给手机厂商迅速采用,这一点在双摄和全面屏方面体现得特别明显。三摄的成像质量和光学变焦能力相比双摄又有了大幅提高,并且在华为的带动下,有望在2019年开始快速渗透。潜望式摄像头的光学变焦能力实力强劲,在OPPO、华为的带领下,有望在2019年也加速渗透。

2)我们认为大陆光学产业链将在上述创新中扮演重要角色。在经过多年的发展之后,大陆厂商已经在准直镜头、光学镜头、滤光片、模组等环节具备了较强实力,涌现出了一批优质的上市公司。除此之外,大陆厂商正在突破图像传感器、VCSEL激光源等更高难度的产品,向高附加值产品延伸。两大创新带来的是全新的增量市场,竞争烈度较小,进入供应链的厂商可以充分享受到创新带来的红利。

投资观点

三摄像头和潜望式则有望在华为、OPPO的带领下,在2019年得到快速渗透;苹果给iPad Pro配备3D Sensing功能,未来将全面使用3D Sensing取代指纹识别。光学创新带来全新的增量市场,空间广阔,我们首次覆盖光学行业,给予“买入”评级。欧菲科技在模组领域具备很强实力,已进入顶级客户供应链,有望分享行业红利,维持“买入”评级。水晶光电在红外截止滤光片和窄带滤光片领域实力出众,客户优质,也有望借助创新得到较快发展,首次覆盖给予“买入”评级。舜宇光学科技在模组和镜头领域均是业内领先企业,也将受益光学创新,维持“买入”评级。瑞声科技研发的WLG有望在3D Sensing得到使用,给公司贡献新的成长动力,维持“增持”评级。

1、光学创新永不眠,新动向精彩纷呈

1.1、光学始终是智能手机创新的主战场之一

光学创新因为能给用户带来非常直观而明显的体验提升,成为各大手机厂商进行差异化竞争的焦点,也让光学成为智能手机创新的主战场之一。回顾历史,我们发现围绕着带来更好的拍照体验这个目标,光学经历了像素升级、光学防抖、大光圈、长焦镜头、光学变焦、多透镜设计、双摄像头等多种创新,其中以像素升级和双摄像头最为典型。

iPhone作为智能手机的开创者和标杆,其像素升级历史最为典型。第一代iPhone的后置摄像头像素只有200万,随后逐步升级到现在的1200万;前置摄像头则从iPhone 4的30万像素,逐步升级到了现在的700万像素。在苹果的带动之下,安卓手机厂商也积极升级手机摄像头像素,并在2011-2015年形成了“像素大战”。

双摄像头则是光学的另一重大升级。华为在2016年4月发布与德国徕卡合作的旗舰手机P9,开创智能手机的双摄浪潮。P9配备双1200万像素后置摄像头,两颗摄像头分别负责彩色和黑白功能。彩色摄像头用来获取物体的色彩,而黑白摄像头用来获取物体的细节,然后将两个图片融合为一张最终的图片。P9的双摄大幅提升照片质量,受到了消费者的热烈欢迎,并且是华为第一次成功引领产品创新,是华为手机品牌美誉度得以提升的重大功臣。

苹果则在2016年9月发布了配备双摄像头的iPhone 7 Plus。iPhone 7 Plus采用广角+长焦镜头,通过左右摄像头使用不同的FOV(可视角),使两个摄像头取景不同。当拍近景时,使用广角镜头,拍远景时,使用长焦镜头,从而实现光学变焦功能。iPhone 7 plus的双摄受到了消费者的热烈欢迎,并由于苹果在智能手机行业的标杆地位,迅速被众多安卓手机厂商所学习。


光学行业发展到今天出现了新的动向,三摄像头、潜望式摄像头与 3D Sensing 成为行业下一阶段创新的重点。三摄像头则在双摄的基础上再次大幅提升拍照质量,有望在华为的带动下成为下一阶段的发展趋势;潜望式摄像头由于可以实现远距离光学变焦,有望在 2019 年迎来大发展;3D Sensing因为具备更高的安全性,并且可以带来 VR/AR 等更大的创新潜力,正逐步取代指纹识别成为手机标配。


1.2、华为引领三摄浪潮,渗透率有望快速提高

华为在 2018 年发布的 P 系列和 Mate 系列两大旗舰机中均采用了三摄像头设计。 P20 Pro 与 Mate20 Pro 均配备一颗 4000 万像素的主摄像头、一颗 2000 万像素的副摄像头、一颗 800 万像素的远摄像头,三颗摄像头分别起到彩色广角、黑白广角、彩色长焦的功能。

具体在进行拍摄时,通常是两颗摄像头在工作,要么是彩色+黑白,要么是长焦+黑白,三颗摄像头通常不会一起工作。

三摄的第一大优势是暗光场景下的强大拍照能力,这个时候使用的是彩色+黑白两颗摄像头,彩色摄像头用于成像,黑白摄像头用于捕捉细节。彩色主摄像头的传感器尺寸较大,可以获取更多的进光量,再加上黑白摄像头带来的细节捕捉,可以在暗光下获得更好的成像。

尽管彩色主摄像头采用4000万像素,但华为P20 Pro在自动模式下并非直接输出4000万像素的照片,而是采用4合1的方式,靠4000万像素感光元件输出一张1000万像素的照片,以有效提升暗光场景的拍照能力。如果需要输出4000万像素的照片,需要单独进行设置。

三摄的第二大优势是变焦能力。华为P20 Pro提供了3倍光学变焦和5倍三摄变焦两种变焦模式,其中3倍光学变焦用到长焦+黑白两颗摄像头,5倍三摄变焦则要分别用到彩色+黑白和广角+黑白两种模式。

由于长焦摄像头的80mm焦距刚好是主摄像头27mm焦距的三倍,所以当需要变焦拍摄远处的景象时,可以从主摄像头切换到长焦摄像头,从而实现模拟3倍光学变焦,这一点与iPhone的光学变焦原理是相同的。这种变焦实际上是“突然”发生的,但通过算法的调校,可以让这个过程平滑化,让拍摄者不会感到突兀。

由于只有两种焦距的摄像头,所以实际上只能实现3倍光学变焦,5倍三摄变焦实际上是对照片进行裁剪优化得到的。由于4000万像素彩色主摄像头的成像效果非常好,所以在需要实现5倍三摄变焦时,会把这颗摄像头的图像和长焦摄像头的图像进行裁剪优化,再加上黑白摄像头的细节能力,从而呈现出5倍变焦的效果。

三摄像头在大幅提升成像效果的同时,也大幅增加了制造难点,这些难点可以概括为硬件和算法两方面。

在硬件方面,难点在于摄像头的一致性要求。这三颗摄像头均可以实现成熟的单独量产,但组合起来就会出现一致性的问题。每颗摄像头的加工过程和安装位置都会产生细微差别,对于摄像头这种高精度的装置,1mm的偏差就足以毁掉整张照片。为此,华为在每条产线上引入了高精密的调校系统,通过光学检测和人工智能来进行分析和校准,保证对焦和成像的准确性。

在算法方面,难点在于解决变焦时的转换流畅度。由于三颗摄像头是两两组合来使用的,在变焦时要实现摄像头的切换,这个时候需要完美解决视差问题,即无论变焦到多少,切换到哪个摄像头,都不能感觉到明显的差异。为了实现像素级的精确,最终生成的图像都需要上万个点的对齐测试,这种算法的调校才是三摄的难点。

三摄像头一方面可以大幅改善成像质量,提供更好的光学变焦功能,另外一方面是对双摄的进一步升级,在硬件和算法的层面拥有更好的基础,可以更快地完成渗透。我们预计在华为的引领下,2019年将有包括苹果、三星、OPPO、vivo、小米等众多厂商开始使用三摄像头。


1.3、潜望式摄像头有望在2019年快速渗透

潜望式摄像头是指将镜头与手机平面垂直放置的摄像头。OPPO是最早推出潜望式摄像头的手机厂商,其在2017年的MWC上首次展示了潜望式摄像头技术。区别于传统双摄镜头的并列排布,OPPO将长焦镜头横向排列,与广角镜头形成垂直布局,由特殊的光学三棱镜让光线折射进入镜头组,实现成像。

潜望式摄像头最大的优势是可以实现高倍数的光学变焦。变焦就是改变焦距,从而得到不同宽窄的视场角、不同大小的影像和不同的景物范围。变焦通常有数码变焦和光学变焦两种方式,其中数码变焦是通过数码相机内的处理器,把图片内的每个像素面积增大,从而达到放大目的;光学变焦是依靠镜头中镜片的移动(改变镜片之间的距离),进而改变镜头的焦距,实现变焦。

光学变焦可以分为内变焦和外变焦两类方案。内变焦指前后镜片之间的距离不变,由之间的镜片组前后移动变焦,简单理解就是变焦在机身内完成,摄像头外观没有变化;而外变焦则是通过前镜片组和后镜片组移动变焦,类似于我们平常见到的伸缩式镜头。

由于智能手机需要保持轻薄,而使用伸缩式摄像头会大幅增加手机的厚度,并且难以防水防尘,所以内变焦是手机实现光学变焦的主要方式。但由于手机厚度有限, 水平放置的摄像头只能有较小的焦距,光学变焦能力有限,所以通过采用潜望式摄像头的设计,能大幅增加摄像头的焦距,实现更好的光学变焦。

OPPO已在1月17日正式发布了其最新的潜望式摄像头技术,支持十倍光学变焦。该技术采用“接棒式”三摄配置方案,其中长焦摄像头采用潜望式结构,等效焦距为159mm,另外超广角镜头的等效焦距为15.9mm,再加上超清主摄,这样就构成了等效焦距15.9mm—159mm的三摄镜头组。OPPO的这款产品也赢得了MWC 2019的优秀技术奖。

在手机行业进入存量竞争之后,任何能吸引消费者的功能都成为手机厂商创新的重点。在OPPO的带领下,我们预计华为、小米等手机厂商也将很快推出配备潜望式摄像头功能的手机,潜望式摄像头行业正引来快速发展的新阶段。


1.4、3D Sensing快速渗透,行业规模不断增长

3D Sensing是指获取周围环境的三维信息来进行识别的功能,被广泛应用于工业、医疗、交通、科研、国防等领域中,例如无人驾驶所使用的激光雷达就是3D Sensing的一个典型应用。

随着技术的进步,3D Sensing逐步实现了小型化、低功耗,可以开始用于手机等消费级的电子产品中。当用于手机时,具有安全性高、使用简便、适合全面屏设计等优点,可以完美取代手机中的指纹识别解锁。苹果在2017年9月发布的iPhone X中首次配备3D Sensing功能,并命名为Face ID,并在2018年9月发布的iPhone XR、iPhone XS、iPhone XS Max中全面配备3D Sensing。

苹果在2018年10月30日发布的最新款iPad Pro中,同样去掉了指纹识别模块,转而使用3D Sensing功能,我们认为这将成为苹果在iPad产品系列中全面使用3D Sensing的开始,未来3D Sensing将成为iPad的标配。

我们预计苹果未来将在旗下产品中全线配备3D Sensing功能,由于苹果产品的出货量,未来3D Sensing将迎来广阔的发展空间。


2、三摄+潜望式:打开产业链成长新空间

手机摄像头主要由光学镜头(Lens)、音圈马达(VCM)、红外滤光片(IRCF)、图像传感器(Sensor)等组成。三摄相比单摄和双摄分别增加两颗和一颗摄像头,潜望式则需要增加一组镜片和折射镜头,将给整个摄像头产业链带来新的市场空间,产业链相关企业将迎来新的成长动力。

从手机摄像头产业链的价值量分布来看,CIS图像传感器占据了52%的价值量,是价值量最高的部件;光学镜头和模组的价值量占比分别达到了19%和20%,两者旗鼓相当,仅次于CIS图像传感器;音圈马达和红外截止滤光片的价值量占比分别达到6%和3%,价值量较少。


2.1、光学镜头:设计和制造难度大,经验积累是关键

光学镜头的主要作用是利用光的折射和反射原理,搜集被拍摄物体的反射光并将其聚焦于图像传感器上。

手机摄像头使用的镜头主要有塑胶和玻璃两种材质。塑胶镜头透光率不如玻璃镜头,但成型更为容易、良率较高、成本较低,通过不同形状的塑胶镜头进行组合,也可以达到非常好的成像效果,所以手机摄像头使用都是塑胶镜头。

衡量镜头解析力的常用指标是MTF(Modulation Transfer Function,调制转换函数),它衡量的是镜头对对比度的还原情况。理想镜头的还原情况可以达到100%,最差的镜头无法还原对比度,所以MTF的值位于0—1区间内。MTF的值越大,表明镜头的解析力越好。

例如在下图中,黑白条的对比度原本是100%,但经过镜头的处理之后,黑白条的中间地带会由于光线的串扰而呈现灰色,这就是无法完全还原对比度的情况。在这个例子中,这个镜头的MTF值为90%,表示可以还原90%的对比度。

在手机可见光摄像头中,尽管玻璃材料的透光量要好于塑胶镜头,但塑胶易于成型,可以组成各种所需要的组合,对光线的控制也更优,所以塑胶镜头的MTF反而会大于玻璃镜头。基于此,我们认为塑胶镜头仍将是未来一段时间内手机可见光镜头的主流,但玻璃镜头或玻塑混合镜头大概率也将会占有一席之地。

光学镜头具有非常高的技术难度,目前能大批量稳定生产高品质镜头的厂商较为稀少。光学镜头的难点主要在于设计和制造环节。

光学镜头的难点之一在于设计环节。设计环节需要的是多年的经验积累,以及想象力的发挥,不仅仅是一门工程,更是一门艺术。每一个设计的光学镜头都可以专门申请专利,保护设计师的心血结晶。设计环节直接决定厂商能否生产某一规格的镜头,是进入这个行业的门票。

光线在穿过镜头时,会发生非常复杂的折射过程才能到达图像传感器。这些复杂的折射过程会使图像传感器上的成像与根据高斯光学得到的理论结果产生差距,这就是像差。

像差主要由三种原因产生:1)通光介质的折射率随波长变化而变化;2)透镜表面通常为球面;3)光具有波粒二象性。由第一种原因产生的成像偏差称为色差,第二种产生的成像偏差称为球差,第三种产生的成像偏差称为衍射效应。目前已知的像差已经有几百种,比如轴向色差、球差、横向色差、慧差、场曲、像散和畸变等。

像差无法完全消除,所以这个世界不存在完美的镜头。光学设计就是通过组合不同形状、不同数目的透镜,实现对这些像差的控制,尽可能获得尽可能完美的成像效果。但是因为像差实在太多,所以想实现完全的像差控制是不可能的,只能通过光学设计在众多像差中取得平衡。光学设计不是工程,而是艺术,是对于美的理解,考验的是光学设计师的经验、天赋和灵感。莱卡和蔡司作为最优秀的光学厂商,引以为傲的正是其在光学设计上的深厚积累。华为与莱卡合作,主要的合作内容就是莱卡帮助华为改善光学设计。

光学镜头的难点之二在于制造环节。如果说设计解决的是镜头厂商能否生产的问题,那么制造环节就是决定生产良率和一致性的关键。在模具、成型、组装等环节,对于生产精度都有非常高的要求,任何一个环节出现差错都会对最后的成像效果产生非常大的影响。

模具环节是塑胶镜头制造的最关键部分。模具的质量直接影响镜片的成型,所以需要非常高精度的模具,不仅需要有经验的设计人员来进行设计,还需要制造人员具有精密加工和检测方面的基础。

在设计模具时,应该将成型时的所有可能影响精度的因素加以控制,包括成型机、成型条件、成型材料。整体模具的设计需要注意成型机的尺寸和精度、成型条件和成型材料的特性,并考虑到具有累加性的误差,如平行度、垂直度、同心度,以及影响塑胶流动的因素,例如排气孔的位置和浇口形状。

在制造模具时,需要考虑模具的加工方法、工作机械和模具材料,比如零件制造的机台、方法、程序是否合理。任何失误都会直接影响模具的尺寸精度,很容易导致模具无法达到设计的公差范围。

成型环节,材料发生了相变化、密度变化、温度变化以及压力变化,必须严格精确控制这些变量才能使透镜拥有良好的光学特性,这对厂商的生产提出了极高的要求,不仅需要高精度的仪器,还需要有经验的熟练工人才能完成操作,任何差错都会影响最后的成像质量。比如莱卡在冷却成型时,是按照一小时下降一度的速率逐渐降低温度的,以求得到最优质的光学镜头。

组装环节是按照顺序逐一将加工完成的镜片、隔片、压圈等部件完成装配,并实现光学性能的过程,目前主要通过自动化方式实现组装。镜头组装技术要点十分复杂,对部件加工精度、组装精度具有极高的要求,整体公差一般不超过3微米,而大立光等企业甚至达到2微米。组装还需要经验丰富功底深厚的专家团队,不断改进探索,需要多年积累才能制作一颗合格的镜头。

光学镜头设计非常复杂,目前已知的像差就有数百种,仍有大量未知的像差不断被发现,需要在设计中被考虑进去。光线的折射和反射路径数不胜数,需要设计师去不断计算和权衡。透镜的形状、位置、材料可以有无数种组合方式,让设计师们有空间去不断挖掘更好的设计。光学镜头行业永远没有进步的终点,永远都有探索的空间。

正因为这个行业进步永无止境,所以时间和经验才显得极为重要。无论是在设计还是在制造环节,镜头行业都需要大量的经验积累和有经验的熟练工人,去掌握设计的技巧和制造中的know-how,所以镜头行业经常可以见到只有拥有悠久历史的公司才能生产出优秀的镜头。例如德系的蔡司和莱卡,日系的佳能、尼康、索尼,都是具有几十年甚至上百年历史的顶级光学镜头厂商。时间和经验是光学镜头行业最重要的资产,也是竞争对手难以逾越的屏障。

手机镜头的生产尽管不像相机镜头那么困难,但时间和经验依然很重要。例如台湾的大立光是最早开始研究塑胶镜头的厂商之一,成立至今已有接近40年的历史。尽管塑胶镜头是在智能手机兴起之后才开始蓬勃发展,但大立光在此之前已积累了接近20年,所以其他厂商始终难以企及大立光的镜头品质和生产良率,这也造就了大立光在手机镜头领域的霸主地位。

除了大立光,大陆的舜宇光学在近些年也发展迅猛。在2012年收购柯尼卡美能达的上海工厂,并与其达成合作协议之后,舜宇光学掌握了大量设计和制造中的know-how,镜头品质和良率迅速改善,出货量大幅增加。时至今日,舜宇光学已经大幅缩小了与大立光的差距,技术实力非常出众。

在整个手机镜头行业中,台湾地区的大立光是绝对的霸主,2017年占据了34.5%的全球市场份额,并且主要供应高阶镜头。舜宇光学作为来自大陆的后起之秀,也占据了9.4%的市场份额,位居市场第二位,并在国产手机供应链中具有重要地位。除了大立光和舜宇光学,重要的手机镜头厂商还包括玉晶光、世高光、关东辰美等厂商。


2.2、音圈马达:总体技术难度不高,精度控制是关键

手机中控制镜头对焦的器件为音圈马达(VCM)。单反相机的对焦是通过转动镜筒带动镜头里某个镜片或者某组镜片前后移动,来修正光路,使成像落在感光元件上是最清晰的。普通的手机摄像头无法做到像单反相机那样移动某块镜片或者某组镜片来对焦,因此手机摄像头是通过镜头组整个前后移动实现自动对焦,驱动这一动作的就是VCM。

不同厂商的VCM结构略有不同,但总体上均包括外壳、支架、垫片、簧片、磁石、线圈、载体、底座等部件,内部结构较为复杂。

音圈电机(VCM)基于安培定理工作,即当线圈导电,其中的电流产生的作用力推动固定在载体上的镜头移动,从而改变对焦距离。可以看到,音圈电机(VCM)器件对于对焦距离的控制实际上是通过对线圈中电流的控制来实现的。

手机摄像头的VCM需要Driver IC配合完成对焦,通过Driver IC控制VCM供电电流的大小,来确定VCM搭载的镜头移动的距离,从而调节到适当的位置拍摄清晰图像。

衡量VCM的性能主要有以下几个指标:

1)行程,简单来说就是音圈马达在额定电流下能够跑多远;

2)灵敏度,就是电流与行程曲线之间的斜率,灵敏度越高越好;

3)磁滞,磁性物体都有保留其磁性的倾向,磁感应强度的变化总是滞后于磁场强度的变化,所以会造成音圈马达在同一电流下向上或者向下的行程产生位置差,磁滞越小越好;

4)启动电流,就是需要多大的电流来驱动 VCM,越小越好。

VCM的技术并不复杂,但由于对灵敏度的要求较高,所以生产时的精度控制是关键,这涉及到设计、材料等各个环节的改进。

正因为VCM技术难度并不高,所以全球参与VCM产业的厂商有上百家,总体上来看,这些厂家可以划分为日本、韩国、中国三大阵营。

2016年日本的音圈马达占据全球超过四成的市场份额,并掌握着全球音圈马达先进技术和制造能力,代表企业主要包括阿尔卑斯、三美、TDK等,其中阿尔卑斯和三美向苹果供应音圈马达。

韩国厂商占据全球VCM市场的超过两成份额,主要包括三星电机、磁化、Hysonic和LG-Innotek等。

2016年国产音圈马达在全球市场占据了三成以上的份额,企业数量在50家以上,主要包括新思考、比路电子、中蓝等,其中比路电子和新思考在国际市场表现较为出色。

2.3、红外截止滤光片:镀膜工艺是关键,水晶光电实力强劲

红外截止滤光片(IR-Cut filter) 是一种允许可见光透过而截止红外光的光学滤光片。当光线进入镜头,折射后可见光和红外光会在不同靶面成像,可见光成像为彩色,红外光成像为黑白。当把可见光所成图像调试好之后,红外光会在此靶面形成虚像,影响图像的颜色和质量。

红外截止滤光片又可细分为两种,一种是反射式滤光片,另一种是吸收式滤光片。滤光片最关键的工艺是镀膜,需要保证镀膜的均匀性和一致性,镀膜又可分为真空镀膜和化学镀膜两种方式。镀膜之后基本可以滤除650nm以上波长的光,满足基本的使用需求。

以蓝玻璃为基材镀膜制成的IRCF,是采用吸收的方式过滤红外光,可过滤630nm以上波长的光,比较彻底;而以普通玻璃为基材镀膜所制成的IRCF是以反射的方式过滤掉红外光,反射光容易造成干扰,效果差于蓝玻璃IRCF。

红外截止滤光片的主要生产厂商有欧菲光、水晶光电、田中技研、哈威特(已被奥托仑收购),欧菲光早在2002年就研发生产IRCF,此后进军触控屏及影像系统领域,IRCF增长放缓。水晶光电作为后起之秀,目前是国内龙头,同时也间接向苹果供应红外截止滤光片。


]]>
专栏 //www.xyschoolife.com/category/zhuanlan/I7z1FD9Dh7QHqaic.html#comments Mon, 15 Apr 2019 22:31:00 +0800
电子信息产业发展研究院副主任杨春立:基于数字孪生的智慧城市顶层设计探索与实践 //www.xyschoolife.com/category/zhuanlan/WLggdG1GiLcJki3C.html 雷锋网按:数字孪生连续两年被列为当年十大战略科技发展趋势,也是赛迪网在2018年公布的智慧城市十大热词之一,数字孪生是一个集成多学科、多物理量、多尺度、多概率的仿真过程,越多越多的城市建设者认为智慧城市的前提是将真实世界与虚拟世界一一映射,在虚拟空间中完成对城市的运营。

市场调研机构Gartner早在2017年就已经把数字孪生技术列入了当年十大战略科技发展趋势之中。在最近一次报告中,Gartner则是进一步预测,到2020年,互联传感器与端点将超过200亿,数字孪生将以数据为基础,服务于数十亿个物联网设备。

杨春立认为,关于智慧城市有两类顶层设计方法论。数字型是其中一种,这是院里评测中心软件和集成电路评测中心2010年左右提出的智慧城市顶层设计方法论,主要的理念是按照统承的思想,采用“梳子模型”对城市的建设和规划进行系统的设计。另外他还提出“双核一带全覆盖”五个功能区。

以下是他在现场的演讲全文,雷锋网(公众号:雷锋网)获得授权,并做了不改变原意的编辑与整理:

杨春立:尊敬的各位嘉宾下午好!非常高兴参加本次论坛,今天想跟大家一块探讨智慧城市的顶层设计。刚才张总提了几条我非常赞同:一是以人为本;二是一城一策;三是把时间维度和属性维度添加进来我非常赞同。

智慧城市这个理念开始提出以来,经过十几年的发展,我们可以看到城市在精细化管理、智能的运行甚至提高人们的生活品质方面发挥了很大的作用,这些作用集中体现在信息技术和城市发展在城市中的创新应用。

截止到目前,全球有1000多个城市都在积极的探索数字城市、无线城市、智慧城市,其实都在不同程度的探索。目前成为经济社会创新发展的载体,但是我们说十几年来智慧城市的建设成效是什么的?实际上不太乐观,2017年发布的全球智慧城市战略指数,只有19个城市超过了50分,我们国家2019年开始提新型智慧城市,2016年我们国家发改委对新型智慧城市进行评价,第一年的评价报告来看,成效也不太乐观,平均分也不太及格,成熟分的城市为0,成长期的城市40个,超过17%的城市还是处于起步期,市民的体验刚刚及格。

为什么智慧城市经过这么多年的建设,为什么成效上存在不容乐观的情况?比如说重硬轻软,很多的市民沟通参与不够、智慧城市的运营模式不成熟或是没有成功,这里面提了十个,都归结为顶层设计,顶层设计方面存在或多或少的问题。

现在,我们顶层设计哪些方面存在难点和瓶颈?实际上现在很多的智慧城市在顶层设计的过程中,更多的是把它当成信息化的建设项目,信息技术的单纯应用出来进行顶层设计。还有在智慧城市顶层设计过程中不太注重总体的架构和整个实现路径,所以从目前来看,这些智慧城市的建设过程中又形成新一轮的信息孤岛,这就是我们现在智慧城市顶层设计过程中存在的突出问题。使得很多的智慧城市存在千人一面的局面,我们怎么对智慧城市进行顶层设计?

我们先来看看智慧城市顶层设计的演变,上面这张图是赛迪顾问梳理的“智慧城市顶层设计方法论演变历程”,我们国家开始进行智慧城市建设。一直到今天,不同程度出台的相关战略文件,政策和相关的标准规范,有概念导入期和建设加速期、升级发展期,划分了三个阶段,不同的阶段中,我们出现的智慧城市顶层设计的方法论主要有以下几个方面:一是EA(企业架构),主要在企业信息化方面用到顶层设计方法,最大的特点是以业务驱动信息系统的建设;二是SOA(面向服务的架构),最大的特点就是实现了中立,把各个组件当成是服务的功能模块,在接口上独立于硬件、独立于操作系统、独立于编程语言;三是信息工程方法论,还有我们后面提到的Cobit IT治理,IT治理是国外的政府机构把IT的审计规则和相关的规范引入到智慧城市的设计理念来,最大的突出特点就是把智慧城市的构建目标和IT的审计规则有效的衔接起来,还有后面提到的信息技术或是IT服务论这套方法。还有共享服务的模式,非常契合今天我们提到的共享经济理念,就是把很多的共性功能,以高效低成本的方式提供给各个相关的部门。

还有后面列举的两点,这个是今天重点跟大家探讨的两类顶层设计方法论:一是数字型,这是我们院里评测中心软件和集成电路评测中心2010年左右提出的智慧城市顶层设计方法论,主要是采用“梳子模型”对城市的建设和规划进行系统的设计。主要特点是采用的基于服务的SOA架构体系,功能模块既实现了紧内聚,又实现了松耦合,大家梳头用的梳子大家都不陌生,他们可以拆卸,非常柔性、非常灵活的应用服务平台。

梳子上的一个一个的齿是多种多样的应用,它是相对独立存在的行业应用系统,与这些应用服务平台组装在一起满足智慧城市发展需求的各类应用。按照这种形式进行设计,可以从根本上消除信息的孤岛,保证投资的连续性,也能够对各类基础设施的适应性、适配性大大的提升,实现各个应用系统的集成,实现真正的业务系统,实现信息的共享,这是我们2010年前后提出的智慧城市“梳子模型”。

我们采用这种方法对几个城市进行了顶层设计,我们最早在北京市东城区开展的顶层设计,主要实现了“三化一体系”的发展战略,推进城市管理的精细化、公共服务的个性化、服务经济低碳化、构建政府服务各管理的支撑体系,整个架构包括五个,有一个网络基础设施的支撑,再就是两个服务,技术支撑的服务和综合服务的框架。另外两纵还包括网络安全和政策相关的标准规范。这是“梳子型”设计的顶层设计(如下图)。

后来我们又参与到上海张江城智慧城市发展规划,张江是作为上海国际科技创新中心核心功能承载区,是推进自由贸易区和自主创新示范区两大国家战略,实现“双自联动”的前沿阵地,我们提出“双核一带全覆盖”五个功能区,双核是指云计算大数据中心和智慧城市的运营中心,“一带”指南北创新剂科技信息服务带。五个中心包括智慧政务、智慧科创服务、智慧社区、智慧楼宇、智慧交通。

重庆市智慧南岸顶层设计,我们提出五层架构,五层框架包括感知的终端层、网络设施层、信息资源层、共享交换层、智慧应用层。

我们和联通共同做枣庄智慧城市架构,张总介绍中也能感受到数据量非常大,而且现在明显的智慧城市发展的特征就是以数据来跑路、以数据说明、以数据决策,整个智慧城市未来发展的重点也是以数据核心推动,智慧城市的建设中作用越来越突出。

我们基于“梳子型”顶层架构的方法论,我们提出三层的架构,第一层没有变,基础设施层;二是核心的赋能层,这一层主要解决城市里面大数据资源体系的构建,在这里面用数据资源层;三是释放能量、赋予能量层,各类的应用在这里。智慧城市是信息系统的大综合、大集成、大协同。

我们的基础设施、信息资源、应用服务、安全体系、体制机制、标准规范要实现综合,智慧城市覆盖的各个领域,经济、社会、文化、政治、生态五位一体方面。应用信息系统不是简单的堆积。它也是可以升级、演变的,这是我们当时认为的智慧城市,我们又形象构建了像一棵智慧树一样形成的智慧城市框架,底层的根基是基础设施,枝叶部分是服务,树干、核心是城市生命线的智慧运行。各类应用和城市里发展的各种产业,这是当时我们认为智慧城市是信息系统,大家可以看之前的这些顶层设计还是从信息系统维度进行顶层设计的,要做好智慧城市的顶层设计有三大原则:面向未来,有哪些问题、哪些需求,我们要面向服务的对象,面向有一定的前瞻和引领,要具有未来,而且还要考虑考虑服务的对象。

我们国家提新型智慧城市,智慧城市有建设的需求方,有提供解决方案方,有需求、有供给,对于这些需求和供给来说是不是智慧城市的主角?这些主角对城市的发展有什么样的智慧需求?追求经济增长、追求管理和追求服务的便捷性,解决方案提供商最终的关注点在哪里?这些都是我们在新型智慧城市顶层设计中需要重点考虑和解决的维度。新型智慧城市的目的、手段又在哪里?新型体现在哪些方面?新型智慧城市体现在以人为本,体现在新型智慧城市的建设,顶层设计、建设、应用过程中要有系统化的思维,它是一个系统工程。智慧城市这么多年的发展是不断的完善、不断升级、不断演进的过程,而且我们说新型智慧城市一定要有专业的服务在里面。当然这些智慧也在不断的演进升级,不同的时代内部的含义不一样,就是因为我们应用到了不同的以后,技术在演进、技术在不断的突破、不断的创新,推动智慧的层级在不断提升。

居住在城市里的居民、企业、政府,这些是城市服务的主体,对于城市来说服务的主体考虑到城市的可持续发展能力,城市的治理能力,这些是智慧城市今天所要考虑构建的目的和实验的技术手段,原来追求土地空间的发展,从这种模式中解脱出来。要把政府、企业和居民作为新型智慧城市建设中缺一不可的主体,明确各方承担的职责,特别要把居民主人公的意识激发出来,共建共治共享共惠的局面,数据是在自由的流动,是否合理的开发利用,可以合理的追踪责任和动态的分配利益。

当然,新型智慧城市也要体现我们时代的特色,政府层面要简政放权、放管结合、优化服务,要进行深层次的改革,基于新型智慧城市的考虑,我们在探索,是不是在原来智慧城市顶层设计的理念中,探索数字孪生加上数据模型CIM的方法构建新型智慧城市。

刚才主持人介绍了数字孪生大家都不陌生,最早起源于CAD软件,主要应于制造业领域的产品研发设计,其实到了今天,数字孪生仍然没有得到大规模的推广,最初是在轮船、飞机这种极端复杂的产品,在虚拟仿真领域应用比较多。今天,新型智慧城市建设过程中,在新型智慧城市的顶层设计里应该把数字孪生的这套技术、这套方法论引进来,所以我们提了数字孪生加城市信息模型构建新型智慧城市的这套方法论,核心就是以城市的信息数据为基础建立起三维城市的空间模型,和城市的信息形成有机的综合体。范围上来讲是一个大场景的GIS,地理信息空间数据加上一个小场景的BIM,CIM是在BIM的基础上进行提升,加上新兴的技术,物联网、人工智能和大数据有机结合在一起。技术上讲,就是数字孪生加上BIM形成的,好处是自动调动流程中各种信息。现实中有一个实体正在建设的城市,对应我们的软件里面,我们信息系统里有一个和它一模一样的模型。

CIM的前身是BIM,主要是起源于建筑信息模型,同时基于这些数字模型对项目进行设计、建造和运营管理,BIM的特点和建筑本身的全生命周期作为对象进行管理、设计、施工和维护。CIM基于BIM构建建筑物的轮毂、主体结构和物理设施的设计,实现建筑物各类资源的优化和应急方案预演以及对各个建筑群之间资源进行动态的优化和配置。从本质上来看,CIM就是由计算机三维模型的数据库创建建筑的信息,容纳设计、建成、使用甚至到后期的维护,全生命周期、全过程的信息。

数字孪生、BIM、CIM的本质思想是集成、并行、迭代,所有的应用程序和业务都是基于数据流,还有一个关键就是场景,把一个一个划分成相对独立的场景解决人和各个参与主体之间的业务关系。我们说基于数字孪生和城市信息模型构建的顶层设计,主要遵从几个理念:一是遵循大的视野,凸重点、重实效。立足以人为本,落脚智慧化建设,民生的需求,城市的功能定位出发,分析整个城市的核心优势和面临的短板,明确智慧城市的需求、分级、分类建设智慧城市。既注重新技术又注重信息安全。二是数据驱动,智慧城市更多的是数据的自由流动,数据来说话,数据跑路、数据决策,把城市的数据能够进行集成和动态分析。形成城市运行全生命周期动态管理,提升管理水平。三是注重多方的协同,通过参与主体多元利益相关交互参与,改变政府主导单一建设模式,从今天来看,越来越多的智慧城市,从政府主导的模式向社会共同参与,联合建设运营的多元化模式,很多城市都在向这些方面探索。

总体来看,随着今天技术的发展,CIM的这套方法论已经在技术上不存在任何障碍。基于这套方法论我们提出新型智慧城市的SMART模型,主要是由三层构成:

    1、投入层,为实现战略目标所做的资源、技术的投入。

    2、产出层,建设产生的应用平台、业务系统。

    3、绩效层,是智慧城市将来运营成败最关键的一层。

新型智慧城市框架是什么样的?有一个通用的平台、开放的应用体系、共用基础的一张网、高效的城市运行指挥中心,明显的几个特征是基础设施层面强化共用,核心平台层又称之为操作系统层,最大的特点是能整合、通用,应用服务层是智慧城市成败的关键,最大的特点就是开放。

CIM的应用呈现,不同的呈现不管是智慧社区还是虚拟巡逻,管线的布控,都是划分成典型的应用场景。新型智慧城市和顶层设计方面的探索和应用,说到数字孪生,雄安新区这是在应用顶层设计方法论在构建,有物理实体的雄安在建设,系统里面也有跟它相对应的模型在构建,这套方法论最大的好处是通过数字模型模拟就能知道未来几年,比如说未来城市发展成什么样?假如说我引进产业、引进龙头企业能够带动多少就业,能够产生多大的产出,这是这套模型最大的好处,能够提前引领性的预示出未来新型智慧城市的发展格局。

当然国外也在积极的探索,比如说新加坡就有虚拟新加坡,他们已经在用这套方法论在构建。法国也有相应的城市在用这套方法论探索。

这是赛迪在智慧城市实践中一些案例,我们现在的实践是规划、建设、评估三方分离进行构建。

上午有演讲嘉宾提到诺贝尔奖获得者斯帝·格利茨提出影响21世纪两件事:一是美国的新技术革命;二是中国的城镇化。我们国家的城镇化,特别是新型智慧城市的建设承担了这个重任,承担了推动全球经济发展的重任。

我今天的演讲就到这里,谢谢大家!


]]>
专栏 //www.xyschoolife.com/category/zhuanlan/WLggdG1GiLcJki3C.html#comments Mon, 15 Apr 2019 17:42:00 +0800
一花一树一城,走进三维重建的绚丽世界|专访权龙 //www.xyschoolife.com/category/zhuanlan/72qLgqtKNH1KfqkZ.html

本文转载自|公众号赛先生,未经授权不得二次转载

撰文 | 邸利会

二月的圣地亚哥阳光明媚,春暖花开。

2019年CVPR(IEEE国际计算机视觉与模式识别会议)的领域主席会议后,30多名华人主席在拉荷雅海滩边的一个中餐馆聚餐,回顾近40载的计算机视觉研究,颇为感慨——

八九十年代参加CVPR会议的华人寥寥无几,而2019年的CVPR,华人的领域主席就有40多位,可谓“三分天下有其一”,还有2位程序委员会主席,1位总主席。在这一领域,华人的实力已是今非昔比。

筚路褴褛,以启山林。在有影响的华人研究者中,不乏我们耳熟能详的名字,如马颂德、谭铁牛、沈向洋、张正友、朱松纯、马毅、汤晓鸥、李飞飞、孙剑等等。权龙教授更是最早的少数几个为整个领域所熟悉的华人教授。

从1988年第二届国际计算机视觉大会(ICCV)开始,权龙教授就开始在这些视觉顶级会议上发表论文,他长期担任该会的领域主席,2011年还担任了该会的大会主席,2022年将再次出任CVPR大会主席。


三维重建的欧洲力量

权龙的计算机视觉研究始于改革开放后的八十年代。1984年毕业于北方交通大学(现北京交通大学)后,同年考取教育部派遣的留学生赴法留学,在法国国家信息与自动化研究院(INRIA)获得博士学位,加入法国国家研究中心(CNRS),他也是1990年建立的INRIA Grenoble计算机视觉组最早的成员。

在法国国家实验室INRIA 任职多年后,2001他回国加入香港科技大学,建立计算机视觉研究组。几十年来,他一直活跃在学界和产业界前沿。

在计算机视觉领域,权龙教授建树颇丰。

他在九十年代视觉三维重建(3D reconstruction)的基础理论奠基方面做出了杰出贡献。 在2000年以后,他又在三维重建应用领域做了一系列基于图像的建模(image-based modeling)的工作。最近,他还和学生创建了Altizure公司,打造了世界上最好的三维重建平台。

计算机视觉是非常宽泛的研究领域,涉及多个学科(如算法、几何、光学、机器学习等)的交叉。在各个时期,计算机视觉研究也有着非常显著的不同。2012年后的主要风尚毫无疑问是以卷积神经网络为代表的深度学习下的识别。但在此之前的相当长时间里,计算机视觉研究的中心问题是三维重建。

权龙教授曾介绍说,计算机视觉中的三维重建的核心问题就是通过多目的视差获取三维信息,识别不同视角下的图像,对每一个像素进行识别与匹配,然后进行三维重建。在完成几何三维重建后,再进一步对三维信息进行语义识别,这也是重建的最终目的。

回顾计算机视觉的发展,1992年Olivier Faugeras的论文“What Can be Seen in Three Dimensions with an Uncalibrated Stereo Rig”发表,标志着三维视觉的崛起。到2001年Richard Hartley和Andrew Zisserman 的教材“Multiple View Geometry in Computer Vision”出版,标志着三维视觉领域的基本理论框架确立。这十年是三维视觉群星闪耀的十年,涌现了Oliver Faugeras,Richard Hartly,Andrew Zisserman,Luc Van Gool 等等一系列以欧洲学者为代表的如雷贯耳的名字。

当时在法国国家实验室INRIA工作的权龙、张正友(现腾讯 AI Lab 主任)就是这群星当中的华人代表。


六点算法

权龙教授的代表作是他1995年发表的六点算法(“Invariants of six points and projective reconstruction from three uncalibrated images”)。

90年代计算机视觉领域的第一热点是三维重建,而用非标定相机(uncalibrated camera)重建则是三维重建的终极目标。Oliver Faugeras和Richard Hartley在1992年各自独立地解决了非标定相机两张图像下的三维重建问题,引入了基于七点算法的基础矩阵(Fundamental Matrix)的概念。也正是这项工作开创了三维视觉的黄金时代。

权教授的六点算法解决了非标定相机三张图像下的三维重建,进而也在理论上彻底解决了多视重建的几何问题(multi-view geometry)。因为更多的图像并不引入新的几何约束和结构,而更少的两张图像并不具有重建的唯一性。所以这项工作和Oliver Faugeras,Richard Hartley的工作一起奠定了三维重建的理论基础。

权教授1995年的这篇论文可以说完全是一篇几何学论文,论证严密,思路清晰,富有技巧。在计算机视觉领域这种风格的论文并不多。

这篇文章从几何不变量的角度研究三维重建,首次建立了六个三维点的不变量和它们在图像中的投影点的不变量之间的一个双线性方程,并构造性的给出了在三张输入图像下三维点的不变量的代数闭式解(closed-form solution),最终从这些不变量推导出相机的三维姿态和重建的三维点的坐标。

这篇论文奠定了非标定相机三维重建的最小数据与重建的唯一性,即六个点和三幅图像。几乎所有的基于非标定相机的三维重建都是基于这个算法。

在很长一段时间,权龙教授实验室的三维重建算法在性能上处于遥遥领先的地位。然而,了解这项工作的年轻学者并不太多,一方面是因为论文太数学,不好懂。另一方面,现代数码相机的标定相对容易,因此很多后继实际工作都可用David Nister于2004年提出的定标下的五点算法。但这些都不能掩盖六点算法在计算机视觉三维重建的理论贡献、数学优美和历史地位。


从头发到城市

在三维重建的基本问题得以解决以后,一个最自然而然的应用就是用图像来建立物体的完整几何模型。这个应用就是所谓的基于图像的建模。它是计算机视觉和图形学的结合以及共同关注的问题。

权龙教授实验室利用领先和强大的三维重建算法与技术,将基于图像的建模推到了一个新的高度。

2005年,权龙教授实验室发表了第一篇基于图像的对细小物体头发的建模。紧接着,又在2006年、2007年分别发表了基于图像的植物、树木建模。到了2008、2009年更是把这个基于图像的建模拓展到了街道、城市的规模。

这一系列论文都发表在图形学界的顶级刊物SIGGRAPH大会,标题整齐划一,都是统一的“Image-based X modeling”。X从2004年的hair一直变换到2009年的city。这些工作引起了图形学界的惊叹。

权教授很多学生都是计算机视觉领域的佼佼者。

在INRIA Grenoble时他指导的学生Peter Sturm和Maxime Lhuillier,如今是引领法国视觉界的知名教授。1998年,Peter Sturm在权教授指导下的博士论文获得了法国首届最优计算机博士论文奖。权教授的学生还有在三维视觉与机器人领域颇出色的谭平教授、自动驾驶公司AutoX 创始人肖健雄、Altizure CEO 联合创始人方天、北大教授曾刚,旷世上海研究院负责人危夷晨,微软研究院资深研究员王井东、袁路,大疆张宏辉等等,可谓桃李满天下。

除了学术研究、培养学生,权龙教授近年更是把这些计算机视觉重建科研成果转化成产品,和学生共同创办了Altizure人工智能初创企业。普通用户可以通过手机或是无人机拍摄图像,并通过Altizure的云平台识别图像以及从图像中重建出高质量的三维模型。这一云平台更发展为大规模城市重建以及智慧城市时空平台的核心。

作为三维重建领域的顶尖学者,权龙教授还被邀请在各个场合向业界、公众普及计算机视觉,尤其是三维重建的研究与应用。在最近雷锋网举办的“第二届中国人工智能安防峰会”中,权龙教授发表了“三维视觉重新定义人工智能安防”的演讲。在演讲结束后,权龙教授接受了《赛先生》的独家专访(Liao tian),聊了聊他眼中的计算机视觉、三维重建以及可能对我们产生的影响。

《赛先生》:您刚开始是怎样走上计算机视觉研究的路?

权龙我是80年上北方交大的,1984年毕业考取教育部赴法留学生。八十年代,人工智能也是热点,和现在有点像,我当时去法国第一志愿就是“人工智能”。八十年代,当年法国的PROLOG作为人工智能语言引领人工智能以及第五代计算机的发展。

那个时候我本来是想做人工智能的研究,在修“人工智能”这门课时,发现讲来讲去实质上就是一些搜索算法,并没有太多我所期待的“智能”。我其实对这样定义的人工智能是比较失望的。

法国那个大的研究中心有做语音的、图像的、逻辑的、专家系统的,什么都有,当时已经在做神经网络,也叫连接性或连接主义(connectionism)。我同办公室的两个法国同学就是做的神经网络,当时拿不出很好的结果,还不够有说服力。

我选择研究方向时,因为我小时候在太原市少年宫学美术,我对图像和空间有着浓厚的兴趣,就决定做图像理解,就是计算机视觉了。

1987年的时候,我的博士导师Roger Mohr教授去参加了第一届在伦敦举办的国际计算机视觉大会(ICCV),第一届会议论文集我现在还保留着。第二年,第二届的国际计算机视觉大会在美国佛罗里达的坦帕(Tampa)举办,我发了一篇论文。当时我们视觉小组在我导师的带领下一行四人,Mohr、Tombre、Masini,先乘火车到卢森堡,再飞到佛罗里达。那也是我第一次从法国到美国。


《赛先生》:当时欧洲计算机视觉研究状况是怎样的?

权龙:最早很多人认为计算机视觉就是一些图像处理,但其实图像处理和计算机视觉还是不一样的。欧洲计算机视觉发展飞快。 他们可能更加理性与笛卡尔主义, 在一定意义上把视觉当作一个应用数学问题。

欧洲当时有欧盟的联合基础研究项目,三维视觉其实就是在这些欧盟的联合项目中发展起来的,当时比较活跃的有法国的INRIA、牛津大学、瑞典KTH,、比利时 KU Leuven 等等。三维重建需要更多的传统数学知识,这批研究人员都有非常好的应用数学基础,那就用数学工具去解这些视觉问题。

在美国一直有着最大和最活跃的视觉研究人员与学生,大家一直也在尝试不同的方向,在应用领域比较活跃,但方向并不是非常清晰。这要等到2012年之后的这一波人工智能,大部分视觉分类,识别与特征提取与表述的任务都被卷积神经网络重新定义了。

卷积神经网络发明者LeCun是1987年从法国获得博士学位。他能够在神经网络没有被视觉界接受时,能相信、坚持与发展卷积神经网络,太值得我们研究人员的学习与尊敬。2012年之前,所有计算机视觉文章里面,如你用了神经网络,可能直接就被拒掉了。而今天是反过来,如果你文章中没有神经网络,审稿人可以怀疑你的创意。


《赛先生》:但不少学者也表示,深度学习引领的计算机视觉也有很多挑战,比如对噪声不敏感、稳健性不好、缺乏可解释性等?

权龙:当然有这样的问题。计算机视觉研究是个反向逆问题, ill-posed, 没有完美的答案。研究是不会有止境的,需要持续往前走。需要更好的理论来解释现在取得的成果。三维重建的应用,主要是两个问题,一个是设备,说的是数据采集是不是方便;另外就是算力也是不够的。现在很多视觉的应用,比如自动驾驶、AR、VR都需要实时三维重建,要做到实时三维重建,哪个不酷?问题是算力跟不上。


《赛先生》:算法不是那么太重要,是吧?

权龙:不是。算法最重要!但要达到实用,只有算法是不够的,还要有算力。从1998年到2012年,那个卷积神经网络算法和模型基本上没有太大的改动。不过,工程实现上的进步也非常伟大。如此庞大的数据量和如此大规模高维的优化或学习算法能够收敛成功也确实是创举。

其实,现在很多算法先是考虑结果。所以,实践者是先行者,先把这些算法设计和调试出来,然后再去验证,然后希望在数学上能够得到更好的解释与证明。路漫漫,还有很多理论工作需要完成。


《赛先生》:深度学习这一波还会持续一段时间,下一步有没有看到一些苗头,突破在哪里?

权龙:没有人可以预测未来。社会对人工智能的热情,这是一件好事,全社会各行各业都在关注,推进人工智能的发展。但作为一个研究人员,我们也要讲究严谨,可能会更趋向保守一些,因为我们确实知道现时的深度学习能够做什么事情,做不到什么事情。有太多的事情现在并做不到。


《赛先生》:感觉好像还没有杀手锏式的落地的例子?

权龙:落地应用已有很多,但也要看我们的期望。视频监控以前没有深度学习也照样监控,不是吗?监控里面一个关键问题是如何采集数据,如果可以高效地采到高质量的数据,许多问题也将不是问题。


《赛先生》:怎么看自动驾驶?

权龙:你应该问问AutoX的肖健雄(参见 无人车即将落地,但可能不是你想的那样|专访Professor X)。我个人认为自动驾驶现在理论、技术上是成熟的,关键是成本问题。如果放几百万昂贵的传感器放进车里,许多问题都不是问题了。


《赛先生》:您培养了很多优秀的学生,在培养学生方面有什么样的诀窍?

权龙:没有诀窍,要有最优秀的学生,然后方向正确即可。要有好的学校,这样才有可能招到优秀的研究生。如果要在学术的最高层次去创新的话,最优秀的学生是必须的。


《赛先生》:具体怎么培养?

权龙:因为你自己要非常清楚这个领域的发展,你知道问题所在,你可以指出正确的方向。差别就在这里,世界上搞研究都是这样的,你是不是知道问题在哪里,不是这样吗?确实是外行看热闹,内行看门道。


《赛先生》:说说您创立的公司Altizure,当初创办这样一家公司的想法是怎样的?

权龙:三维重建中数据的来源是关键。硬件的普及是最大的推动力。相机已是相当普及,每个人的智能手机都有一个像机,并且足够好可以用于重建。不只是手里的相机,消费级无人机的出现,也改变了我们的视野,有了会飞的像机,利用无人机数据采集可以完全自动化,推出了许多激动人心的应用场景。地面上现在车载相机也在推动着无人驾驶这个极为广泛的市场。


《赛先生》:现在每个人上传照片以后,就可以合成一个三维图像,感觉很好玩,但从产品或者服务形态上,力道似乎不够?

权龙:你看到的这个网站只是我们面向消费者的一个门户,首先我们希望无人机飞手慢慢把整个地球一块一块的要重建出来,打造一个众包的Google Earth。

面向消费用户只是一个方面,更多的应用是面向企业和政府,2B和2G。

我们在做城市级的实景三维,它是智慧城市和安防的基础,市场巨大。我们也为企业提供数据处理,这些大规模数据更多是来自测绘和地理信息行业。


《赛先生》:学术界和产业界之间如何建立一个良好的互动?

权龙:计算机视觉的初期由于算法和算力,应用场景局限大,更偏向于学术研究。现在的计算机视觉,它的应用场景非常宽,市场也很庞大。

这个变化是好事,科学与技术的发展如能够提高生产力,产生实用价值,这才是它的终极目标。当然另一方面也会影响学术气氛,学术纯净度会降低,因为也参杂了资本和市场的干预。总的来说,我认为学术界、产业界人才互相流动是好事,有助于领域的健康发展。


《赛先生》:所以您对学生也不做什么推荐,比如说留在学界或者去产业界?

权龙:没有。我觉得所有东西都是一个自然发展,每个人的追求是不同的,有些人可能更喜欢走学术,另外一些人可能更喜欢走工业界,这都是很自然的。但你要看到这个现实,几年前计算机视觉在工业界是没有市场的,那做的好的唯一能干什么,不就是到学校去吗?现在有了这样的市场,多了一份选择,我觉得对学生来讲是好事。


《赛先生》:现在建设港粤港澳大湾区,您怎么看?

权龙:这是非常好的一件事。香港培养那么多人才,是因为之前经济发达有条件建了一些好学校,可以培养好学生,这些学生出来可以活跃在这些行业。

广东本来的学术是偏弱的,深圳也没有太多的研究性的高校,没有北京上海那么多。因为人才毕竟会考虑学术和生活的兼顾,如果有一个生活不错的地方同时可以静下心来做研究,才是比较理想的。从宏观角度来讲,大湾区的建设是非常好的一件事情。现在大家都是一家湾区人,我觉得大湾区是非常有生命力的,欣欣向荣,甚至比硅谷更有生命力,要相信人,相信资本,相信市场,只要给他好的条件,其实很多东西你不需要去管它,就会生长。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/72qLgqtKNH1KfqkZ.html#comments Mon, 15 Apr 2019 16:13:00 +0800
海克斯康张勤:五维信息平台塑造智慧城市变革 //www.xyschoolife.com/category/zhuanlan/f9f4G4iaAeDOgr05.html 雷锋网按:当前,智慧城市发展如火如荼,阿里、腾讯、百度、京东、平安纷纷入局,推出各种大脑、计算等平台,究其根本,就是打造一套方便政府统一管理、决策的信息平台。而智慧城市从技术角度来看,就是把物理世界的信息搬到数字世界集中处理。这其中,除了巨头,行业还涌现了一批深度垂直的应用型厂商,他们日益成为智慧城市的中坚力量。

作为专注于细分高科技市场的海克斯康公司,以五维信息地理平台作为自己的核心产品,参与智慧城市的建设。在近期“信息为基,以人为本”2019智慧城市论坛上,海克斯康智慧城市方案顾问张勤就重点介绍了这个平台,并详细阐述了他们在智慧城市领域的打法与策略。

张勤认为,智慧城市的本质就是做城市的规划,只不过是以IT、ICT信息化的思路来着手。而对一个城市进行规划、设计的过程中,他认为其中有五大核心要素必须重视,依次是:政府、企业社区及组织、物质基础设施、社会基础设施、自然环境。

以下是他在现场的演讲全文,雷锋网(公众号:雷锋网)获得授权,并做了不改变原意的编辑与整理:

张勤:感谢各位来宾,我是海克斯康公司智慧城市方案顾问张勤,今天给大家分享的是“五维信息平台塑造智慧城市变革”的内容。我今天主要讲三个方面:一是简单介绍一下海克斯康公司是干什么的,我们为什么来这里跟大家分享五维信息地理平台和智慧城市,第一个篇章给大家介绍我们的背景;二是我们所理解下的智慧城市方案概述以及核心需要的支撑能力;三是基于各个行业提出行业的解决方案以及一些国内外优秀的案例,供大家探讨与分享。

一、海克斯康公司是一家信息化的解决方案提供商,我们专注于细分的高科技市场,很多人没听说过我们公司,核心在于我们专注于高科技的细分市场,我们在全球的业务遍及50个国家,有18000名员工。我们在全球科技公司中排名36位,前后两名分别是戴尔和索尼。不同领域开拓,我们不是一个统一的平台,我们周围很多相关的品牌,之前听我们相关的宣传片也知道,全球第一套应急调度智慧系统是我们的英图品牌提供,也是目前世界排名第一。

全球我们主要的市场在北美和西欧,到目前为止超过60%,中国区域发展非常快,在中国区域已经超过2700名员工。总部设在中国的青岛,同时在北京、上海、武汉、东莞、深圳、台北都设有代表处和办公室。

我们的解决方案层面聚焦在两个维度:一是智能制造,主要涉及到飞机制造、汽车制造、电子制造、化工、电力、海事测量、计量和计算机辅助等技术以及解决方案的提供。二是智慧城市,我着重跟大家分享的方面,智慧城市解决方案的核心思路是从测绘、地理信息等维度着眼。

二、如果智慧城市解决方案覆盖所有方面,就没办法在每个方面都做好。那么如何考虑智慧城市的定位?回到城市的基础要素,无论城市如何发展,我们对一个城市进行规划、设计的过程中,我们认为首先要回归城市的五大核心要素:政府、企业社区及组织、物质基础设施、社会基础设施、自然环境。

作为一个城市一定要有政府,目前业界关注比较多的包括电子政务、平安城市等相关的解决方案,核心的客户、核心的实施者都是围绕政府展开。作为一个城市需要有经济的发展、企业和社区、组织,产业园区的解决方案,当然,企业相关的解决方案也在这一块。偏红色的是硬件基础设施,也就是道路、水电、气、网络等硬基础设施,这是一个智慧城市必不可少的。右边的是我们的软实力,包括教育、医疗、社会性质的基础设施,下面是大家知道的自然环境。一个城市经济发展得再好,如果自然环境跟不上也会有问题,智慧城市方案对下面是有自然环境托底。

智慧城市的五大核心的城市要素,围绕着市民,我们需要量化,每个部分如何做?我们可以细化和量化,这是智慧城市的评价指标。智慧城市的建设过程中也会需要参考这些指标,这些指标该如何设计?也就是刚才我提到的智慧城市核心要素,基于要细化,建设思路就是我们的指标。下面所有的东西都围绕市民体验开展。占比最大的,37%是围绕惠民服务,包括政务、交通、医疗、教育;精准治理是政府相关,包括城市管理、公共安全。生活宜居、网络安全都是软硬的城市基础能力,这是我们从城市核心要素延展下来的。

对于智慧城市成功建设的要素,不是说所有的要素都存在就能建设成功的智慧城市,但我敢肯定只要缺少一个因素,智慧城市一定是不成功的。我们做智慧城市刚才也提到,不管是几个要素,要想明白它的本质是什么?本质就是做城市的规划。只不过我们以智慧城市的思路,以IT、ICT信息化的思路帮城市做规划。那做规划的时候有哪些核心的顶层架构?无非要明白我们在哪里?我们要去哪里?我们要怎么去?如果用技术的语言来说就是分析需求,要明白城市的发展战略目标是什么,一城一策、因城而异的架构设计。基于城市发展的战略目标,现状评估每个阶段需要做一些输出,首先第一个要输出的是智慧城市建设需求,基于需求进一步有整体的建设目标、总体的架构,基于架构再细分智慧城市建设的架构设计,包括业务架构、应用架构、基础设施架构、安全体系、标准体系及产业体系。这些做完以后会针对每个下面的内容做一些重点的工程,基于这些重点的工程再把相关的设计架构带动起来,这是核心的设计能力。

这里介绍一个我们在做智慧城市过程中的核心发展思路,分三步走:

1、数字城市,做任何的智慧城市,分领域也好、全部领域也好,首先要做扎实的基础,没有数字所有的智慧城市是谈不上的。

2、平安城市,做智慧城市之前首先做一个细分领域,切入点往往是平安城市,就像马斯洛模型,人们满足了温饱以后,首先要平安,有了平安以后才可以谈各种各样的智慧,我们是这样的思路。数字城市包括核心的能力,二三维的采集技术,包括徕卡等。5D地理平台,怎么把所有的城市从物理世界变成数字世界,5D信息平台把所有的数据展示出来,基于这样的平台叠加各种的行业应用,从平安城市的应用开始叠加,再做智慧城市各分领域的拓展。

3、智慧城市。

如上图所示,左边是拍摄成像的过程,右侧是对路面空间、地下空间、室内室外空间进行数字化的过程。基于所有采集下来的信息,我们首先要做五维信息的管理。生活中我们听得更多的是三维信息,这里为什么谈五维信息?简单给大家解释一下五维信息,包括哪几维?前三维大家都知道,第四维是时间维,地理信息上是有时间维度的,任何一个时间点,昨天现在这个时间是什么样的情况,明天这个时间预测会什么情况?比如说百度地图,我想知道明天这个点我出发会堵还是不堵,一定要基于历史时间轴进行预测。我想基于5D信息知道这个城市运行过程的数据,当然就要时间维度。第五维是属性维,任何一个动态的属性,包括交通、气象、人员、车辆,需要属性维在三维信息上叠加。比如说刚才提到的车辆,像公交车,现在的公交车坐多少人、流量是多少、谁在开这个车?所有的信息通过物联信息传导上来增加的属性维,大量的属性维叠加上来就是第五维。

如上图,左边是比较传统的静态数据,包括各种各样的方式,地形、正射影像、3D网格采集的传统地理信息,下边是实时动态的数据,物联网传导上来所有的动态数据一块叠加进来。右边是传统GIS企业的信息,包括CAD、BIM模型,包括企业生产系统的数据全部进入地理平台,这种情况先提供本地部署和托管的SaaS部署。对于要求比较高的我们提供边缘计算,这里是我们的桌面系统。

基于这个平台把所有的信息融到一块,实现我们的数字城市。这是我们旧金山做的数字城市(见PPT),从最外面进去,所有的公交车在外面跑,刚才是正射影像,类似于百度的微型地图,再往下一步就不是微型地图,三维数据就出现了。基于数字城市模型继续往下面挪动视角。继续往下走,三维的建模数据可以看得到,有一个小标签就是公交车的驾驶员是谁,流量是多少,多少乘客。再往下走就过渡到街景的数据,不管过渡什么数据,上面的叠加都可以在不同的数据上看到,这是目前已经能够做到的五维数字城市的概念。这是叠加的模型,下面是公交车的模型,开过的时候对周边的影响,对地产公司分析周边的噪音影响都有用,实现城市的数字化。这些数字之后怎么用?我们逐步讲。

其他的智慧城市通用技术,包括指挥调度平台,应急管理平台、大数据的分析平台以及物联安防的平台以及城市市政综合管理平台和信息平台。

三、海克斯康智慧城市行业解决方案,从四个方面讲到城市的几大要素:1、善政;2兴业;3宜居;4、惠民。

通用支撑的能力强调的是五维信息地理平台,基于平台的上面,我们接下来要介绍的四个分项的行业运用。

1、善政。我们做善政的时候,第一个聚焦到的行业也是很多做智慧城市的企业会面临的、需要聚焦的行业---应急管理,机构改革以后应急管理部成立形成了大应急管理格局,以前我们谈大应急谈了非常多的年份,喜欢把国外大应急的理念引入到国内,都比较难以实现。应急管理部成立在体制机制上先于很多地方的信息化建设,已经把大应急的概念拉起来。什么是大应急?全灾种,强调平战结合,所有的灾害都管到一个部门,平占结合,日常的安全监管、日常的城市运营统一一个地方处理,应急统一调度也在一个地方处理,基于这样的体系下,一月到三月份全国各个声势的应急管理厅、应急管理局逐步成立,我们这段时间跟很多的方案交流,需求比较多。

介绍一个国外的方案供大家参考,这是瑞士的案例,它的特色是应急管理时有一个问题,有很多以前整合进来的部门,每个部门都有自己的业务系统,也处理他们自己业务部门所管辖的实践。如何在应急的时候把他们全都捏到一起?瑞士的经验是怎么做的?他们日常处置自己各自分部门业务系统的时候,每人都有不同的业务系统,发生事件的时候所有人使用一套应急管理系统,允许不同的部门接受调度和协同,调度到自己部门的业务范围内的时候可以用自己的业务系统,也就是总和分的概念,并不是做一套业务系统把所有业务部门的工作都包括了,必须逼着大家进入应急管理局、应急管理厅以后再改自己的业务系统,要求的只是协同,把协同这个做了,这是一个经验。

二是公共安全方面,我们总结提出十大公共安全的能力集,基于能力集的核心产品和信息化系统串起平安城市需要的相关能力。包括数据挖掘与分析、市民多渠道的报警方式、感知与监控、多机构的资源管理、事件指令、移动处置、接警处、数字记录和证据、基础设施的管理以及态势图集报告。

   

基于这十条,任何的平安城市的核心解决。一个案例是美国首都华盛顿,它比较有意思,国内很多年前就已经做到三台合一,我打交警、火警、匪警都可以打110,很多城市119可以单打,深圳完全合在一起。美国华盛顿是统一的呼叫中心应急的、匪警、火灾或是急救也可以打同一个电话。深圳有12345是市长热线,都是同一个中心接,应急相关的事情和日常的水电气等由一个中心24小时保证接听,国内能做到24小时吗?不能,12345周末很多部门是不上班的,应急的公安是能做到24小时保障。在美国全部24小时,应急、非应急全部统一到一块接收并且分配、处置。

三是城市管理的市政一体化管理,做城市管理重要的是基于五维信息地理平台,将所有的城市地上、地下各种生命线,包括水电气、网络相关的全在五维信息地理平台进行统一管理,任何一个地方断电可以随时分析它影响的用户,如果要开挖,会影响什么东西,真正保证城市对自己的生命线了如指掌。

这个案例是讲巴西综合公用事业服务公司,它不像我们只是一个水的公司、气的公司,它既管水、能源、气、污水,他需要一个系统统一的管起来,我们觉得国内有很大的空间把这些东西全部管起来。

2、兴业。核心想探讨的是聚焦在园区,整个城市的发展、大城市的经济带动都是在园区产生的,不管是综合的园区很多企业入驻还是一个企业一家独大,自建的园区,比如说为的坂田园区,我们聚焦在几个方面的整合:

一是前端整合以后,有计算机辅助调度,既可以做应急的东西,也可以做设备维护和设备管理。我们去过非常多的企业、写字楼的安防中心、监控中心,他们很多东西都有,自己的停车管理系统、火灾系统、电梯管理系统,问题在哪儿?各自都是独立的,没有打通,不同厂商做的,需要做的是所有都打通,计算机调度、物理安防信息管理系统、融合语音通信系统、生产管理系统,上面迁移园区的综合运营中心。

有一个案例是在德国的奥迪总部,核心做的就是几个维度:安全管理、语音集成和硬件集成,所有的信息系统在他的运营中心全部集成到一块。核心的亮点就是集成,集成到一块统一进行管理。

二是智慧交通方案,我们觉得首先聚焦在三个方面,交通基础设施的管理,沿途核心的基础设施要可视化的管理起来,交通事故的管理,任何地方发生交通事故,如何更快的疏导、更快的调度救援以及交通安全防护的管理,核心聚焦在这块。刚才提到三个方面,核心设施的管理、事故的管理,包括轨道交通的、城市日常交通、路面上汽车机场的管理、运输,政府部门为单位的运输管理,和交通相关的非常多,核心我们认为聚焦在四个方面比在智慧城市上可以做出有用的东西来。

三是智慧能源,核心是基于五维信息地理平台将所有能源相关的SCADA系统、自动抄表系统、语音胡椒系统、移动定位系统、营销系统、企业管理系统,和所有的电力、管网全部集合起来进行统一的一体化设施管理,这也是我们在电力方面的考虑。

主要的案例是香港港灯,港灯是1889年成立的公司,使用我们系统也比较久,他强调99999的核心稳定性,他很早引入信息化系统,把所有的信息集成起来管理这也是值得我们借鉴的。

3、宜居。

智慧环保,五维信息地理平台、环境监测预警平台、污染处置应急平台、园区隐患排查平台,联合起来对园区周边的环境进行监测、监控。

案例,城市级的环保重点监控大的生产企业,有危险的危化品企业,为什么监控这些,为什么不在任何一个小区监测环境?而是聚焦在有重大危险隐患的企业。我们国家今年也是多事之秋,连续发生一些事情,都跟危化品企业有关。聚焦点一开始抓得就很准,就是抓大的生产企业。整个流域有一片的园区,对整个的环境做监管,所有的系统整合到一块,所有的传感整合到一块。

4、惠民。应急抢救不细讲,这是加拿大的案例,核心是如何保证救护车快速的抵达病人,基于所有的调度数据做大数据分析,快速的到达最需要的地方。

我今天就介绍到这里,感谢大家。


]]>
专栏 //www.xyschoolife.com/category/zhuanlan/f9f4G4iaAeDOgr05.html#comments Fri, 12 Apr 2019 10:29:00 +0800
盘点 | 混合云大战一触即发,巨头手里都有哪些牌?你最看好谁? //www.xyschoolife.com/category/zhuanlan/32EY8E8Zn0235s5W.html

本文转载自 | 公众号科技云报道,未经授权不得二次转载

根据RightScale 今年新发布的一份关于全球云计算市场的调查,58%接受调查的企业采用了混合云。在旺盛的市场需求面前,众多厂商的进入带来了混合云市场的百花齐放,竞争的大幕也随之拉开。

面对越来越竞争的市场,各大云服务商从2018年开始明显改变了策略,之前喊着只做公有云的厂商以及众多私有云厂商,都陆续推出了混合云架构的产品。

不可否认的是,混合云需求不断向上攀升的势头已经不可阻挡。Marketsand Markets预测,到2021年,混合云的支出年均将增长22.5%,达到近920亿。

从技术发展趋势看,云计算的应用逐步走向深入,云的角色正在从资源支撑平台转向业务支撑平台,云上业务越来越丰富,很多业务需要有跨越私有云和公有云的调度能力。

同时,IoT、移动设备的普及催生了边缘计算的兴起,边缘计算节点与云数据中心并存成为现实,自然地也带来了私有云与公有云整合的需求。技术的进步为混合云奠定了很好的基础,特别是容器技术,它让应用跨云部署成为可能。

从用户角度看,根据中国信通院的《中国混合云调查发展报告》,半数以上的企业将加大在混合云领域的投入力度。在已经应用混合云的企业中,54.7%的企业表示未来三年将加大在混合云上的投入力度,其中投入增幅超过 50%的企业占比为19%。

旺盛的市场需求自然吸引了众多云计算厂商进入混合云领域,其中既有像VMware和众多OpenStack服务商在内的私有云厂商,也不乏亚马逊AWS,阿里云,微软Azure这样的公有云巨擘。

综观当下各种厂商的混合云解决方案可以看到,由于厂商各自的主业务不同,自然地形成了不同技术路线:

一类是以AWS、阿里、微软等公有云服务商为代表,力推的是将公有云技术架构延展到私有云中,致力于在用户自己的数据中心部署一套与公有云同样架构的云。

另一类是以VMware、各OpenStack服务商为代表,方案是将自己的私有云与公有云集成,或者将私有云架构直接部署到公有云中。

除此之外,还有一些厂商选择了集成之路,即推出一个云管平台,来统一纳管各种异构云环境,也不失为一种有效的混合云/多云解决方案。

今天我们就来盘点几大阵营里的代表性厂商在混合云上的动作和策略。


 国外公有云阵营 

2018年底,在re:Invent 2018大会上,公有云龙头AWS正式推出混合云产品AWS Outposts,将AWS引入本地数据中心,让用户能“在本地运行AWS基础架构,以获得真正一致的混合云体验”。

而在此之前,微软已经于2017年宣布推出类似的产品Azure Stack,让企业能够将Azure放到自家的数据中心。Azure支持的功能广泛,而且许多企业在本地端使用微软的操作系统和软件,有可观的用户数,这些因素使Azure Stack在混合云市场,拥有不小的优势。

IBM Cloud Private则基于Kubernetes容器平台之上,融入了IBM公有云Cloud Foundry的框架。2019年2月,IBM推出了全新IBM云集成平台IBM Cloud Integration Platform,作为IBM新混合云战略的主要基础,可以跨公有云、私有云以及本地系统连接应用、软件和服务。

为了搭配全新的产品,IBM还推出了全新的IBM云战略与设计服务(IBM Services for Cloud Strategy and Design),以及全新的多云管理服务。 

此外,IBM在2018年以创纪录的交易价格340亿美金,买下开源软件巨头红帽,IBM CEO Ginni Rometty表示,IBM将成为混合云最大供应商,其市场影响力有待观察。 

相对于IBM长期以来一直在押注混合云,谷歌也正朝着这个方向迈出了关键一步。2018年7月的Cloud Next大会上,谷歌与思科联手推出混合云计算服务平台(Cloud Services Platform,简称CSP),这是谷歌首次真正尝试将自己的云计算服务作为托管服务引入企业数据中心。

谷歌在这次云服务平台发布中强调了在不同环境中移动应用程序容器的能力,包括在云中或本地运行的Kubernetes集群。

至此,国外四大公有云代表厂商AWS、微软Azure、Google Cloud和IBM Cloud,在混合云市场上全部到位,云端主力战也从公有云蔓延到混合云。


 国内公有云阵营 

如果说在美国市场中,混合云已经成为云计算的必争之地,那么混合云的战火也正开始在中国市场燃烧。

四年前,阿里云推出专有云Apsara Stack,成为国内最早推出混合云产品的云巨头。Apsara Stack与阿里云公共云同根同源,致力于将阿里云公共云的技术架构输出到客户的数据中心。

除了Apsara Stack之外,阿里云也和各种第三方开放合作。比如,2018年的云栖大会上阿里云宣布与VMware达成合作,支持VMware云落户阿里云。另外,阿里云也与私有云厂商Zstack有合作关系。 

UCloud从2014年开始推出混合云服务,于2017年正式推出启明混合云解决方案,主要由基础产品、网络产品、安全产品、监控产品、服务产品等组成,可实现整合公有云、私有云、自有IDC等资源。通过“公有云+私有部署+专线网络”方式为客户提供行业解决方案。 

此外,腾讯云选择与VMware共同打造的混合云服务平台。2018年底,腾讯云黑石Stack-V正式交付使用。腾讯云基于黑石IaaS 基础框架,深度融合VMware在计算、网络、存储等方面的领先技术和资源优势,方便用户以更加简单、便捷的方式将业务拓展至公有云,同时也将显著丰富腾讯云的混合云解决方案。 

华为云紧随其后,2019年初,华为云首次对外发布名为HCS的混合云解决方案,这是一个全栈的云服务平台,与华为云采用完全同样的架构和API,旨在把华为云带入用户的数据中心,以确保用户获得真正一致的体验。

至此,国内外公有云巨头已悉数就位。作为云计算发展第三阶段的必然产物,公有云巨头们在混合云上的角力,似乎才刚刚开始。

 

 私有云阵营  

进入混合云市场的不只是有公有云玩家,传统私有云厂商也不甘寂寞,纷纷将自己的私有云解决方案向混合云升级,包括VMware和各种OpenStack服务商也都推出了自己的解决方案。 

最有代表性的莫过于VMware,其混合云方案是将自己的私有云与公有云集成,或者将私有云架构直接部署到公有云中。比如,VMware Cloud on AWS就是将基于VMware的云部署到AWS公有云上,运维和销售都由VMware负责,只是借用AWS公有云底层的硬件资源。


目前,VMware已经与AWS,IBM,阿里云,腾讯云等公有云厂商达成了此类合作关系。与其他混合云架构产品的操作相反,VMware混合云解决方案是将企业使用的VMware虚拟化平台搬上云端,转移相对简单,但相较其他混合云架构的产品,它的扩充效能较差,如有高成本、需长时间等情况。

 

 混合云大战中的应用难题  

虽然目前各大云服务商和IT巨头都已到位,但是用户在采用混合云过程中仍存在一定困难: 

一是企业需要同时管理多家云商以及自建私有云平台的资源,监控分布在各种资源里的业务使用情况,需要在第一时间发现问题并解决问题,增加了运维管理的难度。

二是混合云并不是简单的把公有云和私有云堆砌在一起,如何将公有云、私有云打通,使两者无缝衔接,保持业务在各个云之间迁移,以及数据在各个云上的一致性,是混合云应用时需要考虑的问题之一。

三是如何更好进行云网融合。对于用户而言,当前混合云业务面临的最大问题之一便是云计算资源和网络资源的申请、计费、运维处于彼此割裂状态,这在一定程度上也影响了用户的体验。

四是资源利用率,即如何让公有云、私有云、IDC等资源的利用率做到最大化,将成本控制到最优。

以目前国内对混合云需求最旺盛的金融、电信、大型制造与政府行业为例,这类企业用户一般具备一定IT规模和基础,又对数据安全合规有较高要求,都是混合云落地的主流需求方。

由于他们具有一定的固有ICT思维,对于传统的IT基础设施,仍希望可以将其价值最大化,同时兼顾云服务,所以先建私有云,再将公有云之间进行网络打通,是目前大部分传统行业用户的选择。 

同时,这类需求方也有一个共性特点,就是要求云服务提供商懂行业,能满足复杂的行业需求。因此,如何以客户需求为导向提供具备行业特点的混合云服务,将是各大云服务商在国内市场比拼的重点之一。

另外,混合云架构目前被限制在单一云端平台上,还无法支持用户多云的需求,企业跨云仍旧是一大挑战,这也会成为各大云服务商在混合云领域要解决的课题。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/32EY8E8Zn0235s5W.html#comments Fri, 29 Mar 2019 18:52:00 +0800
企业级WiFi!LoRa原来是这样的技术 //www.xyschoolife.com/category/zhuanlan/hYQC2VGMeShIbVnF.html

本文转自公众号 | 网优雇佣军

未经授权不得二次转载

物联网革命如火如荼,举目遥望,各种LPWAN技术山头林立、遍地插旗,都期待快速抢占桥头堡。

LoRa,作为最早商用的LPWAN技术之一,全球已有95个国家部署,联盟成员超过500家。在国内,阿里巴巴已宣告全面推动LoRa覆盖与普及,阿里云IoT与多个广电运营商合作,开始建设城市级LoRa全网覆盖。

不过,许多人对这项技术仍然云里雾里,对此,本文寄希望于从物联网的“应用”、“连接”和“安全”三大重点来说说LoRa独具优势的那些特征。


应用: 智慧城市、智慧社区快速普及

1、为什么LoRa能迅速普及落地?

客户愿意买单

物联网叫得火热,可对于客户,哪些应用是刚需的?哪些是可有可无的?是雪中送炭,还是锦上添花?

答案很简单,能帮助客户省钱的、赚钱的,能保障人身安全、提供社会便利、维护社会稳定的物联网应用,一定是雪中送炭的,而方便好玩的一定是锦上添花的。

案例一:普陀智联城市大脑。垃圾箱房满溢,家里煤气没关好,窨井盖没盖好,报警装置立即报告给相关部门;消防通道有车停放,超过5分钟地磁自动报警……在普陀区,41个物联网应用场景,9万个传感器遍布全区5.5平方公里,将数据采集至城市大脑进行实时分析和判断,生成处置流程,自动派单,整合公安、交警、城管、市场、市容、环卫等力量及时处置,让城市变得更有序、更安全和更干净。

案例二:智慧梦想小镇。在杭州余杭区的梦想小镇,基于阿里云IoT的Link WAN平台布设了LoRa网络来提供城市管理服务。在已交付的第一期项目中,LoRa技术在环境卫生,智慧停车,井盖监控等应用上为小镇管理者和居民提供便利的服务。

运营者能够赚钱

孤岛式的物联网应用能赚钱吗?估计要打一个大问号。对于运营商、应用提供商等,物联网连接规模越大,价值越大,这个道理自不待言。

案例三:上海东方明珠转型智慧城市服务商。采用LoRa技术承接了上海市六个区的智能化方案落地和运营,利用LoRa技术对城市消防、小区安全及城市孤寡老人进行全面感知,并通过事件联动相关部门加快处置流程,帮助城市政府提高工作效率,也帮助市民得到更加优质的服务。

对广电企业而言,LoRa是目前最合适的物联网技术。一方面,广电企业的频谱资源完全可以承载LoRa网络,而且LoRa低成本、产业成熟、部署方便的特点也完全满足广电企业切入各地数字城市建设的迫切需求。根据目前公开资料,北京歌华有线、东方明珠、华数传媒、四川广电网络已经与阿里云IoT联合宣布,在LoRa网络和物联网服务方面开展深度合作。双方将依托频谱资源、物联网全链路资源,快速、低成本地搭建物联网络。

2、LoRa具有成为企业级WiFi的独特价值

与其他LPWAN技术一样,LoRa具备广覆盖、大连接、低功耗、低成本等物联网特性,可广泛应用于多种场景。

与其他LPWAN技术不一样的是,LoRa的易部署、自主性与安全性。且经过国内外的多个商业落地,我们可以断言,LoRa更适合企业用户对自主性、快速性要求高,对连续覆盖、深度覆盖要求高的场景,如园区、工厂、厂矿、农场、物流集散地、综合体、人居社区等环境。

应用很关键,连接是基础,LoRa在连接上有何特别之处?


连接: 适用于企业专网部署

说到连接,LoRa特别之处是其网络构架,该构架独辟蹊径,简单灵活,也调优了LPWAN共同具备的大连接、广覆盖、低功耗和低成本等特性。


如上图,LoRa网络构架由终端节点、网关、网络服务器和应用服务器四部分组成。

大多数的网络采用网状拓朴,这易于不断扩张网络规模,但缺点在于使用各种不相关的节点转发消息,路由迂回,增加了系统复杂性和总功耗。

但LoRa采用星状拓朴,网关星状连接终端节点,但终端节点并不绑定唯一网关,相反,终端节点的上行数据可发送给多个网关。


LoRa星状拓朴的好处有三:

1)结构简单,部署灵活

星装拓扑结构简单,网关选点、部署灵活,且时延低。由于无线系统非常复杂且依赖于环境,如果没有任何经验,部署网络时必然会遇到不少麻烦,花费大量时间和精力,因此简化集成、灵活的网络部署方式是发展趋势,这也是LoRa的设计初衷。

2)调优功耗、覆盖、容量等性能

星装拓扑可将智能化的、复杂的和耗电较高的工作交给网关/网络服务器来处理,来延长终端电池寿命;网关执行自适应数据速率,适应不同终端节点的速率和功率,从而获得最大的网络容量和最长的终端电池寿命;同时,相比于网状拓扑,星装拓扑减少了同步开销和跳数,可进一步降低功耗。

3)当终端节点处于移动状态时,无需网关间切换,这利于资产跟踪等物联网应用。

从网络构架看,LoRa除了与其他所有LPWAN技术一样具备广覆盖、低成本、低功耗、低速率、高安全等特性之外,还有一颗“小、快、灵”的梦想。它适用于企业专网部署,自己部署网关,覆盖几公里范围的园区,也考虑到了如同手机网络一样的大型公共网络部署。


技术:LoRa五大优势成全球企业通用物联网技术

一是广覆盖。LoRa单一网关的覆盖距离通常在3-5km的范围,在复杂的城市环境中可以超过传统蜂窝网络,空旷地域甚至高达15公里以上,在特定条件下100百公里的距离也能够成功。

二是低功耗,电池供电可以支撑数年甚至十多年。

三是高容量。GSM基站通常在小几千的连接,家用wifi 网关往往仅有20不到的终端连接能力,LoRa网关得益于终端无连接状态的特性,可提供超过两万以上的终端连接数量。

四是网络通信成本极低,同时支持窄带数据传输。


除了以上四点,本文重点聊一聊第五点:安全性。

“前瞻性安全设计”成技术亮点


如上图,LoRaWAN具有两个安全层:网络层安全和应用层安全,分别使用NwkSKey和APPSKey两个会话秘钥对所有网络数据流量进行加密保护。

NwkSKey用于在终端和网络之间传输时加密MAC层有效负载,其用来计算信息完整性代码(MIC)值,以防止伪消息和验证终端节点,实现网络层安全。

AppSKey用于在终端和应用服务器之间端到端加密应用负载,实现应用层安全,可确保网络运营商无法访问终端用户的应用数据。

LoRaWAN端到端的加密机制确保了只有持有密钥且被授权实体才能访问应用数据,防止了应用数据被窃听,保护了数据完整性和隐私。

此外,MAC还利用帧计数器(Frame Counter,FCNT)来确保不会重复收到一个已经收到的帧,此机制可以避免重放攻击。

NwkSKey和AppSKey是如何产生的呢?下面要说说LoRa终端的OTAA激活流程。

OTAA激活流程,也叫入网流程,该过程在发送实际数据之前生成每个设备的NwkSKey、DevAddr和AppSKey。

在理解该流程之前,再来了解一下一个根密钥AppKey,每一个LoRa终端具有一个唯一标识的128位AppKey, AppSKey 和NwkSKey由AppKey生成。

流程如下:

1)Join Request(加入请求)

终端设备发送Join Request消息(用AppKey签名),Join Request包含以下信息:AppEUI、DevEUI和DevNonce。

DevEUI标识唯一的终端设备,相当于设备的MAC地址;AppEUI标识唯一的应用提供者,比如垃圾桶监测应用,智慧路灯等都有自己唯一的ID;AppKey由应用程序拥有者分配给终端。

DevNonce是一个包含2字节的随机数,在一个会话周期中,网络服务器会一直跟踪DevNonce值,保证DevNonce值永远不可能被重复使用,一旦被网络服务器发现,该Join Request将被丢弃,这个机制可以有效的防止重放攻击。

2)认证和会话密钥生成

网络服务器收到Join Request后,首先执行基于DevNonce的重放攻击防范流程,如果发现重复使用DevNonce值,网络服务器确定该消息无效,加入过程失败;如果该消息有效,网络服务器使用MIC值对终端设备进行身份验证,若终端设备通过身份验证,则网络服务器会生成AppSKey和NwkSKey。

3)Join Accept(加入接受)

Join Accept消息包含AppNonce、NetID、终端地址DevAddr、传输时延RxDelay等,AppNonce是一个网络服务器产生的随机数,用于给终端生成AppSKey和NwkSKey两个会话密钥。

4)传送AppSKey

由于AppSKey被设计为保护终端设备和应用服务器之间的端到端通信,因此应将其从网络服务器传送到应用服务器。

5)会话密钥生成

终端接受到Join Accept消息(使用AppKey加密)后,对其解密并提取参数生成会话密钥AppSKey和NwkSKey。

如果你仔细再阅读一遍,你会发现,整个流程中并没有通过空中发送密钥,只是交换了两侧所需计算的缺失部分,这就保证了无法通过空中拦截流量来生成任何密钥。

但这一的设计仍然有缺陷,由于AppSKey和NwkSKey由同一个AppKey生成,有AppKey泄露的风险。

不过,这个问题在LoRaWAN的新版本协议(1.1)中得到了进一步解决,采用两个不同的根秘钥(NwkKey和AppKey),分别生成多组相互隔离的会话密钥,分开保证协议链路与应用链路加密。同时LoRa网络服务厂商,比如Link WAN,使用基于硬件加密机的密钥管理系统来保护密钥,提升服务端密钥的安全性。

总体上讲,LoRa在安全方面具备端到端加密、双向认证和完整性保护等特性,可有效防止窃听者和流氓设备,在安全设计上具备全面性和前瞻性。

但是,没有绝对安全的网络,即使是授权频段蜂窝网络也有伪基站攻击的风险,这个世界上只有最经济合理的网络,尤其是对于物联网,在低功耗连接中的T(Thing)往往是价格敏感,计算性能极低与体积为小等等特性,安全挑战更是艰巨。

LoRa应依靠其开放的标准,让每个人都可以来检视并检验安全是否有漏洞,如同安卓手机的安全性不仅来自于Google本身开源,也来自于各手机品牌公司的打磨与安全能力添加,共同推动安全、普惠的万物智联时代。


最后,来个懒人版总结:

1)LoRa应用广泛,人人都能用。物联网应用应找准刚需,融合孤岛,发挥规模价值。

2)LoRa具备灵活可扩展特性,规模可大可小,这是物联网产业成长与摸索阶段所需的,可以说是最适合物联网的技术。

3)LoRa安全可靠,具有双向认证、端到端加密和完整性保护等特性,在安全设计上具备全面性和前瞻性,但物联网安全不容忽视,需业界共同努力持续推动。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/hYQC2VGMeShIbVnF.html#comments Fri, 29 Mar 2019 15:05:00 +0800
深扒 | AI艺术品的另类产业链 //www.xyschoolife.com/category/zhuanlan/HFPFxsIuPN9DZ80y.html 最近沉迷动画不可自拔,所以想来给大家卖一下安利:朋友,豆瓣评分 9.4 的Netflix 新剧《爱,死亡和机器人》了解一下吗?题材横跨科幻、恐怖、荒诞、悬疑、喜剧、赛博朋克……总有一款适合你,只要你看我们就是异父异母的亲兄弟姐妹!

当然,剧集中的18个故事也并非个个都是神作,其中最受好评的非《齐马的作品 Zima Blue》莫属。

前方剧透高能预警——

在故事中,泳池清扫机器人Zima通过改造,获得了人类水平的智能,它在不断追寻宇宙意义的过程中,创作出了许多包含蓝色方块的绘画作品,把艺术推向了登峰造极的程度,也因此成为当代最伟大的艺术家,收获了无数掌声拇指鲜花。

故事的最后,Zima向记者回顾了自己的一生,然后选择自杀,回到了出发之地——泳池。

故事在试图表达创作者关于宇宙与生命的哲学思考的同时,也描绘了一幅强人工智能担任艺术工作的未来图景。

值得一提的是,人工智能搞艺术并不是导演在异想天开。在现实中,人工智能创作的艺术作品早就登堂入室,开画展、搞拍卖,在苏富比、佳士得等国际顶尖的拍卖市场所与人类画手一争长短。

在可预见的未来,人工智能艺术品将长期出没在投资市场,那么,如何评估它们的价值,会不会产生“AI抢饭碗”的阴谋论,如何处理人类画家与人工智能的关系,就成了一个必须未雨绸缪的命题。

我们试图通过这篇文章,来深扒一下人工智能艺术品这条另类的产业链,以期触碰它背后的创作与投资价值。


从恶魔到艺术家:人工智能艺术简史

现在拥有一张人工智能艺术品,似乎是一件非常能体现品位的事情。它既不像古董字画那样暮气昏沉,充分体现了主人紧跟时代潮流的科幻意识;也不像现代艺术那样云山雾罩,让人无法一眼判断出主人的身家并适当送出赞美。

相反,人工智能创作的绘画,这两年已经成为佳士得、苏富比等高端拍卖场所的座上宾,动辄爆出上万美金的预期售价。

更关键的是,他们的艺术实力也越来越强了,中央美术学院实验艺术学院院长邱志杰就曾公开承认:今天艺术家所干的很多事情,AI就比我们干得更好。

换句话说,如果金钱和艺术结合生个孩子,可能就长“人工智能艺术品”这样吧。

不过,可不要以为它一出生就这么前途无量,恰恰相反,AI绘画刚出现时,可是“能治小儿夜啼”的恐怖存在。

2015 年 6 月,谷歌发布了一篇讲述神经网络如何完成视觉分类的技术博客,开启了把人工智能技术用在艺术创作上的新世代。同一年,谷歌开源了自己的深度学习绘画系统DeepDream,让所有人都可以上传图片,系统再把自己解读的画面呈现出来。

但是,经过DeepDream加工过的图片都非常魔性,充满了狗脸、眼睛和诡异的螺旋图案……

不过,它也成为了第一位靠“艺术”赚钱的人工智能,在谷歌为其举办的画展中,有一位收藏家以最高8000美元单幅的价格拍走了六件作品。

不过,谷歌在第二年很快就推出了新的机器学习绘画工具Autodraw。它能纠正画手在绘画过程中的错误,甚至帮他补完未完成的涂鸦。

如果作者画了一只三只眼睛的猫,Autodraw会去掉一只眼睛。这说明,人工智能系统已经拥有了所谓的抽象思维,并且能够按照“一般规则”来呈现它。

不过,上面的实验还是有着很重的工业痕迹。人工智能艺术品真正开始与人类一较高下,还是在2017年6月的计算机创造力国际研讨会上。

来自罗格斯大学艺术和人工智能实验室(the Art and Artificial Intelligence Lab)团队指出,人类已经无法区分由机器创造的艺术作品和那些在顶级艺博会上出现、由当代艺术家们创作的艺术作品。

下面是他们训练的机器人所做的绘画(这个机器人在2017年机器人艺术大赛中获得了第一名),视觉上看,已经挺接近人类了。

自此之后,人工智能艺术品的商业价值开始显现出来。

2018年2月,3名巴黎的研究者利用GAN和15000幅肖像画训练出了一个中世纪风格的绘画算法,并用它绘制了11幅肖像画。

艺术学教授尼古拉斯·劳格罗·拉塞尔(Nicholas Laugero Lasserre)以9000英镑的价格购买了他们的第一件作品,并将之展示在巴黎艺术画廊Art 42。

为了“适应艺术市场的变化”的佳士得,也在2018年10月以7000-10000美元的估价拍卖了另一幅《爱德蒙·贝拉米肖像》,最终以估价的43倍—— 43.25 万美元(约合 300 万元人民币)成交,人类历史(也是AI历史)上的首次艺术品拍卖大获成功。

(Edmond Belamy 人物像,2018,由 GAN 创作)

佳士得的竞争对手苏富比也坐不住了,今年三月,第二件在世界级拍卖行进行竞拍的人工智能艺术品诞生。

由神经网络和艺术实验先驱马里奥·克林格曼(Mario Klingemann)创作的艺术装饰——“路人记忆 1”(Memories of Passersby I ),以39000-52000 美元的估价在伦敦开拍。

除了投资市场的助攻,展览商也成为人工智能艺术品繁荣的推手。

2018年,巴黎的第 11 区出现了一个全球最大的 AI 展览:“诗意的 AI”( Poetic AI )。大量古典和当代艺术的作品被投射在 3300 平方米的空间中,覆盖了天花板、地面、墙壁和立柱等表面。

观众们身处其中,像是进入了一个异次元世界。

短短四年时间,人工智能就从魔性画手变成了“创作鬼才”,交易标的也是水涨船高,或许比起价签上的数字,更值得我们探究的是交易的整个过程。


另类的“金钱游戏”:AI艺术品的吹鼓手与抬轿人

在AI艺术品流通的整个过程中,我们大概能总结出几个关键角色:

1.艺术家。通常是人工智能算法模式的训练者。他们花费大量时间编写代码,用一定规模的图片来训练并调试模型,在算法完成后,他们会对AI程序进行高度加密和保护,系统的新作品会被放在一级市场入手。

2.画廊老板与收藏家。二级市场的重要参与者,其中,画廊老板有两个角色,一是“中间商”,通过二次销售赚取差价;一个是“艺术保护人”,更愿意将作品交易给能够珍藏它们的买家(收藏家),以防止被过度炒作贬值的风险。因此,画廊和收藏家都会以审慎地判断(潜规则)买入AI画师的新作品。

3.拍卖行。艺术品市场也不能闭门造车内部消化,还需要整个社会的财富来完成输血和风险对冲,拍卖行的出现,就给了外行人参与AI艺术品投资的机会。

此时,作品就有了更为清晰的价值标尺,比如尺寸、材质、创作技巧、艺术家声望等等。目前看来,顶级拍卖行还是很乐于以AI作品来试探大众的接受能力。

4.延伸服务从业者。在垂直交易链之外,艺术评论家、展览商、创意工作室、艺术教育机构等延伸行业的积极推动和引导,也让AI艺术品不断地富有更多意义,为它的风靡起到了宣传造势的作用。

比如如果真的存在一个齐马这样的天才人工智能,他的艺术家花路可能是这样的:画廊老板长期资助,评论家大加赞赏,博物馆和收藏家争相背书,粉丝们不明所以但引以为荣,简直就是一个“无限生命版”的梵高。

总结一下,与其说AI创作的价值与作品本身的艺术性相关,不如说这是一场多人参与、逻辑自洽的“金钱游戏”。

在这里,利润不是商人唯一的诉求,价格也不完全受供求关系影响。只有处理好这些复杂的社会角色关系,才能理解并为AI艺术品找到一个合乎市场规律的价值尺度。


从模仿到创造:人工智能的创作逻辑

说了这么多,似乎只围绕着“人的的经济行为”在打转,产业链里完全就没AI什么事儿了?

关于人工智能艺术品的投资价值,到底是人为炒作还是名副其实,关键还要看AI作品自身的艺术价值。

因此,了解AI的创作逻辑就成了首先要解决的问题。

目前比较主流的AI艺术品,大概有三种创作方式:

一是基于 GAN (生成式对抗网络,Generative Adversarial Network)模型来生成。以人类作品作为初始数据集,两个神经网络互相对抗,生成网络(generator)随机生成一张图片,判别网络(discriminator)判断生成的图片是否真实。二者相互博弈,不断学习,最终生成能“以假乱真”的作品。前文提到的在拍卖行拍出高价的肖像画就属于此类。

二是基于卷积神经网络的图像风格转换算法。开发者可以根据一种参考风格图像,运用神经网络对图像内容进行语义分割,将更宽泛的内容和场景精确地转换成参考风格。

比如将人物肖像转换成现代风格的艺术作品,利用直线弯曲、纹理扭曲、色彩迁移等方法,实现逼真的风格转换。这种创作手法很容易被集成为“滤镜”之类的功能,由于技术的低门槛和作品泛滥,艺术价值也很低。

(利用风格转换算法将照片和绘画风格结合的艺术作品)

三是基于生成性循环神经网络(RNN)的艺术辅助工具。在人机结合的相关模型中,研究人员会加入大量的噪音,系统必须学会捕捉输入层的艺术特征,然后通过解码器来选择后续动作。

以谷歌的sketch-rnn为例,尽管输入了牙刷之类的物体,但系统仍然很努力地将人类画手的轮廓转换成猫的样子。在模型的帮助下,艺术家可以更轻松地完成创作。

既然人工智能已经能够在艺术创作的领域做到很多人类所不能的事情,那么,是否说明它的作品就带有艺术性呢?

答案是否定的。至少目前看来,关于人工智能艺术品是否属于艺术,主要有以下几个问题:

  • 1.存疑的独创性。

通过神经网络来生成或者辅助创作,都依赖于大量人类作者的作品作为训练数据进行输出和演绎,这就使得AI作品很难脱离人类对艺术的理解,达不到重新构建视觉语言的独创性。换句话说,现有的人工智能艺术品,指望机器失灵和偏离轨道来创造一些“意外”趣味,体现地本就是人类的科学能力,而非艺术。

  • 2.崩坏的稀缺性。

稀缺性一直是艺术品重要的定价标准,比如苏轼唯一保存下来的名画《木石图》,2018年就被佳士得拍出了4.636亿元港币(合4.117亿人民币)的高价。

而AI系统不仅仅技术上实现了开源,实际操作中也是分分钟自动生成好几百张,题材和内容还经常重复,如此高能的生产力,显然无法遵循“稀缺”的市场逻辑,定价也就成了一门玄学。

  • 3.消失的个体性。

艺术市场还有一个重要的价值尺度——个人魅力。很多时候作品价值直接对标艺术家本身的,画家的名声、人品、社会属性等都会影响作品最终的艺术价值。

比如蔡京就因为名声太臭,总是在“被踢出宋代书法家杰出代表”的边缘反复试探。而马云和曾梵志合作的油画《桃花源》,则在香港苏富比以3600万港元拍出。所以说,艺术家的个体属性有时候甚至会超过作品的审美价值。

而人工智能艺术家本质上还是生成模型系统,它的个体魅力和社会价值如何体现,是看数据组的逼格,还是代码是否简单流畅不做作?真有点令人头秃。

总结一下,人工智能艺术品虽然在内容呈现上有一些独特之处,但在价值尺度上却非常混乱。

按照苏富比当代艺术专家Marina Ruiz Colomer 的说法,现有AI作品的意义,可能更多的是让人类观众观察和了解“ AI 大脑是如何思考的”。

今天甚至一段时间内的AI系统,根本不可能像《齐马的作品》中的机器人那样,表现出高度的智能化和创造力,更遑论用画作寻求宇宙真理了。现阶段的作品艺术性,自然也是公说公有理婆说婆有理。


时代的引线:点燃AI艺术品的投资热

既然AI 连艺术家的门槛都还没摸到,那么拍卖市场的这把虚火,到底是靠什么烧起来的呢?

最重要的原因,是越来越多功能强大的AI工具开始为艺术家所发明和应用。当代艺术的特性就是不断打破边界,在AI的加持下创造新的艺术视觉效果,触及更多观众,这种由人类主导的“科技艺术”的风靡,很容易就被简化传播成了AI在传统艺术市场的“C位出道”。

另外,虽然从长久的艺术性来看,AI艺术品目前的高价有失偏颇,但如果和“AI首张抽象派作品”这样的历史事件联系在一起,是不是就比较容易理解了?

换句话说,收藏者们为一些特殊历史节点上的作品锁定了一个社会附加值筹码,以此支撑它的价值。怎么说呢,希望未来有AI愿意为祖先接盘吧。

更何况,艺术品往往还承担着一定的金融流通属性,艺术价值和审美价值也并不是唯二的投资决策依据。“黑手党入会油画团购胜地”大芬村了解一下嘛?

某种程度上看,AI作品的蓬勃和进步并没能让人们就它的艺术价值达成一致。恰恰相反,机器所实现的东西越多,人类对于创造力的标准也就越高。

这应该是一个好消息吧,AI越强大,我们越能清晰地知道,人类究竟为何与众不同。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/HFPFxsIuPN9DZ80y.html#comments Fri, 29 Mar 2019 12:02:00 +0800
从有线变无线:ZigBee技术在温控系统中的应用 //www.xyschoolife.com/category/zhuanlan/ttNRxURcfQeJmBwn.html

本文转载自 | 公众号嵌入式ARM,未经授权不得转载

把ZigBee技术应用到温控系统中,现有的温控系统,很多都是采用有线方式。通过有线方式传输信号,布线费用昂贵,维修困难,难于扩展,在某些情况下甚至无法布线成功,这是其遇到的一个极大困难,且系统的抗毁性也比较差,一旦主控制芯片出现了问题,整个系统就会崩溃。应用ZigBee技术以后,温控系统可以从有线方式变为无线方式。

0 引 言  

目前短距离无线通信技术已成为无线通信技术的一个重要分支,现实中很多系统传输的数据通常为少量的突发信号,这里采用的ZigBee技术就是具有统一标准的短距离无线通信技术,专门用于这类信息的传输,工作在2.4 GHz的免付费、免申请频段上,传输速率为250 Kb/s。这种无线通信技术具有如下特点:传输距离远、室内大概有30 m,功耗低,工作模式情况下,ZigBee技术传输速率低,传输数据量很小,因此信号的收发时间很短,其次在非工作模式时,ZigBee节点处于休眠模式。

这里把ZigBee技术应用到温控系统中,现有的温控系统,很多都是采用有线方式。通过有线方式传输信号,布线费用昂贵,维修困难,难于扩展,在某些情况下甚至无法布线成功,这是其遇到的一个极大困难,且系统的抗毁性也比较差,一旦主控制芯片出现了问题,整个系统就会崩溃。应用ZigBee技术以后,温控系统可以从有线方式变为无线方式。

1 ZigBee技术的特点

ZigBee低速率、低功耗和短距离传输的特点使它非常适宜支持简单器件。ZigBee定义了两种器件:全功能器件(FFD)和简化功能器件(RFD)。对全功能器件,要求它支持所有的49个基本参数。而对简化功能器件,在最小配置时只要求它支持38个基本参数。一个全功能器件可以与简化功能器件和其他全功能器件通话,可以按三种方式工作,分别为:个域网协调器、协调器或器件。而简化功能器件只能与全功能器件通话,仅适于非常简单的应用。

2 对等网中的Mesh网络的特点

对等网是全部由完整功能器件(FFD)连接而成的,这种网络能提供更高的可靠性,如图1所示。

综上所述,这里采用ZigBee技术实现网络的传输,并选用ZigBee支持的Mesh网络实现此功能。对等网是全部由完整功能器件(FFD)连接而成的,这种网络能提供更高的可靠性。

该网络有一个主控制节点,用来启动整个网络,这个主控制节点由专门的电源供电,另外还有专门负责路由信息的控制节点,给信息传输提供必要的路由,本身也可以参与温度的测量,还有就是一些终端的节点,它们可以专门用来测量端点的温度,另外在必要的时候,如网络出现故障,它们启动相应的命令,就又可以充当路由的功能。

这种无线网络具有较强的抗毁性,某个节点出现故障,路由节点可以选择另外一条路由去完成此次传输。


3 Mesh网络的建立过程

这里所有的站点都是FFD(全功能器件),可以用下面的方法组建一个网络。

每个大型的ZigBee的Mesh网络都可以由一个中心协调器(PAN)和路由器(Router)组成。这里以采用以下原语实现:


 

该原语由具有ZigBee协调器能力设备的应用层生成,发送给它的网络层管理实体,请求初始化设备,使之成为一个新网络的协调器。


   

该原语返回在网络中初始化一个ZigBee协调器请求的执行结果。如果成功执行了原语,则状态参数设置为SUCCESS。
设置ZigBee协调器以后,再采用NLME-PER-MIT-JOINING.request原语允许其他设备同其网络连接。

PermitDuration中参数的有效值从0x00~0xFF,0x00和0xFF分别表示连接是否有效,没有确定的时间限制,这里选择0xFF。

返回:
NLME-PERMIT-JOINING.confirm(Status 与请求状态相对应)

当收到该原语后,初始化的设备上层即得知允许其他设备连接网络请求原语的执行结果,这里收到的结果应该为0xFF。

在ZigBee网络中,还要配置路由器,该原语如下:


   


因为是采用的Mesh网络,所以这里的Join-AsRouter的参数设置为TURE。

一个新设备连接网络成功后,就发送NLME-JOIN.indication原语,其语法如下:


   


至此,一个完整的Zigbee网络就建立成功。

这个网络具有很好的抗毁性,在Mesh网络中,当一个链路或者一个设备失效时,上层的管理设备将要重新组织路由的信息。如果上层设备由于缺乏路由容量或者其他原因,该路由器设备将会给主协调器发送一个路由错误的指令帧,里面包含了失败的原因。在必要的情况下,甚至可以从某一个节点开始,重新组织一个新的Mesh网络。

这里的ZigBee无线自组织网络和Ad Hoc(无线自组织多跳网络)还有一点区别,后者是在过一定的时间,重新选择新的路由,而ZigBee的无线自组织是在路径丢失的情况下,才会选择新的路由。

在某一个芯片出现故障时,会自动搜寻下一个路由,使得信息的传输不会受到影响;必要的时候,甚至可以选择某一个芯片重新启动整个网络系统;而且采用这种方式,芯片之间接力传递,可以最大限度地提高网络的覆盖范围。如果采用星型网络,由于在终端节点不是FFD,而是RFD,如果FFD出现故障,整个系统就无法工作,另外其作用范围也会受到限制。

6 结 语

综上,在现代温控系统中,采用无线通信的ZigBee技术,可以很方便地建立网络,选用ZigBee支持的Mesh网络,可以最大程度地增加网络的抗毁性,而采用芯片接力传递的方式,可以最大程度地扩展网络的覆盖范围。对ZigBee芯片写入不同的控制程序可以控制加热器的时间和持续长度。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/ttNRxURcfQeJmBwn.html#comments Fri, 29 Mar 2019 10:44:00 +0800
智能家居:以ZigBee技术实现控制器设计 //www.xyschoolife.com/category/zhuanlan/5HVpSrRng48ISv1T.html

本文转自公众号 | 嵌入式ARM

本文所介绍的智能家居控制器利用ZigBee技术将家庭中许多相对独立的家用电器构成一个统一的智能家居系统,从而方便对家居中的各种电器设备进行本地操作,同时也可通过互联网或GPRS系统对各种电器设备实现远程控制。

ZigBee是一种新兴的近距离、低复杂度、低功耗、低数据速率、低成本的无线网络技术,在众多领域有着广泛的应用前景。

智能家居是一个多功能的综合技术系统,它以家庭住宅为平台,利用先进的计算机技术、通信技术、网络技术、控制技术、信息技术,将家庭中的各种电器设备通过某种形式的网络有机地连接在一起,进行网络化的综合管理与调控,为人们提供一个舒适、安全、方便、环保和高效率的生活环

本文所介绍的智能家居控制器利用ZigBee技术将家庭中许多相对独立的家用电器构成一个统一的智能家居系统,从而方便对家居中的各种电器设备进行本地操作,同时也可通过互联网或GPRS系统对各种电器设备实现远程控制。


一. ZigBee技术简介

ZigBee技术是近几年逐步发展起来,很有市场潜力的一种无线连接技术。它是为了满足低功耗、低数据量和低成本的无线网络要求而诞生的。它基于IEEE无线个人区域网(WirelessPersonal AreaNetwork,WPAN)工作组的80211514标准,被称为ZigBee技术标准。

完整的ZigBee协议由应用层、应用汇聚层、网络层、数据链路层和物理层组成,如图1所示。

IEEE80211514标准定义了物理层(PHY)和数据链路层(MAC);网络层以上的协议由ZigBee联盟负责制定,其中应用层包括了应用支持子层(APS)、ZigBee设备对象(ZDO)和由制造商制订的应用对象。

ZigBee以一个个独立的工作节点为依托,利用无线通信,通过自组织方式组成星型、网状和簇状3种网络结构,因此每个节点的功能并非完全相同。为了降低系统的成本,IEEE80211514定义了2种物理设备类型:全功能设备FFD (Full FunctionDevice)和精简功能设备RFD(Reduced FunctionDevice)。FFD节点具备控制器的功能,提供数据交换,能够作为网络协调器、路由节点和终端节点来使用,可以与网络中任何类型的设备进行通信;RFD只能作为终端节点来使用,而且只能与FFD通信,两个RFD节点之间不能通信。

Zigbee这一无线通信技术具有近距离、低复杂度、低功耗、低数据速率、低成本、安全可靠、网络容量大、自组织、自愈能力强等特点,可广泛应用于多个技术领域,有着广阔的市场前景。


二 .基于Zigbee技术的智能家居控制器的设计

智能家居系统的网络通信具有如下特点:

①传输数据量小,无需太大的传输速度;②网络的容量大,以满足家庭中的各种家电设备;③信息的实时性好,时延短。

ZigBee的技术特点决定了其能很好地满足智能家居网络的上述需求,特别是具备自组织、自愈能力,这样的无线通信技术是智能家居系统理想的通信方式。

1、 能家居系统的基本构成

智能家居系统可通过GSM/GPRS/CDMA/网络、ZigBee个域网、互联网以及小区信息网实现信息的互联互通。用户在户外可通过手机调控家中的电器和照明装置,也可及时得到家中的防盗、防火、防煤气泄漏等报警信息;在家中可通过遥控器调控家电设备。控制器还兼有可视对讲系统室内主机功能,能查阅社区发布的各类信息,必要时可向社区保安发出报警求救信号。系统主要由一个智能家居控制器和若干个室内监控ZigBee功能模块组成。系统模型如图2所示。智能家居控制器经2个无线通信网络、互联网以及2条有线通信线路与外部设施实现信息的互联互通,因而智能家居控制器又可视为数字家庭网关。


智能家居控制器内部装有手机模块,通过GSM(GPRS、CDMA)移动通信网络,与用户手机实现双向短消息收发。用户可通过手机短消息实现对家用电器的电源开关控制以及调光、调速控制;控制器以手机短消息的形式向用户手机发送报警信号,供防盗、防火、防煤气泄漏以及家庭突发事件报警用。

控制器内部装有1个ZigBee模块,通过Zig2Bee无线网络与家居中的监控装置进行通信,作为ZigBee网络协调器(FFD)来使用。它负责组建智能家居ZigBee网络,接收系统控制中心发送的指令,并做出相应地处理。同时还要将从路由节点(FFD)或终端节点(RFD)接收到的数据发送给系统控制中心。

室内监控设备按用途可分为3类:第一类为开关与插座,最简单的插座通过小电子开关的通断实现对家用电器(如电饭煲、饮水机、电视、冰箱、空调、洗衣机、电动窗帘以及不需要调光的灯具)的电源开关控制;较复杂的智能开关和插座具有输出功率可调的功能,用于吊灯、落地台灯的调光或电风扇的调速等。第二类为传感器产品,其中热释电红外传感器和门磁传感器用于防盗,烟雾传感器用于防火,瓦斯传感器用于防煤气泄漏,还有手动报警按钮用于突发事件(如孤寡老人突然发病)的报警。这些节点都带有ZigBee模块,作为网络的终端节点(RFD)。第三类为手持遥控器,除实现对家用电器开关控制、调光调速控制外,还具备照明场景设定与控制功能。

若小区配置有物管通信网络和门禁对讲系统,控制器兼备可视门禁对讲系统的室内主机的功能。

控制器上的液晶LCD显示屏可显示访客的图像画面,与访客进行对讲或开锁操作。此外,控制器可接收小区物管发送的各类文字信息;当室内发生意外时,可向小区物管发送报警信号。控制器备有互联网接口,供用户在异地时通过互联网控制家中电器的运行,也可监视家中发生的事件。下一代互联网的问世将为此项功能的应用提供极大的支持,到那时,每个家电及控制器本身都将有自己的静态IP 地址,从而成为网络中的一员。

ZigBee的簇状网络综合了星型和网状结构的特点,我们在实际应用中利用智能家居控制器及ZigBee传感器节点组成簇状网络。它具有良好的可扩展性,对于大户型或别墅用户而言,可以通过增加路由节点来扩大网络覆盖范围;对于小户型的用户而言,可以通过减少路由节点变成星型网络,以节省能量、加快数据传输速度。

2、能家居控制器的硬件设计

2.1 能家居控制器简介

智能家居系统的核心部件是智能家居控制器。其组成框图如图3所示,它以嵌入式处理器为中心,由手机模块、ZigBee模块以及必要的辅助接口组成。智能家居控制器是整个智能家居系统的控制中心,其硬件核心是中央处理器,所有的设备控制、任务调度、通信协议转换、数据收发和数据管理等任务都需要中央处理器。从功能、可扩展性、操作系统支持及功耗等方面考虑,我们选择功能强大的32位ARM9微处理器S3C2410X作为主处理器,存储器选用64M的NAND Flash和64M的SDRAM。

在人机接口方面,采用5英寸的TFT液晶屏,并配置相应的触摸屏。可用于显示访客图像和小区物管发送的各种信息,并使用户可方便地输入数据去控制各种家居设备。另外为了控制方式更灵活,利用处理器的I2C总线接口设计键盘接口,从而可扩展各种控制、报警方式。控制器有2个通信模块:手机模块和ZigBee模块。手机模块由主机模块、SIM卡接口、音频部分和射频部分组成,采用SIMCOM公司生产的SIM300芯片(GPRS 模块)。与ARM进行数据传输采用标准的RS - 232接口,通过使用AT命令完成对该模块的操作,实现短消息的收发。Zigbee模块采集各种家电设备运行状态并接收各种故障报警信息,通过RS - 232接口与ARM进行数据传递。

控制器配有以太网接口,配合控制器上建立的Web服务器,用户可通过Internet完成对家庭环境及各种家电设备的监控。图3中的RS - 485接口用于与小区物管的通信(与原有的小区网络配合。若为新建小区,可直接使用以太网接口).利用MAX3232将ARM9的两个USART收发器,组成两个RS - 232端口和一个RS - 485端口。

音频接口利用微处理器内部的IIS总线接口与外部音频数字信号编码器芯片(UDA1341TS)组成。

视频接口采用中芯微的DSP芯片,将视频信号转换成微处理器能够处理的JPG文件格式或二进制图像流,经处理后送LCD屏显示。

2.2 能家居控制器中的Zigbee模块

ZigBee模块采用全功能设备(FFD)类型,它在智能家居系统中承担着网络协调器的角色,可提供信息的双向传输,以连接智能家居系统中其它精简功能设备(RFD)。

CC2430芯片延用了以往CC2420芯片的架构,在单个芯片上整合了ZigBee射频(RF)前端、内存和微控制器。它使用1个8位MCU (8051),具有128KB可编程闪存和8KB的RAM ,还包含模数转换器、4个定时器、AES - 128协同处理器、看门狗定时器、32kHz晶振的休眠模式定时器、上电复位电路、掉电检测电路,以及21个可编程I/O引脚。

CC2430芯片采用0118μm CMOS工艺生产,工作时的电流损耗为27mA ;在接收和发射模式下,电流损耗分别低于27mA或25mA。CC2430的休眠模式和转换到主动模式的超短时间的特性,特别适合那些要求电池寿命非常长的应用。

CC2430带有2个强大的支持几组协议的US2ART通信接口,通过此通信接口中的一个,S3C2410X处理器可以对CC2430进行写入或读取配置信息,也可以收发数据。CC2430芯片集成了CRC和数据完整性检查等功能,减少了程序员编程的工作量,加快了通信的速度,减少了能量消耗。同时,芯片还采用了CS2MA - CA技术来避免数据发送时的竞争和冲突,减少了一部分不必耍的能量消耗。因此CC2430芯片具有超低的能耗,其使用寿命可以年来计算,价格便宜,符合传感器网络需要大量分布节点的特点。

控制器通过RS - 232接口利用Zigbee模块采集各种家电设备运行状态并接收各种故障报警信息。

3、 能家居控制器的功能

智能家居控制器操作系统选用开源的嵌入式Linux操作系统,通过裁减后移植到控制器硬件平台上。该智能家居控制器将Linux,ARM系统、手机模块和ZigBee模块组成一个整体,构成了一个功能齐全的嵌入式系统,利用ZigBee技术轻松实现家庭内部多节点的无线连接。智能家居控制器的功能为

(1)采用ARM架构的32位嵌入式RISC处理器和开源的嵌入式linux操作系统;

(2)是智能家居控制系统的控制中心,也是家居系统中信息家电平台的网关;

(3)遇盗抢或疾病,按紧急按钮,自动向管理中心报警;

(4)以家庭为单位配置,利用液晶屏显示小区通知、系统各部分工作状况及数据;

(5)利用ZigBee传感器节点监测各种故障报警数据(火灾、煤气泄漏等),并自动通过手机模块发给用户或小区管理中心;

(6)通过以太网(或RS - 485)与小区管理中心通信;

(7)通过控制器上的无线ZigBee模块与家居系统中各子节点进行通讯,对多种家电设备进行相应的控制;

(8)用户可通过Internet远程监控家庭中的多种家居设备。

智能家居控制器通过Zigbee模块采集各种家电设备的运行状态并将各种故障报警数据存入数据库;对故障报警优先处理,通过手机模块自动发送短信息到用户手机或小区物管,并将现场数据实时存入数据库,以便对各种信息进行进一步的分析和统计。在这里数据库成为了连接前后台的中间件,存储状态数据供远程监控和本地LCD显示,同时接收浏览器和本地键盘输入,由通信程序、CGI程序完成控制命令的下传及运行状态的上传;同时数据库还需实现故障的分析统计和查询。在本系统设计中,我们采用嵌入式数据库SQLite以满足系统远程控制数据传递、数据共享的要求。

控制器的软件主要分为4个模块:与数据采集接口的通信程序、故障报警程序、本地的人机交互程序和远程控制程序。为了使用户可以在Internet上通过浏览器控制智能家居网络,需要在控制器(数字家庭网关)上架设Web服务器与用户进行通信,并通过CGI接口调用后台CGI程序。CGI程序在Web服务器和控制程序间建立联系,调用具体的控制程序,实现对智能家居网络内部节点的指定操作。它监控网络,随时随地都能知道网络内设备的状态并控制网络内的各种设备。网络监控在家庭网络中也是非常重要的,使用户可以随时了解网络的状况,如设备的加入退出、设备故障等等。


三 .结语

ZigBee技术弥补了低成本、低功耗和低速率无线通信市场的空缺。智能家居控制器硬件由先进的ARM9嵌入式系统、手机模块和ZigBee模块组成;操作系统采用嵌入式Linux,家庭网络采用ZigBee无线网络,安全性好,系统功能完善,能够适应今后智能家居发展的需要。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/5HVpSrRng48ISv1T.html#comments Thu, 28 Mar 2019 13:12:00 +0800
当红绿灯出现在仪表盘上:C-V2X带来的车联网未来图景 //www.xyschoolife.com/category/zhuanlan/taAtBE6Mki5q8WrX.html 车联网三个字,在今天似乎已经成为了一种很宽泛的概念。提起车联网,可能更多人联想到的画面是“在车上网上冲浪”,例如通过车联网连接旅游服务、通过车联网连接家中智能家居设备等等。

实际我们都知道,车联网的真正的价值还是通过车与车、车与人、车与路之间的高度协同,来提升整体出行效率。目前正在进入应用场景的C-V2X,就是典型的解决方案。

V2X一词,和车联网意义基本相同。既车与车(V2V)、车与路(V2I)、车与人(V2P)、车与网络(V2N)的全方面连接和信息交互的信息通信技术。

C-V2X则是基于3GPP协议,主导推动的基于4G/5G等蜂窝网通信技术组建起V2X网络的无线通信技术。至于3GPP协议,是曾经多国电信伙伴为实现由2G网络到3G网络的平滑过渡,保证未来技术的后向兼容性的协议。

也就是说,从今天到可以预见的5G未来,C-V2X很可能是车联网的主要通信解决方案。

想要了解C-V2X未来的模样,我们或许可以看看奥迪的案例。

C-V2X迈出第一步:仪表盘上的红绿灯

从2017年到2018年开始,通过高通推出的9150 C-V2X芯片组,奥迪、福特等等汽车厂商都参与了规模化落地测试。


其中比较典型的案例,是奥迪在拉斯维加斯等城市展开的试点计划TIL。TIL计划,是通过C-V2X共享城市交通信号灯信息,让用户在仪表盘上直接看到下一个信号灯距离自己有多远,处于红灯或绿灯哪种状态,状态中持续多长时间。

也就是说,在驾驶者行驶在道路上时,可以在仪表盘上看到下一个信号灯距离自己100米,处于红灯状态,距离变灯还有15秒。

对于驾驶者来说,这种信息可以帮助他们更好的选择形式路线,最起码可以提前调节速度,不会再等到红绿灯跟前再猛踩一脚刹车。

阿贡实验室对400位驾驶者进行了长达半年时间的调查,研究表明当驾驶者可以预知下一个信号灯的情况时,驾驶会更加平稳,能减少交通事故发生的几率并减少污染排放。而如果如果地球上的每辆汽车都知道地球上的每个交通灯都在做什么,人类整体的碳产量将下降1.3%。

不仅如此,奥迪还为参与这项计划的城市提供了信号灯优化服务,即利用这些数据计算出车流量,帮助调节各个节点信号灯的持续时间,进而促进车辆的通行效率。

总体来看,C-V2X与交通信号灯的合作目前还仅仅属于测试阶段,在理想状态下,C-V2X并不是为人类驾驶的汽车服务的,而是为自动驾驶汽车服务。

未来或许我们已经不再需要“实体化”的信号灯,而可以直接通过每一辆车的行路情况来进行大数据计算,直接根据车流信息在路口的行车安排进行调节信号灯的情况和时长,从而实现调解拥堵的目的。

拉斯维加斯的遗憾:C-V2X到底适用于怎样的城市?

这么一看,似乎车联网的未来已经距离我们非常之近了。可实际上从目前奥迪在拉斯维加斯的实验中,却也能看到很多应用方面的阻碍。

1、 仪表盘的显示限制

在测试中,驾驶者们发现,仪表盘上关于红绿灯倒计时显示的数字并不会显示为0,大概在5-8秒时就会停止倒数。原因是如果数字倒计时会持续到零,驾驶者会过度集中注意力在仪表盘上,而忽视路面情况容易造成交通事故。

也就是说,在人类驾驶者被彻底取代之前,信号灯还会存在相当长一段时间。


2、 TIL的准确程度

比驾驶者们注意力更让人头疼的,是由于当前不是所有信号灯都支持TLI系统,加上一些网络传输问题,TIL的准确程度还不是很高。在114个信号灯中,TLI错过了47个信号灯,并有13个信号灯时效显示错误。

以这种准确程度来说,不论是累积数据优化信号灯系统,还是应用到自动驾驶系统之中,都是远远不足够的。

3、 高昂的使用成本

即使是这样并不优秀的准确程度,仍然要依赖严苛的使用成本。对于奥迪车主来说,除了19年新车型以外,只有18年的A4,A5,Q5 / SQ5和Q7以及17年的A4和Q7能够应用这项技术。同时这项技术还以收费的形式推出给用户,在半年的免费期过后,将以199美元半年的价格向用户收费。

对于城市来说,应用上C-V2X的门槛也很高,需要较新的交通信号系统才能应用。拉斯维加斯之所以能够参与这项技术,还是因为自身基础较好,能够达到自动驾驶测试条件。

以此类推的话,能够满足自动驾驶测试条件的地区才能应用上C-V2X,而且准确度也并不理想。不管怎么看C-V2X都是一件性价比很低的事情。

难以寻觅的沃土:车联网背后的博弈

如此来看,C-V2X虽然是一个可成长、可过渡的方案,但综合来说,C-V2X还是适合雄安这样拔地而起的新城市——几乎不计成本地迈向智慧城市、从零开始的基础建设、大量新兴移民的流入。


但能满足这种条件的城市,恐怕全球也找不出几个。

而且这种情况并不是C-V2X一种通信技术面临的问题,另一种建立在双向无线协议上的车联网通信,经常被拿来和C-V2X的DSRC也会面临同样的问题。

汽车厂商、通信芯片制造商以及城市之间,形成了一种奇妙的牵制状态。通信芯片的成本、汽车厂商应用的范围以及提供服务的价格,再加上城市设施的应用范围,三个变量的彼此选择都会影响到用户最终的体验。

汽车厂商不去支持某一种通信技术,或芯片厂商无法降低某一种通信技术的芯片成本,又或者城市设施并没有选择应用某一种通信芯片,最终都会导致车联网信息不够准确、应用成本过高。

如此看来,虽然C-V2X乘着未来5G应用的东风赢得了芯片厂商和汽车厂商的青睐,目前取得的成就还远远只是起点。等到C-V2X真的可以以极低成本迅速铺设到城市中各种交通设施上时,才能彻底开启想象中的车联网未来世界。


]]>
专栏 //www.xyschoolife.com/category/zhuanlan/taAtBE6Mki5q8WrX.html#comments Tue, 26 Mar 2019 14:55:00 +0800
大力神托起天幕:Atlas带来的智算风暴 //www.xyschoolife.com/category/zhuanlan/yeYIebiGK7mAtRRs.html 我们知道,要让AI落地,算力、算法、数据三者缺一不可。但是事有轻重缓急,如果今天问AI服务提供商和应用企业,AI最迫切需要的当务之急是什么,我想答案应该是统一的:算力。

去年,OpenAI发布了一份全球AI算力供需研究报告。报告显示,自2012年以来,人工智能行业的算力需求呈现出令人惊叹的增长趋势。需求量每三个半月就会翻一番。六年间,全球对AI算力的渴求增长了30万倍。

而我们知道,摩尔定律增长周期是18个月翻一倍。事实上,全球提供的AI专项加速算力,远远跟不上需求的增长速度。

毫无疑问,算力饥渴,是AI发展之路上的第一堵墙。而困难同时也是机会,在华为全面拥抱AI的技术与产品体系中,专门有一个部门和它的产品,就是针对AI专项加速算力的需求问题而生。

去年12月,华为成立智能计算业务部,将面向华为AI体系和外界产业需求提供AI算力支撑方案。而在智能计算的产品体系中,与x86和ARM并列,Atlas人工智能计算平台是专门应AI算力需求而生的系列产品解决方案。

Atlas这个名字,是古希腊神话中撑起宇宙的大力神。今天的故事,让我们进入产业AI和智能计算的世界,了解一下华为的Atlas,如何支撑起了AI算力这个一切故事的起源。



算力瓶颈:AI之路上的第一堵墙

我们知道,AI就像蒸汽机和内燃机一样,是一种通用技术,可以与各行各业的生产体系相结合,挖掘生产力和生产效率再提升的可能。那么AI算力,就是这一次生产力升级中的煤炭与石油——没有算力可“烧”,一切东西就都玩不转了。



而算力瓶颈问题,其实又没有那么简单。不是只要有了芯片就能一切搞定。针对产业实践中的算力瓶颈,至少有三方面的实际问题需要解决:

1、算力不足,企业AI业务根本无法启动

今天,企业需要充沛的AI算力。缺乏神经网络的专项加速算力作为支撑,企业应用AI时就会面临训练时间过长和能耗过大两方面的问题,造成很多产业实践根本无从开展。

我们曾经采访过一位生物工程领域的博士,他构想的AI算法原本设计很好,但因为学校缺乏相关算力资源,训练一次需要几个月的时间,最终导致研究项目根本无法满足时间规定。这样的案例不胜枚举,如果AI想要在实践中跑起来,算力供给是先决条件。

2、边端场景无法渗透,AI缺乏实际操作性

AI算力的另一个问题,是算力都通过云服务输送,导致所有任务必须回传云端。这带来的直接问题是很多要求低时延、小数据训练量的任务缺乏实操可能性。

比如说智能交通中要用到大量智能摄像头,摄像头的数据如果全回传云端处理再进行决策,那么很有可能交通情况已经发生了变化:无法起到实时监控、实时分析的作用。

3、缺乏垂直解决方案,行业不知道如何应用AI

还有一种情况,是具体到某一产业,需要的算力解决方案相对复杂。不是对基础AI能力的调用,而是与产业生产逻辑与已有技术体系相结合。那么这种情况就不能只是简单的引用算力,而是需要对算力进行改造和定制化,符合企业的最终需求。

这样相对复杂的算力需求,在能源、汽车等行业尤为显著。算力提供者必须与行业垂直技术解决方案提供商、数据公司合作,构建完整的行业垂直计算解决方案。

三者相结合,构成了今天对AI算力广泛缺乏且需求复杂的局面。而华为智能计算业务部面对这些问题的第一个答案,是派出了一名叫做Atlas的“战斗英雄”。


大力神托起天幕:Atlas带来的智算风暴

Atlas这个名字,是希腊神话中伊阿珀托斯的儿子,盗火者普罗米修斯的哥哥,由于力大不穷,在世界西极托起了整个天空和宇宙。因此被称为大力神或者擎天神。

而当这个名字作为智能计算平台出现在市场中,显然华为对它的希望,是能够撑起万物智能时代的一片天空。

Atlas到底是什么?

去年十月,华为发布了基于Ascend昇腾系列AI芯片,以及全栈全场景AI解决方案。


这些能力与业界主流异构计算部件,集成在各种规格的计算加速产品力,就组成了华为今天带给产业世界的Atlas人工智能计算平台。

目前,Atlas拥有提供云服务器AI算力升级的Atlas G系列产品,并且推出了面向端侧的Atlas 200 AI加速模块、支撑业界最高密度64路视频推理的Atlas 300 AI加速卡、面向边缘侧的Atlas 500智能小站,及定位于企业领域一站式AI平台的Atlas 800 AI一体机。

这些产品就像乐高积木一样,从大到小,覆盖了云边端各种场景,并且能与华为云服务打通,基于多种排列组合,构建出完整的产业AI算力实践方案。

让我们来看看,大力神Atlas家族的每一名成员都能做什么。

Atlas 200 AI加速模块,体积上只有两块硬币大小,可以灵巧地集成到各种终端设备当中,7倍提升大量终端设备的AI算力。比如在无人机、摄像头、服务机器人中。Atlas 200可以赋予这些设备自主完成人脸识别、体态识别等任务的能力,数据不必回传云端,即刻完成运算。同时也不惧设备离线的尴尬。


(Atlas 200)

Atlas 300 AI加速卡,是面向数据中心和边缘侧服务器场景的机器视觉任务加速装置。支持多种数据精度,单卡即可提供64TOPS INT8计算性能。通过Atlas 300的赋能,摄像头、人脸识别等机器视觉装备,可以快速准确支持多路人脸视频流和图片流的接入和转发,以及人像综合服务。只需要使用一张符合条件的人脸图片,就可以完成目标身份信息的查找计算,让人脸识别等场景变得快速、准确、稳定。



(Atlas 300)

Atlas 500智能小站,是业界领先集成AI处理能力的边缘产品,只有一个机顶盒大小,却可以实现16路高清视频处理能力,并且支持-40℃至70℃的室外环境。用Atlas 500搭配摄像头,可以轻松完成单个场景,比如医院、学校、敬老院的智能监控。



(Atlas 500)

Atlas 800 AI一体机,是用于搭建电信业务AI模型训练平台的一体化算力提供设备,以全模块化设计,最大支持32张 Atlas AI加速卡。通过它,企业可以轻松完成AI任务训练和部署,极大提升AI业务理解与应用能力。



(Atlas 800)

可以看到,Atlas完整的产品体系,特点在于能够将AI算力普及到各个场景中。无论是室外、离线,还是与旧有技术体系结合,都可以利用Atlas的排列组合轻松搞定。把复杂的事情集成在自身体系中,把简单留给应用场景,Atlas可谓对AI的普及至关重要。

这样的体系化智能计算系列产品,以及背后的平台化服务,让Atlas已经可以广泛应用于智慧城市、智慧交通、智慧医疗、企业级AI推理等多种领域。

可以说,一场关于智能计算的风暴,正在Atlas徐徐打开的新机遇中酝酿。


万业AI的应用钥匙:从Atlas平台到智能计算生态

回到我们开始讨论的AI算力瓶颈问题中,可以发现Atlas的市场化和产品化,首先解决了企业AI算力不足,只能单纯依靠进口AI算力产品的尴尬。继而通过灵活多变,变现端边云多种场景的产品形态,解决了端侧、边缘侧的AI算力需求。

那么下一步的能力补完,重点就在于Atlas生态的构建。只有搭建了生态和产业联盟,让行业AI解决方案提供商,和Atlas提供的底层AI算力结合起来,AI进入千行万业才有了真正意义上的应用钥匙。

为此,在刚刚过去的华为中国生态伙伴大会2019当中,举行了华为智能计算产业峰会,会上华为智能计算与产业技术专家,金融、互联网、电信运营商等行业客户、依图、以萨、华宇、格灵深瞳等产业合作伙伴,共同成立了华为智能计算生态联盟。

这样一个联盟的重要任务,就是完善和发展Atlas产业生态,一方面让合作伙伴利用Atlas可以完成自身的AI技术创新和产业AI解决方案实现,另一方面可以让客户在Atlas生态中准确寻找到定制与升级AI解决方案,从而负责行业特性与产业升级需求。

Atlas的产业价值,在于把AI算力的特性做到了IT基础设施上。Atlas构筑了生态,从底层算力、中间件到上层应用的整个框架结构。用好这样新的基础设施,AI公司与产业客户可以找到新的对接舞台,并且让很多无法落地的想法真正成为现实。

生态的聚合,下一步就是行业应用的不断拓展,伴随技术解决方案的的进一步迭代。

根据目前案例资料,Atlas人工智能计算平台已经在多个行业完成了场景落地应用,并且能够渗透到云边端不同的场景组合当中:

比如在某银行的案例中,使用Atlas加持边缘计算,让银行场景中快速完成了人脸识别代替刷卡的迭代,身份识别准确率大于95%,并可以达成无停顿通行。

而在南方某城市的交通案例中,Atlas被广泛应用到了智能交通监控设备与智能大脑的方方面面,从而让复杂高流通性的交通场景获得了充沛体系化的AI算力加持。实现广泛采集人、车、证多种数据,并达成了数据碰撞、多轨合一、多维布控等功能。在应用区域,通过智能交通体系根据拥堵情况调节红绿灯,道路通行速度提高9%, 高峰时期的拥堵时间减少15%。



而在云侧计算场景,Atlas的效果也很明显。比如某基因生物企业,利用基于Atlas的加速云服务,大幅缩短了基因测序时间。相比传统基于x86的云服务平台,Atlas帮助企业提高了5倍的计算效率,端到端综合成本下降了30%。

可以看出,随着对AI通用化进程的理解加深,Atlas的产业基础和应用实践也在一步步叠加。通过构建云边端多场景应用的渗透,以及对视觉、语音、数据智能等多种AI任务的有效加速,配合产业生态的构建,Atlas事实上已经成为业界唯一能提供全场景AI方案的硬件平台产品。

或许今天,还是擎天神刚刚开始工作的时候。然而可以预见的是,华为希望能够开创全栈全场景的AI行业生态体系的目标已经十分明确。而云边端一体化的智能计算布局,以及各行业基于华为智能计算完成的AI进化,都需要Atlas这根擎天柱作为基础。

天长日远,AI与所有技术大厦一样都不是一天建成的。而Atlas,是一项今天无法绕开的、关于未来的基础工程。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/yeYIebiGK7mAtRRs.html#comments Tue, 26 Mar 2019 13:11:00 +0800
AI+教育:解决学生千人千面 //www.xyschoolife.com/category/zhuanlan/txT9FTpkXfoHOqqu.html

本文转自 | 公众号 AI芯天下 ,未经授权不得转载

作者 | 方文三

当AlphaGo战胜了李世石,成为人工智能发展的标志性事件,发展人工智能的热潮席卷全球。而今年两会上,人工智能首次被写入政府工作报告,人工智能已经上升为我国的国家战略。

人工智能(AI)或将成为继“互联网+”、虚拟现实(VR)之后,下一个互联网技术的爆发点,给各行各业带来巨大的机遇和挑战。其中教育领域关于人工智能的讨论也颇热闹,热情也非常高。人工智能到底为教育带来哪些影响呢?AI会在教育里有着怎样的边界和想象,值得我们思考。



AI进入教育行业的现实意义

在中国教师资源匮乏的现状下,通过 AI 优化供给无疑具有极大现实意义。据教育部 2017 年 10 月发布的《2016 年全国教育事业发展统计公报》中显示全国共有小学 17.76 万所,在校生 9913.01 万人,小学专任教师 578.91 万人,小学生师比为 17.12:1。

AI进入教育行业后,能才三个方面解决传统教育的缺陷:

①教师层面,提升个人能力、降低相对差距。

②学生层面,破除主动性难题、降低对优质教师的依赖。

③整体教学环境层面,低成本推进软硬件资源铺设。



现阶段AI+教育的发展轨迹

①传统教育/教辅机构的自主开发

这些机构从来没有停止过对“新兴教育技术”的探索。好未来在AI教育方面动作频频,其利用教辅板块积累下来的教育数据设立了TAL AI Lab,目前已在辅助教学、激发学习兴趣、智能交互式在线教育等多方面有所突破,上线了魔镜系统、智能评测系统等应用。国内传统教育机构目前智能化创新较少,不过在国外,学校自主开发的情况比较普遍。在美国,一家名为Summit公立学校与微软、Facebook积极合作,利用Chatbot作为虚拟顾问配合学生基本课堂教育、引导学习方案。

②创业者“单点突破”

AI教育是创业热门领域,“白手起家”的创业者数量庞大,所谓洗牌也主要针对这个群体,其共同特征是在谋求用创新实现单点突破,不做大而全。

其中,有与传统教育结合的产品,例如专为中小学教师服务的“论答”人工智能学习系统,该产品谋求教学模式革新以实现市场突破,去年10月,与华中师范大学合作挂牌了“学习技术与大数据研究中心”,推出所谓的“TAD教学模式实证研究开放平台”。前文的也未艾也属此类。

也有垂直学科在线教育产品,例如针对早教的宝宝玩英语,针对K12的巧口英语,针对成人的英语流利说,都主打AI实景对话练习。

③平台级AI服务商的教育垂直化

包括百度、腾讯、科大讯飞等原本在AI方面十分强势的平台,都推出和强化了AI教育产品,其最大特征是平台化输出,以构建垂直生态、布局市场为目标。



未来AI教育的发展关键

①制定人工智能教育的白皮书,就像教授多年前指定的机器学习的白皮书称为全球技术的指导规范那样,成为全球AI教育的工作标准。

②优化现有的AI算法模型,在利用实时动态数据(学生学习时候的正答率、时间、表情、脑电波等等)不断调整学生的动态学习目标和推荐给学生的学习内容(视频、动画、讲义、题目、解析等)时,可以更加精准,让效果更加突出。

③尝试教授近几年研究的重点课题,用人机对话来使用户可以教授机器,从而颠覆过去机器学习只能够依靠算法自我进化的现状。采用类似人类大脑的学习方式,让机器从每一次被指导中直接学习,就像一个人对GPS导航的一次错误的直接矫正可以省去百万数据量下机器学习的优化一样,每个学生、老师都可以通过和机器做简单的结构化的对话来高效完善机器学习本身。


教育数据对AI的作用

在教育行业,人工智能不仅被用来节省教师人力、提高教学效率,而且可以驱动教学方式的变革。以人工智能驱动个性化教育为例,收集学生作业、课堂行为、考试等数据,对不同学生的学情进行个性化诊断,并进一步为每个学生制定有针对性的辅导和练习,从而实现因材施教。

AI老师的基因是数据。充分了解孩子之后,AI老师就能够因材施教地给孩子配置学习内容、学习进度,实现千人千面的学校教育。这样,AI老师就可以让孩子在学习中,用更短的时间达到更大的学习成果。它可以为每个孩子的千人千面学生画像去配置数千上万种学习计划。学习计划包括学习目标、学习路径、学习内容,从而让孩子达到一个更高的学习效率,让问题的解决达到最好的效果。



AI助力技术和教育跨界

①行业的跨界一定是未来世界的趋势,只是我国现在还处在摸索阶段,特别是把技术和教育能完美结合起来。

现在大多满足的是知识领域的需求,当知识产生的那一刻已经是过去式,我们现在大多的教学中知识学习的占比非常大,但这不是教育真正的意义,教育是在培养能适应未来创造未来的人才,需要的是具有创造力的人才,跨界的人才,我们的教育不能仅停留在每天学习被淘汰的知识层面,这一点需要太多的教育者反思。

②技术和教育本身都是一个非常复杂系统的东西,而且内核不同,这就好比如何用物理角度表达人文学科的理论,到底是应该从教育的角度出发,匹配相应的智能技术;还是从一个智能技术出发,设计满足相应的教育需求。双方会本能地倾向于自己的专业领域,这是人的局限性。所以需要双方多去了解对方的内核,这需要时间去好好做功课。毕竟只有真正了解精髓才能让呈现的作品体现出技术和教育结合后的核聚变效应。


情感的课堂 VS AI的机器

一直以来,教育,尤其是基础教育领域的教育,需要更多的情感交流。所以和学生打交道时,除了教授知识、技能,更重要的是懂学生的情绪。

课堂容量越大,孩子越不喜欢,教学效果越不好。这个效果不好就是没有适时对学生的情绪做出反馈并调整教授策略。上课的时候,经过大量备课与准备的教师滔滔不绝地讲课,但学生却因没心情、没兴趣等因素,无法将这些知识完全接受。

AI发展的过程中,机器如何实现跟人进行一些情感上的交流就是问题之一。目前的AI教育技术很难复制教师的行为模型,现实中的教师可以通过自己的课堂行动适应挑战,并在情感上做出适当的回复,而这一点很难由人工智能体系重新创建。但显然,情感化和社会化问题仍是目前AI教育存在的普遍问题,如何做到AI的情感化沟通依然仍重而道远。


总结

技术发展的愿景和初衷是好的,人工智能也一样,它的研发初衷是为了把人从简单、机械、繁琐的工作中解放出来,然后从事更具创造性的工作。教育人工智能的使命应该是让教师腾出更多地时间和精力,创新教育内容、改革教学方法,让教育这件事变得更好。

人工智能在教书的方式方法和效率上会带来一场革命,老师将变为一个知识整合者,而不再是知识传授者,将帮助学生从互联网纷繁复杂的文字、图片、音频、虚拟等信息中筛选出优质内容。只有AI+教育回归教育内容本身,靠教育的内容取胜,而这也是真正大规模、系统化、标准化地使用人工智能技术的开始。 

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/txT9FTpkXfoHOqqu.html#comments Tue, 26 Mar 2019 12:42:00 +0800
多目标学习系统:如何让知乎互动率提升100%? //www.xyschoolife.com/category/zhuanlan/yH1IV7aPVp6lhKqu.html

本文转自 | 公众号 AI 前线(ID:ai-front),未经授权不得转载

采访嘉宾|张瑞(知乎首页技术团队负责人)

作者|Vincent

编辑|Debra  

导读:知乎是一个问答社区和知识分享平台,各行各业的从业者在这里分享自己领域的知识,来这里的人也是抱着学习的态度,希望有所收获。推荐系统作为知乎的核心功能,一直希望为用户提供最佳的内容推荐,随着移动互联网的发展,内容平台迎来了黄金时代,但也不可避免的出现了很多问题和挑战。 作为用户,最关心的是推荐内容的质量以及相关度。如何过滤掉无效的信息,从而给用户提供最为精准的内容推荐,这也是知乎一直在思考的问题。

如今,推荐系统已经在各行各业中有所应用,在知乎,推荐系统更是一项核心功能。

据了解,目前知乎的推荐系统主要分为两部分:一部分是首页信息流的个性化推荐;另一部分是在各种用户场景,比如问题路由、相关推荐等等功能上的推荐。

在这些场景下面,知乎用到的技术并不是完全一样的,所采用的技术架构也并不相同,张瑞告诉记者:主要还是根据用户场景来决定使用什么样的架构和技术。

在首页的个性化推荐里,主要采用的技术包括:对图文内容、视频内容的基本的识别和画像,对用户的画像,以及图文内容和视频内容里面的实体识别以及关联,张瑞表示这些都是基础的组件;而上层在召回排序环节则大量的采用了 DNN,也就是深度神经网络技术。

由于平台的发展,早先单纯以图文为主的交流方式已经不足以让用户满足,于是知乎平台上也出现了不少视频、音频的内容,但是文字仍然占据了大量的比重,这对于知乎的推荐系统来说是个好事儿。

为什么这么说呢?张瑞解释道,图文推荐系统和其他推荐系统的区别在于:目前的 AI 算法技术对图文内容的理解会比视频和音频多媒体更加深入。而且对于绝大部分公司来说,在图文推荐系统中对图文内容本身做深入理解,从成本上也是可接受的。这种理解不只是从用户的交互入手,或者把一个图文内容看成单个、原子的 item,而是更深入的去了解某篇图文到底讲的是什么、它的质量是什么样子等等一系列的信息。所以其实相对于商品推荐、视频推荐等等领域,图文推荐会有更多的信息可以使用。

“当然现在业界在做图文推荐系统的时候,也会使用到这些信息。”张瑞说:“大家在这一领域的竞争还是很激烈的。这个激烈就在于:每家公司对图文内容的刻画、选择的维度都是不一样的,能做到的深度也是不一样的,而这个维度和深度本身就决定了图文推荐能做到用户的体验的上限有多少。”

为了提升用户体验的上限,知乎推荐系统也经历了升级改造。

张瑞告诉我们,知乎最初的推荐系统版本非常简单,仅仅是根据用户的关注行为进行推荐,比如有新的话题出现,用户一旦关注了就推荐给 TA 相关的内容,不关注就不推荐。此外,推荐的排序也是非常简单的,就是依靠时间流,即使后来引入了 EdgeRank 之类的简单的算法,做到的也仅仅是时间、文本内容质量等相关的权重的一个简单的信息加权。

随着新用户的进入,研发团队发现:在 Feed 流推荐场景下,用户都是越来越“懒”的,大部分用户希望不进行繁琐的操作,就能得到非常好的推荐结果。于是,推荐系统团队针对性的进行了一些优化,比如:在召回环节,引入更多根据用户的行为来召回内容的方式;在排序环节,把用户的各种行为,以及内容的各种细致刻画都引入进来,通过 DNN 神经网络进行排序,无论是老用户也好,新用户也好,整体上去优化他们的体验。

 

知乎多召回源融合的推荐结果生成框架

张瑞说:“从效果来看,新的系统上线了之后,对比最初的版本,分发量等等指标基本上都增长了至少三倍。”


多目标学习的推荐系统

知乎 CTO 李大海曾经在去年的一次演讲中提到了“多目标学习”的推荐系统,据了解这也是知乎优化推荐系统的一个方向。那么这个“多目标学习”该如何解释呢?

张瑞告诉我们,一般来说在搜索和推荐等信息检索场景下,最基础的一个目标就是用户的 CTR,即用户看见了一篇内容之后会不会去点击阅读。但其实用户在产品上的行为是多种多样的。尤其在知乎,用户可以对某个内容进行点赞,可以收藏这个内容,可以把它分享出去,甚至某个问题如果他觉得比较符合他的兴趣,想去回答,也可以进行一些创作。

虽然可以对用户的 CTR 进行单个目标的优化,但是这样的做法也会带来的负面影响:靠用户点击这个行为推荐出来的内容并不一定是用户非常满意的内容,比如有人可能看到一些热门的内容就会去点击,或者看到一些阅读门槛低的内容,像一些引发讨论的热点事件、社会新闻,或者是一些轻松娱乐的内容,用户也会点击。这样造成的后果就是:CTR 的指标非常高,但是用户接收到的推荐结果并不是他们最满意的。

后来,知乎的产品研发团队发现:用户的每种行为代表在一定程度上都代表了某个内容是否能满足他不同层面的需求。比如说点击,代表着用户在这个场景下,想要看这个内容;赞同,代表用户认为这个内容其实写的很不错的;收藏,代表这个内容对用户特别有用,要把它收藏起来,要仔细的再去看一看;分享,代表用户希望其他的人也能看到这个内容。

而单目标 CTR 优化到了一个比较高的点之后,用户的阅读量虽然上去了,但是其他的各种行为(收藏、点赞、分享等等)是下降的。这个下降代表着:用户接收到太多的东西是他认为不实用的。

于是,推荐系统团队陷入了思考:能不能预估用户在其他行为上的概率?这些概率实际上就是模型要学习的目标,多种目标综合起来,包括阅读、点赞、收藏、分享等等一系列的行为,就能综合到一个模型里面进行学习,这就是推荐系统的多目标学习。

"多目标"预估模型

与所有的系统类似,知乎的多目标推荐系统最初也是一个比较简单的版本,仅仅是给各个目标学习一个模型。这种情况下,模型本身的训练和在线预测的负担就会非常严重,每一个模型的训练和预测都要耗费同样的资源,这样对于工程资源压力是非常大的。这些模型之间还有互相的交叉、验证;每个模型还需要评估,离线评估一遍,在线评估一遍,之后再合并... 林林总总的行为加起来,对研发资源造成的负担是非常大的。

所以,在多目标推荐系统的第一版做出来之后,团队就在考虑:能不能使用模型之间共享一些参数的方式,或者共享模型本身以及训练流程的方式,来减少在训练上的负担,以及它在工程成本、研发成本上的负担?

以此想法为基础,团队做出了一个能够在底层共享相关参数,在顶层根据各种模型、目标本身特点而学习的特有的神经网络架构,张瑞说,这套架构中参考了很多现有的多目标学习的研究进展。

虽然解决了一部分问题,但是把多个模型融合在一起,通过一个模型去学习一个目标的方式仍然存在问题。

首先,目标之间的相关性决定了这个模型学习的上限能有多少。比如:如果一个模型中点赞和点击是完全耦合的,那么这个模型在学习点赞的过程中,也就学习了点击。但是对用户来讲,它的意义是不一样的,这并不是一个完全耦合的系统。

在这个学习任务下,如果去共享底层网络参数的话,可能会造成底层的每个目标都能学习一点,但是每个目标学习的都不够充分,这是多目标学习系统实现的一个难点。为了解决这个问题,研发团队参考了 Google 发表的一篇论文,叫做 Multi-gate Mixture-of-Experts,简称 MMOE。

MMOE 的核心思想是:把底层的网络划分成一些专用的模块,虽然底层参数是共享的,但是通过目标和网络参数之间的一个 gate(门)来学习,让每部分网络充分学习到对每个目标的贡献最大的一组参数结构,通过这种方式来保证,底层网络参数共享的时候,不会出现目标之间相互抵消的作用。

张瑞告诉我们,经过尝试之后,交互层面的预估子任务的 AUC 值得到了至少千分之二的提升,在模型的主任务也就是预测阅读的任务中,AUC 也没有下降。上线之后,取得的效果也是非常正向的。

张瑞还跟我们同步了一些数据。从数据来看,在引入多目标学习之前,知乎的预测模型已经做到了非常高的准确率,在引入多目标学习之后,或多或少都会对阅读行为有一定的负向作用:多目标学习在上线以来,阅读行为下降了 2% 左右,但是用户的其他行为(比如点赞、收藏、评论、分享等),分别提高了 50%~100%。

如果看最直接关系到用户体验的数据,也就是用户的留存率,上线多目标学习之后,知乎的整体用户留存率大概提升了 5% 左右。“对于任何一个推荐系统来说,整体的用户留存率能提升 5% 都是非常高的收益。”张瑞补充道。

至于用户反馈,张瑞告诉我们,现在知乎有一些固定的渠道方便用户提供反馈。他告诉我们:“在引入多目标学习之前,我们接到的最多的反馈就是用户觉得在 Feed 流里,内容越来越浅显。这些反馈主要来自于知乎的重度用户和一些比较老的用户,他们对知乎的期望都是非常高的,希望知乎能够把一些特别有用的知识带给他们。之前,机器的优化阅读会带来一些反向作用,有用户觉得知乎推荐的内容虽然都特别抓人眼球,但实际的用处并没有那么大。在新的推荐系统上线之后,很多人表示 Feed 流里面的内容质量变高了,用户沉浸式的体验感变得更深了。”

引入多目标学习的推荐系统在知乎已经收获了不少的正面效果,但是张瑞表示,团队目前遇到的一个令人困扰的问题是:多个目标中,到底以什么样的方式去对目标进行权衡和融合,才能得到用户收益和平台收益的最大化?

打个比方,用户其实在 Feed 流里面消费内容的时候,他期望的并不是非常单一的场景,系统提供一些供消遣而浅显的内容,阅读量会上涨,但是用户会觉得体验不好;但如果推荐的全是一些收藏率特别高的内容,对于用户来讲,虽然这类内容非常有用,但阅读起来会很累。

张瑞说:“对于平台来讲,我们最关注的是用户在 Feed 流的场景下面的体验如何。这直接关系到我们用户的留存和用户的活跃。”

所以现在知乎在尝试一些解决方案,包括对用户进行分群,看某个群体的用户最在意的是什么样的内容。但这是一个通过产品经理,或者通过人的观察来确定的事情,比如说某些领域的重度用户会特别在意推荐的内容对他们有没有用;一些轻度的用户,他们来到知乎的主要的目的是为了轻量阅读,一些易于消化的内容对他们更友好。

对用户分群之后,就可以动态调整每个目标的权重,给出一个最终的排序。这对于推荐系统当然是有收益的,但是张瑞认为在现在还没有一个非常完善的方法来判断,什么样的群体、什么样的目标,他们之间以什么样的比例去进行融合,从而给最终全局一个最好的收益。

现在业界的各种推荐系统的方法,大家都会去预测 CTR(点击率)、预测 CVR(转化率),预测各种各样行为的概率,但是很少有公司去做预测用户的留存。这也是整个推荐行业,或者说推荐技术圈面临的一个挑战:所有的这些行为概率,都是用户体验的一个方面,不能代表用户体验的整体最优,那么,用什么样的方式能够给用户的体验带来最大化的收益,仍然是业界目前面临的一项挑战。张瑞认为,通过多目标学习来间接的达到这个目标,间接的达到全局最优化,对于提升用户体验也许是一种解决方式。


未来规划

除了多目标学习,有两个方面的技术发展也是张瑞极其关注的,他认为,这两项技术对推荐系统也是很有帮助的。

首先是对于内容质量的判别。

知乎的场景主要是图文,所以开发人员也会更在意图文质量的判别。图文质量的判别包括细粒度特征,比如某个内容对于什么样的用户来说是好内容,对于什么样的用户来说不是。举例来说,一篇讲机器学习基本知识的内容,对于机器学习的入门初学者可能是非常好的内容,但是对于知乎上面的一些机器学习大牛就是一个并没有多少信息量的东西。

张瑞表示,怎么能够实现对内容质量,或者内容价值的细粒度的刻画是非常难的一件事,好在业界一直在技术上推进,现在取得了一些进展,包括 Google 最近发表的论文 BERT,它能够对文字内容进行不同于往常的 embedding 嵌入式表示。

其次是对于深度神经网络的解析。

现在的很多场景都用到了深度神经网络,但是张瑞告诉我们:对于深度神经网络来说,绝大多数的场景仍然是黑盒子,即使再往前进一步,不是绝对的一个黑盒子,起码也是一个灰盒子。

在中间的输入和输出之间到底有什么样的关联?哪个输入的因子能够对输出起到最重要的作用?这个作用能不能可量化的去评估?现在业内在这一领域的研究的成果并不是非常多,所以张瑞觉得,怎么去解析一个 DNN 的网络,实际上是对应到开发者能不能真正的去了解这个模型,能不能去准确的判定它是怎么工作的,以至于,能不能对下一步的工作提供指导,比如什么样的特征,或者什么样的网络构型能够产生更大的收益?

现在大部分情况下还是靠人的经验,一点点的去尝试,如果能够把 DNN 的解析给做好,在未来的各种迭代的效率,以及研发的效率可能就会出现一个质的飞跃。

深度神经网络解析对于推荐系统可能会更重要。张瑞强调道,现在有些研究是在针对推荐系统的可解释性,但是很多时候用户看到的推荐内容,实际上是不清楚为什么推给他,如果不清楚原因,有些用户就没有动力仔细的去看。比如在网上上买东西,电商平台推荐的商品根据用户性别甚至是消费级别进行推荐的,但是对用户来说,如果不给出一个解释理由的话,用户或许很难去想到这个东西到底跟自己有什么关联。

张瑞认为:“如果对于深度神经网络的解析,能够有一个比较大的进步,我们可以反向倒推出来,把哪些东西推给用户是最重要的,同时也就可以给这个用户解释,我为什么给你推这个东西,能够提高用户的筛选效率,并且提高用户的在整个推荐系统上的黏性和消费意愿。”

最后张瑞谈了谈对知乎推荐系统未来发展的规划与期待。

从用户的决策面来说,知乎推荐系统团队希望能够多样的提升用户和信息之间的匹配的准确性,尽量把更多的信息带给用户。可能需要通过上文提到的各种各样的方式去一点一点实现这个目标。

从平台方面来说,首页的推荐系统在知乎流量来源里面占有非常大的比重,同时也支撑着知乎各个业务的发展,所以,张瑞希望打造出一套非常灵活的系统,能够根据业务当前的需求,或者公司目前的运营状态,把流量导去对平台、公司和用户有益的地方,最终实现流量分配之后,对流量使用的价值进行评估的一种机制。


 

采访嘉宾介绍

首页技术团队负责人 张瑞

张瑞,毕业于北京邮电大学,先后在百度、豌豆荚等从事搜索、搜索广告、推荐系统中的机器学习、自然语言处理、推荐算法等方向的工作。目前担任知乎首页技术团队负责人、首页业务总监,负责知乎信息流产品的技术研发及产品运营团队。

原文传送门:https://mp.weixin.qq.com/s/J0j9NwSNhxab6bXqBBzaUw

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/yH1IV7aPVp6lhKqu.html#comments Mon, 25 Mar 2019 12:11:00 +0800
眺望新NLP模型:利用人类眼动来提升性能 //www.xyschoolife.com/category/zhuanlan/Tl4qJ7G1jPQwK9Ui.html (本文转载自公众号“脑极体”,未经授权不允许二次转载)

前不久,Facebook一口气删除783个“水军”帐号,原因是存在虚假宣传和舆论攻击行为。其中356个Facebook帐户和162个Instagram帐户,早在2010年就开始在网络任性活动了。但由于他们很容易伪装自己,导致系统根本无法自动清理,最后还是靠手动审查才发现了蛛丝马迹。

看来,想要让机器像人一样精准识别网络行为背后的意图,以当前NLP的阅读理解能力,真的是想太多。

也因此,去年一篇利用人类眼动来提升NLP模型性能的论文,一经问世,就迅速受到关注,为与网络暴力斗智斗勇的程序员们打开了一扇新的技术之窗。

我们不妨就以这个最新研究成果为契机,来猜想一下,技术如何才能打赢这场争夺网络话语权的无声战争。


机器之殇:远不够完美的RNN

在了解这个新的RNN模型做了哪些创新之前,我想有必要先简单介绍一下,NLP的世界里一般是如何使用注意力机制来完成任务的。

以最为常用的序列对序列(sequence to sequence)模型为例,比如说我们要将中文翻译成英文,如果我们拥有大量的双语语料,就可以得到两个知识丰富而结构相似的编码和解码网络,从而训练出很有效的模型,来实现很好的机器翻译效果。

但序列模型对机器的记忆力提出了比较残酷的要求,需要先背诵全文再翻译,如果是长篇大论,机器就放飞自我了。

于是,注意力模型出现了。

试想一下,人类是如何翻译的(此处致敬高考英语老师):先完整地读完整个句子,结合上下文理解大概含义,然后对关键单词和短语重点思索,再着手进行翻译。

而注意力模型试图模仿的正是人类这种理解能力。它被设计成一个双向的RNN网络,每个单元由LSTM或GRU组成,能够向前和向后获取信息,通俗点说就是“联系上下文”。

每次翻译时,注意力模型会根据待翻译部分以及上下文,给予不一样的注意力(权重参数),接着循序渐进地翻译出整段话。

注意力机制解决了传统神经机器翻译中基于短语的生搬硬套,但并不意味着毫无缺陷。


它的不完美主要体现在三个方面:

1.需要大规模标注数据。

原始RNN在解码过程中,机器的焦点是分散在整个序列当中的,需要先对序列上的每个元素进行标记,再进行对齐操作。里面就包含了词性标注、CHUNK识别、句法分析、语义角色识别,甚至包括关键词抽取等很多子任务,显然不是一个小工程。

2.增加额外运算负担。

人类在阅读时,并不关注所有的字,往往会自动忽略掉不想关注或无意义的部分,只重点处理关注需要注意的那一部分。比如“Courage is like a muscle”中,“Courage”和“muscle”就会让人多看两眼。这样做不仅能够降低任务的复杂度,还能避免脑负荷过载。

而NLP的注意力机制虽然是在模仿人类行为,但机器必须对所有对象进行处理和计算,还要用一个矩阵去存储不同字节的权重,这些都增加了额外的运算压力和成本。

3.容易出现归纳偏置。

通俗点说,就是机器在遇到某种没有见过的东西时,会倾向于给出一个简单的预测或判断,以此来决定输出规则。

比如通过分析,它认为出现“but”“不”等单词,就说明对方会开始释放负面甚至攻击性的语言了。但要是遇上“我跳起来反手就是一个么么哒”之类玩梗的骚操作,可能就会误伤友军。

了解了注意力机制的基本工作方式,我们就赶紧来看看这项新的研究成果,究竟是凭什么惊艳了整个学界吧。


NLP希望之钥,还掌握在人类手中

一句话概括,就是论文作者Maria Barrett和她的同事们,将人类在阅读时的眼部动作引入了RNN网络的训练中,使其能够在标注型文本和人类注意力信息之间来回切换,以此获得性能更好的循环神经网络。

具体是怎么实现的呢?

首先,研究人员利用两个公开的眼动追踪语料库:Dundee Corpus和ZuCo Corpus来研究人类的注意力机制。

其中,Dundee Corpus包含了20篇报纸文章,共2368个句子,阅读屏幕可以感知眼部动作。ZuCo Corpus则包含了1000个单独的英语句子,有一部分来自斯坦福情感树库,通过红外染色仪来记录眼睛运动和面部情绪分析。

根据这些人类阅读语料时的眼睛动作追踪数据(比如注视持续时间MEAN FIX DUR),得到了一个“人类注意力”的数据集。


第二步,使用人类眼动数据集与标注好的序列数据集,来共同训练RNN模型。

从两个数据集中随机选择一个数据,让机器判断属于哪一个数据集。

如果属于序列数据集,则进一步判断该句子的类别,计算并预测标签blabla;如果属于人类眼动数据集,则计算每个单词的权重(即attention值),再进行归一化(最小平方差)处理。

那么,经受了人机双重挑战的新RNN网络效果如何呢?接下来,研究人员通过三个任务对其性能进行了测试:

任务一:句子情感分析。使用新RNN来检测机器是否能识别出数据集(SEMEVAL TWITTER POS | NEG)中的负面句子和非负面句子;

任务二:语法错误检测。让新的RNN阅读经专家注释的英语论文(数据集FCF),并找出其中的语法错误,与正确的句子区分开;

任务三:暴力语言检测。研究人员安排了20940条设计性别歧视和种族主义等辱骂型语言的推特(数据集Waseem和Hovy),来对新的RNN进行测试。

最终的实验结果显示,加入了人类注意力训练之后的RNN,找重点的能力,以及预测的精准程度,要远高于原本的序列模型。

这项研究成果很快就引起了反响,并获得了NLP顶会CoNLL 2018年度最佳研究论文特别奖。

那么,接下来请回答一道送分题:这项成果有何特别之处?


RNN的一小步,NLP的一大步

将人类注意力引入机器学习算法的训练,究竟有何意义?我来抢答一下:

首先,降低了对序列分类标注语料的依赖,让NLP模型的训练有了更多可能性。

让机器学习注意力函数需要非常大规模的数据,结果就是让开发者不得不陷入争夺计算资源的“金钱战争”。该项研究为 NLP 中的许多注意力函数提供一个不错的归纳偏置性能,同时还不要求目标任务数据带有眼睛跟踪信息,直接减少了数据需求量。

其次,是从语义到推理的性能跨越。

传统的序列到序列模型和RNN网络,只能解决语义理解问题,而该论文证明,使用人眼注意力来规范机器的注意力功能,可以让一系列NLP任务实现显著改善,甚至触及了常识、推理等认知能力。

机器能从“凝视”信息中获取对多重表达、情绪分析的精准判断,某种程度上已经学会了模拟人类的注意力。

以后机器也许就能够轻松挑战女朋友说“我没有不高兴”这样双重否定表否定的高难度阅读理解了。是不是很期待呢?

而最重要也最接地气的,则是新模型带来的网络冲浪体验革命了。

研究团队认为,该模型很快就能够在一些比较关键的实际应用中,判断网络文本的犯罪意图、评论信息和情感倾向。

比如通过帖子或推文的训练,帮助微博/推特/脸书等社交媒体精准识别出恶意评论的杠精和废话连篇的水军,并予以精准过滤和清楚,营造一个更美好的社区氛围;

再比如通过淘宝/亚马逊/Yelp,以及各种应用商店中不同类别的反馈,对特殊属性(衣服的尺寸、使用感受)和商品评价的不同反馈进行分类和提取,帮助商家优化经营,并精准打击刷单等欺骗行为。

除此之外,该模型还能根据意图对文本进行分类,比如在遇到紧急问题或检测到请求帮助的需求(发出带有自杀或发社会倾向的推文或聊天记录)时,能够及时通知执法人员,从而避免灾难性事件的发生。

这样一对比,是不是感觉一个“机器懂我、天下无杠”的美丽新世界在向你招手呢?

再说一点

由此延展到整个AI领域,或许可以发现,人类和智能机器,本质上在做着同样的事情,只不过AI的功能是将其抽象化并用新的逻辑演绎出来,然后人类给它投喂数据,它消化之后返还给我们或理想或智障的结果……

而机器的内化过程,一直遭遇着黑箱性的诟病,越来越庞大的神经网络层和数据需求量,也已经让研究者不堪重负。

前路在哪里?或许那张大家快看吐了的人类与机器人指尖对指尖的图,正印证着机器学习的未来,那就是:人机协同。

越来越多的研究者开始将人类推理和决策行为引入到机器训练之中,比如MIT和微软在训练无人驾驶汽车时,开始让它们从人类反馈中找到认知盲点,以此应对那些模糊决策情境。

DeepMind和OpenAI让没有技术经验的人类控制员来选择预期目标,并以此训练激励预期侧,让智能体根据人类的偏好改进自己的行为,最终完成复杂的任务目标,比如后空翻;基于人眼注意力的新RNN网络也是如此。

这种改变,可以被归结为深度学习的阶段性技术瓶颈,只能靠向人类借力来攻破。

但从某种意义上来说,与人类携手,将人类的抽象能力与计算机系统逻辑进行更高耦合度的融合,可能才是机器智能更现实也更有效的解决方案。

肯尼迪的那句话放在AI的世界里依然无比适合——不要问机器为你做了什么,要问你能为机器做些什么。相比于等待机器自我迭代到成熟的那一天来服务我们,参与“智能养成游戏”不是更令人期待吗?

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/Tl4qJ7G1jPQwK9Ui.html#comments Fri, 22 Mar 2019 18:56:00 +0800
多模态技术展望:如何跨过语义鸿沟、异构鸿沟、数据缺失三大难关? //www.xyschoolife.com/category/zhuanlan/QL0KJ4FzPU6ZYuOI.html

本文转自 | AI前线

作者|李岩

导读:随着近年来深度学习、大算力、大数据快速发展,计算机视觉、语音识别等技术都取得了非常大的进展,综合了多种信息模态的多模态研究已成为一个新趋势。对于快手而言,多模态研究也是非常重要的课题。快手是一个记录和分享生活的短视频社交平台,通过人、内容及二者互动数据的理解,借助算法匹配推荐用户可能感兴趣的内容。一方面,视频可称是典型的多模态问题,综合了视觉、听觉、文本多种模态信息。在视频的基础上,加上用户行为数据就是一种更加复杂的多模态问题。目前快手在多模态技术上的应用,一方面在于帮助用户更好地表达与记录,另一方面在于对视频内容的精准理解。


多模态技术帮助用户更好地表达与记录

1、语音转文字打造便捷字幕生成体验

在视频中,对音频部分的理解是视频信息传递的重要部分。快手上有很多以语言讲述为核心的视频,需要大量匹配的字幕辅助观看。视频字幕制作其实是一件工作量很大的事情,一般需要在电脑前使用专业的编辑软件手动逐个输入文字。而如果通过语音识别技术,把语音直接转成文字,就可以很轻松地通过手机编辑生成一个带字幕的视频。

对视频进行语音转写时,面临以下的技术难点:首先,拍摄视频时,麦克风和说话者之间的距离比较远,语音信号因为传输距离远产生衰减,同时麦克风对环境噪声的抑制能力也会减弱,造成语音信号弱,背景噪声强的现象;其次,在房间内拍摄时,可能因墙壁对语音信号的反射造成混响;第三,快手的用户包括了全国各个区域,自然地包括了多样的口音;最后,短视频的内容种类丰富,表达方式随意,有些视频还有很强的韵律起伏。这些因素都会影响语音识别系统的准确率。快手针对这些问题,研发了语音质量检测、单通道混响消除、噪声掩蔽建模等多种技术,以及通过序列化建模方法提升多种口音的识别准确率。


2、语音合成实现个性化配音

在视频配音方面,如果用户不喜欢男性配音,而希望实现女性配音的效果,就可以通过语音合成技术满足个性化的诉求。

语音识别及合成技术都会使记录的过程变得更加便捷、有趣,但这两项技术在做视觉或者多媒体的圈子里面关注度不是特别高,在语音圈子里面,语音识别、语音合成也往往是两波人在做。

随着深度学习技术的出现,语音识别和合成其实在某种程度上可以看做是非常对称的两个问题,因为语音识别是从语音到文字,语音合成是从文字到语音。语音识别,我们提取一些声学的特征,经过编码器或者 Attention 的机制,实现从语音到文字的转化;语音合成的技术和算法,其实也涉及编码器或者 Attention 的机制,二者形成了比较对称的网络。所以我们把语音识别和合成看成是一个模态转换的特例,从神经网络建模角度来看,是一个比较一致、容易解决的问题。快手的语音识别、语音合成技术原理图如下:


3、根据视频内容自动生成音乐

音乐也是短视频非常重要的一部分,为一个场景匹配合适的音乐并非易事。过去,有不少用户在拍摄时为了与音乐节拍一致,努力配合音乐节奏拍摄,极大限制了拍摄的自由度。快手希望用户可以随意按照自己的方式录制视频,对用户拍摄的视频内容进行理解后,自动生成符合视频内容的音乐。

利用神经网络强大的学习能力,实现视觉信息到音乐要素的转化,包括:歌曲节奏、速度、调性、情感、风格、动机等。例如:将视频中用户身体扭动的时间点与生成音乐中的“鼓点”位置对齐;动作快慢决定歌曲速度等。

通过上述音乐要素,从备选曲库中筛选合适的乐谱组成旋律空间。音乐的动机是由几个小节组成的旋律片段,它是音乐的核心,整首歌曲都围绕动机展开。在自动编码器网络中,动机被表示为一个向量,旋律空间被表示为若干的向量序列。在动机与旋律空间的约束下进行采样,生成新的向量序列,再通过解码网络生成新的旋律。同样的动机,在相同的旋律空间下,也可以生成情感、风格相似,但表现上又有差异的音乐作品。常见的 AI 旋律生成算法,难以保存作曲手法,生成较长的旋律片段时,整个作品的走势会难以控制。采用旋律空间加动机的方式,能够有效解决该问题。对旋律进行自动化的配器和混音,最终生成符合视频内容的音乐作品。

音乐生成涉及很多具体的技术,其中一个问题是懂音乐的人不懂计算机科学,懂计算机科学的人不懂音乐。想要把短视频配乐这个问题研究好,需要有做音乐和做 AI 的人一起集成创新,这方面快手也做了非常多的工作。


4、2D 图像驱动 3D 建模实现 Animoji 效果

iPhoneX 问世时的一项标志性功能,是通过结构光摄像头实现 Animoji,现在国内手机厂商也越来越多地采用结构光的方式去实现 Animoj。而快手是国内较早实现不使用结构光,只用 RGB 图像信息就实现 Animoji 效果的企业。

用户不必去花上万元去买 iphoneX,只要用一个千元的安卓手机,就可在快手的产品上体验 Animoji 的特效,从而能够在不暴露脸部信息的同时展现细微的表情变化,例如微笑、单只眼睛睁单只眼睛闭等,让原来一些羞于表演自己才艺的人,也可以非常自如地表达。

其实解决这样一个问题是非常难的,即使是苹果,也采用了结构光这样配置额外硬件的方式来解决。想让每一个用户都能享受到最尖端的技术,快手面临着硬件的约束,只能通过 2D 的 RGB 视觉信息对问题进行建模、求解。

整个模拟人脸的过程借助了 3D 结构恢复与 3D 信息融合,用 3D 重建技术恢复出 3D 结构,融合 2D 信息后,分析人脸特征,进而生成虚拟形象。

3D 人脸重建需要借助快手内部的上万级 3D 人脸数据集,包含每个人的年龄段、人种、脸型和表情,通过人脸关键点识别技术,帮助 3D 人脸重建,不论表情是哭是笑都可以重现出来。

此外,生成虚拟形象还要分析用户的人脸属性,借助分类 / 回归 / 分割等方法,区分出性别、年龄、肤色、脸型等信息。

之后,因为生成的 3D 卡通图像是会随着人的表情而变化的,需要分析人脸表情,才能在卡通形象上展示出一模一样的表情。

这里需要通过 2D 的 RGB 视觉信息对问题进行建模求解,获得人脸关键点和实时重建的 3D 模型,把各种模态信息做建模、做对齐,求解出人脸的表情,驱动虚拟卡通形象做各种逼真的动作。

此外,快手 Animoji 的体验非常流畅,也需要归功于深度神经网络模型的量化。为了让模型在手机端流畅运行,需要进行图像预处理,合并多种预处理操作,对预处理的图像内存进行统一分配和回收,利用 NEON 加速和苹果自带的 accelerate 加速,让运行库只占 2M 的空间。

最后,在保证预测精度的前提下,快手技术团队对 AI 模型进行局部的 INT8 量化,使得运行速度可提高 1 倍以上,同时 AI 预测模型的占用空间也压缩到将近原来的四分之一。


多模态技术如何实现精准理解视频内容?

除了帮助用户更好地记录,快手也希望通过一个更好的分享机制,让用户发布的视频能够被更多感兴趣的人看到,这也涉及视频推荐里面多模态的一些问题,其中有两点值得分享:

第一,我们强调音频和视觉的多模态综合的建模,而不是仅仅是单独的视觉或者音频,视觉和听觉两种媒体的融合,会是未来一个重要趋势。

第二,工业界和学术界所做的研究有很大区别,快手有非常多的用户数据,这些用户数据是不在传统多媒体内容研究范畴里面的,但是工业界可以很好地利用这些数据,更好地做内容理解。

举个例子,一个男子表演口技的视频中,如果关闭声音,仅凭画面信息,我们并不知道他是在做什么,可能会觉得是在唱歌或唱戏。这说明如果仅仅是通过视觉的话,人们可能无法获得真实的信息。我们对世界的理解一定是多模态的理解,而不仅仅是视觉的理解。

快手数据库中有 80 亿短视频,想要理解这么多的视频内容,必须借助多模态技术。我们从文本、视觉、听觉角度去做了很多单模态的建模,包括多模态的综合建模、有序与无序,以及多模态特征之间怎样进行异构的建联,在很多任务内部的分类上也做了改进。

另一方面需要强调的是, ImageNET 等很多学术界研究内容理解的任务有完善的标注数据集,但是这个数据集对于工业界而言还是太小,且多样性不够。快手每天有 1.6 亿用户、超过 150 亿次的视频播放,这个数据是非常大的。如果有 150 亿的标注数据,做算法就会有很大的帮助,但是现实上是不具备的。

怎样将研究分析技术与海量数据更好地做到融合?快手通过融合行为数据和内容数据,进行综合建模。同样大小的人工标注量,利用海量的用户行为数据,能够获得比纯内容模型更好的性能,对视频有了一个更好的理解,进而在多媒体内容的理解和分析方面的算法研究有了非常大的进展。


多模态技术研究的三个难点:语义鸿沟、异构鸿沟、数据缺失

其实在目前来看,多模态研究难度还是非常高的。

其中大家谈得比较多的是语义鸿沟,虽然近十年来深度学习和大算力、大数据快速发展,计算机视觉包括语音识别等技术都取得了非常大的进展,但是截至现在,很多问题还没有得到特别好的解决,所以单模态的语义鸿沟仍然是存在的。再者,由于引入了多种模态的信息,所以怎样对不同模态之间的数据进行综合建模,会是一个异构鸿沟的问题。

另外,做语音、做图像是有很多数据集的,大家可以利用这些数据集进行刷分、交流自己算法的研究成果。但是多模态的数据集是非常难以构建的,所以我们在做多模态研究时是存在数据缺失的问题的。


多模态技术的未来应用方向展望

首先,多模态技术会改变人机交互的方式,我们与机器交互的方式将会越来越贴近于更令人舒适、更自然的方式。比如我们刚才讲的 Animoji 技术,其实它带来的是一种可以通过人脸控制手机自动生成 Avatar(虚拟动画)的体验。原来实现这些效果,需要在好莱坞专门设一个特效室来实现这一点,而现在普通用户都能享受这样的技术,所以人机交互会由原来重的、贵的、笨的方式转变为便宜的、每个人都能参与的而且便捷的方式。

第二,多模态技术会带来新的内容形态,原来接入信息更多是从文本、页面中获得,现在有视频,未来可能还会有 AR 或者其它的形式。多模态 AR 很重要的一点就是强调沉浸感,这种沉浸感其实是通过听觉和视觉综合作用才能产生的。

第三,多模态亟需新的算法和大型的数据,因为这两者可能会是一个某种意义上可以相互折算的问题。以目前的机器学习算法来讲,需要海量的数据才能解决好这个问题,因为现在深度学习、内容理解的成果,某种意义上是监督学习的成果,有足够的样本、算力,所以现在的算法能力基本上还停留在对算力和数据有着非常大要求的阶段。而多模态的大型数据是非常难建的,而且多模态解的空间是更大的。因为一个模态解的空间是 n,另外一个是 m,它最后是一个乘积、一个指数级的变化,所以数据集要多大才足够是一个很难的这个问题,可能需要新的算法来对这个问题进行建模。

  • 作者简介

  • 李岩,毕业于中国科学院计算技术研究所,中国计算机学会多媒体技术专业委员会常委。现任快手科技多媒体内容理解部(Multimedia Understanding, MMU)负责人,带领快手科技近百人的算法研发团队,团队成员多来自清华大学、中科院和日本京都大学等国内外顶尖高校和科研机构。

  • 原文传送门:https://mp.weixin.qq.com/s/tpdYcvx3QsVgthHrlpXkyg

  • 转载请联系原公众号,未经授权不允许二次转载


]]>
专栏 //www.xyschoolife.com/category/zhuanlan/QL0KJ4FzPU6ZYuOI.html#comments Fri, 22 Mar 2019 14:31:00 +0800
在“AIoT”的新赛道上,雷军能带领小米跑多远? //www.xyschoolife.com/category/zhuanlan/ET0GbMhq6MKsvuSN.html  

本文转载自公众号阿尔法工场

作者:丁真军

报告中的信息均来源于公开资料,不构成任何投资建议

2019年3月19日,小米(HK:01810)发布上市后的首份年报:全年收入1749亿元,同比增长52.6%;经调整净利润86亿元,同比增长59%。

2010年雷军与7位伙伴就着小米粥,脚踏移动互联网祥云的场景,好像近在眼前。

八年收入突破1000亿实属难得。

我要说的是,虽然小米手机和互联网业务全年增速依旧很快,但投资者应该从现在开始忘掉小米的过去:

2010年,投资小米智能手机的晨兴资本,按2018年上市发行价算能赚866倍;

2019年,如果小米未来让你赚3倍、5倍、10倍,肯定不是因为手机业务,而是即将爆炸式增长的IoT(物联网)业务。

2019年3月,小米发文成立AIoT(即AI+IoT,人工智能与物联网的融合)战略委员会,脚踏5G的祥云All in AIoT,我认为,如果不犯大的战略错误,未来小米可能会成为千亿美元的公司。


01  10万亿物联网市场

过去二十多年,随着2G/3G/4G的网络升级,我们经历“键盘侠”的PC互联网时代,全天候把玩手机的移动互联网时代。

接下来十年,随着5G的来临,以及芯片和传感器成本的急剧下降,迎接我们的将是物联网的时代,一个语音操控、实时互动的新阶段。

目前的物联网处于爆发的前夜,随着AIoT(人工智能与物联网)发展到一定阶段,入口将不再限于语音,不再限于智能音箱。

(电影《头号玩家》,人们进入虚拟世界)

我们的五官和大脑都能以特定的方式与万物互联,这对效率的提升是无法想象的。

效率提升的越多,创造的价值越大。

想想蒸汽机发明以来生产力的进步,想想计算机发明以来生产力的进步,物联网市场规模会远远大于PC互联网、移动互联网。

据艾瑞咨询资料,2022年全球消费级IoT硬件(智能家居、穿戴设备)销售额将达到1.55万亿美元,折合10万亿人民币,这还只是未来四年的情况。

(全球消费级IoT市场规模)

在这场物联网的竞速狂奔中,我们比较看好小米。

不仅因为其对IoT的高度重视,2019年3月7日成立AIoT战略委员会,未来五年持续投入超过100亿元强化竞争力。还在于其集团军作战的生态链,得到了领先全球物联网巨头的地位,以及AIoT本身是一门不错的生意。


02  小米已经占据关键位置

物联网首先是物与物的连接,你首先得有大量的物(智能硬件)。这恰恰是传统PC、移动端巨头的弱项,没有这个基因!

2018年,小米IoT及生活消费品收入438亿元,同比增长86.9%。智能电视全球出货量840万部,同比增长225.5%。米家扫地机器人出货量中国第二,小米穿戴式设备Q4出货量全球第二。

而小米独特的生态链系统,输出“文化、品牌、资金、ID设计、供应链、管理”等已经检验过的方法论。集团军作战,生产各领域的智能硬件,推动传统制造业转型升级。

具体的产品和公司如下:

做净水器的云米、做手环的华米、做平衡车的纳恩博、做充电宝的紫米、做空气净化器的智米、做蓝牙耳机的蓝米等。

这些智能硬件通过品质和价格(半价,甚至二折买到更好的产品),迅速建立了消费者口碑。

 (品质:小米生态链产品获奖无数,统计截止于2017年3月)

  

(价格:小米的产品普遍比对手低50%以上)

制造的能力小米有,消费者也认账,这就导致其出货量领先。

根据艾瑞咨询和广证恒生报告,以终端数量为评价标准(截止2018Q1),小米市占率为1.9%,亚马逊(NASDAQ:AMZN)市占率为1.2%,苹果(NASDAQ:AAPL)市占率为1%,谷歌(NASDAQ:GOOGL)市占率为0.9%,三星市占率为0.8%。

除了量以外,小米的物联网在当前最重要的物联网入口方面,也颇有优势。

物联网语音入口“小爱同学”(一款智能音箱),月活跃用户超过3880万人,搭载小爱并激活的物联网设备数超1亿台,是中国最活跃的人工智能交互平台之一。

 

(智能音箱“小爱同学”的合作伙伴)

AIoT市场足够大,小米也处于行业领先位置。现在我们需要进一步探讨,这门生意到底是怎么样的,这决定AIoT到底能为小米带来多少市值。



03  AIoT造就新世界

我们能看到,AIoT具有极强的网络效应。往往从第一件智能硬件开始,它就在改造你的生活品质了。

健康生活场景。PM2.5严重,你需要个物美价廉的小米空气净化器。如果是北方,空气净化器检测你家里干燥,建议添个加湿器。加湿器要注水,可能发现水质不太好,建议再添个净水器。

电影放映场景。喊一嗓子告诉小爱同学要看啥电影,它就能帮你把调节灯光,关上窗帘,调节空调温度,打开投影仪,自动搜索并播放电影。

生活之中,衣食住行场景无数,光靠小米及其生态链产出的智能硬件,远远无法满足。所以其2018年开了个“IoT大会”,要做开放互联的平台:

生态开放方面,开源移动端开放框架,小米IoT平台,小爱开放平台。还为AI技能开发者、硬件设备厂商及AI技术公司设置亿元奖励基金。

成效已经有了,小米IoT平台与宜家合作,后者全线智能照明设备12月接入进来。还与全季酒店、车和家和爱空间等进行合作。截止2018年12月31日,小米财报显示,IoT平台已连接的IoT设备数(不包括智能手机和笔记本电脑)约1.51亿,同比增长193.2%。拥有5个以上小米IoT设备(不包括智能手机和笔记本电脑)的用户数约为230万,,超越苹果等平台,成为世界最大物联网平台。

开放平台能极大提高发展速度,谷歌的安卓因为开放,成为最强手机操作系统;优步(Uber)因为开放,成为中国最大共享出行平台。IoT领域走的最快的小米,有希望凭借网络效应做成行业巨头。



04  AIoT能支撑小米多大市值?

此前我们提过,按智能硬件出货量,小米市占率为1.9%。但出货量高不一定价格高,2018年全面小米IoT与生活消费品收入438亿元,大概占全球消费级IoT销售额1%左右。

小米有手机打下的国际化渠道,也有宜家这样的全球家居领导品牌合作,具备开放平台的扎实底层。我们认为其2022年消费级IoT全球市占率能达到3%,也就是3000亿元。

手机销售1000亿元作为入口,换来互联网变现,这两块占将近80%的毛利值300亿美元;

未来几年,物联网销售3000亿元,换来“互联网+耗材(比如净水器的滤网)+更高毛利(IoT比手机毛利高66%)”价值率不会低,同比至少值900亿美元。

我们认为小米最保守的情况下,也值1200亿美元,未来几年至少有两倍上升空间。

放在20年前,没有人能想到人类历史上万亿美元市值的公司,竟然是亚马逊和苹果。互联网时代的变化真的太快了,当你对新的趋势不以为意的那一刹,投资机会擦肩而过。

 

05  结语

“运营费⽤率不到10%,IPO前承诺硬件综合税后净利率永远不超过5%,2018年小⽶硬件综合税后净利率为正,小于1%;

从福特T型⻋到PC⾏业快速的普及,从沃尔玛到好市多,⼈类商业史已雄辩地证明,效率更高的商业模式终将获得摧枯拉朽的胜利。而一家真正实现世界级效率的公司,将拥有穿越经济周期、持续抓住行业涌现的新机会和长久保持优秀运营表现的能⼒。”

年报发布后雷军个人公众号发了一封致股东信,上面是我摘录的几个数字,以及雷军的经营哲学。

关于净利率的承诺做到,这方面的行为值得赞许。更重要的是,致力于提高效率的组织会拥有长期的生命力。 

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/ET0GbMhq6MKsvuSN.html#comments Thu, 21 Mar 2019 15:51:00 +0800
AI未来发展路在何方?细数FPGA的独特优势 //www.xyschoolife.com/category/zhuanlan/IC9CpNrwxDAENW5i.html

来源 | 老石谈芯

作者 | 老石,博士毕业于伦敦帝国理工大学电子工程系,现任某知名半导体公司高级FPGA研发工程师,深耕于FPGA的数据中心网络加速、网络功能虚拟化、高速有线网络通信等领域的研发和创新工作。曾经针对FPGA、高性能与可重构计算等技术在学术界顶级会议和期刊上发表过多篇研究论文。

很多世界顶尖的“建筑师”可能是你从未听说过的人,他们设计并创造出了很多你可能从未见过的神奇结构,比如在芯片内部源于沙子的复杂体系。如果你使用手机、电脑,或者通过互联网收发信息,那么你就无时无刻不在受益于这些建筑师们的伟大工作。

Doug Burger博士就是这群“建筑师”里的一员。他现任微软技术院士(Technical Fellow),曾任微软研究院杰出工程师、德克萨斯大学奥斯丁分校计算机科学教授。他也是微软FPGA项目Catapult和Brainwave的首席架构师和主要负责人。2018年,Doug Burger在微软研究院的播客里分享了他对后摩尔定律时代芯片产业发展的观点与愿景,并展望了人工智能时代芯片技术的前进方向。

老石对他的观点进行了整理和采编。本文主要是Doug Burger博士对FPGA在人工智能时代的独特优势的全面分析,以及他对于人工智能技术发展的深刻思考。文章很长,但全部是他几十年从业经验的深入浅出的阐述,尽显大师之风,值得一读。

(编者注:下文中的“我”,指的都是Doug Burger博士)

  • 目 录

  • 1. 什么是暗硅效应

  • 2. FPGA:解决暗硅效应的有效途径

  • 3. 使用FPGA的独特优势是什么

  • 4. 什么是Catapult项目

  • 5. 脑波项目与实时AI

  • 6. 评价实时AI系统的主要标准

  • 7. AI未来的发展路在何方?


1. 什么是暗硅效应

在我加入微软之前,我和我的博士生Hadi Esmaeilzadeh正在开展一系列研究工作。他现在已经是加州大学圣地亚哥分校的副教授。在当时,学术界和业界的主要发展趋势就是多核心架构。虽然尚未完全成为一个正式的全球性共识,但多核架构是当时非常热门的研究方向。人们认为,如果可以找到编写和运行并行软件的方法,我们就能直接将处理器架构扩展到数千个核心。然而,Hadi和我却对此不以为然。

于是,我们在2011年发表了一篇论文,并因此获得了很高的知名度。虽然在那篇论文里没有明确的定义“暗硅(dark silicon)”这个词,但是它的意义却得到了广泛认可。

暗硅效应指的是,虽然我们可以不断增加处理器核心的数量,但是由于能耗限制,无法让它们同时工作。就好像一幢大楼里有很多房间,但由于功耗太大,你无法点亮每个房间的灯光,使得这幢大楼在夜里看起来有很多黑暗的部分。这其中的本质原因是在后摩尔定律时代,晶体管的能效发展已经趋于停滞。

(暗硅示意图,图片来自NYU)

这样,即使人们开发出了并行软件,并且不断增加了核心数量,所带来的性能提升也会比以往要小得多。所以,除此之外,业界还需要在其他方面带来更多进展,以克服“暗硅”的问题。


2. FPGA:解决暗硅效应的有效途径

在我看来,一个可行的解决方法就是采用“定制计算”,也就是为特定的工作场景和负载优化硬件设计。然而,定制计算或定制芯片的主要问题就是高昂的成本。例如对于一个复杂的云计算场景,不论是设计者还是使用者都不会采用一个由47000种不同的芯片所组成的系统。

因此,我们将赌注押在了这个名叫FPGA的芯片上。FPGA全名叫“现场可编程逻辑阵列”,它本质是一种可编程的芯片。人们可以把硬件设计重复烧写在它的可编程存储器里,从而使FPGA芯片可以执行不同的硬件设计和功能。另外,你也可以在使用现场动态的改变它上面运行的功能,这就是为什么它们被称作“现场可编程”的原因。事实上,你可以每隔几秒就改变一次FPGA芯片上运行的硬件设计,因此这种芯片非常灵活。

(英特尔Stratix 10 FPGA芯片,图片来自英特尔)

基于这些特点,我们在FPGA这项技术上押下重注,并且将其广泛的部署到了微软的云数据中心里。与此同时,我们也开始将很多重要的应用和功能,从基于软件的实现方式,慢慢转移到基于FPGA的硬件实现方式上。可以说,这是一个非常有趣的计算架构,它也将是我们的基于定制化硬件的通用计算平台。

通过使用FPGA,我们一方面可以尽早开展定制化计算与定制芯片的研究与设计,另一方面,我们可以保持与现有架构相互兼容的同构性。

如果具体的应用场景或算法发展的太快,或者硬件规模太小的时候,我们可以继续使用FPGA实现这些硬件功能。当应用规模逐渐扩大时,我们可以在合适的时机,选择将这些已经成熟的定制化硬件设计直接转化成定制化芯片,以提高它们的稳定性,降低功耗和成本。

灵活性是FPGA最重要的特点。要知道,FPGA芯片已经在电信领域中得到了非常广泛的使用。这种芯片非常擅长对数据流进行快速处理,同时也被用于流片前的功能测试等。但是在云计算中,之前并没有人能够真正成功的大规模部署FPGA。我指的“部署”,并不是指那些用来作为原型设计或概念验证的工作,而是指真正的用于工业级使用的部署。


3. 使用FPGA的独特优势是什么

首先我想说的是,CPU和GPU都是令人惊叹的计算机架构,它们是为了不同的工作负载与应用场景而设计的。

CPU是一种非常通用的架构,它的工作方式基于一系列的计算机指令,也称为“指令集”。简单来说,CPU从内存中提取一小部分数据,放在寄存器或者缓存中,然后使用一系列指令对这些数据进行操作。操作完毕后,将数据写回内存,提取另一小部分数据,再用指令进行操作,并周而复始。我把这种计算方式称为“时域计算”。

不过,如果这些需要用指令进行处理的数据集太大,或者这些数据值太大,那么CPU就不能很高效地应对这种情况。这就是为什么在处理高速网络流量的时候,我们往往需要使用定制芯片,比如网卡芯片等,而不是CPU。这是因为在CPU中,即使处理一个字节的数据也必须使用一堆指令才能完成,而当数据流以每秒125亿字节进入系统时,这种处理方式哪怕使用再多的线程也忙不过来。

对于GPU来说,它所擅长的是被称作“单指令多数据流(SIMD)”的并行处理。这种处理方式的本质是,在GPU中有着一堆相同的计算核心,可以处理类似但并不是完全相同的数据集。因此,可以使用一条指令,就让这些计算核心执行相同的操作,并且平行的处理所有数据。

然后对于FPGA而言,它实际上是CPU计算模型的转置。与其将数据锁定在架构上,然后使用指令流对其处理,FPGA将“指令”锁定在架构上,然后在上面运行数据流。

(CPU与FPGA计算模型的对比,图片来自微软)

我把这种计算方式称为“结构计算”,也有人称之为“空间计算”,与CPU的“时域计算”模型相对应。其实叫什么名称都无所谓,但它的核心思想是,将某种计算架构用硬件电路实现出来,然后持续的将数据流输入系统,并完成计算。在云计算中,这种架构对于高速传输的网络数据非常有效,并且对于CPU来说也是一个很好的补充。


4. 什么是Catapult项目

Catapult项目的主要目的是在微软的云数据中心大规模部署FPGA。虽然这个项目涵盖了电路和系统架构设计等工程实践,但它的本质还是一个研究项目。

在2015年末,我们开始在微软购买的几乎每台新服务器上部署Catapult FPGA板卡。这些服务器被用于微软的必应搜索、Azure云服务以及其他应用。到目前为止,我们已经发展到了非常大的规模,FPGA已经在世界范围内被大规模部署。这也使得微软成为了世界上最大的FPGA客户之一。

(Catapult FPGA板卡,图片来自微软)

在微软内部,很多团队都在使用Catapult FPGA来增强自己的服务。同时,我们使用FPGA对云计算的诸多网络功能进行加速,这样我们的客户会得到比以往更加快速、稳定、安全的云计算和网络服务。比如,当网络数据包以每秒500亿比特的速度进行传输时,我们可以使用FPGA对这些数据包进行控制、分类和改写。相反的,如果我们使用CPU来做这些事情的话,将需要海量的CPU内核资源。因此,对于我们这样的应用场景,FPGA是一个更好的选择。

(微软的FPGA板卡,图片来自微软)


5. 脑波项目与实时AI

当前,人工智能有了很大的发展,而这很大程度上归功于深度学习技术的发展。人们逐渐认识到,当你有了深度学习算法、模型,并构建了深度神经网络时,需要足够多的数据去训练这个网络。只有加入更多的数据,才会让深度神经网络变的更大、更好。通过使用深度学习,我们在很多传统的AI领域取得了长足的进展,比如机器翻译、语音识别、计算机视觉等等。同时,深度学习也可以逐步替换这些领域发展多年的专用算法。

这些巨大的发展和变革,促使我思考它们对半导体和芯片架构的影响。于是,我们开始重点布局针对AI、机器学习、特别是深度学习的定制化硬件架构,这也就是脑波项目(Project Brainwave)产生的主要背景。

在脑波项目里,我们提出了一种深度神经网络处理器,也有人称之为神经处理单元,或者NPU(Neural Processing Unit)。对于像必应搜索这样的应用来说,他们需要很强的计算能力,因为只有不断学习和训练,才能向用户提供更优的搜索结果。因此,我们将大的深度神经网络利用FPGA进行加速,并在很短的时间内返回结果。目前,这种计算架构已经在全球范围内运行了一段时间。在2018年的微软开发者大会上,我们正式发布了脑波项目在Azure云服务上的预览版。我们也为一些用户提供带有FPGA的板卡,使他们可以使用自己公司的服务器,从Azure上获取AI模型并运行。

(Brainwave FPGA板卡,图片来自微软)

对于脑波项目来说,另外一个非常重要的问题在于神经网络的推断。目前的很多技术使用的是一种叫做批处理的方法。比如说,你需要将很多个不同的请求收集到一起,然后打包发送到NPU进行处理,然后一次性得到所有的答案。

对于这种情形,我经常把它比喻成你在银行里排队,你排在第二个,但总共有100个人排队。出纳员将所有人的信息收集起来,并询问每个人想要办什么业务,然后取钱存钱,再把钱和收据发给每个人。这样每个人的业务都在同一时刻完成,而这就是所谓的批处理。

对于批处理应用来说,可以达到很好的吞吐量,但是往往会有很高的延时。这就是我们为什么在尝试推动实时AI的发展。


6. 评价实时AI系统的主要标准

评价实时AI的主要性能指标之一,就是延时的大小。然而,延时到底多小才算“够小”,这更像是一个哲学问题。事实上,这取决于具体的应用场景。比如,如果在网络上监控并接收多个信号,并从中分析哪个地方发生了紧急情况,那么几分钟的时间就算够快了。然而,如果你正在和某人通过网络进行交谈,哪怕是非常小的延时和卡顿也会影响通话质量,就像很多电视直播采访里经常出现的两个人在同时讲话那样。

另外一个例子是,微软的另一项人工智能技术是所谓的HPU,它被用于HoloLens设备中。HoloLens是一款智能眼镜,它能提供混合现实和增强现实等功能,它里面的HPU也具备神经网络的处理功能。

(宇航员Scott Kelly在国际空间站上使用HoloLens,图片来自NASA)

对于HPU,它需要实时分析使用者周围的环境,这样才能在你环顾四周时,无缝的展示虚拟现实的内容。因此在这种情况下,即使延时只有几个毫秒,也会对使用者的体验造成影响。

除了速度之外,另一个需要考虑的重要因素就是成本。举例来说,如果你希望通过处理数十亿张图像或数百万行文本,进而分析和总结出人们常问的问题或者可能在寻找的答案,就像很多搜索引擎做的那样;抑或是医生想要从很多放射扫描影像中寻找潜在的癌症指征,那么对于这些类型的应用来说,服务成本就非常重要。在很多情况下,我们需要权衡以下两点,一个是系统的处理速度有多快,或者通过何种方式能提升处理速度;另一个就是对于每个服务请求或处理,它的成本有多少。

很多情况下,增加系统的处理速度势必代表着更多的投入和成本的攀升,两者很难同时满足。但这就是脑波项目的主要优势所在,通过使用FPGA,我认为我们在这两个方面都处于非常有利的位置。在性能方面我们是最快的,在成本上我们大概率也是最便宜的。


7. AI未来的发展路在何方?

说实话,我一点也不担心人工智能的末日。相比任意一种现有的生物系统的智能,人工智能的效率还差着成千上万倍的距离。可以说,我们现在的AI其实并不算怎么“智能”。另外,我们也需要在道德层面关注和掌控AI的发展。

不管怎样,我们的工作从某种程度上提高了计算的效率,这使得它可以用来帮助解决重大的科学问题,我对此有很强的成就感。

对于那些正在考虑从事硬件系统和计算机架构研究的人来说,最重要的就是找到那颗能让你充满激情并为之不懈奋斗的“北极星”,然后不顾一切的为之努力。一定要找到那种打了鸡血的感觉,不用担心太多诸如职业规划、工作选择等问题,要相信车到山前必有路。你在做的工作,应该能让你感受到它真正能带来变革,并帮助你在变革的道路上不断前行。

当前,人们已经开始意识到,在我说的这些“后·冯诺依曼时代”的异构加速器之外,还有远比这些更加深刻的东西等待我们探寻。我们已经接近了摩尔定律的终点,而基于冯诺依曼体系的计算架构也已经存在了相当长的时间。自从冯诺依曼在上世纪四十年代发明了这种计算架构以来,它已经取得了惊人的成功。

但是现在,除了这种计算结构外,又产生了各种硬件加速器,以及许多人们正在开发的新型架构,但是从整体上来看,这些新结构都处在一个比较混乱的状态。

我认为,在这个混乱的表象之下,还隐藏着更加深刻的真理,而这将会是人们在下个阶段的最重要发现,这也是我目前经常在思考的问题。

我慢慢发现,那些可能已经普遍存在的东西会是计算架构的下一个巨大飞跃。当然,我也可能完全错了,但这就是科学研究的乐趣所在。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/IC9CpNrwxDAENW5i.html#comments Wed, 20 Mar 2019 17:55:00 +0800
简单易懂------强化学习理论与实战(一) //www.xyschoolife.com/category/zhuanlan/zPU7uAZg4BMm4lIS.html 本系列文章通过通俗易懂的方式介绍强化学习的基本概念,虽然语言通俗,但是内容依旧非常严谨性。文中用很多的公式,对数学公式头疼的读者可能会被吓住,但是如果读者一步一步follow下来,就会发现公式的推导非常自然,对于透彻的理解这些基本概念非常有帮助。除了理论之外,文章还会介绍每种算法的实现代码,深入解答每一行关键代码。让读者不但理解理论和算法,同时还能知道怎么用代码来实现。通过理论与实际的结合,更加深入的理解学过的概念。读者只需要基本的Python编程知识,文中每一个算法都有对应的Jupyter Notebook代码。(文章来源,李理的Github博客

目录

引言

马尔科夫决策过程(MDP)

和环境的互动

目标和奖励

回报(Return)

马尔科夫属性

马尔科夫决策过程(Markov Decision Processes)

价值函数(Value Function)

最优价值函数(Optimal Value Functions)

OpenAI Gym简介

运行Environment

观察(Observations)

Spaces

引言

前面我们介绍了监督学习,监督学习的特点是有一个“老师”来“监督”我们,告诉我们正确的结果是什么。在我们在小的时候,会有老师来教我们,本质上监督学习是一种知识的传递,但不能发现新的知识。对于人类整体而言,真正(甚至唯一)的知识来源是实践——也就是强化学习。比如神农尝百草,最早人类并不知道哪些草能治病,但是通过尝试,就能学到新的知识。学到的这些知识通过语言文字记录下来,一代一代的流传下来,从而人类社会作为整体能够不断的进步。和监督学习不同,没有一个“老师”会“监督“我们。比如下围棋,不会有人告诉我们当前局面最好的走法是什么,只有到游戏结束的时候我们才知道最终的胜负,我们需要自己复盘(学习)哪一步是好棋哪一步是臭棋。自然界也是一样,它不会告诉我们是否应该和别人合作,但是通过优胜劣汰,最终”告诉”我们互相协助的社会会更有竞争力。和前面的监督非监督学习相比有一个很大的不同点:在强化学习的Agent是可以通过Action影响环境的——我们的每走一步棋都会改变局面,有可能变好也有可能变坏。

它要解决的核心问题是给定一个状态,我们需要判断它的价值(Value)。价值和奖励(Reward)是强化学习最基本的两个概念。对于一个Agent(强化学习的主体)来说,Reward是立刻获得的,内在的甚至与生俱来的。比如处于饥饿状态下,吃饭会有Reward。而Value是延迟的,需要计算和慎重考虑的。比如饥饿状态下去偷东西吃可以有Reward,但是从Value(价值观)的角度这(可能)并不是一个好的Action。为什么不好?虽然人类很监督学习,比如先贤告诉我们这是不符合道德规范的,不是好的行为。但是我们之前说了,人类最终的知识来源是强化学习,先贤是从哪里知道的呢?有人认为来自上帝或者就是来自人的天性,比如“人之初性本善”,我们会在最后一章讨论哲学的问题。如果从进化论的角度来解释,人类其实在玩一场”生存”游戏,有遵循道德的人群和有不遵循的人群,大自然会通过优胜劣汰”告诉”我们最终的结果,最终我们的先贤“学到”了(其实是被选择了)这些道德规范,并且把这些规范通过教育(监督学习)一代代流传下来。

强化学习最常见模型-马尔科夫决策过程(MDP)

马尔科夫决策过程(Markov Decision Process)是强化学习最常见的模型。我们通过这个模型来介绍强化学习的一些基本概念。

  • 和环境的互动

强化学习的本质就是通过与环境的互动来学习怎么达成一个目标。这个学习和做决策的主体就叫Agent。Agent交互的对象就是环境(Environment),环境可大可小,对于坐井观天的青蛙来说,它的环境就是那口小井;而对于人类来说,整个地球甚至太阳系都是我们研究的对象。Agent会持续的和环境交互,根据当前的状态选择行为(Action),而环境会给Agent新的状态和Reward。整个交互过程如下图所示。

图:强化学习里Agent和环境的互动

Agent和环境的交互假设是时刻t=0,1,…。在t时刻,Agent处于某个状态St∈S,这里SS表示所有可能状态的集合,也就是状态空间。它可以选择一个行为At∈A(St),其中A(St)是状态St时可以选择的所有行为的集合。选择了行为 At之后,环境会在下一个(t+1)时刻给Agent一个新的状态St+1和Reward Rt+1∈R⊆R。

一个实数值的Reward是否足够?拿人来说,是有很多方面的追求,比如同时要考虑工作和家庭。当然最简单的方法是把两个目标(goal)进行加权求和,而且这个权重似乎会变化,因此人类是否有一个单一的目标,而其他目标都是它的一种外在表现?我们这里不讨论这个问题,但是对于实际的Task来说,一般是足够了。比如下围棋,就是胜负;玩Atari游戏就是获得最高的得分。

在每个时刻t,Agent根据当前的状态St会选取不同的行为 At,选择的方法叫做策略(Policy),一般假设是它一个概率分布(确定的策略是它的特殊情况)πt(At|St),如果这个随机过程是平稳的(Stationary),那么我们的策略也一般与时间无关的,即πt(At|St)=π(At|St)。策略有好有坏,Agent的目标是学习到最好的策略(是否存在也是强化学习的一个理论问题,不过我们一般认为存在,也有一些理论可以证明如果系统满足一些假设,最优策略是存在的)。

  • 目标和奖励

每个时刻t,环境都会给Agent一个RewardRt,而Agent的目标(Goal)是最大化最终得到的所有Reward的和。这里隐含的意思是:我们的目标不是短期的Reward,而是长期Reward的累加。在学校的时候平时努力学习最终会有回报的,如果短期来看,学习可能会饥饿会疲惫,而出去玩可能会愉快。这就是所谓的“Reward假设”:我们所说的目标(Goal)或者目的(Purpose)最终可以被看成最大化一个Reward信号的累加值。

就像前文说过,用一个数值来描述Agent所有的目标(尤其是人这样复杂的生物)似乎有些不够,我们暂且把Agent放到一些具体的任务(Task)上来看看似乎足够。比如我们让一个老鼠逃离迷宫(Maze),如果它没有找到出口我们给它-1的Reward,这样它学习的目标就是尽快的逃离迷宫。比如下象棋,如果获胜,我们给它+1的Reward,如果输棋则是-1,和棋则是0。又比如扫地机器人,如果它收集到垃圾,那么给它+1的Reward,那么它的目标就是尽可能多的收集垃圾。

注意:我们定义的目标是要告诉Agent我们期望它做的是什么(What),而不是告诉它怎么做(How)。比如下棋时吃掉对方的棋子是一种获胜的策略(怎么做),我们不能给吃子Reward,否则它就可能学到的策略是为了吃子,因为我们知道有的时候为了获胜必须牺牲己方的棋子。

  • 回报(Return)

Agent的目标是最大化长期的Reward累加值,下面我们来形式化的定义这个累加值——回报。假设t时刻之后的Reward是Rt,Rt+1,…,我们期望这些Reward的和最大。由于环境(可能)是随机的,而且Agent的策略也(可能)是随机的,因此Agent的目标是最大化Reward累加和的期望值。回报Gt定义如下:

Gt=Rt+1+Rt+2+Rt+3+...+RT

其中T是最后的时刻。有些任务会有一些结束的状态,从任务的初始状态到结束状态,我们称之为一个episode。比如下象棋,从开始下棋到最终分出胜负(或者和棋)一局游戏结束就叫一个episode。如果我们开始一个新的episode,比如下棋重新开始一局,那么Agent的状态会重置到初始化状态,而且新的一局和上一局是没有关系的。除了episode的任务之外,还有一种任务没有结束状态,会一直继续下去,也就是T=∞。

由于未来的不确定性,我们一般会对未来的Reward进行打折(Discount)。这很好理解,眼前的Reward的是确定的,拿到手再说,未来的Reward不确定因素太多,所以要打折。因此我们可以定义打折后的回报(Discounted Return)如下:

其中γ是一个参数,0≤γ≤10≤γ≤1,叫做打折率(Discount Ratio)。如果γ<1γ<1并且Reward是有界的,那么无穷项的和是收敛的。如果γ=0,则Agent只考虑当前t时刻的Reward,而随着γγ趋近于1,则未来的Reward越来越重要,当γ=1γ=1时,未来的Reward和当前的一样重要。回报Gt有如下的递归公式:

马尔科夫属性

在强化学习里,Agent根据状态来决定采取什么样的行为,而状态是来自环境的一个信号(Signal)。状态可以来自Agent的传感器的测量(Sensory Measurements),也可以是这些原始测量的复杂处理。可以是当前时刻的传感器信号,也可以包含以前的信号。理想的,我们期望状态信号能够紧凑的压缩过去所有的信息,它能够保留所有相关的信息而尽量丢弃无关的信息。这通常要求状态不仅包含当前时刻的信号,还可能包含之前的一些信息,当然通常不需要所有过去的信息。如果一个状态信号包含了所有相关的信息,那么就叫它具有马尔科夫属性(Markov Property)。比如下象棋,当前的局面(包括所有棋子的位置和谁走下一步棋)包含了所有的信息。不管是先走车再走马还是先走马再走车,总之它们到达了相同的局面。因此通常马尔科夫属性通常与具体的“路径”无关。下面我们来形式化的定义马尔科夫属性。

我们假设环境的动力系统(dynamics)是如下的随机过程:

也就是在过去所有的历史信息的情况下(S0,A0,R1,…,St−1,At−1,Rt),Agent处于状态St下采取At后环境反馈的新状态是s’并且rewward是r的联合概率分布。如果系统满足马尔科夫属性,那么所有的过去历史信息都压缩在St里了,因此给定St的条件下与过去的历史无关,因此满足马尔科夫属性的系统的动力系统可以简化为如下公式:

如果环境具有马尔科夫属性,那么在给定当前状态和行为的条件下我们可以使用上式预测下一个状态和Reward(的概率)。通过不断迭代的使用这个公式,我们可以(精确的)计算当前状态的期望回报。

图:Atari Broke游戏

比如上图Atari Broke游戏,玩法就是用下面的挡板把球反弹回去,然后碰掉上方的格子,每碰掉一个格子就会有加分(Reward),如果所有格子都碰掉了或者挡板没有接到球让它落入屏幕下方就算游戏结束。玩家的目标就是获得更多的得分。

如果我们分析这个游戏的环境,假如我们把当前帧的图像作为当前的状态,那么它是否是马尔科夫的呢?似乎不行,因为一幅图像只有今天的信息,可能有两个状态图像相同但是球速可能不同。我们可以把当前帧和前一帧图像作为当前的状态,假设球是匀速直线运动的(在没有碰撞的时候是这样的),那么根据两帧的球的位置可以计算出其速度来。这样就可以大致认为它是具有马尔科夫属性的了。

马尔科夫决策过程(Markov Decision Processes)

满足马尔科夫属性的强化学习叫做马尔科夫决策过程,如果状态空间和行为空间是有限的,那么它就叫有限马尔科夫决策过程。一个马尔科夫决策过程完全由环境的当前状态决定,我们再次重复一下这个重要公式:

有了上面的公式,我们可以计算关于环境的任何信息(也就是说环境完全由这个公式确定)。比如我们可以计算某个特点状态s和行为a的期望reward如下:

上面的公式直接根据期望的定义推导出来,我们这里简单的推导一下,后面类似的地方就略过了。

同样我们可以得到状态转移概率:

以及给定当前s、当前a和下一个s条件时期望的Reward:

  • 价值函数(Value Function)

很多强化学习方法会涉及求状态的价值函数(或者State-Action对的价值函数)。这个函数计算Agent处于这个状态(或者Agent处于状态s并且采取xingw行为a)到底有多好。比如下棋的时候我们会思考如果我们处于某个局面(Position)到底是好是坏,从而采取Action引导局面向这个好的局面发展或者避开不好的局面。这里的“好”指的是在这个状态下Agent获得回报的期望值,当然这个期望值是与Agent的策略(Policy)紧密相关的,因此价值函数指的是在某个策略下的价值函数。

回忆一下,策略π是一个从状态s∈S, Action a∈A(s)到概率π(a|s)的映射。我们把状态s时策略π的价值,也就是Agent处于状态s,并且使用策略π,它所能得到的回报的期望值,定义为vπ(s)。它的形式化定义是:

这里Eπ[⋅]代表Agent使用策略π来采取行为时随机变量的期望值。如果有终止状态,我们定义其价值函数为零。我们把函数vπ叫做策略ππ的状态价值函数(State Value Function)。

类似的我们可以定义qπ(s,a),在状态s下采取Action a的价值,其形式化定义为:

我们把qπ叫做策略π的行为价值函数(Action Value Function)。

值函数vπ和qπ可以从经验(Experience)中估计出来。比如我们可以这样来估计:如果一个Agent使用策略π模拟很多次,通过平均可以估计出一个值来,如果模拟次数趋于无穷大,那么这种方法得到的估计值v^π(s)会收敛到真正的vπ(s))。这就是蒙特卡罗(Monte Carlo)方法,这个方法也可以用于qπ(s,a)的估计。如果状态空间非常大,我们也可以假设vπ(s)或者qπ(s,a)是参数化的函数(模型)vπ(s;w)或者qπ(s,a;w),这就是近似的方法。我们可以用深度神经网络来实现vπ(s;w)或者qπ(s,a;w),这就是所谓的深度强化学习(Deep Reinforcement Learning)。

值函数一个非常重要的特效是它满足某种递归性,这在强化学习和动态规划会经常用到。这个递归公式就是贝尔曼方程(Bellman Equation),希望读者能够理解并推导下面的公式(如果有些步骤不能推导,也至少读懂它在说什么并能够“认可”这个等式,书读百遍其义自见,实在不理解多抄两遍也会有帮助)。

我们再来看一下Bellman公式,它是递归定义的——vπ(s)是由vπ(s′)来定义的,对于有些简单问题,我们可以根据这个公式把vπ通过解方程解出来。

我们结合上图来分析上面公式的。当前状态是s,根据策略π,我们采取行为a的概率是π(a|s),而我们在状态a和行为s的条件下,环境反馈r和s’的概率是p(r,s′|s,a),所有可能的(a,r,s’)组合我们都要求和,所以就得到,在每一条路径(每一种s,r,s’的组合)下Rt+1就是r,因此可以得到。而在给定路径的情况下,s,r,s′s,r,s′都固定了,因此s’也是固定的了,而根据马尔科夫属性,Gt+1Gt+1只与t+1时刻的状态St+1=s′St+1=s′有关,因此第二项变成了  

  • 最优价值函数(Optimal Value Functions)

解决强化学习任务,粗略来说,就是找到一个策略,使得长期的reward尽可能多。首先我们定义什么是一个策略π比另外一个策略π‘好(或者一样好),记作π≥π′。形式化的定义是π≥π′↔∀s∈S,vπ(s)≥vπ′(s)。 可以证明(这里略过)存在一个(可能有多个)最优的$\pi_,它比所有其它策略都“好”。最优策略对于的价值函数叫做最优价值函数,记作v_(s)$:

同理对于行为也有一个最优的行为价值函数:

$q_(s,a)和和v_(s)$有如下关系:

我们可以这样解读这个公式:s和a确定后,它会进入St+1状态并得到Reward Rt+1,这是过程是有概率的,因此前面有一个期望E。但是这和Agent无关,和Agent有关的是在t+1时刻的行为,如果要得到最优的q(s,a),那么它必须在t+1时刻根据最优策略π∗来计算v(St+1),因此就是v∗(St+1)。

需要注意:上面公式的随机变量只是Rt+1Rt+1,它由环境p(r,s′|s,a)确定,而v∗(s)和q∗(s,a)是两个常量(给定s,a的情况下)。

OpenAI Gym简介

OpenAI Gym是一个用来开发和比较强化学习算法的工具。它对Agent的实现没有任何约束,因此你可以用TensorFlow或者其它任何工具来实现Agent。它提供统一的Environment的接口,你可以用这个接口来定义一个具体的强化学习任务,此外它也提供很多常见的任务,比如很多Atari的游戏。

运行Environment

首先我们介绍一个很简单的游戏CartPole-v0,如下图所示。

图:CartPole-v0运行时的截图

这个游戏有一个小车,可以对车子施加+1或者-1的力(加速度),车上有一个杆子,我们的目标是要求车子的位置在-2.4到2.4之间,并且杆子相对于垂直的角度在-15°和15°之间。如果从物理的角度来分析,它有4个状态变量,车子的位置,车子的速度,杆的角度,杆的角速度。而我们施加的力会改变车子的速度,从而间接改变车子的位置。我们可以用几行代码运行CartPole-v0这个游戏:

代码很简单,首先创建一个CartPole-v0 Environment对象env,重置(reset)使环境进入初始状态。接着循环1000次,每次首先把当前的游戏状态绘制出来(render),然后随机的选择一个Action env.action_space.sample(),接着调用env.step函数真正的“执行”这个Action。

观察(Observations)

观察就是MDP里的状态(State),Environment的step有4个返回值:

  1. observation 一个对象,代表观察,不同的环境返回的对象是不同的。

  2. reward float类型 表示Reward。

  3. done bool类型 表示任务是否结束。对于Episode类任务会有结束状态,进入结束状态后再调用step是没有意义的,必须要先调用reset

  4. info 调试用的一些信息

我们可以用如下代码打印出其中的一些信息:

  • Spaces

Environment对象里有两个空间(Space):状态空间(State Space)和行为空间(Action Space),它们定义了所有可能的状态和行为。我们可以查看一些CartPole-v0的Space:

从输出可以看出,Discrete(2)表示这个任务有两个选的Action(分布表示向左和向右移动),Box(4,)表示状态由4维向量表示,物理意义分别是车子相对原点的位置和速度,杆相对于垂直方向的角度和角速度。我们可以用如下的代码检查其取值范围:

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/zPU7uAZg4BMm4lIS.html#comments Tue, 05 Mar 2019 17:25:00 +0800
NLP接下来黄金十年-----周明等谈值得关注的NLP技术 | 技术专栏 //www.xyschoolife.com/category/zhuanlan/gRnFvGmbOE0xkjti.html 作者:微软亚洲研究院周明、段楠、韦福如、刘树杰、张冬冬,未经雷锋网授权,拒绝转载。

编者按:自1998年成立以来,微软亚洲研究院一直致力于推动计算机科学领域的前沿技术发展。在建院20周年之际,我们特别邀请微软亚洲研究院不同领域的专家共同撰写“预见未来”系列文章,以各自领域的前瞻视角,从机器学习、计算机视觉、系统架构、图形学、自然语言处理等多个方向出发,试图描绘一幅未来科技蓝图。NLP是人工智能领域中的重要一环,NLP的进步将推动人工智能的发展。在过去的二十年里,NLP利用机器学习和深度学习的研究成果,在很多方面取得了长足的进步。未来十年,将是NLP发展的黄金时期。本文中,微软亚洲研究院自然语言计算组的研究员们将为我们盘点NLP已经取得技术进展,并展望未来的研究热点。 

比尔·盖茨曾说过,“语言理解是人工智能皇冠上的明珠”。自然语言处理(NLP,Natural Language Processing)的进步将会推动人工智能整体进展。

NLP的历史几乎跟计算机和人工智能(AI)的历史一样长。自计算机诞生,就开始有了对人工智能的研究,而人工智能领域最早的研究就是机器翻译以及自然语言理解。

在1998年微软亚洲研究院成立之初,NLP就被确定为最重要的研究领域之一。历经二十载春华秋实,在历届院长支持下,微软亚洲研究院在促进NLP的普及与发展以及人才培养方面取得了非凡的成就。共计发表了100余篇ACL大会文章,出版了《机器翻译》和《智能问答》两部著作,培养了500名实习生、20名博士和20名博士后。我们开发的NLP技术琳琅满目,包括输入法、分词、句法/语义分析、文摘、情感分析、问答、跨语言检索、机器翻译、知识图谱、聊天机器人、用户画像和推荐等,已经广泛应用于Windows、Office、Bing、微软认知服务、小冰、小娜等微软产品中。我们与创新技术组合作研发的微软对联和必应词典,已经为成千上万的用户提供服务。过去二十年, NLP利用统计机器学习方法,基于大规模的带标注的数据进行端对端的学习,取得了长足的进步。尤其是过去三年来,深度学习给NLP带来了新的进步。其中在单句翻译、抽取式阅读理解、语法检查等任务上,更是达到了可比拟人类的水平。

基于如下的判断,我们认为未来十年是NLP发展的黄金档:

  • 来自各个行业的文本大数据将会更好地采集、加工、入库。

  • 来自搜索引擎、客服、商业智能、语音助手、翻译、教育、法律、金融等领域对NLP的需求会大幅度上升,对NLP质量也提出更高要求。

  • 文本数据和语音、图像数据的多模态融合成为未来机器人的刚需。这些因素都会进一步促进对NLP的投资力度,吸引更多人士加入到NLP的研发中来。因此我们需要审时度势、抓住重点、及时规划,面向更大的突破。

因此,NLP研究将会向如下几个方面倾斜:

  • 将知识和常识引入目前基于数据的学习系统中。

  • 低资源的NLP任务的学习方法。

  • 上下文建模、多轮语义理解。

  • 基于语义分析、知识和常识的可解释NLP。

重点知识:NLP的技术进展

自然语言处理,有时候也称作自然语言理解,旨在利用计算机分析自然语言语句和文本,抽取重要信息,进行检索、问答、自动翻译和文本生成。人工智能的目的是使得电脑能听、会说、理解语言、会思考、解决问题,甚至会创造。它包括运算智能、感知智能、认知智能和创造智能几个层次的技术。计算机在运算智能即记忆和计算的能力方面已远超人类。而感知智能则是电脑感知环境的能力,包括听觉、视觉和触觉等等,相当于人类的耳朵、眼睛和手。目前感知智能技术已取得飞跃性的进步;而认知智能包括自然语言理解、知识和推理,目前还待深入研究;创造智能目前尚无多少研究。比尔·盖茨曾说过, “自然语言理解是人工智能皇冠上的明珠”。NLP的进步将会推动人工智能整体进展。NLP在深度学习的推动下,在很多领域都取得了很大进步。下面,我们就来一起简单看看NLP的重要技术进展。

1、神经机器翻译

神经机器翻译就是模拟人脑的翻译过程。翻译任务就是把源语言句子转换成语义相同的目标语言句子。人脑在进行翻译的时候,首先是尝试理解这句话,然后在脑海里形成对这句话的语义表示,最后再把这个语义表示转化到另一种语言。神经机器翻译就是模拟人脑的翻译过程,它包含了两个模块:一个是编码器,负责将源语言句子压缩为语义空间中的一个向量表示,期望该向量包含源语言句子的主要语义信息;另一个是解码器,它基于编码器提供的语义向量,生成在语义上等价的目标语言句子。

神经机器翻译模型的优势在于三方面:一是端到端的训练,不再像统计机器翻译方法那样由多个子模型叠加而成,从而造成错误的传播;二是采用分布式的信息表示,能够自动学习多维度的翻译知识,避免人工特征的片面性;三是能够充分利用全局上下文信息来完成翻译,不再是局限于局部的短语信息。基于循环神经网络模型的机器翻译模型已经成为一种重要的基线系统,在此方法的基础上,从网络模型结构到模型训练方法等方面,都涌现出很多改进。

神经机器翻译系统的翻译质量在不断取得进步,人们一直在探索如何使得机器翻译达到人类的翻译水平。2018年,微软亚洲研究院与微软翻译产品团队合作开发的中英机器翻译系统,在WMT2017新闻领域测试数据集上的翻译质量达到了与人类专业翻译质量相媲美的水平(Hassan et al., 2018)。该系统融合了微软亚洲研究院提出的四种先进技术,其中包括可以高效利用大规模单语数据的联合训练和对偶学习技术,以及解决曝光偏差问题的一致性正则化技术和推敲网络技术。

2、智能人机交互

智能人机交互包括利用自然语言实现人与机器的自然交流。其中一个重要的概念是“对话即平台”。“对话即平台(CaaP,Conversation as a Platform)是微软首席执行官萨提亚·纳德拉2016年提出的概念,他认为图形界面的下一代就是对话,并会给整个人工智能、计算机设备带来一场新的革命。萨提亚之所以提出这个概念是因为:首先,源于大家都已经习惯用社交手段,如微信、Facebook与他人聊天的过程。我们希望将这种交流过程呈现在当今的人机交互中。其次,大家现在面对的设备有的屏幕很小(比如手机),有的甚至没有屏幕(比如有些物联网设备),语音交互更加自然和直观。对话式人机交互可调用Bot来完成一些具体的功能,比如订咖啡,买车票等等。许多公司开放了CAAP平台,让全世界的开发者都能开发出自己喜欢的 Bot以便形成一个生态。

面向任务的对话系统比如微软的小娜通过手机和智能设备让人与电脑进行交流,由人发布命令,小娜理解并完成任务。同时,小娜理解你的习惯,可主动给你一些贴心提示。而聊天机器人,比如微软的小冰负责聊天。无论是小娜这种注重任务执行的技术,还是小冰这种聊天系统,其实背后单元处理引擎无外乎三层技术:第一层,通用聊天机器人;第二层,搜索和问答(Infobot);第三层,面向特定任务对话系统(Bot)。

3、聊天系统的架构

机器阅读理解。自然语言理解的一个重要研究课题是阅读理解。阅读理解就是让电脑看一遍文章,针对这些文章问一些问题,看电脑能不能回答出来。机器阅读理解技术有着广阔的应用前景。例如,在搜索引擎中,机器阅读理解技术可以用来为用户的搜索(尤其是问题型的查询)提供更为智能的答案。我们通过对整个互联网的文档进行阅读理解,从而直接为用户提供精确的答案。同时,这在移动场景的个人助理,如微软小娜(Cortana)里也有直接的应用:智能客服中可使用机器阅读文本文档(如用户手册、商品描述等)来自动或辅助客服来回答用户的问题;在办公领域可使用机器阅读理解技术处理个人的邮件或者文档,然后用自然语言查询获取相关的信息;在教育领域用来可以用来辅助出题;在法律领域可用来理解法律条款,辅助律师或者法官判案;在金融领域里从非结构化的文本(比如新闻中)抽取金融相关的信息等。机器阅读理解技术可形成一个通用能力,第三方可以基于它构建更多的应用。

斯坦福大学在2016年7月发布了一个大规模的用于评测阅读理解技术的数据集(SQuAD),包含10万个由人工标注的问题和答案。SQuAD数据集中,文章片段(passage)来自维基百科的文章,每个文章片段(passage)由众包方式,标注人员提5 个问题,并且要求问题的答案是passage中的一个子片段。标注的数据被分成训练集和测试集。训练集公开发布用来训练阅读理解系统,而测试集不公开。参赛者需要把开发的算法和模型提交到斯坦福由其运行后把结果报在网站上。

一开始,以 100 分为例,人的水平是 82.3 左右,机器的水平只有 74 分,机器相差甚远。后来通过不断改进,机器阅读理解性能得以逐步地提高。2018年1月,微软亚洲研究院提交的R-Net系统首次在SQuAD数据集上以82.65的精准匹配的成绩首次超越人类在这一指标上的成绩。随后阿里巴巴、科大讯飞和哈工大的系统也在这一指标上超越人类水平。标志着阅读理解技术进入了一个新的阶段。最近微软亚洲研究院的NL-Net和谷歌的BERT系统又先后在模糊匹配指标上突破人类水平。对于阅读理解技术的推动,除了SQuAD数据集起到了关键作用之外,还有如下三个方的因素:首先,是端到端的深度神经网络。其次,是预训练的神经网络;最后,是系统和网络结构上的不断创新。

4、机器创作

机器可以做很多理性的东西,也可以做出一些创造性的东西。早在2005年,微软亚洲研究院在时任院长沈向洋的提议和支持下成功研发了《微软对联》系统。用户出上联,电脑对出下联和横批,语句非常工整。

在此基础上,我们又先后开发了格律诗和猜字谜的智能系统。在字谜游戏里,用户给出谜面,让系统猜出字,或系统给出谜面让用户猜出字。2017年微软研究院开发了电脑写自由体诗系统、作词谱曲系统。中央电视台《机智过人》节目就曾播放过微软的电脑作词谱曲与人类选手进行词曲创作比拼的内容。这件事说明如果有大数据,那么深度学习就可以模拟人类的创造智能,也可以帮助专家产生更好的想法。

就作词来说,写一首歌词首先要决定主题。比如想写一首与“秋”、“岁月”、“沧桑”、“感叹”相关的歌,利用词向量表示技术,可知“秋风”、“流年”、“岁月”、“变迁”等词语比较相关,通过扩展主题可以约束生成的结果偏向人们想要的歌词,接着在主题模型的约束下用序列到序列的神经网络,用歌词的上一句去生成下一句,如果是第一句,则用一个特殊的序列作为输入去生成第一句歌词,这样循环生成歌词的每一句。

下面也简介一下谱曲。为一首词谱曲不单要考虑旋律是否好听,也要考虑曲与词是否对应。这类似于一个翻译过程。不过这个翻译中的对应关系比自然语言翻译更为严格。它需严格规定每一个音符对应到歌词中的每一个字。例如每一句有N个字,那么就需要将这句话对应的曲切分成N个部分,然后顺序完成对应关系。这样在“翻译”过程中要“翻译”出合理的曲谱,还要给出曲与词之间的对应关系。我们利用了一个改进的序列到序列的神经网络模型,完成从歌词“翻译”到曲谱的生成过程。

趋势热点:值得关注的NLP技术

从最近的NLP研究中,我们认为有一些技术发展趋势值得关注,这里总结了五个方面:

热点1,预训练神经网络

如何学习更好的预训练的表示,在一段时间内继续成为研究的热点。通过类似于语言模型的方式来学习词的表示,其用于具体任务的范式得到了广泛应用。这几乎成为自然语言处理的标配。这个范式的一个不足是词表示缺少上下文,对上下文进行建模依然完全依赖于有限的标注数据进行学习。实际上,基于深度神经网络的语言模型已经对文本序列进行了学习。如果把语言模型关于历史的那部分参数也拿出来应用,那么就能得到一个预训练的上下文相关的表示。这就是Matthew Peters等人在2018年NAACL上的论文“Deep Contextualized Word Representations”的工作,他们在大量文本上训练了一个基于LSTM的语言模型。最近Jacob Delvin等人又取得了新的进展,他们基于多层Transformer机制,利用所谓“MASKED”模型预测句子中被掩盖的词的损失函数和预测下一个句子的损失函数所预训练得到的模型“BERT”,在多个自然语言处理任务上取得了当前最好的水平。以上提到的所有的预训练的模型,在应用到具体任务时,先用这个语言模型的LSTM对输入文本得到一个上下文相关的表示,然后再基于这个表示进行具体任务相关的建模学习。结果表明,这种方法在语法分析、阅读理解、文本分类等任务都取得了显著的提升。最近一段时间,这种预训练模型的研究成为了一个研究热点。

如何学习更好的预训练的表示在一段时间内将继续成为研究的热点。在什么粒度(word,sub-word,character)上进行预训练,用什么结构的语言模型(LSTM,Transformer等)训练,在什么样的数据上(不同体裁的文本)进行训练,以及如何将预训练的模型应用到具体任务,都是需要继续研究的问题。现在的预训练大都基于语言模型,这样的预训练模型最适合序列标注的任务,对于问答一类任务依赖于问题和答案两个序列的匹配的任务,需要探索是否有更好的预训练模型的数据和方法。将来很可能会出现多种不同结构、基于不同数据训练得到的预训练模型。针对一个具体任务,如何快速找到合适的预训练模型,自动选择最优的应用方法,也是一个可能的研究课题。

热点2,迁移学习和多任务学习

对于那些本身缺乏充足训练数据的自然语言处理任务,迁移学习有着非常重要和实际的意义。多任务学习则用于保证模型能够学到不同任务间共享的知识和信息。不同的NLP任务虽然采用各自不同类型的数据进行模型训练,但在编码器(Encoder)端往往是同构的。例如,给定一个自然语言句子who is the Microsoft founder,机器翻译模型、复述模型和问答模型都会将其转化为对应的向量表示序列,然后再使用各自的解码器完成后续翻译、改写和答案生成(或检索)任务。因此,可以将不同任务训练得到的编码器看作是不同任务对应的一种向量表示,并通过迁移学习(Transfer Learning)的方式将这类信息迁移到目前关注的目标任务上来。对于那些本身缺乏充足训练数据的自然语言处理任务,迁移学习有着非常重要和实际的意义。

多任务学习(Multi-task Learning)可通过端到端的方式,直接在主任务中引入其他辅助任务的监督信息,用于保证模型能够学到不同任务间共享的知识和信息。Collobert和Weston早在2008年就最早提出了使用多任务学习在深度学习框架下处理NLP任务的模型。最近Salesforce的McCann等提出了利用问答框架使用多任务学习训练十项自然语言任务。每项任务的训练数据虽然有限,但是多个任务共享一个网络结构,提升对来自不同任务的训练数据的综合利用能力。多任务学习可以设计为对诸任务可共建和共享网络的核心层次,而在输出层对不同任务设计特定的网络结构。

热点3,知识和常识的引入

如何在自然语言理解模块中更好地使用知识和常识,已经成为目前自然语言处理领域中一个重要的研究课题。随着人们对人机交互(例如智能问答和多轮对话)要求的不断提高,如何在自然语言理解模块中更好地使用领域知识,已经成为目前自然语言处理领域中一个重要的研究课题。这是由于人机交互系统通常需要具备相关的领域知识,才能更加准确地完成用户查询理解、对话管理和回复生成等任务。

最常见的领域知识包括维基百科和知识图谱两大类。机器阅读理解是基于维基百科进行自然语言理解的一个典型任务。给定一段维基百科文本和一个自然语言问题,机器阅读理解任务的目的是从该文本中找到输入问题对应的答案短语片段。语义分析是基于知识图谱进行自然语言理解的另一个典型任务。给定一个知识图谱(例如Freebase)和一个自然语言问题,语义分析任务的目的是将该问题转化为机器能够理解和执行的语义表示。目前,机器阅读理解和语义分析可以说是最热门的自然语言理解任务,它们受到了来自全世界研究者的广泛关注和深入探索。

常识指绝大多数人都了解并接受的客观事实,例如海水是咸的、人渴了就想喝水、白糖是甜的等。常识对机器深入理解自然语言非常重要,在很多情况下,只有具备了一定程度的常识,机器才有可能对字面上的含义做出更深一层次的理解。然而获取常识却是一个巨大的挑战,一旦有所突破将是影响人工智能进程的大事情。另外,在NLP系统中如何应用常识尚无深入的研究,不过出现了一些值得关注的工作。

热点4,低资源的NLP任务

引入领域知识(词典、规则)可以增强数据能力、基于主动学习的方法增加更多的人工标注数据等,以解决数据资源贫乏的问题。面对标注数据资源贫乏的问题,譬如小语种的机器翻译、特定领域对话系统、客服系统、多轮问答系统等,NLP尚无良策。这类问题统称为低资源的NLP问题。对这类问题,除了设法引入领域知识(词典、规则)以增强数据能力之外,还可以基于主动学习的方法来增加更多的人工标注数据,以及采用无监督和半监督的方法来利用未标注数据,或者采用多任务学习的方法来使用其他任务甚至其他语言的信息,还可以使用迁移学习的方法来利用其他的模型。

以机器翻译为例,对于稀缺资源的小语种翻译任务,在没有常规双语训练数据的情况下,首先通过一个小规模的双语词典(例如仅包含2000左右的词对),使用跨语言词向量的方法将源语言和目标语言词映射到同一个隐含空间。在该隐含空间中, 意义相近的源语言和目标语言词具有相近的词向量表示。基于该语义空间中词向量的相似程度构建词到词的翻译概率表,并结合语言模型,便可以构建基于词的机器翻译模型。使用基于词的翻译模型将源语言和目标语言单语语料进行翻译,构建出伪双语数据。于是,数据稀缺的问题通过无监督的学习方法产生伪标注数据,就转化成了一个有监督的学习问题。接下来,利用伪双语数据训练源语言到目标语言以及目标语言到源语言的翻译模型,随后再使用联合训练的方法结合源语言和目标语言的单语数据,可以进一步提高两个翻译系统的质量。

为了提高小语种语言的翻译质量,我们提出了利用通用语言之间大规模的双语数据,来联合训练四个翻译模型的期望最大化训练方法(Ren et al., 2018)。该方法将小语种Z(例如希伯来语)作为有着丰富语料的语种X(例如中文)和Y(例如英语)之间的一个隐含状态,并使用通用的期望最大化训练方法来迭代地更新X到Z、Z到X、Y到Z和Z到Y之间的四个翻译模型,直至收敛。

热点5,多模态学习

视觉问答作为一种典型的多模态学习任务,在近年来受到计算机视觉和自然语言处理两个领域研究人员的重点关注。婴儿在掌握语言功能前,首先通过视觉、听觉和触觉等感官去认识并了解外部世界。可见,语言并不是人类在幼年时期与外界进行沟通的首要手段。因此,构建通用人工智能也应该充分地考虑自然语言和其他模态之间的互动,并从中进行学习,这就是多模态学习。

视觉问答作为一种典型的多模态学习任务,在近年来受到计算机视觉和自然语言处理两个领域研究人员的重点关注。给定一张图片和用户提出的一个自然语言问题,视觉问答系统需要在理解图片和自然语言问题的基础上,进一步输入该问题对应的答案,这需要视觉问答方法在建模中能够对图像和语言之间的信息进行充分地理解和交互。

我们在今年的CVPR和KDD大会上分别提出了基于问题生成的视觉问答方法(Li et al., 2018)以及基于场景图生成的视觉问答方法(Lu et al., 2018),这两种方法均在视觉问答任务上取得了非常好的结果,实现了state-of-the-art的效果。除视觉问答外,视频问答是另一种最近广受关注的多模态任务。该任务除了包括带有时序的视频信息外,还包括了音频信息。目前,视频问答作为一种新型的问答功能,已经出现在搜索引擎的场景中。可以预见,该任务在接下来一定还会受到更多的关注。

未来展望:理想的NLP框架和发展前景

我们认为,未来理想状态下的NLP系统架构可能是如下一个通用的自然语言处理框架:

首先,对给定自然语言输入进行基本处理,包括分词、词性标注、依存分析、命名实体识别、意图/关系分类等。

其次,使用编码器对输入进行编码将其转化为对应的语义表示。在这个过程中,一方面使用预训练好的词嵌入和实体嵌入对输入中的单词和实体名称进行信息扩充,另一方面,可使用预训练好的多个任务编码器对输入句子进行编码并通过迁移学习对不同编码进行融合。

接下来,基于编码器输出的语义表示,使用任务相关的解码器生成对应的输出。还可引入多任务学习将其他相关任务作为辅助任务引入到对主任务的模型训练中来。如果需要多轮建模,则需要在数据库中记录当前轮的输出结果的重要信息,并应用于在后续的理解和推理中。

显然,为了实现这个理想的NLP框架需要做很多工作:

  • 需要构建大规模常识数据库并且清晰通过有意义的评测推动相关研究;

  • 研究更加有效的词、短语、句子的编码方式,以及构建更加强大的预训练的神经网络模型;

  • 推进无监督学习和半监督学习,需要考虑利用少量人类知识加强学习能力以及构建跨语言的embedding的新方法;

  • 需要更加有效地体现多任务学习和迁移学习在NLP任务中的效能,提升强化学习在NLP任务的作用,比如在自动客服的多轮对话中的应用;

  • 有效的篇章级建模或者多轮会话建模和多轮语义分析;

  • 要在系统设计中考虑用户的因素,实现用户建模和个性化的输出;

  • 构建综合利用推理系统、任务求解和对话系统,基于领域知识和常识知识的新一代的专家系统;

  • 利用语义分析和知识系统提升NLP系统的可解释能力。

未来十年,NLP将会进入爆发式的发展阶段。从NLP基础技术到核心技术,再到NLP+的应用,都会取得巨大的进步。比尔·盖茨曾经说过人们总是高估在一年或者两年中能够做到的事情,而低估十年中能够做到的事情。

我们不妨进一步想象十年之后NLP的进步会给人类生活带来哪些改变?

  • 十年后,机器翻译系统可以对上下文建模,具备新词处理能力。那时候的讲座、开会都可以用语音进行自动翻译。除了机器翻译普及,其他技术的进步也令人耳目一新。家里的老人和小孩可以跟机器人聊天解闷。

  • 机器个人助理能够理解你的自然语言指令,完成点餐、送花、购物等下单任务。你已习惯于客服机器人来回答你的关于产品维修的问题。

  • 你登临泰山发思古之幽情,或每逢佳节倍思亲,拿出手机说出感想或者上传一幅照片,一首情景交融、图文并茂的诗歌便跃然于手机屏幕上,并且可以选择格律诗词或者自由体的表示形式,亦可配上曲谱,发出大作引来点赞。

  • 可能你每天看到的体育新闻、财经新闻报道是机器人写的。

  • 你用手机跟机器人老师学英语,老师教你口语,纠正发音,跟你亲切对话,帮你修改论文。

  • 机器人定期自动分析浩如烟海的文献,给企业提供分析报表、辅助决策并做出预测。搜索引擎的智能程度大幅度提高。很多情况下,可以直接给出答案,并且可以自动生成细致的报告。

  • 利用推荐系统,你关心的新闻、书籍、课程、会议、论文、商品等可直接推送给你。

  • 机器人帮助律师找出判据,挖掘相似案例,寻找合同疏漏,撰写法律报告。

……

未来,NLP将跟其他人工智能技术一道深刻地改变人类的生活。当然前途光明、道路曲折是亘古不变的道理,为了实现这个美好的未来,我们需要大胆创新、严谨求实、扎实进取。讲求研究和应用并举,普及与提高同步。我们期待着与业界同仁一道努力,共同走进NLP下一个辉煌的十年。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/gRnFvGmbOE0xkjti.html#comments Thu, 28 Feb 2019 17:57:00 +0800
银河航天徐鸣:人类的太空互联网 应该长什么样丨未来专栏 //www.xyschoolife.com/category/zhuanlan/asxm6hqNcqoCHO9m.html 作者:银河航天CEO徐鸣,未经雷锋网授权,拒绝转载。

今天,美国的OneWeb成功发射了6颗低轨通信卫星,这标志着真正的“太空互联网”时代到来。

“太空互联网”对于大家来说,可能概念还比较陌生。“太空互联网”将实现让全球每个角落都能高速联网的梦想,这势必引发一场新的互联网产业革命,背后是以万亿美元计算的市场。

太空互联网到底给我们生活带来什么改变?举个例子,大家就明白了。

我们乘坐飞机的时候,通常是上不了网的。即使在一些国际航班上能上网,不仅费用昂贵,信号不稳定、网速也很慢,微信图片基本是发不出去的。设想一下,如果你可以在飞机上可以跟孩子视频通话、刷抖音、甚至顺畅地“吃鸡”或打王者荣耀,流量费用跟在地面使用网络差不多,该有多好?这样的设想不久之后将会实现,实现的方式就是组建低轨通信卫星网络。

坐飞机能使用高速网络,只是一个大家有感知的场景,但“太空互联网”带来的改变远不止如此。

目前,全球约有一半的人口使用互联网,还有将近40亿人口无法接入互联网。即便是在基础设施较好的中国,也有大量的人无法联网。北京四中的老师,要给一个偏远山区的学校提供远程教学,但学校没有网络,怎么办?给这个地区建个基站不就好了吗?然而,现实情况是,建设基站的成本远远大于收益,推进起来困难重重。

我出生在安徽一个偏远农村,从小学到高中,是没什么书可以看的。上大学之前,我甚至连普通话都不会讲。能考上大学,是我命运的转折点,但村里大部分的人是没有这样的机会的。我深知信息带来的价值。即便是在当下,我老家村里依然不能非常顺畅地上网。每当这个时候,我就会在想,地球上像我们这样的地方还有很多。

远程教学、远程医疗都要基于互联网通信,地面基站是实现通信的基础设施。但地面基站的覆盖范围是难以突破的,不仅是技术实现的问题,更是成本问题。低轨道卫星通信星座,将改变这一切。

我们可以把低轨道卫星理解为“空中基站”,每一颗卫星覆盖的范围可达到方圆上千公里。数以千计的低轨道卫星组成“星座”,就可以实现全球的“基站”覆盖。美国的OneWeb公司,就是采用这样的方式构建新的通信网络,让卫星成为全球通信的重要组成部分。如果把地面的通信网络看成是二维的,那么低轨道卫星组成的通信网络就是三维的。通过二维+三维的方式对全球通信网络进行升级,也会让整个全球网络基础设施的成本大幅降低。降低多少呢?如果要让全球每一个角落都能联网,投入低轨道通信卫星的成本,有机会降到基站建设的1%。

真正意义上的“太空互联网”应该具备什么条件?

可能有人会说,卫星通信不是一早就有了吗?的确,很早以前,航空、航海就是通过卫星网络来进行通信的。但提供通信服务的是高轨道卫星,跟低轨道卫星星座是有很大区别的。高轨道卫星的优势是覆盖面积广,但劣势是总带宽小(单个高轨道卫星跟低轨道卫星星座相比),信号相对较弱。加上高轨道卫星发射成本非常高,实际使用起来费用也不低。而低轨道卫星的发射成本远远低于高轨道卫星,组成的“星座”,可以弥补高轨道卫星的劣势,从而实现卫星通信的普及化。因此,这种三维的、可普及互联网卫星通信网络才是真正意义上的“太空互联网”。

实际上,低轨道通信卫星组建的网络,并不是要替代地面网络,而是地面网络的一个延伸和补充。举个极端的例子,在遇到重大自然灾害,地面通信网络瘫痪的时候,“太空互联网”的优势将发挥出极大的优势。比如2008年发生的汶川地震,如果那时候有低轨道卫星星座组成的通信网络,可能会有更多的生命得以及时拯救。

除了特殊、极端的场景,“太空互联网”之所以值得关注,还在于这一领域带来的广阔商业空间。据美国航天基金会最新数据显示,全球航天经济总量已达3835亿美元。其中,商业航天收入3073亿美元,约占全球航天经济总量的80.1%。随着商业航天的发展,美国OneWeb、Telesat、SpaceX和波音等公司纷纷提出低轨通信卫星星座计划。我发现,曾经那些关于航天、太空的憧憬正在美国一点一点地实现。从那个时候,我就一直在关注低轨道卫星通信领域的进展。

我坚信,地球每一个角落的万物互联将很快实现。而且,在这场全球商业航天的“太空互联网”竞赛中,中国的商业航天公司也会取得优异的成绩。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/asxm6hqNcqoCHO9m.html#comments Thu, 28 Feb 2019 17:05:00 +0800
为什么聪明人未能拯救世界?|《流浪地球》冷思考 //www.xyschoolife.com/category/zhuanlan/buIiHlXyn518Sjth.html

(本文转自混沌大学,作者刘正,混沌特约评论员新加坡国立大学生物学博士,曾代表中国队获得国际天体物理奥赛金牌)

一部《流浪地球》,可谓开启了中国科幻电影的元年。和很多人一样,我惊叹于刘慈欣以恢弘的想象力,为我们描述了一部恢弘的史诗——全人类为了求存,带着地球家园一起驶向了充满凶险的深空。

但是,如何去执行“流浪地球”这样一个长达2500多年的计划?

面对如此宏大,跨越几十代人的时间尺度,我想,任何人都会感到自身的渺小和迷茫。即便在电影里给人类加持了天顶星科技和全球动员的buff,从地球政府的精英,到地下城里的平民,所有人依然紧张和忐忑,因为每个人的心里都压着一头沉默的巨兽:

不确定性

不确定性并非“情绪”——

而是一种无法避免的风险:混沌效应

这种不确定性,并不只是一种恐慌的情绪,而是来自物理学里真实存在的宏观不确定性:混沌效应。

如果读过刘慈欣的成名作《三体》,你大概知道,三个物体关联的运动是无法预测的,因为无论在运动开始时有多小的偏离,在复杂的相互作用下,这个误差都会通过一个正反馈的过程逐次放大,进入不可知的混沌状态。

因此,对于超过三个个体系统中因果关系的可预测度,随着时间的推移,都会降为零。

计算机模拟下混沌的三体运动

MIT的气象学家洛伦兹,最早在天气预测中发现了这一现象,在后来的演讲里,他诗意地描述到:“亚马逊蝴蝶轻轻振翅,数周后,德克萨斯平原上就可能刮起飓风”。在那之后,我们都知道了混沌现象的另一个名字:蝴蝶效应。


洛伦兹蝴蝶:围绕混沌吸引子产生的复杂轨道

而在“流浪地球”这一复杂的,时间跨度超过2000年的系统工程中,混沌效应就像是房间里的大象,无法被忽视。

在一万台行星发动机推动下,在其他7大行星的引力扰动下,地球到底会怎么飞,谁也没底。三体问题,不仅仅对物理实体有效,人与人的协作关系,更是一个更复杂的n体问题。所以,在几十代的传承中,人类会把流浪地球计划执行成什么模样,同样无法去预测。

而正是由于混沌效应,虽然科学家已经详细规划了推进地球的轨道,也事先考虑了木星的引力影响。但是地球依然在复杂的潮汐力下,因为地壳形变导致一半的行星发动机熄火。

背后的原因,也许是几年前某个小行星的轻微吸引,也许是某个老司机行车不规范,导致行星发动机少烧了一车石头,洛伦兹的蝴蝶轻轻一扇,地球就栽进了和木星相撞的深渊。

遭遇这样的险境,地球上的专家并不是算错了轨道,而是明知有地球毁灭的概率,也不得不去冒这样的风险,飞掠木星以实现加速。

在这个过程里,地球还是有概率会安全通过木星。但是,躲得了初一躲不了十五,接下来还有土星,天王星,海王星,柯伊伯带(太阳系外部的冰行星带),地球在那里的路线依旧未知。在混沌效应的统治下,风险无法被避免,也不要幻想能够避免。

如何管控风险?

运用精确的概率式执行

但是,风险可以被管理。

我想很多人都会质疑,救援小分队从北京开到杭州,再开到赤道,但最终也没有保住杭州地下城,而苏拉威西的行星发动机,也被其他救援队抢先复苏。一路上死了那么多人,却无功而返,这是不是无谓的牺牲?

从个人的角度看,这是不理性的自杀。

从整体的角度看,这却是最冷静的理性。

一万台行星发动机的数量已经留有了冗余量,不需要所有的发动机都修复,而为了抢救4000个行星发动机,地球政府早已按计划派出了82万支救援队,虽然单个救援队的成功概率很低,但是平均200个救援队叠加的效果,足以把成功的概率推到100%,也就是饱和式救援。

而CN171-11小分队的牺牲,一定也以某个概率的数字,列入了救援成本核算内。甚至连抚恤物资,都提前送进了北京第三区的前置仓。

残酷不残酷,残酷。有效不有效,有效。

我想说,堆人头是最朴素的概率式执行方法。在太平洋战场上,美国海军配备了200%的损坏管制团队,造就了不沉航母的传奇。而斤斤计较的日本海军总是配置的刚刚好,一炸就坏,舰船的利用率反而很低。

在系统工程里则有更高效细致的方法论:运用精确的概率式执行去控制风险。

例如,制造业常用的六西格玛流程(SixSigma Process),通过统计方法测量各流程步骤的出错概率,计算出关键节点,然后将该步骤的正确率持续迭代至99.9997%,也就是6个标准差的目标。这就从源头上控制住了最终产品的次品率。

在航空业的IOSA安全标准中,也遵循着海恩法则的原则:

每一起严重事故的背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患,是多因素错误概率累积的结果。


当出现事故的时候,重要的不是找出谁来背锅,而是识别那些诱发“意外”的先兆和隐患,通过容错备份,交叉检查和防差错设计(PokaYoke设计法)从流程上减少事故概率,并通过规范手册传达给全世界的航空公司。用概率的思维去压制不确定性的概率,护佑着每一次的起降安妥。

六西格玛流程

希望——

人造的非理性的确定性

但是,再严谨的计划,都依然需要人去执行。而在所有的流程设计中,人因(Human factor)总是那个最令人头痛的误差。机器总是透明的,而人脑却是一个不那么可靠的黑箱。

在漫长的进化历程中,人类的大脑并没有进化出长期规划的观念,更没有用概率进行决策的本能。人类先祖的平均年龄不超过14岁,他们不需要,也无法去奢望10年以上的计划。而祖先的经历,都刻在了我们每个人的基因里。

生而为人,我们的直觉永远是重视即时的感受,对当下,实感和短期的诱惑趋之若鹜。而对长期的,不确定的未来充满了怀疑。

由于这种先天的“近视眼”,人类才对金钱的时间价值产生了共识。

重视手头的现金,而对未来的收益大打折扣。

在货币经济学之父欧文.费雪看来,正是人类耐心的缺失,让利息成为了可能,而延迟满足的心态,则让投资成为可能。而整个金融业,都建立在对这种认知偏差的顺应和利用上,在不同个体的风险厌恶和延迟满足之间勾兑买卖。

欧文·费雪著作《利息原理》 

不过,太阳熄灭的倒计时,并不会因为人类对不确定性的厌恶而停止,生的路是充满不确定性的千年流浪,而死的那条路却是必然到来的氦闪。

那么,是选择“给岁月以文明”,把握当下,在剩下的500年里马照跑,舞照跳,坐等末日?

还是选择“给文明以岁月”,面对未知的太空冒险一搏,牺牲几十亿人,也要走上2500年的苦难流浪?


从心理上说,面对隐隐可见的灰犀牛,我们的本能是逃避和忽视。甚至在逆火效应的心理作用下,对于不符合潜意识直觉的现象,产生强烈的逆反情绪。

在《流浪地球》的原著里,刘慈欣就写到反抗军对太阳氦闪强烈的怀疑,而这种偏执的反抗,几乎让人类的命运毁于一旦。人性的这一弱点,在本来就充满物理不确定性的航程中,又叠加上了一层心理的不确定性。

在电影的设定里,人类仅仅选择了后者,把目光从当下移开,放在了2500年外遥不可及的焦点。颇有深意的是,当人类的耐心长达千年的时候,金钱存在的基础也就消失了。电影里地下城的生活中没有金钱,吃饺子都靠居委会发放,租防护服也要以物易物。

那么剧中的人类,是如何逆转了人性,为了一个长达2500年的目标而压制了本能呢?

我想,这种力量,就在韩朵朵对全世界广播时说的那句话里:希望,是这个时代如钻石般珍贵的东西。

因为希望,人类才会舍弃当下的贪恋,选择为后代忍辱负重。

因为希望,人类才会放弃个人的权利,服从地球政府的集权规划。

因为希望,CN171-11小分队才会在杭州擦干眼泪,重新上车开向赤道,因为他们相信,相信地球可以得救的那个希望。

实际上,韩朵朵这句话听起来尴尬,却颇有深意。

为什么是如钻石般珍贵呢?

要知道,钻石没有什么实用价值,它不过是一种四面体的碳单质,通过现代的化学方法就可以合成。钻石的价值,完全取决于人类对它的认知(perception)。只有所有人都认同钻石的价值时,钻石才会珍贵。

同样,只有所有人都认同希望的时候,希望才尤为珍贵。

而当人们不再相信那个希望的时候,希望也就会一文不值,毫无用处。金融巨鳄索罗斯就将其引申为“反身性”的理论:

希望会导致参与者们按照希望的预期去行动,于是希望便得到验证,形成一个自我证实的正反馈循环。而在希望破灭的时刻,同样的正反馈循环也会造成悲观情绪的级联雪崩,穿透所有人的心理底线。

所以希望的价值,来自希望本身的自我实现。如果你经历了过去两年比特币的浪潮,你也许对这句话会有别样的体会。

流浪地球上的人类之所以相信希望,我想也是一种复杂的心情。在地球开始流浪的时候,他们已经回不去了。当全球人都在一条船上的时候,希望是唯一的希望,因为相信,所以相信。

只有用希望这么一个人造的非理性的确定性,才能够中和人脑对不确定性厌恶的本能,让大家能够像CN171-11小分队那样,自觉自动地执行那些冷血理性的概率式方案。

所以我想感叹,理性是很难压住人性的,只有人性才能压住人性。

所以人类终究不会被AI所操纵,因为我们会相信信念,相信那些美好的希望,而这是只懂得套路的人工智能所无法理解的。

人工智能先驱尼尔斯•尼尔森的反思之作

理性 vs 希望

人类最大的力量

但是,假如你用概率计算出的理性结论,和你希望相信的希望不符的时候,你该怎么办?当人工智能Moss计算出吴京的计划100%失败的时候,他又做了什么?

理性告诉他:他该和刘户口做最后的告别,然后躺回冷冻仓里。

希望告诉他:他应该顶着人类全灭的骂名,去引爆自己拯救地球。

在电影里,吴京选择了后者。Moss因此留下遗言:“让人类永远保持理性,果然还是太难了”

 

故事的结尾当然是光明的,春节档的观众可以允许吴京炸了,但是不允许他失败,导演用上帝之手,把小破球推进了可以拍续集的平行宇宙。

但是,在真实的世界里,Moss的遗言到底对不对呢?

不对。

同时获得诺贝尔经济学奖和计算机最高奖-图灵奖的认知科学家,赫伯特.西蒙曾经对理性有过这样的评述:绝对理性存在吗?

当我们谈到理性决策,它其实非常依赖已有的信息,但是没有人(包括机器)可以穷尽所有的信息,也没有那么大的计算能力去分析所有信息。

赫伯特·西蒙的经典作品《人类活动中的理性》

因此,绝对理性的决策所消耗的成本太大了,高到了非理性的水平。我们都只能在有限的信息,有限的时间下,运用有限理性去进行决策。所以说,Moss计算出的100%失败的概率,并不意味着必然失败。

至少,有一个信息它一定没有计算在内,那就是尚未发生的,在理性预测中绝不可能去做的事情,比如吴京最后的孤独一掷。这样的事件并不在理性决策的视野内,因为从理性的因果角度来看,它们就不应该存在。但是人在希望的驱动下,却可以让这种事情发生,从而在理性决策的计算公式中加入了一个新的系数,也就有希望让成功的概率从零,变成一。

从这点上来看,人工智能Moss显然没有它的前辈,《黑客帝国》里的Architect更有洞见:“希望是典型的人类妄想,它既是人类强大力量的来源,也造就了人类最大的弱点。”

黑客帝国剧照

作为一个人类,我承认生而为人的这种幻觉,但是我想把Architect的话顺序调整一下:“希望往往是一种缺点,但这更是一种力量”。

面对不确定性,用概率去计算,可以做出最优的决策,但是唯有相信希望,才可以去做那些理性决策所不允许的,能够改变预定概率的事情。

而这,也许就是理性的聪明人从未赢得世界的原因吧,因为他们的行为太像一个AI了,而失去了人类最大的力量:信念。


聪明的人预测未来,顺应未来,而勇敢的人,会去创造未来。

小结

所以,是什么,让流浪地球这个长达2500年的超级工程成功地执行? 

是用概率的计算,来对抗物理的不确定性。

而谁又能引领着人类跨越不确定性的深渊,带着地球寻找新的家园?

是用信念的希望,去对抗心理的不确定性。

接下来的2019年,风雨在途,这或许就是《流浪地球》给我们捎来的希望。 

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/buIiHlXyn518Sjth.html#comments Sat, 16 Feb 2019 13:52:00 +0800
NewGen 张璐:硅谷看好的三个热点技术 //www.xyschoolife.com/category/zhuanlan/1OMTzeQ3CtKsolcj.html 雷锋网按:本文由DeeperBlue发布雷锋网。转载请联系授权,不得删减内容。

专注于前沿科技投资的 NewGen Capital 风投正劲,这家位于美国硅谷的基金,投资团队一水儿斯坦福背景,囊括了硅谷企业家、美国院士——是的,他们的公司就开在斯坦福大门口。

从 2016 年开始,NewGen Capital 的创始人合伙人张璐开始更多地关注中国市场。

过去的几年,中国市场成了硅谷 VC 的 “香饽饽”,这缘起于 2014 年 9 月阿里巴巴在纽交所上市。“如果不是身处美国,可能很难感受到阿里上市对美国的冲击和震动。  张璐在接受媒体采访时描述,当时无论从华尔街,还是时代广场,甚至到硅谷,阿里巴巴像场龙卷风席卷一切。

“我在美国常给人讲中国故事,也希望回国感受最新发展方向。” 而这一次,张璐来到北京,讲的是 “硅谷故事”。

她曾是硅谷管理资本 10 亿美金的 Fenox Venture Capital 的合伙人,参与过 20 多个项目的投资。她同时也是一个创业者,曾创立了 Acetone,专门为 II 型糖尿病病人提供呼吸检测仪器。

张璐喜欢说一句话 “To good to be true” 。 她不相信所谓的  “热点” 与  “风口” 。曾估值一路飙升到 90 亿美元的新型血液检测创业公司 Theranos,尽管苦苦挣扎仍摆脱不了正走向泡沫破裂的道路:执照被收回、宣布检测报告作废、卷入监管和法律纠纷。

Theranos 曾宣称其拥有的 “一滴血” 血检技术能对化学、生物医药领域形成革命性冲击,但学界普遍质疑 Theranos 存在数据造假。

而在 2016 年上半年异常火热的 VR、AR 市场,张璐的评价是:“国内 VR、AR 的火爆程度让人惊讶。”

2015 年开始的资本寒冬,张璐则认为 “高兴看到市场进入像这样健康的资本调整期”:“其实这种泡沫的破灭,硅谷发生过很多次。” 她说到,“如果没有这样的泡沫经济,如何造就一轮又一轮的创新?如果没有一轮轮的起起伏伏,怎样打破垄断?这种起伏反而促进了创新的发展。”

中美跨界的投资机会一定存在,但前提是 “如何建立信任”。“美国人更喜欢真实的故事,而不是拍着胸脯的保证和空谈,中美合作的隔阂也可能只有通过不断的实践和尝试才能够慢慢消除。” 在张璐看来,中美对接与合作的时候,最重要前提是相互理解、尊重对方的游戏规则。“将来,也许全世界公司不以在美国上市为傲,反而更愿意在中国上市。”

以下是张璐在馒头商学院开学典礼上发表的主题演讲,原标题为《世界的创新,机会在哪里》。 Deeper Blue 获得馒头商学院独家一手材料进行播报。

张璐演讲现场。

| 泡沫经济造就创新

过去几年,国内创新大潮中涌现出很多商业模式的创新。模式创新确实创造了更大的市场,但如今成功的模式创新是在既得利益者中崛起,初创公司成功的难度越来越大。因此,最近一两年,创业者和资本家的关注焦点都逐渐转向了技术

不同的创新需要踩在不同的历史节点上,现在的我们正处于技术创新的节点,创业者和 VC 都应该顺势而为。全球经济下行,很多系统性的参数,比如人口架构,老龄化,整个国家负债率,杠杆率都是系统性参数,我们无法改变。技术创新可以提高生产效率,是拯救经济下行的唯一出路。近几年人工智能、大健康等有关技术已经成熟,应用窗口也在逐渐打开,资本开始积极布局。

科技正改变人类生活。

国内创新市场正在经历所谓的泡沫破灭后的寒冬。但其实这种泡沫的破灭,硅谷发生过很多次。本来独角兽意味着非常难得一见的公司,十年前,硅谷也就只有五六家独角兽公司;但去年涌现了八九十家 “独角兽” 公司,必然会有一批死亡,形成可怕的泡沫。

如果没有这样的泡沫经济,VC 怎么赚钱?如果没有一轮轮起起伏伏,怎样打破老企业的垄断?这种起伏反而促进了创新的发展。我很高兴看到市场进入像这样健康的资本调整期。

国内现在第一次经历调整周期,不可怕,从长远看对创新非常有利。当市场过热,资本过热,优质资本不集中,这才出现如此多独角兽公司。当市场冷却,不好的公司被淘汰,才会产生真正伟大的公司。

作为一个在硅谷的中国人,我经常思考如何连通中美两个创新市场。十年前,美国 VC 经常认为在美国有潜力的项目千万不能在中国做。但近几年,美国资本投向中国市场的趋势越来越明显。正如骆家辉讲过的,最好技术来自于美国,但优质技术最大的市场在美国之外。将来,也许全世界公司不以在美国上市为傲,反而更愿意在中国上市。

中国资本在海外探索,美国技术公司也进入中国市场,这些过程中出现了一些误会,但都是暂时的。市场规则不同,互相没有信任,很容易产生误解,大家来不及沟通就把线砍掉了。所以关键在于,如何重建双方的信任。

我在美国常给人讲中国故事,也非常希望回国感受最新发展方向。希望大家不要只单方向接触美国的发展前沿,而要把中国的真实情况也输送到美国去。美国媒体不会主动做这件事,一定是创业者和投资者来搭建这个最新的信息桥梁。

| 硅谷在关注什么?

我在这个行业做了一定年头,做过后期早期,VC,PE 都有接触。我们有时候小圈子聊天,说到其实作为投资人也是有很多在创新或者推动创新方面的责任。虽然 VC 掌控的资本很小,但 VC 资本有很强效果。资本对于方向选择,对于创业者有非常重要的引导作用。

相反我们看创新的时候不仅判断大的趋势,判断大的发展机会,我们也在不停的向创业者学习,把创业者作为整体族群观察动向,来得出结论:哪个方向可以继续跟进?而这个方向选择是双方的。我们都需要保持独立思考,同时协同推进下一步的发展。

下面是一些硅谷投资关注的热点分享:

硅谷看好的三个热点技术方向

首先说说生物技术。生物技术创新具有巨大的风险性。大多数创业者或者投资者,需要在五到十年之后,才能了解这个技术是否真能成功。

虽然生物技术具有天然的风险性,但不代表没有巨大的市场机会。

例如,随着基因测序成本越来越低,普及度越来越高,人们可以获得大量的人类样本信息。将每个人离散的生物信息汇聚到一起,就是生物信息化,具有很大的市场机会。

在未来,无论是数据本身,还是生物信息本身,会变得越来越像 “氧气”,也就是越来越关键、必须的东西;同时又是无处不在的。但从另外一个角度看,“氧气” 也会爆炸,产生巨大的破坏力,生物信息也同样。如何保证生物信息只掌握在合适的人手里,这是我们重点关注的。

而国内 VR、AR 火爆程度让人惊讶。大家乐于追求 VR、AR,是因为每个人都在寻找下一代信息载体。智能手机就是一种新型的信息载体,彻底改变了我们的生活。但 VR、AR 真的是下一代信息载体吗?我相信这个行业的巨大潜力,但大家对它的期待程度可能高过技术本身能发展的程度。

| 人工智能:不是每个领域都到了商用阶段

人工智能代表一个非常广泛的领域,其中并不是每个领域都到了适合商业应用的阶段。在这么多应用领域中,哪些方向是未来 5-10 年,具有发展机会的呢?我们认为,一共有四个方向。

人工智能有商业应用的四个领域。

【机器人】

工业上,已经有许多工业级机器人开始出现。家庭应用上,现在也有很多新兴智能机器人。在老龄化越来越严重,人口结构正在变化的当下,这些机器人将扮演更加重要的角色。

虽然机器人的应用前景乐观,但也应该保持理性判断。家庭用机器人是创投者应该慎重考虑的方向。任何技术都有一个应用的时机,用户心理接受度是衡量时机是否成熟的关键标志。试问,如果有一台成本两万美金一台的机器人,到你家每天和你朝夕相伴,你能接受吗?

【自然语言处理】

语音交互是一个新的信息端口。对于智能手机来说,触摸屏技术就是一种信息端口,可以将我们的想法通过触摸的方式反映到手机上。所谓的语音交互,不仅是理解语意,还有理解语境。不仅要知道这句话什么意思,还要知道说这个话时候是开心还是讽刺。

目前,自然语言处理已经可以把准确率做到 92% 以上,下一步就是进行各个不同的分支系统的切入。中文作为世界上第一大语言,应用人口最多的语言,相应的语言处理技术非常关键。

【计算机视觉】

技术潜力巨大。和我们紧密合作的斯坦福人工智能实验室,现在的研发重点就是计算机视觉。现在计算机视觉已经可以识别一副抽象画,并用一句话总结画的内容。这听起来简单,但细思恐极。人类视觉系统是人脑最复杂的系统之一,有一半的脑细胞都参与视觉系统的运作。人类经历几千年的演化,而计算机视觉这个技术只发展了二十年,潜力非常大。

应用场景明确。除了读抽象画之外,还可应用到无人驾驶、安防等等领域,同时也需要更多的资本注入帮助寻找最合适的应用场景。

【机器学习】

机器学习之所以关键,是因为它是一个技术基础。在未来,机器学习将成为一个任何行业都能应用的技术。现在,很多硅谷的大公司已经开始布局。例如,微软有内部开源的机器学习平台 CNTK,已经吸引了许多开发者的关注,汇集了更多好的应用场景。谷歌有希望成为这个行业标准制定者的野心,不仅有 AlphaGo,也还有一个开源平台 Tensor Flow,传播范围很广。

除美国之外,中国对 AlphaGo 博弈过程关注度最高,说明国内对于新兴技术的热情很高。国内有很多人关注的领域是智能医疗,而机器学习开发出的平台可以对接在相应的应用场景里,产生的效益是巨大的。

| 为什么网络安全还没有形成蓝海市场?

万物互联正在发生。很多人家里已经有智能的电视盒子,温度调控器,安防系统。甚至有些朋友购买的汽车,可以看到车在哪里,充电多少。

我有很多黑客朋友,他们经常在谷歌做一个很小的聚会,我每次去都觉得我是最笨的人。这些人也会做有点出格的事情。比如开会的时候,莫名其妙会场里一个无人机就开始起飞。主持人只能停下来问:谁搞的?他们可以黑进各种地方。

这就是所谓的万物互联。万物互联带来的是可怕的安全隐患。黑客可以黑进你家的电视盒子,控制播放的内容;可以黑进智能空调,控制你家的温度;甚至可以黑进安防摄像头,看看你每天在做什么。万物互联给我们带来了便利,但也让我们的生活更加不安全。

看似安全的使用环境实则危机四伏之类。

这个时候网络安全变得异常关键。但为什么网络安全系统现在还没有形成巨大的蓝海市场?

黑客技术还没这么可怕。就像杀毒软件一样,没有病毒,这个软件就不会流行。

很多人还在犹豫要不要安装防黑客的安全系统。一方面,安装安全系统会牺牲一定的方便性。另一方面,现在很多安全解决方案需要重新做系统,而不是直接嵌入,这也让很多人都在犹豫。不过,已经有越来越多优质解决方案出现,包括一些即插即用、低成本的安全系统。还有的安全技术将信息虚拟化,黑客攻进去发现根本就是空的。

市场成熟度不够。网络安全在智能工业时代将得到大范围的应用,而这个时代还未完全到来。目前,传统行业还在苦苦挣扎。大家可以听到很多新闻,比如传统半导体公司彼此合并,这就是苦苦挣扎的信号。这些关键行业不可能像雅虎一样突然没落,它们势必要寻找技术解决方案。这个方案就是智能工业。

用户网络安全意识不够,所以涉及用户级别的安全应用还需要一段时间。虽然我刚刚描绘了大家在智能时代面临怎样可怕的安全隐患,但你回家想一想可能还是觉得没事儿。我们还需要一段时间,甚至一些病毒出现,大家才会意识到网络安全有多重要。

例如,美国有个网站是帮每个用户寻找合适的婚外情对象。去年,这个网站被黑客侵入,大量数据在网上泄露。非常不幸,有很多用户用自己公司的邮件注册这个网站。由此发现,原来有不少政府官员、军方人员在使用这个网站。这件事发生后,机构和用户开始关注自己的隐私信息,他们开始积极寻求网络安全的解决方案。

| 还有什么?释放人类潜能

除了上述方向,还有几个方向也是我们重点关注的,但不一定在接下来一两年内会蓬勃增长,可能在两到三年内有很大的市场机会。

三种释放人类潜能科技。

1. 纳米机器人

现在已有许多技术公司开始探索。比如,我们合作的创新中心,前段时间宣布可以做药丸机器人。一个药丸里放一个特殊材料制成的机器人,进入胃里胶囊壳融化,小材料延展开。机器人开始活动,可以在胃里走来走去,做简单的微创手术。

正如《三体》里提到的维度的概念,纳米机器人生活的维度比我们小得多,到那个维度各种技术的应用,市场规模是无法想象的。现在讲到医疗中的靶向治疗,关键就在于可不可以把药品推送到想推送的细胞上。纳米机器人就有望实现真正的靶向治疗。

2. 脑功能修复

人脑功能一旦损伤不可修复,通过纳米机器人可以重建信息的传递过程,甚至可以进一步加速信息的传递,让人脑变成  “超脑” 。再进一步,让人脑信息和外在机器互联。这部分难题在于人的大脑是多线程同时进行运作的,通过纳米机器人的输入输出,在将来可能可以实现人脑和机器互联。这不是只在讲概念,我们投资了一家相关公司,已经做出来了初步的产品。

3. 超级人类

如何释放人类的潜能,这是未来技术一个非常看好的方向。通过技术发展让人类在脑力、体力层面获得更大的提升。对于单个个体,每个人脑力有限,体力有限。但如果可以通过技术和网络,把每个人像因子一样连接到一起,形成巨大的网络,这时候人类整体的脑力资源将会非常可怕。这是我们非常期待的人类未来。

本文为张璐演讲稿整理,感谢馒头商学院提供素材!

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/1OMTzeQ3CtKsolcj.html#comments Mon, 19 Sep 2016 15:46:00 +0800
iPhone 7 Plus的这颗长焦摄像头将改变人工智能的消费生态 //www.xyschoolife.com/category/zhuanlan/33vm24XsAzSFD83j.html

via:9to5mac.com

终于,有国外的资深人士把iPhone 7 Plus最大卖点之一的“双摄”拆了个底朝天。

与许多期待及预测不同,iPhone 7 Plus的双摄像头在硬件上似乎并没有那么黑科技,但提供的想象空间却很大。

用两颗镜头实现的2X“光学”变焦

从发布会上公布的信息来看:iPhone 7 Plus的两颗镜头,一个广角一个长焦,在拍摄照片时,如果选择2倍变焦,会自动切换到长焦镜头取景。

这个描述其实并不黑科技,在古董级别的8mm摄影机上,就是用旋转镜头盘切换镜头的方式变焦的。

via:crystalradio.cn

而iPhone 7 Plus的两颗镜头,等比135焦距分别是28mm和54mm,差不多等于是两倍光学变焦。

事实上,这是大家看完发布会后产生的直观理解。但在这件事上,似乎苹果没有打算告诉大家全部事实。

据来自拆解者的消息称,iPhone 7 Plus这两颗镜头并不完全是独立工作的,在切换到2X焦距时,未必一定是由那颗54mm的镜头工作

测试者用了一个最简单的办法尝试,就是分别遮住两个镜头,看看iPhone 7 Plus在摄影时如何工作。结果是,当遮住28mm镜头时,整个相机是黑屏的;但遮54mm镜头时,并不影响相机工作——包括使用2X焦距。

在遮住54mm镜头时,iPhone 7 Plus的2X焦距显然是通过对28mm取景数码放大得来的。数码放大的原理并不复杂——把一副数码画面的两边长都放大一倍,那么每个像素点之间会有空白像素点,对空白像素点所呈现的颜色,通过计算相邻像素点的颜色值而得出。这样就得到了一副数码放大后的照片。

来自拆解者的分析认为,iPhone 7 Plus这颗54mm镜头,起到的作用就是在计算这个放大填充像素点的色彩时,提供更接近真实采光的数据,使得画面更加清晰自然。但当光线不足,这颗镜头的进光量不足以拍摄真实色彩时,这颗镜头将完全不工作。

这意味着,iPhone 7 Plus的这个双摄系统,在目前这个版本,还是靠那颗与iPhone7相同的1200万像素28mm镜头撑着。而另一颗1200万像素的“长焦”——官网说是长焦,实际上只是标准镜头焦距——只是个兼职(part-time)打下手的配角。

另外,也正是通过这种“打下手”对像素渲染的修正,使得iPhone 7 Plus具备了光学防抖的能力

via:brunch.co.kr

对于这一设计,国外的拆解者提供了一个解释是,有可能因为这颗长焦镜头的进光量并不如人意。为了达到超越前代的图片拍摄效果,采用了这种权宜之计。

景深效果“即将推出”  苹果双摄的软件反转

在此次iPhone 7 Plus的发布中,苹果首次在原生功能上放了个期货卫星。在官网介绍中,赫然标注着“即将推出”景深效果。

截图来自苹果官网

显然,根据官网这段介绍所描述的,稍有了解就能猜到这种背景虚化的效果,来自对图片的数码渲染——而不是光学镜头的“失焦”虚化。

苹果想要达到的,是这种数码渲染的效果和光学镜头产生的失焦效果难分伯仲。这是一项巨大的技术突破。而苹果也在官网中说了,将采用机器学习技术来挑战这一难关。

然而,在iPhone 7 Plus上市时暂未推出这项功能,显然,实际运行的效果可能还不如人意。

从苹果的历史上来说,这并不是第一次在发布某项软件功能时还未完成(还记得那个用演示软件呈现的hello world嘛)。但这是第一次在发售开始后公然承认一项功能还在完善中。

事实上,这种完善过程离不开那颗54mm镜头。

加快机器学习最好的办法,是有足够好的专家系统和训练数据对其进行反复的识别训练和优化。

也许目前版本的iPhone 7 Plus还无法让这颗54mm镜头在拍摄中真正发挥多大作用。但在iPhone 7 Plus拍出的每一张照片中,这种训练程序都在被进行着——

两个摄像头意味着可以通过角度差识别画面物体的距离、透视关系,不同色彩在不同进光量下的反应。这些数据并不完全记录在拍出的照片当中,但随着iPhone 7 Plus拍摄照片的增多,这一训练会加速苹果双摄系统的人工智能能力。

没有人会怀疑,今年年内最迟明年年初苹果就会把这项“景深效果”功能开放给iPhone 7 Plus的用户。这对苹果来说似乎并不是什么不可逾越的障碍。

但其实更值得关注的是,苹果通过训练这一机器学习程序,在“景深效果”之后还会做出什么来。

iPhone仍是当下最好的AI载体  iPhone 7s Plus值得期待

iPhone 7 Plus的这颗54mm摄像头,堪比iPhone 4的三轴陀螺仪,将开启AI应用落地的时代。

iPhone 4的三轴陀螺仪,让iOS生态以游戏为突破点骤然爆发。普罗大众发现了在智能手机上可以玩到远远超出传统掌机或PC游戏体验的新鲜玩意。而这种掏腰包的热情也吸引了无数的iOS开发者。

这颗54mm摄像头,能做的事情可能会更多,但面向开发者的康庄大道还没有打开。

苹果双摄系统如果有合适软件的配合,理论上是可用具备与人眼一样识别现实中物体形状、位置、颜色、文本甚至是动态信息的能力。这种能力用来做“背景虚化”可谓杀鸡牛刀。但饭要一口一口的吃,显然,在目前阶段,苹果官方连“背景虚化”都还没有做到十全十美,更不要说开放给iOS开发者了。

这种能力通过机器学习等AI技术的训练、优化,将在不久后达到一个比较高的水平。虽然说苹果在机器视觉领域并不是称王称霸的引领者,但以苹果的一贯尿性,很有可能成为消费级机器视觉商业化的先驱。

无论是上游的纯算法研发机构,或者中游的应用企业,都无法忽视iPhone这一终端平台的广阔市场。而苹果要做的,是给这些开发者及客户,提供足够好的硬件和中间件。

via:flipboard.com

设想一下,当苹果双摄系统在机器视觉的底层信息采集与识别中技术成熟了,将会发生什么?

1、AR游戏。大部分消费者对AR的认知可能还停留在扫个图片有个企鹅跳出来传火炬。从识别二维码到识别具体的图画无疑是巨大的进步,但脱离了现实场景的AR基本属于看视频。但当苹果有能力告诉你摄像头中的东西“是什么,有多远,在什么东西的前面和什么东西的后面”时,游戏开发者可能会在你镜头中的桌子下藏一把武器,让你用来对付马上要从你背后窗户跳进来的怪物……

2、电商。同样的,当苹果本身提供了图片识别的基本信息之后,这一信息可以通过第三方的机器视觉平台,再转到相应的电商平台。这些接口和信息供应商,可以立刻在画面里告诉你镜头中的东西是什么,哪有卖,多少钱,你有多少个朋友也拥有……

3、更具创意的社交媒体内容,以及社交本身。和在单镜头时代崛起各种图片以及社交应用一样,具有AI能力的双摄必然会带来新的媒体内容和社交形式。

事实上,现在也无法想象双摄给图片社交会带来什么改变——我们只是知道改变一定会发生。

当然,iPhone 7 Plus的双摄系统目前版本在设计上被吐槽与LG以及HTC的“胶水双摄”没有本质区别。但残酷的事实是,因为摄像头技术的变化而带来摄像相关应用的变革,一定会先发生在苹果的平台上,这和LG或者HTC没有多大关系。

这些应用被开发出来的技术基础已经具备了,缺的只是临门一脚的平台接口,以及能提供足够回报的市场规模——这恰好是苹果的强项。

今年8月,库克在接受《华盛顿邮报》采访时表示:“我认为AR技术相当有趣,它绝对是一项核心科技。”而近日,库克在接受ABC News采访时又提到,AR的社交属性更强,苹果对AR的前景很有信心并将持续对AR领域进行投资。

via:google.com

看来,这一天不会太远了。

所以,结论很简单,iPhone 7 Plus是苹果在为AI应用落地做的一个激进尝试——激进到“景深效果”还是一个实验室应用就正式向市场投放。但这种激进举措对开发者生态的刺激作用巨大。一年后在无论是移动互联网应用还是AI应用层面,都面临着巨大的市场格局变化的机会。

那么,iPhone 7s Plus应该是一款成熟的、足够完善的、软件再一次让人惊艳的手机。说不定顺便把亮黑色工艺的良品率问题解决了推出更多陶瓷色款式。

巧的是,从2015年开始到现在如火如荼的AI项目投资,到2017年中,也到了第一波割麦子退出的时候了。

所以我的预言是,iPhone 7s Plus将是一支里程碑意义可能超越iPhone 4的手机。AI产业正式消费者化,并成为下一代互联网技术标配的时代,会率先落地在明年9月发布的第十一代iPhone上。

又及:

英特尔轰轰烈烈的RealSense开发者运动,在去年确定的方针是这样的,在全球范围内召集,在基于X86构架的Android系统上开发中间件与应用的开发者,扶持并加速他们推出有面向产业应用能力的产品或方案,作为RealSense的种子开发者。这批开发者将为英特尔的机器视觉技术落地到消费者铺平道路,甚至诞生下一个华硕或戴尔。

留给英特尔的时间不多了。而有趣的是,在马上要到来的AI商业化蛮荒竞争中,还是iOS打Android。下一代系统,又在哪呢?

via:bilder.4ever.eu

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/33vm24XsAzSFD83j.html#comments Sun, 18 Sep 2016 18:50:00 +0800
控制权的争夺战即将开始 //www.xyschoolife.com/category/zhuanlan/gSQsM0csfTNf2INx.html 雷锋网按:本文作者李智勇,十年栈道程序员,有一个好玩的公号:琢磨事,有兴趣可关注。

数字化后的软件和数据因为复制和重用成本为零,所以骨子里是可以免费的,这一特征让开源永久性的摧毁了微软的那种License fee模式,并让竞争的本质变成控制权的争夺战。在这一过程中,软件可以扮演什么样的角色,大家已经谈很多了,但基于原子的硬件究竟可以扮演什么样的角色,则很少被谈及,这篇文章探讨下这个问题。

| 数字世界的抓手

数字化程度的加深是毫无疑问的:每个人生活的记录几乎已经百分百的数字化,企业的行为数字化程度则几乎和个人差不多,随着万物互联的发展行业里的产品比如涡轮机也会生成自己的数字描述。

这种数字化有双重含义,一是各种对象比如人或者企业有一个自己的数据描述,一个是要有这些数据上的相应行为来让这些数据产生关联和交互。如果统计店铺的客流,而不做分析不对实际的商业决策产生影响,那这种数据化骨子里并无价值。

上述两点属于正在发生,并且未来程度也一定会持续的加深的事实,通常争议不大。但很多人并没意识到的是数字化的过程也是控制权转移的过程,当每样由原子构成的东西,最终都被数据化后,那新开发出来的各种根本需求事实上也就形成了一个个数字抓手,在个人身上聊天、找信息这类需求已经催生了IM、搜索引擎这样的新品类等,这点是已经发生的事实。

这种控制权的转移会颠覆现有的商业模式。我们不要忘记企业赚钱多少骨子里取决于它对品牌、用户、产品、服务、供应商等要素构成的系统的控制力。而控制权转移,转移的正是这种控制力,所以必然会引起商业模式的变更。比如说微信出来后,短信成为一个可有可无的服务,那显然相应的利润会从运营商转到腾讯。

在这种控制权转移的过程中纯粹的硬件企业是非常尴尬的,因为跳出来看,控制权的转移是在从现实空间向数字空间转,而纯粹的硬件企业只是基础设施的提供者,它们并没有这种控制权。纯粹硬件企业一边在做远比软件企业难做的事情,一边则在丧失数字世界里面的控制权,沦为简单的通道。

| 为什么硬件难做且不容易赚钱?

互联网企业用软件获取客户,早期每增加一个客户时其需要付出的成本几乎为0,晚期则主要是流量等用户获取成本,所以互联网公司盈利模式的根基是用户规模和活跃用户数。而硬件企业每增加一个用户,硬件成本之外还要支出物流等成本,所以不可能有软件公司的用户规模。

这种差距可以拿应用商店做个类比。根据Questmobile 7/14号的报告,应用宝的DAU是2800万,360手机助手是1800万,而做的最好的华为和小米的应用商店的DAU分别是332万和141万,大概是10倍的差异。这进一步导致数字生意和原子生意的本质不一样。数字生意里,靠ARPU值公司能赚钱,原子生意里靠ARPU值公司活不下去。更糟糕的是,硬件公司可能对用户在上面用什么软件完全没发言权,你预装了用户也不一定用,比如在国外三星是没机会做应用商店来和Google Play竞争的。

这样一来就必须纯在硬件上做差异化,可在这点上又真的很难,任何一件生产工艺上的变更其实都非常费劲,大小、厚薄这些东西越到后来越不好搞,关键是用户还可能对此无感。这样一来硬件企业就会沦为通道,和运营商面临的趋势一样。但运营商的好处是一定程度的垄断可以保证用户必须支付过路费,但通用硬件产品比如手机市场上,则是什么保护也没有。

简单来讲,硬件公司做软件量不够,在整个生态里也没有定价的权利,最传统的卖货模式又面临无法差异化的境地,所以就很不好搞。

| 出路在那里?

那硬件公司到底可以在那里寻找出路?

第一是苹果的玩法,不区分软件和硬件,只输出体验。这相当于自己啥都做。

第二是利用新品类的窗口期把自己变成一个软件和数据的公司,争夺系统的控制权。把硬件的生产外包给富士康这样的公司,而富士康则可以导入机器人等,大幅优化自己的生产流程。这相当于往上发展。

第三是真的让自己的产品不一样,这样就需要在涉及到的屏幕、CPU等要素上让自己真有优势,三星走在这条路上。但这非常困难。互联网公司的规模效应很难被复制,但硬件上考虑人才流动等,事实上很难你能搞定,别人搞不定,真有技术优势的主要也就是高通、Intel这样的公司。这相当于往下发展。

第四是如果有个性化强的产品,比如手表,那设计等可以建立独立品牌。但从苹果手表的表现来看,这并不是很容易。这相当于最古老的品牌路线,让产品中的非技术成分更有发言权,这在科技行业中还没被证明过。在服装、手表行业是被证明过的。贵的手表从来不是因为走的准才贵。

硬件的核心优势是如果没有硬件,就没有与数字世界进行交互的入口,在新品类的初期只有硬件企业才有机会整合出体验足够好的产品。硬件的壁垒在于复杂的生产销售链条,搞软件的人很难搞定。所以对硬件公司而言,它在争取系统控制权上有先发优势。

| 控制权争夺战

如果进一步划分,那可以把一个公司在生态系统里的位置分成三个等级:

一是对整个系统有控制权,比如苹果或者Google对Android生态的控制权,

第二是联盟里有发言权(大多时候缺我不行)比如高通,

第三种是没啥发言权,现在的各种手机厂商其实处这状态。

再把所有的生意划分成政府、行业、企业与个人。那我们可以发现,在个人的领域最佳的模式就是苹果和Google的模式,也就是说做硬件的公司要么做独立的生态,要么利用新品类的机会,转型做后端。上面说的向下发展,纯靠硬件差异化属于投入大但胜算小的思路。计算越向后端转移,硬件差异化的可能性越小,发言权越弱,也就越不可能赚到钱。

面向企业的领域,状况与此差不多,骨子里的原因都是在这俩领域里硬件和软件基本的走势是可分离的,只有在最开始的阶段,同时做软硬件的人在控制用户体验上有优势。到后来一旦出现Android或者计算转移到云端,那软硬件就开始分离,硬件企业就丧失发言权,沦为通道。

在行业方向上则有点不一样,这时候因为规模的原因不太能出现Android这样的中介,所以数字化本身会导致软硬件的融合,所以骨子里的趋势是硬件企业要变成方案提供商,即提供硬件也提供软件。To Goverment的生意很可能与这个更像。

这也就意味着,对于硬件企业而言最关键的节点是Windows或者Android这样彻底分割软硬件系统的出现。没清晰分割以前,整个生态基本是做硬件的主导的,清晰分割后,谁有控制权谁能赚钱。软硬被清晰分离后,最难的是做产品的,比如做手机的厂商,对高通、Intel这种技术附加值特别高的影响不大,他们的高技术附加值保证他们在任何一种生态系统中都会找到自己的位置。这就对做产品的硬件企业提出更高的要求,你不但要知道下面要做什么,还要知道控制点在那里,自己真想要的是什么。单知道做手机是不行的,还要知道做手机到底可以在后续环节中扮演怎样的角色。

那可见范围内,到底什么可以是这个控制点呢?针对不同的生态系统,这个点一定不一样,但确实有几种已经出现的模式。

一种控制点的争夺方法是Google的方法利用开源标准化硬件的上一层东西,可以是操作系统(Android),接下来让自己对这层系统衍生出来的基于内容的服务有控制权(Google Play)。操作系统这一层可以往上走,变成智能层,也可以往下走比如开源硬件,让某一类硬件都基于同样的开发板和SoC。在这里认知优势非常关键,大家都觉得重要的时候就没机会了。

一种控制点的争夺方法是结盟,但确保自己的不可或缺性,进而确保自己的发言权,比如Wintel联盟。华为做云的方法,叫上不碰应用,下不碰数据,其实走的就是这条路。这样只要生态能赢,它就能赢。

一种控制点的方法是通用智能,如果它存在并且数据驱动,那只要保持自己的数据优势即可。

| 小结

这里最有意思的事情是从控制权的角度看,一块地盘只会有一个控制者,所以对未来而言要么有野心、偏执而成功,要么就挂了,大企业想对付活着似乎会越来越难。未来的长尾效应可能越来越明显,头部的公司可能比苹果还大。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/gSQsM0csfTNf2INx.html#comments Sun, 18 Sep 2016 15:48:00 +0800
如果没有它,VR 注定是场 “闹剧” //www.xyschoolife.com/category/zhuanlan/mbfQYBZuccJgfU5O.html 雷锋网注:本文由Deeperblue发布雷锋网。

在百度上搜索 “VR 寒冬” 有 1,660,000 个结果。

《资本变脸:6 个月,VR 从狂欢到惨淡》(极客公园, 2016 年 09 月 07 日),《吸引了无数资本和创业者的 VR 行业,似乎已进入寒冬》(中国企业家,2016 年 08 月 26 日),《 VR 创业公司的寒冬来了?听听资本大咖怎么说!》(网易新闻,2016 年 05 月 27日),《小心被套! VR 将迎来寒冬》(搜狐新闻,2016 年 05 月 11 日)……

人们犹记得 2015 年下半年到 2016 年年初的 VR 热:从创业者到投资人,大家都对 VR 有着无限的热情与希望。而从计算机背景出生转行做 VR 的人真不在少数:他们正是看准了这块 “热土”, 从大公司走出,一头钻进 VR 行业。

行业缺少优质标的,关键性技术节点远未突破,VR 如同一个牙牙学语的婴儿,尚在襁褓之中,远未成熟。与其说 VR 凛冬已到,不如说之前的泡沫正在合理地被挤破。

这里的 “关键性技术节点” 其中之一,就是空间音频技术。在今天,人们更愿意叫它 3D 音频

苹果音乐和 VR 工作室 Vrse 联手为 U2 乐队制作了一段 VR 音乐视频《Song for Someone》。图为 MV 片段中 U2 在空无一人的多伦多体育场的演唱。

正如著名 VR 制作公司 Jaunt 的音频首席工程师亚当·桑默(Adam Somers)说的:“(在 VR 这件事上面),听觉占了五成,视觉占剩下五成。”

听觉决定了人类对空间的定位、对物体距离的感知等等。视觉给出一个线索,听觉则去证实这个线索是否真实存在。如果少了视觉的沉浸感,那么一切画面的真实性就荡然无存。不解决听觉问题,虚拟现实就不能成为虚拟现实。可以这么说,3D 音频决定了我们念叨着的 VR 时代是否真正到来。

首先科普一下3D音频

什么是 3D 音频?简单来说,3D 音频是对声音最逼真的模拟技术,能让听众完全还原到与现场相似的声场。类似的叫法还有全景声方案、Immersive Audio(沉浸式音频)。你能到完全听到逼真到 “现实” 的声音,而不是 “现实主义” 的。

目前世界范围内最成熟的空间音频制作公司之一,VisiSonics 的创始人之一拉玛尼 · 杜瑞斯沃米(Ramani Duraiswami)有一句话:“当你听到的声音是极度真实的时候,耳机就消失了。”

人耳对声音信号有一套自己的分析系统,来得以对声音进行分析与定位。从空间任意一点传到人耳(鼓膜前)的信号都可以用一个滤波系统来描述,音源+滤波器(传递函数)得到的就是声音到达两耳鼓膜前的信号。

HRTF 图示

人耳对声音信号有一套自己的分析系统,来得以对声音进行分析与定位。

我们不必关心声音是如何传递到双耳的,而只需要知道:音源与到达我们双耳之前的信号是有差别的;并且我们的左耳和右耳听到的声音是不一样的。这可能是源于我们的进化,视觉没有办法在黑夜中定位,而耳朵可以通过左右耳的声音不同,进行定位与防御。

这个滤波器(传递函数)叫 HRTF  ( head-related transfer function )。如果我们有空间所有方位到双耳的滤波器组,就能得到一个滤波矩阵,从而还原来自整个空间方位的声音信号。

HRTF 是极具个人性的。每个人成长中都会形成一套自己对听力的感知。并且,我们每个人的头部大小不一样、耳间距不一样,耳朵的轮廓、里面的旋涡状也不一样。加上,我们在成长当中养成了自己独特的听力习惯。可以这么说,每个人听到的同样物体发出的声音,其实都有细微差别。

如何还原人耳真实听到的声音?

科学家对此的探索不是今天的新事。在将近一个世纪之前,1933 年,AT&T 贝尔实验室就把这项技术带到了芝加哥世博会上。这家公司的人声研究部做了一个机械化的仿真人头——他们把这个假人取名叫 “Oscar”。Oscar 的耳朵里装上了两个麦克风,坐在展示房间中,录取周围的声音。Oscar 听到什么,他就能录到什么。

AT&T 贝尔实验室提供的解决方案叫做双耳录音技术(Binaural Audio)。

双耳录音技术模拟人类真正的头部的形状、左右耳的耳间距,可以收录到近乎于真正的人类听到的声音。这是一种有效的“笨方法”,物理层面上即还原了 HRTF。沿着这条路径,德国麦克风公司纽曼 (Neumann) 在 1973 年到 1992 年间,连续在双耳录音技术上做出了各种突破——更好的收音设备、把麦克风放置于仿真假人耳内鼓膜上等等。 

1933年,AT&T实验室的双耳录音技术仿真人,Oscar

双耳录音技术在这个世纪中一直处于缓慢的速度发展,原因在于,没有强大的产业需求。一直等到这一波 VR 热潮的来临,它才重上舞台。 由于 Oculus Rift , 索尼 Morpheus 以及三星 Gear 带来的 VR 普及,3D 音频技术迎来了它的 “文艺复兴” ——于是它又被称作了 VR 音频。

3D 音频技术到底难在哪儿?

VR 需要有 3D 音频才能产生更真实的沉浸感。Jaunt 的音频首席工程师 Adam Somers 在接受 THE VERGE 采访时这样描述:“在沉浸感这件事上面,听觉占了五成,视觉占剩下五成。”

Jaunt 是美国著名的 VR 制作公司,去年得到上海华人文化产业基金(CMC)与迪斯尼的 6500 万美金投资。

然而,双耳录音技术本身不能支持收听的时候转动头部。玩家在玩 VR 游戏的时候,如果有声音从后面传来,人的本能反应是转头向后看。这时候如果声音继续在你的前方,那么会大大降低沉浸感。

另一种还原真实声场的技术也不能支持收听的时候转动头部,叫环绕立体声 ( surround audio ) 。环绕立体声用多个物理扬声器来打造一个 360 度的声场,来自不同方向的声音通过不同的音箱/扬声器来播放。该项技术最著名的公司是 DTS 和杜比(Dolby)。

比如一家环绕立体声影院,它会在观众的周围放置很多音箱/扬声器。如果画面左边出现了爆炸,那么左边的音箱会发出声响,而不是右边。由于播放器的位置固定,听众只有在固定的点,才能听到模拟得最真实的声场。

真正的沉浸体验,来自于高中低音频在空间内全方位的还原,即以人头为中心收录一个球形内所有角度的声音,并进行还原。

如何解决沉浸体验这个问题?

计算成为了重中之重。

在双耳录音技术取到的声音之后,还原 HRTF,然后进行计算,把各个方向的 HRTF 还原,才能合成一套随着转头、位置移动声场自然发生变化的空间音频。

在这三个环节中——收音、录音;计算、渲染 ( processing, rendering ) ;回放——技术壁垒最强的地方在于计算环节。

核心算法是考验各家空间音频公司的能力指标。Two Big Ears 的公司广告语说明了一切:"We do mathematics so you can focus on being awesome."(我们做数学,你来好好做酷的事情。)这家位于爱尔兰的公司目前在空间音频技术上处于领先地位。

有些团队则为了减轻计算量,用了一些比较笨的办法。比如 3dio,他们创造出收音设备,可以尽可能地在同一时间录到各个方向的 HRTF 。

3dio 公司生产的四对仿真人耳的收音设备


The Verge 在短片 Hear New York in 3D Audio 中展示他们所用的收音设备——仿真人耳,这个收音设备能够模拟声音在耳朵这种独特物理结构下的的传输过程,进而重现纽约街头的实景声音。

通常,三个指标可以用来判断一家公司 3D 音频核心算法技术水平:

1. Localization : 指的是声音的定位。环绕立体声对于声音的平面 360 度有较好的模拟效果,而对于上下 360 度则难以模拟。VR 音频的难点也在于做出上下 360 度的声音模拟。能做到上下逼真的则技术更为先进。


2. Propagation : 声音在封闭空间中,不是只传输一次,而是有无数次的反射(bounce back),我们可以用回音来理解。Propagation 用来描述是否能让用户感觉到自己的确在一个真实的空间中,这种真实感越强越好。


3. Occlusion : 声音在传输过程中,如果中间有一个障碍物,这个障碍物会对声音的传播产生影响。如果一个 VR 音频技术可以对障碍物对于声音的影响模拟得很好,则是一个做得好的 VR 音频。

除去以上三点,目前空间音频最前沿的解决方案是 Ambisonic 技术。于是,能不能做 Ambisonic 也是判断一家公司技术高低的指标。

Ambisonic 同样是一种声场模拟手段,但它更考验团队物理、数学和计算机的综合能力。如果我们把空间中某一个接收声音的位置想象成一个充着气的气球,那么空间中各处传来的声波会对这只气球表面产生作用力。

Ambisonic 利用这个简单道理,在空间中摆放一堆扬声器,来模拟对应现实情况下各处声波对这只气球的作用力,然后计算,还原 HRTF。

通过 Ambisonic 得到的音频数据,是最全面的数据,它可以降解到任何其他音频格式。打个比方,Ambisonic 如果是图像中的 jpg , 则杜比 7.0 、杜比  5.1 等等音频格式相当于像素。

如何评价 3D 音频技术的行业现状?

3D 音频技术势必会改变所有的应用场景整个空间音频产业有两个机会

第一个机会是做音频引擎 ( audio engine ),其核心在于 HRTF 函数、Propagation 等技术,即如何在游戏里尽可能逼真地还原出立体声来。目前简单的做法是,在 VR 游戏中放置不同的虚拟音箱,并配合 Oculus Audio SDK ( 实现了 HRTF 以及其他效果,包括 reflection 等),就可以实现空间音频。

而不简单的做法有很多,需要团队具有强大的计算能力,成立于 2013 年爱丁堡的 Two Big Ears 是其中翘楚。他们所做的 plug-in 可能是目前行业中技术最好的 plug-in 之一。

第二个机会是实现 3D 音频在现实生活中的运用,即怎么配合全景视频录制带多个角度的 VR 音频。这样用户观看全景视频的时候如果转头,声音会进行动态调整。就应用场景来说,对于虚拟演唱会,3D音频技术尤其重要。

从目前整个全球市场来考量,3D 音频由于其自身技术难度,还没有出现提供完美解决方案的公司与团队,大牌音频公司 DTS 所做的技术已经比较接近,但最终版本仍没有公之于众,并且面临着价格极高的可能性。

以下这张图列举了世界范围内,最被关注的七家 3D 音频技术团队:

  • VisiSonics: 

VisiSonic 起步最早,团队来自美国马里兰大学的实验室,2015年10月与 Oculus  达成合作。Oculus 购买了他们的技术,叫做 RealSpace 3D , 用于 Oculus Audio SDK 。他们设计出了一个 3D 音频视频同步录制的设备,由一个柱型加顶部球型装置组成,球型装置上有 64 个麦克风。硬件层面上,技术拔尖并保持世界领先地位。

  • Two Big Ears

位于苏格兰爱丁堡的团队,最近刚刚被 Facebook 收购。他们的核心技术是做 3D 音频引擎,名字叫做 3Dception 。就 plug-in 层面上来讲,这支团队是目前世界范围内技术最好的团队。在被 Facebook 收购前,据传HTC Vive 音频的计算渲染用的就是这支团队。

  • 3dio sound

这家公司是目前市面上可见的空间音频收音录制领域最好的公司。他们出品了有八个耳朵的收音装置。

  • Thrive Audio

这家公司与 Tilt Brush 一同被 Google 收购,属于 Google VR 战略布局的一部分。团队来自爱尔兰的都柏林圣三一学院。他们声称已经申请了两个专利。

  • Mint Muse

一支之前在美国圣地亚哥、最近刚刚搬迁到上海的团队。主创团队来自高通。他们主攻渲染质量、算法优化、时延等领域,设计制作空间音频后期制作、coding 以及软件插件工具,目前不涉及硬件生产。这支团队面向的解决人群是录音师,他们正在开发一款专业 VR 全景声调音软件,让调音师可以在编辑全景声过程中实时监听成品效果,简化整个工作流。

  • Waves

这是一家位于以色列的空间音频技术公司,之前做专业 studio 的工具,比如插件与音效,是很多著名 studio 的合作伙伴,如 Abbey Road 。

  • Impulsonic

一支孵化于美国北卡罗来纳大学计算机系的团队。主要针对 VR 游戏与应用的 3D 音频开发,产品叫 Phonon。成立于 2012 年。创始人阿尼什 · 钱达克(Anish Chandak)博士说创立之初他的想法就非常简单:“帮助游戏设计师与开发者更容易做出高质量的空间音频。” 大部分收入来自于 Phonon 的 license 收入。他们去年接受美国国家科学基金的投资,研究同时应用于一些政府项目。

大部分做 VR 游戏的工作室还没有开始大规模使用 3D 音频技术——原因主要是 “穷”。既然“寒冬” 来了,那么也就更穷了。事实上,这些没有好内容的游戏工作室还用着环绕立体声技术;只有少数极客风格的工作室开始应用一些空间音频技术。3D 音频技术仍旧是一件挺前沿的事儿。

然而,3D 音频对于整个 VR 产业来讲,是基础的技术性板块

拥有核心技术,才可能在应用层面上等待下一个突破点。做无人机的大疆(DJI)就是一个例子,早在无人机变成商业模式之前,大疆的主创团队已经在飞行控制这一个技术点上做了长时间的研究与努力。

如果 VR 终有一天值得每一个用户去花时间使用,那么它势必在技术方方面面上已经成熟到可以 “沉浸式体验” 的时候。

等待回春,先从 3D 音频开始。

参考文献:

i.  Rumsey, Francis (2001). Spatial Audio. Focal Press.pp. 62–64. ISBN 0 240 51623 0.

ii.  Blauert, J. (1997) Spatial hearing:the psychophysics of human sound localization. MIT Press.

iii. Begault, D.R. (1994) 3D sound forvirtual reality and multimedia. AP Professional.

iv.  Eric Benjamin, Richard Lee, andAaron Heller, Is My Decoder Ambisonic?, 125th AESConvention, San Francisco 2008

v. https://developer.oculus.com/documentation/audiosdk/latest/concepts/audio-intro-env-modeling

雷锋网(搜索“雷锋网”公众号关注)注:本文为deeperblue授权雷锋网发布,转载可联系微信:295513406。不得删减内容。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/mbfQYBZuccJgfU5O.html#comments Sun, 18 Sep 2016 15:24:00 +0800
为何大数据公司很多,AI公司却很少? //www.xyschoolife.com/category/zhuanlan/uSAjhOQq9huRig8S.html 雷锋网按:本文作者廖峰,互联网分析师。

via:ravepubs.com

“接下来的10000家创业公司,都将做这一件事:take X;add AI”,KK说,而这一趋势将让AI将像电一样成为最基础的资源,迎来一个IQ as a Service的时代,智力被当做一种服务提供给任何一个人。现在不止是KK在说,库克也在说,霍金也在说,BAT同样在快速跟进。

AI应用是总结现有的规律并实时制定出相应的解决方案,大数据分析关心的是过去发生的事件的现象和来源为决策提供参考。一个是对未知的事物反应速度越快越好,一个是对已知数据积累的越丰富越好。

IDC发布的报告显示,2017年大数据全球市场规模将达324亿美元,年复合增长率为27%,其中市场增长最快的领域是数据存储领域(53.4%)。而BBC预测,人工智能市场2020年全球市场规模将达到183亿美元。

看上去大数据市场已经非常成熟,AI作为新贵只是刚刚开始,未来也会有一席之地。但提及AI反而大家都会很容易想到苹果的Siri或谷歌的自动驾驶汽车,已经遍地开花让人司空见惯的大数据却又很难让人能马上说出个典型的123来。这是因为快速发展的移动互联网时代,用户喜好转变之快,信息来源碎片化程度之高,很多时候大数据并不能未卜先知,大数据是在方方面面都使用到的工具但不直接产生服务,而AI则不同。

从工具到服务,并推动移动互联网的再次变革,是通过机器将沉淀数据进行深度有效学习的产物。苹果可以通过用户使用APP的习惯预测用户个体的喜好进行相应的沟通和内容或服务的推荐,谷歌可以通过地图的交通监控中分析出不同路况汽车驾驶的方式提供。是否能有高效准确的建议或判断,就成为其中的重中之重。这需要可自迭代的算法和数据模型,而不仅仅是经验和数据的叠加,SiriI和谷歌自动驾驶汽车实现AI的关键点是他们提供了一种与目标互动的实时在线服务。

如同王阳明从“格物致知”到“知行合一”,其实大数据与AI并非是鸿沟分明,从跟踪静态的数据,到结合动态数据参与数据变化,让机器的深度学习犹如人的理论实践一样根据客观环境变化而得出不同的结论并应用周而复始达到极致而已。

这对大数据公司提出了挑战,是否能做到获取实时数据的能力同时与目标群体产生相应的互动来验证自己的判断并快速实现商业价值,成为转型为AI公司的必要环节

正如乔布斯在1983年说——

“我认为展望未来50至100年,如果我们真能开发出一款设备,它可以捕捉潜在精神,或者一套潜在的原则,或者是潜在的看待世界的方式,这样当下一个亚里士多德出现的时候…...也许他可以随身携带这款设备,将所有东西都输入其中。这样当这个人死后,我们就可以问这款设备‘喂,对此亚里士多德会怎么说?’,我们得到的答案或许是错误的,或许是正确。但是想到此我就已经很激动了。”

打造属于自身可控的数据应用闭环,为专属特定的人群提供简单有效的服务,相信未来AI将不仅仅是一个交互界面,在电影中钢铁侠将他逝去的管家贾维斯变为AI的情节也不会仅仅是一个科幻想象。

而对于很多企业来说,大数据和已经成为标配,但他们所沉淀的数据资产有多少能够产生增值,却很难去衡量。如果仅停留在收集数据和出具分析报表,因为当前数据量和数据种类已形成爆发性的增长趋势,当中大量的碎片化非结构化数据,企业在营销和运营过程中很难有效从中提炼价值。

“单凭人工智能技术实际上是很难跨越这样的鸿沟,帮助企业从大数  对对对获取到数据价值,进入到所谓的营销、客户之间的互动、产生很好的互动体验。而在IBM, 我们试图通过认知的解决方案和系统解决这之间的鸿沟 。”郭继军说。

苹果年初则宣布在AppStore中的应用数量已达200多万款,这对于业界而言堪称天数。但从分析统计站点Sensor Tower最新预测报告中看,这似乎只是苹果的一小步,因为报告中预测这个数字将在2020年前飙升至500万。得益于苹果得天独厚的平台环境,越来越多人青睐苹果,APP数量自然也是水涨船高。报告还预测2016年底App Store应用数量将超过293万。

苹果的财报中可见活跃的苹果设备甚至已然超过10亿台,实际上iCloud的用户是7.82亿,这也意味着苹果每秒需要处理超过20万条iMessage消息,相当于每天近170亿条信息。

IBM将积累多年的认知技术能力与行业相结合,拿出沃森不单能上《危险边缘》节目也能剪辑出惊悚电影《Morgan》的预告片的实现能力,为企业客户提供着具有行业深度洞察的实时智能服务。这也是IBM与苹果在在2014年7月16日与苹果展开合作的原因,而不只是沉淀数据提供分析报表。AI不仅仅是大数据,更加是参与到数据的变化之中影响和改变数据。

在谷歌2015年第四季度的业绩报告中,谷歌CEO Sundar Pichai宣布旗下电子邮件服务Gmail全球月活跃用户数突破10亿大关,这意味着全球每7人中就有1人拥有Gmail账户。

另外6个突破10亿大关的产品包括谷歌搜索,Chrome,Android,Google Play,谷歌地图,以及YouTube。毫无疑问,我们的生活有很多都离不开谷歌的服务,而谷歌通过用户的搜索数据用来进行人工智能(AI)技术的研究,其AI技术在很多服务中都有运用,包括Gmail。事实上,Sundar Pichai还表示Gmail中相当大的邮件回复都是靠AI完成的。在移动端的Gmail应用中就有10%的邮件回复利用了AI技术。

通过对人群生活数据的分析和学习,并参与互动。基于人工神经网络的深度研究,谷歌寄望在智能汽车上领先苹果而在最近的用户调查中,获得了一定的优势。

而对于人工智能在营销上的应用,Google的高管认为有助于获得健康、高效的流量,而智能营销意味着通过连接高度运转的人工智能,让人类实现更智慧的决策。具体来说,人工智能技术可以对肉眼看到的广告进行分析,包括一些细节的的分析,诸如色差、色彩,进而尝试改变和用户之间的互动,最终提高营销效果。

正如AlphaGo对战中,第一局的37手被认为是人工智能的诞生。它和很多人同时下棋,24小时也不用休息,不断获得进步,最后形成自己的逻辑和判断。基于谷歌在搜索领域的积累,得到最多学习机会,最快得到成果的反而可能是广告营销领域。

综上所述,大数据实现的是基础数据筛选和规律呈现,而高门槛的AI要实现深度学习后的自主判断和决策,而为这方面最先带来突破的领域可能是营销。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/uSAjhOQq9huRig8S.html#comments Sat, 17 Sep 2016 17:19:00 +0800
刷月饼事件是规则问题,与价值观没什么关系 //www.xyschoolife.com/category/zhuanlan/YfbcpNcq3iZ0zXyh.html 雷锋网按:

本文作者葛甲,互联网分析师。在他看来,刷月饼无关价值观,关乎规则。在此之前,霍炬认为并没有违反职业道德,而秒杀本来就无公平可言。雷锋网发布文章于此,不是要站队,而是想要呈现更多的观点和事实,希望能够对你们理解事件本身有所帮助。

声明:作者观点,并不代表雷锋网立场。

技术人员利用技术特权为自己做事的情况是相当普遍的,普遍到很多技术人员并不认为这是件错事。

制度上的缺陷用正确的价值观来进行解释,是成本最低也最廉价的一种掩盖方式,在我们这个还未发展成熟的社会文化环境中,这样精致的粉饰还是越少越好。

以下是正文内容:

阿里巴巴五个技术人员在内网刷月饼被开除,因何能在舆论中引起观点分化,几方观点各执一词难舍难分,本身就是件颇为值得细思量的事情。当事人认为自己只是为了买到一盒月饼而动用了技术手段,刷出后并没有付款,且在此过程中也并没有不当获利,言外之意处罚过重。有些舆论,尤其是来自技术界的言论也认为,对这件事做出这样严重的决定并无必要,这是小题大做,也是上纲上线。

大家普遍不太多讨论的一件事是,安全技术人员使用了js脚本这类的技术手段去刷月饼,在多数人并不了解何为js脚本的情况下,此类细节被忽略了。js脚本其实就是个批处理文件,可以代替人在计算机上实现一系列操作,例如持续自动点击某个链接。

这意味着,当你坐在电脑前准备秒杀一件商品时,人力是永远跑不过脚本程序的,例如网上出现1元秒杀汽车的活动时,或是抢购某款紧俏手机时。js脚本对于技术人员尤其是安全技术人员来说,简直是小菜一碟,但对于大多数不懂技术的用户来说,却相当于远隔千山万水。不懂技术的人永远秒杀不到1元汽车,这个问题的答案相当明显,但并不是人人都能清楚。

中国文化中,长期存在着一种“靠山吃山,靠水吃水”的社会文化现象,拥有某项便利和特权的一群人,会尽情使用手中权力为自身牟利。例如封建社会京城大官家的门子,即便是封疆大吏求见,也是不得不掏出银子来打点的,这是体制赋予给门子们的身份特权,即便上下心知肚明,也对此毫无办法。

这种文化在神话传说中也有体现,例如唐僧师徒四人在历经磨难后取得真经,搬经书时却遭遇阿难和迦叶两位尊者索要人事,最终唐僧不得已奉出紫金钵盂方才如愿以偿。而这件事被告到佛祖那里去时,佛祖不但没有责罚自己的索贿弟子,却反而讲了个故事来证明两位尊者索要人事的正当性。中国文化中,对这类事情的宽容程度超乎想象。

在普遍认知中,利用特权和职权为自己谋利,似乎从来不是件要紧的事,有特权有职权却不去做,那才真叫食古不化。经济困难时期,城市中大街小巷的供销社和国营商店,就是个典型的现代例子。那时候食品供应不丰富,鱼肉蛋奶油凭票供应,老百姓买肉时的购买偏好是买的这一斤肉最好肥的多一些瘦肉少一些,因为肥肉拿回家可以炼出油脂用来炒菜,多吃几天荤腥,而瘦肉则除了几顿吃完就没别的用处了。

售货员有这个权力对一块肉的肥瘦程度做出安排,在大家都是一斤肉的情况下,给领导、同事和自己先各自割出肥肥的几块,然后是照顾亲戚朋友,仨亲俩好,剩下没有多少肥肉的大块瘦肉则用来向老百姓进行出售。有些会来事儿的顾客多说几句好话,自然是可以多得一些肥肉的,不会来事儿的就只能割一块偏瘦的肉,甚至碰上小孩代家长前去卖肉,割一块全瘦的拿回家导致大人骂孩子哭也有可能。大家都不觉得这有什么问题,把他们放在售货员那个位置上,那些买到瘦肉的受害者也会这么做的,没准还变本加厉。

别以为社会真的发展到什么高级阶段,在技术力量崛起之后,利用技术身份为自己谋利,与之前利用职业身份和职权身份为自己谋利的那些人,并无本质区别,而人们对此事的看法,也并没有发生多少改变,有权不用过期作废是被普遍接受的真理。所谓身怀利器,杀心自起,没有多少人能锻造出至高境界,对自己拥有的那点小权力采取克制的态度,更多时候,权力资源都能得到有利于己的良好转化,悄无声息,水波不惊。

阿里巴巴那几位技术人员所犯的错误从表面来看并不严重,无非是想在有限的月饼资源中得到自己那一份,也并没有贪心要多买几盒,在发现多多刷出来几盒之后也并没有付款,甚至还主动找到行政部门要求取消。可这件事的性质,却远非看上去那么简单。月饼可以算是一种资源,这种资源也可以是汽车,可以是房子,更可以是现金,在10万人都有资格去抢购的情况下,抢购环境的公平性则有很重要的意义,这是公共福利的一部分,用技术手段去人为更改结果,等于是对公平环境的一种践踏。

如果每个会技术的人都用技术手段抢到属于自己的一份,这种行为本身无疑是对其他大多数人权利的损害。如果这不是月饼而是房子,是汽车,是上海汽车牌照,那事情的严重程度还会上升,好在这还只是月饼,但从性质上看与利用技术手段抢房子抢汽车的行为没有区别。标的物价值不在大小,而在于事情的性质。谁也不能担保那几个能随手写个程序去抢月饼的技术人员,未来不会用技术手段去抢自家东家发放给用户的红包,汽车和房子。

对这几个技术人员做出的处罚,只能遗憾地让人看清楚一件事,那就是技术人员利用技术特权为自己做事的情况是相当普遍的,普遍到很多技术人员并不认为这是件错事。其实从人文角度很容易对这件事得出与技术界不同的看法,技术人员刷月饼事件完全错误,错到根本没有可辩解的空间,他们只是倒霉,要为一种流行于互联网行业的普遍的滥用技术特权现象担负起所有的后果,但其实这一后果并不需他们来一力承担,未来还会有越来越多的倒霉蛋跳出来担着。

过去20年在互联网行业出现的很多怪现象,远比一盒月饼更严重。有网站编辑偷偷把流量导入自己私开的网站而大发其财的,也有人通过技术手段大量秒杀自家促销商品而赚到盆满钵满的,更有利用公司各种看得见看不见的资源为自己谋利的。这些行为大量存在,且并不容易被发觉,互联网公司的内部监督机制大多形同虚设甚至根本没有,技术人员也普遍缺乏对公平这一普世价值基本的敬畏,他们更习惯于充分运用自己的技术特权。

刷月饼事件其实根本不是什么价值观的问题,而是一个关乎于规则的问题,因为价值观的形成不能脱离历史和现实,其特征也并非飘忽不定,更不受客观因素所左右,是特定阶层对特定问题的某种看法。但规则则与此不同,规则的形成是为了保证运行机制的顺畅,秩序的稳定,在某个特定位置或拥有某项权力的人,该做什么不该做什么,都是由规则所约束的,这根本与你秉承什么样的价值观没多大关系,即便海盗团体的正常运转也是高度依赖规则的,虽然他们并没有什么正确的价值观。

可以高喊出来让人们知道的价值观,往往是规则完善到一定程度的产物,只有在一个团体内所有人都明白,用技术手段刷月饼哪怕只有一盒也是错误的,是破坏公平环境的,是损害他人利益的,价值观才有可能形成。制度上的缺陷用正确的价值观来进行解释,是成本最低也最廉价的一种掩盖方式,在我们这个还未发展成熟的社会文化环境中,这样精致的粉饰还是越少越好。

推荐阅读:

《程序员爱写脚本是种病》By 霍炬

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/YfbcpNcq3iZ0zXyh.html#comments Fri, 16 Sep 2016 11:46:00 +0800
程序员爱写脚本是种病 //www.xyschoolife.com/category/zhuanlan/idtShXWtjkRk5Se2.html 雷锋网按:本文作者霍炬,来自公号“歪理邪说”,雷锋网已获得授权。

如果你就是程序员,或者你熟悉程序员这个群体,有时候你会发现他们在干一些奇怪的事情。比如说,他们跟你说在写一个脚本,你问他写脚本干嘛?他告诉你,这事情重复做太无聊,写个脚本以后就不用老让我重复操作了。听起来很有道理吧?但如果对比一下时间,你会惊讶的发现,他们重复做200次这件事大概总共只需要花一个小时的时间。但写这个脚本反而得写5个小时。以这个职业之外的人看来,这绝对是有病,完全不可理解,让你重复几次能死人吗?

重复几次应该不会死人。但是程序员这个职业存在的目的就是最大化的利用机器,通过自动化来完成工作。外行人往往觉得程序比较神秘,但实际上,程序的本质就是驱使机器去替人干活。如果不考虑规模和管理成本以及速度,没有什么程序能干人不能干的事情,只是机器需要5秒钟,换成人力劳动需要2年和500个人参与,后者通常是社会无法负担的成本,所以我们需要程序来替代这种工作。所以程序员难以忍耐低效重复的工作,并以改变这种低效重复为目标。一个程序员可能会花比亲自重复劳动更多的时间去写一个脚本代替自己,通常是因为: 

  1. 现在需要重复2次,也许过几个月我还要重复2次,再过几个月还要重复2次

  2. 我可能一辈子就重复做2次这件事,但其他人是不是也要重复做2次

于是写完这个脚本之后,程序员们就会通过开源把它贡献出来,这些是对整个行业的积累。

到现在,程序员们可以轻松在网上找到各种开源代码,挑选合适的拼装起来再加上修改,快速完成自己的工作,这种工作方式的变化是技术行业近年来最大的变化之一。今天在这个领域最耀眼的成就是什么呢?是容器和DevOps。从自己部署服务器到在云中使用Docker,这一条技术路线是无数不愿意重复完成简单工作的程序员构建起来的。他们把自己完成的脚本贡献出来,经过各种汇总,抽象提升,制作出新的工具,给更多人用,接受更多人的贡献,最终让整个行业的技术水平大大提升了一步。

一个好的程序员应该是“懒惰的”,他懒到不愿意亲自重复做同样的事情3次,这才能在这个基础上创造出更好的工具。

是的,我想说的就是阿里的脚本抢月饼事件。这件事让人们分成了两派,一派是了解程序员并且清楚事情细节的,这类人得阿里过分了,程序员没做错什么。另外一部分人要么对技术不了解,要么对事情不清楚,他们觉得程序员这样投机取巧是不可原谅的,开除的好。这里面事情的细节是:他们并不是通过什么特殊的手段抢到的月饼,只是在浏览器里面写个脚本,让浏览器自动去点击提交,以替代亲自盯着屏幕按鼠标的工作。如果从这个角度看,我觉得很容易得到一个结论:这种做法没什么不合理的。对于普通人,在判断这件事之前,首先要明白这几个程序员的做法对普通人有没有什么危害。他们的行为没什么过分的,不是黑客,不是攻击,没有窥探普通人隐私,没有利用漏洞获得利益,不会动你银行帐号上的钱也不会盗你邮箱密码…不要对程序员心怀恐惧或充满神秘,大多数程序员只是在帮助构建你们享受的这个高度自动化的社会而已。

如前所述,技术行业发展到今天,一个程序员可以通过一个脚本,驱动上万台服务器运转,也可以通过一个脚本调集资源,完成单靠人力需要几万年才能完成的工作,自动化程度已经高到如此地步了,一个脚本可以翻天覆地、排山倒海。但是你让一个程序员去盯着屏幕,点几百下鼠标,就为了抢一盒月饼。这不仅不合理,甚至可以看作对技术行业的侮辱。

如果非要谈公平,我们必须认识到一个事实,就是秒杀这样的模式绝对不可能公平,如果要公平,最简单的办法,是收集所有想要月饼的人,通过抽奖来决定谁可以买。(当然程序员可能会要求review抽奖程序代码^_^)但是活动主办方并没有采用这样的模式,而是采用秒杀模式。在上班时间,让数万员工盯着屏幕看着时间,点几百下鼠标,请问这总共要浪费多少人,多少工作时间,开展这样的活动竟然是符合公司价值观的,这让我非常困惑这家公司的价值观到底靠谱不靠谱。何况,在秒杀的那个时间,有人工作不太忙,有人非常忙,让这两种人一起秒杀,对于忙碌的人公平吗?有人正在开会,有人正在见客户,他们显然没法去参与秒杀,这对他们公平吗?更奇怪的是,工作时间非常忙的人是为了公司在努力,不忙的人是工作量不饱和,结果这个符合公司价值观的活动客观上竟然惩罚了这些为公司工作更努力的人,利于那些浑水摸鱼有空在工作日下午点几百下鼠标的人。这也太诡异了吧?说到这里,如果你实在接受不了程序员没事爱写脚本是个好的职业习惯这个想法的话,也可以稍微退一步,认为这是一种职业病,原谅他们吧。

再换个角度看。假如说一个团队的小领导,手下有5个人,他自己很想抢月饼但是需要开会,没法抢,于是告诉手下5个人,你们抢的时候帮我也抢一下。神不知鬼不觉的,他动用了5个人帮他抢月饼。这样相对于那些普通员工,只能自己亲自抢的人公平吗?再考虑有人反映快有人反映慢,有人喜欢玩及时战略游戏,多年游戏之后,点鼠标手速快过普通人一倍,这让他和大家一起人肉点鼠标秒杀,对其他人公平吗?所以创造不公平的并不仅仅是利用技术手段的程序员。有人利用管理结构,有人利用职业特征,有人利用自己的特殊技能,在这个本来就不可能公平的游戏里面比别人稍微走的快一点。这怎么就成了违背公司价值观,值得被开除的大事?

上个月发生了一件有意思的事情,可以和这件事相比。是魁北克技术移民开放名额,一共5000个名额,在固定时间让全球希望移民的人开始抢名额,也是秒杀。最终有几十万人参与,可想而知秒杀场面之惨烈。我知道很多人付钱给中介,中介会帮助安排尽量多的人帮忙抢,增加命中率。而我一位朋友的朋友,写了一个脚本,动用了几十台服务器,顺利抢到了一个名额。在抢名额的活动中,有人利用权利,有人利用钱,有人利用人情和社会关系,有人利用技术 。这算不算公平的游戏?显然不公平。但它是不是魁北克政府希望的?我和几个朋友讨论,都认为这恰恰是他们的目的。无论你通过什么手段,利用什么资源,在这种局面上抢到了名额,恰恰证明了你有基础的法语能力,和比较好的社会生存能力,无论这种生存能力是通过技术还是通过资源、社会关系、钱表现出来,这都是他们希望接受的移民。相比之下,美国移民有一种叫做“乐透绿卡”的玩意,那就是纯靠抽奖,这种做法的目的是增加人种多样性。所以,抢月饼活动的目的是什么呢,是希望公平还是希望不公平?从事后人力资源部门公布的公开信上看,他们在乎的是公平。那么我只能说,策划这个活动的人根本没想清楚,他们设立了一个不公平的规则,反而希望获得公平,这显然是不可能的。如果非要有人因此承担责任,我觉得这个活动策划者应该承担主要责任,而不是这5个程序员。

这几个程序员的具体做法有没有违背职业道德?我看也没违反职业道德。阿里发的公开信强调他们是安全部门的员工,似乎暗示他们通过系统漏洞得到了好处。但事实上他们只是在浏览器里面写一个脚本。这种级别的脚本是任何人都可以完成的,它不需要学几年写程序,不需要数学,不需要了解系统,甚至不需要学习使用开发工具,因为这本来就是浏览器提供的功能。任何一个员工,无论是否写过程序,只要想学,花上半个下午就能掌握这个技能,以后就可以随手写个脚本让浏览器替他完成这种枯燥的重复刷新工作。从这个角度看,使用脚本抢月饼这件事,对于所有人都是公平的,对于程序员确实稍微容易一点点,但也并不是得天独厚非他不可的技能。

什么是公平?对那些无法通过努力改变或提升的属性的保护才是公平。比如我们无法改变肤色,无法改变种族,无法改变年龄,无法让残疾人恢复正常,对这些群体应该公平对待,这是社会公认的原则。但是对一个并不需要多困难就可以掌握的技能,至于提到公平这个高度吗?再看一个例子。前几天G20期间,马云是中国企业家里面最风光的人,他和加拿大总理杜鲁多的对话幽默风趣,吸引了很多关注,并且也取得了巨大的谈判成果。为什么马云可以成为媒体焦点?除了G20开在杭州,近水楼台,还有一个重要原因是马云和杜鲁多可以直接聊天,谈笑风生,其他企业家英语没有这么好,给他们这个机会,也需要通过翻译间接低效交流,没法和马云这样轻松风趣的和外国首相聊天。那么其他企业家是不是也应该去抗议这种行为,认为马云讲英语是对其他人不公平?是不是也应该禁止马云说英语,无论英语有多好,必须和其他人一样通过翻译完成沟通,这样才算对大家公平?

这显然是不对的。如果你听过马云的英语演讲,我相信你和我一样震惊。马云应该是我知道的中国企业家里英语最好的人。他不仅语言流畅,用词精准,更强大的是完全没有口音。做到这件事太难了,别说英语,看看周围有多少人能说标准的不带口音的普通话就明白了。很多移民了几十年的人,英语表达可以和母语一样好,但他们仍然无法摆脱口音,更别说马云根本没长时间在国外生活过,能做到这样简直是不可思议。我想马云一定是付出了常人难以付出努力才做到这样的。其他人没有在这方面付出和他一样的努力,自然英语不会说的和他一样好。在这种见外国元首的场合,马云比别人吸引更多的关注,获得更大的成果,这是他努力的结果,无关于公平。对于这些程序员也是这样的,他们能如此仅仅是因为比别人在这方面付出更多的努力。如果认为程序员会写程序就叫不公平,那么英语好也不公平,做市场销售职业的人待人接物更得体,容易给人留下好印象,这也不公平…这社会上不公平的事情未免太多了。

当然,阿里巴巴做为电商和金融领域的公司,对公平和安全特别介意,尤其特别希望用户相信这家公司在意公平和安全,这可以理解。但是这种公平和安全应该通过制度来体现,而不是价值观。价值观是不可靠的,只有通过制度才能约束人的行为,这是人类社会历史已经证明的事情。那些把价值观放在嘴边的公司,倒是很令人不放心,这通常说明了他们在制度上并不完善,这才需要通过强调价值观,靠“人治“来弥补制度的不完善。不信的话,可以去看看全球清廉指数国家排名,然后再去查查哪些国家经常喜欢讲反腐败,看看这些国家是不是在排行榜上倒数几位。越是腐败的国家越喜欢反腐,越是制度不完善的国家越喜欢谈价值观。我不信Google或者苹果没有腐败,但他们有完善的制度保证,最大限度保证了人员难以有腐败的机会,如果万一有,也有司法流程处理。这是公司自己的事情,没必要跟用户成天宣称我们价值观坚定,我们反腐。那本来就是企业制度中正常的一部分,制度有了漏洞修补漏洞就是了,不用靠宣传价值观和用户证明自己有多努力。

阿里巴巴有让技术人员挡枪的传统。还记得前不久阿里HR给离职员工写假评价时间吗?事件曝光之后,公司对HR只是警告,但反而重罚IT系统开发的程序员。和这件事如出一辙,HR永远是符合价值观,永远没有错,错的永远是别人。另外,这家公司几年前提供抢火车票的浏览器插件,春节的时候提供微信抢红包插件…这些事情他们都没觉得影响社会公平,等自家程序员抢了几个购买月饼的名额,还自己立刻告知了相关部门并未造成实际损失(注意是购买名额而不是抢到就给免费月饼),公司突然板起脸来讲起了公平的价值观。这脸变的是不是有点过快了?

当然了,开除程序员这个行为本身,我倒是没什么不赞同的。社会上程序员这么紧缺,阿里人才济济,大概是不怎么缺人,最好多多开除一些,最好能开除上几百个,给其他公司一些机会。这也算是对整个产业的一点贡献,值得鼓励。

参考备注:

  1. 标题图:Image used under Standard license from Shutterstock.com (这张图是我们付费购买的,符合我要求的转载可直接使用它)

  2. 阿里程序员被开除 企业价值观能作为解聘理由吗

  3. 为什么《如何评价阿里 HR 对离职员工谈话造假》的问题下面好多答案都变成「:)」了?

雷锋网注:转载请务必保留作者完整信息,不得删减内容。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/idtShXWtjkRk5Se2.html#comments Fri, 16 Sep 2016 11:00:00 +0800
Dreambit:这个图像合成搜索引擎能够预测你的长相 //www.xyschoolife.com/category/zhuanlan/WasPQd2f3cADAHnf.html 雷锋网按:本文由图普科技工程师翻译自Imaging software predicts how you look with different hair styles, colors, appearances。雷锋网独家文章。

华盛顿大学的Ira Kemelmacher-Shlizerman表示:现在有一个最新版的图像合成搜索引擎,只要你先输入源图片(左边),再输入常见的网络搜索词,你就可以得到原图片与搜索词“合成”后的结果——例如输入原图片和“卷发”(得到顶行),“印度”(可以得到第二行),或“十九世纪三十年代”(可以得到第三行)。

当我们去发廊的时候,我们可以指着杂志上的图片,告诉发型师我们要试哪个模特的造型。演员经常需要为了适应角色而改变外型。失踪人口经常通过被改变发色和发型来达到伪装的目的。

但是在进行实质的改变之前,我们怎么预料新的外型是否适合自己呢?或者,我们该怎么预测被改变外型的失踪小孩的外型是怎样的?

华盛顿计大学的算机视觉研究员开发了一款名叫Dreambit的新的个性化图像搜索引擎,它可以帮助人们预测他们在不同的发型、发色,或在不同时期、年龄、国家的形象是怎样的,又或者是与任意搜索词合成之后的形象。

你在上传了源图片之后,再输入一个搜索的项目类别,比如“卷发”、“印度”或者“十九世纪三十年代”,这个软件的算法就会在互联网相片收藏集里发掘出相似类别的图像,然后将你的脸完美跟这个搜索出来的图像进行匹配。

这个研究的初步成果将会在2016年7月25日的SIGGRAPH(国际图形学年会)上发布,这也是世界上最大的计算机图形学和互动技术的年度会议。而Dreambit预计也会在今年内上线。

Dreambit借鉴了前人在UW(University of Washington,华盛顿大学)等研究机构的人脸处理、识别、三维重构和年龄预测的相关研究,用独特的方法结合了以上所有的算法创造出了混合型图像。

这个新的软件还可以帮助展示出一个被蓄意伪装的失踪儿童或者想逃开法律制裁的人的长相,甚至是预测几年后他们的长相。

华盛顿大学的计算机视觉和工程学的助理教授Ira Kemelmacher-Shlizerman和她的小组在前段时间开发了只是专注于人脸的自动的年龄预见软件。而现在这个新的系统增加了各种各样的发型选择和其他的情境因素。

Ira表示,Dreambit可以预测一个一岁的男孩(顶行)和一个四岁的女孩(底部)长大后的长相。

这些新的特性可以帮助人们预测出一个小孩未来5年或者10年后在不同条件下的长相,包括红色头发,卷发,黑发甚至光头。

 “我们很难只从脸部去辨认一个人,因为我们人类对于发型和发色的辨识是容易产生偏差的”, Ira表示。“并且对于失踪儿童,人们通常都会染发或者改变发型,所以年龄预见软件只是从他们脸部变化来预测是不够的。这只是去尝试预测一个失踪儿童随着时间流逝的外貌改变的第一步而已”,她补充说道。

这个系统的另一个潜在的应用是去预测一个演员在某个角色的登场形象。比如说,这个系统可以将演员凯特·布兰彻特和角色鲍勃·迪伦在网络上的照片匹配,然后预计布兰彻特在电影《我不在那里》(I’m not there)里扮演角色迪伦的时候将会以怎样的形象出现。

Ira说,演员经常为了适应新的角色而改变他们的外型。这个新的系统可以帮助将他们的新角色的形象视觉化,比如这些预测图片展示的就是凯特·布兰彻特扮演迪伦的形象。

“这是一种不需要实际改变你的外貌但却可以尝试不同的外型或者人物角色的方式”,联合领导了华盛顿大学图形和成像实验室(GRAIL)的Ira说,“当软件能预测出你的新发型的形象时,这个成果是令人兴奋的,它还可以让你体验富有创造性及想象力的一些情况。”

这个软件系统可以分析输入的照片,然后在网络上搜索想要合成的照片类型的子类别,但同时也会匹配源照片的脸型,姿势和表情。

这个图像合成引擎之所以能够准确地自动合成两张照片,是因为它运用了Ira发明的算法,还有互联网上的大量照片。

 “这个关键在于找到长得相似的人的集合,这样你就可以直接复制长得足够相似的人的某些外型方面的元素”,Ira说,“因为这个系统有成千上万的照片可以供你选择,所以匹配得出来的结果是非常引人入胜的。”

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/WasPQd2f3cADAHnf.html#comments Thu, 15 Sep 2016 22:06:00 +0800
百度吴恩达:怎样用GPU来造人工智能“火箭” | GTC China 2016 //www.xyschoolife.com/category/zhuanlan/cD4r03UnXsdVW3so.html 编者按:本文是百度首席科学家吴恩达在GTC China 2016上的演讲实录整理。在今年的GTC China上,吴恩达的议题分享是到底什么是神经网络,为什么GPU非常适合对神经网络的训练。 

大家好,现在人们说人工智能是新的电能。电能改变了很多不同的行业,我觉得现在人工智能也会对很多行业带来一样大的改变。现在人工智能的计算大部分都需要依赖GPU,我今天想跟大家分享这是为什么,也跟大家分享一下人工智能对你们的工作会有怎么样的影响。

我们在人工智能领域的人都是非常幸运的,因为很早的时候大家还不清楚深度学习是多么的重要,当时黄仁勋就在人工智能方面做了很多工作,生产出这种GPU的平台,使得百度和其他公司能够取得很多的成就。

两个星期之前,百度发布了很多技术为大家提供服务,其中很多都是使用机器学习和深度学习,尤其是基于GPU的学习来进行训练的。到底什么是深度学习,我们往往会把它和大脑中的神经元做一个类比,我希望更深地介绍一下技术方面的问题,到底什么是神经网络,为什么我们觉得GPU非常适合对这些神经网络进行训练。

我们所做的深度学习的工作99%都可以类比成将不同的矩阵进行相乘或者矩阵和向量进行相乘。从第一天开始,GPU在矩阵相乘上就是非常高效的,所以整个领域都使用GPU平台来做他们的工作。

当下,基本上所有AI的经济价值都来自于一种叫做监督式学习的模式。

什么叫做监督式学习?输入什么就输出什么,如果说进行人脸识别,你想对人脸识别的系统进行训练,首先是一些数据组,比如一张脸和一个不是脸,我们对神经网络通过不同的矩阵相乘进行训练,这就是我们进行人脸识别的做法。很多深度学习的经济价值在于找到非常聪明的办法来使用监督式学习。有比较多的例子,比如想识别垃圾邮件;如果你有足够的数据,在百度看到很多用户和广告的信息也可以训练一个模型来预测用户会不会点击一个广告。所以就是要找到非常聪明的监督式学习模型,这也带来了很多的经济价值。有很多现在我们所做的基础研究都是关于监督式学习的,还有加强式学习和很多其他的学习,希望未来的几年在其他领域也会进行。这种监督式学习的公式已经足以对很多你们现在的工作带来改变。

我所讲的这些技术所有细节其实在20年前就有了,那为什么现在深度学习才开始真正发展起来呢?

有几个主要的趋势:第一是深度学习在这几年才刚刚发展起来的原因是规模化。我喜欢做一个类比,建立人工智能就像是建立一个火箭一样,到底什么叫做火箭,你要造一个火箭首先需要一个大的引擎,然后需要很多的火箭燃料,这两个都是非常大。如果引擎非常大,但是燃料非常少,这个火箭也飞不了多远。如果说引擎非常小,燃料非常多,有可能火箭根本就无法起飞。只有引擎非常大燃料非常多的时候才能建造一个非常好的火箭。神经网络就像火箭的引擎,现在我们能够建立这样的神经网络,是因为现在规模化,是因为GPU的发展。而前面提到的火箭燃料就是今天大量的互联网公司获得的数据。

算法的创新也是非常重要的。对我们来讲首先要建立一个非常好的网络,然后要有充足的数据,这是一个基础。在过去的几年,我看到这样一些趋势,也就是规模化,大概在十年前我们都通过普通的CPU进行深度学习的训练,当时大概有100万的连接,进步是非常慢的。2008年的时候我们写了第一篇在CUDA上进行神经网络训练的文章,当时是斯坦福大学的一个研究,有了10倍的转变。

2001年我带领谷歌的一个团队,我们使用CPU计算进一步实现规模化,用很多的CPU。但是很快我们就意识到使用很多CPU使用云计算其实并不能真正促进深度学习发展,当时在斯坦福以及后来在百度我们意识到使用HPC高性能计算。最近使用超级计算机才能更加促进深度学习算法进步的一个方向,所以最先进的深度学习的系统已经开始使用高性能算法了。我们要训练一个语音识别的模型需要20百万亿次,我们需要花100万美元的电进行一个模型的训练,我们的一个研究人员要进行一个模型的训练需要花100美元的数据,需要4兆字节的数据。

百度是全球第一个为深度学习建立GPU群的公司,我们不光进行训练,而是真正的进行运作,我们早期的投资是看好GPU能够帮助我们在这方面取得领先的能力,能够促进AI能力的发展。

接下来我想和大家分享一个例子,向大家介绍一下为什么深度学习对很多的百度AI应用进行了改变。

以前语音识别系统分为很多的阶段,首先输入一个音频,要抓取音频的特征,获得音位,要有语言的模型,然后再转录。在2011年的时候,在百度建立一个语音识别的系统,我们认为我们花了几十年的时间来做语音识别,我们还是把整个的工作全部都用神经网络给取代。我们发现有了很大的神经网络,相当于一个火箭的引擎,使用端对端的学习方法可以帮助我们对最好的语音识别系统进行训练。

上个月我们跟斯坦福大学和华盛顿大学合作发现如果你想用手机来输入某个信息,用语音识别比用键盘可以快3倍,这些结果都是依赖我们的DSP系统。

之前我们讲到规模的重要性,包括计算的规模和数据的规模,对于这些深度学习系统来进行训练,这里我想给大家介绍一个简单的方法,如果能够提升机器学习系统的表现,这当然有点过于简单了,但是我的团队问我怎么提升他们的机器学习系统的时候,我首先会把这个简单的方法告诉他们。

首先要问他们,目前在训练数据上表现好吗?如果不是的话,那我就会跟他们说你的这个神经网络需要有更大的规模,也就是说火箭的引擎要更强、更大。然后你继续在这个方面进行改进,直到你在训练数据上能够有好的表现,在这之后就问你测试数据上表现好吗,如果不是的话我就跟他们说数据要更多,也就是说要有更多的火箭燃料。再继续在这个方面进行改进,直到在测数据上表现得好。这是一个非常简单的公式,真实世界会更加复杂,这过于简单,但这样一个简单的方法有很大的帮助,帮助我们提升了系统的性能,我也相信能够帮助大家的机器学习系统的性能提升。

过去几年很多性能提升都在于计算以及数据规模的提升,之所以计算的规模提升很多在于GPU计算的出现,实际比这复杂得多,如果大家想要了解具体的细节,如何提升机器学习的表现,大家可以去参照我所写的一本书,从这个网站可以拿到免费的书。

前面我讲到用GPU进行训练,我也看到这个对于百度的工作以及很多其他公司的工作有很大的帮助。另外一个趋势,用GPU不仅进行训练,也包括提供在线服务。HPC训练的巨大的神经网络,我们发现我们有个问题,怎么样可以把这么大的神经网络放在服务器上面提供在线服务?

如果看一下传统的提供在线服务的架构,传统的CPU服务器的架构,架构是这样的,比如这是CPU服务器,有几个线程,如果有一个用户有一些数据过来,他给了一个4乘1的向量,比如是一些语音数据,你把这个交给一个线程进行计算然后会有输出。第二个用户过来了,还是用第二个线程帮他进行计算,第三第四也是一样。这是比较传统的CPU架构提供在线的服务。因为我们在超级计算及用很多GPU,训练非常大的神经网络,我们发现这些非常大的模型部署在传统的CPU当中是非常困难的,因为这个架构不适合。

百度是第一家宣布把GPU投入到业务中的大型公司,也就是进行推理和提供服务,而不仅仅限于训练。

我们有一个专门的技术叫Batch Dispatch,我们把数据放到我们的数据中心当中,如果用户出现了,当他这端有一些数据的输入,我们会暂时让这个数据稍微等一点点时间,然后再等几位用户出现,各自都有自己的数据,把他们做成一个批次。我们把这些向量堆叠到一起变成一个矩阵,这是第一第二第三第四,变成了一个4乘4的矩阵。同时交给GPU处理器进行处理,它是同时对这四个用户的数据进行处理,这些结果也同时会出来,GPU有非常强的并行处理能力,可以非常高效的进行并行处理,我们把结果拿到之后再把它们分开,分别提供给四个用户。

我们发现这样使得我们可以有更大的模型规模,而且可以以更低的成本给更多的用户提供服务。昨天我们在百度的数据中心和数据中心的负责人,在百度我们看到的一个趋势,现在越来越多的使用GPU及高性能计算在数据中心当中,因此我们的团队在重新设计数据中心来更好地利用高密度的计算模式,我们有团队在重新设计供电、散热,使得我们可以把更高密度的计算站纳入到我们的数据中心当中进行训练,然后进行推理。大家有些人可能是做数据中心工作的,这里边有很多的工作是可以开展对于数据中心的架构来进行重新的设计,从而使用这些高密度的GPU。

之前我讲到了深度学习,首先第一个就是计算的规模和数据的规模。第二个我所看到的过去几年的趋势,深度学习现在可以给出更复杂的输出。我的意思是五年之前大部分的机器学习所输出的都只是整数,比如垃圾邮件分类,你输入一个邮件,输入的是0或1是不是垃圾,图片也是一样的,输出的是一个整数,现在发生了变化,深度学习越来越多的可以去输出非常复杂的结果,比如一个句子或者是一个图像。我们的DSP Batch系统输入音频片段,可以输出一个英文或者是中文的句子,图片说明我们可以把图片输进去,输出是一个图片说明来描述这个图片说这是一辆黄色的车在路上开。所以现在神经网络可以输出复杂的东西,比如句子和一些图片说明,不仅仅是一些整数。包括翻译,你可以输入英文的句子,然后输出中文的句子,也可以文法的校正,可能你输入的是语法错误的文本,输出的是语法正确的句子。这个重要的趋势也是可以非常聪明的使用,可以在AI和深度学习方面得到更大的价值挖掘。

当然我们也知道,AI现在主要的局限性在于这样的学习方式,也就是监督式学习的方式是需要很多的标记数据,未来我希望我们能够对于非监督学习有一些突破,但是目前我们可以通过监督学习去转化很多的行业来实现巨大的发展。

刚才我们讲到了规模非常重要,我们需要用大量的数据进行大量的模型的训练。规模非常重要,我们需要用很多的数据对大的模型进行训练。还有另外一个原因,

为什么AI的发展需要计算呢?

我们看一下刚才的神经网络这个简单的例子。我们要花很多的时间、很多的实验去发现这些神经网络的结构,我可能在这个方面的工作已经有25年的时间了,现在我开始要开始一个新问题的时候我也不知道什么样的网络是合适的,研究者需要进行很多实验,十几种几百种模型才能发现一个好的模型去完成这种任务。有这么多的训练数据,语音识别系统有5万小时的数据,所以你要进行这样一个训练可能需要3个月的时间,这样研究者的时间利用率不是那么高。另外一个原因,百度花很多的努力去优化开发者的效率,因为你们在做这个模型,你不知道到底什么样的模型,你要做很多的实验去发现到底什么是可行的。我们发现我们投资于计算系统来加速这种实验的过程、试错的过程,可以使得研究者更加的高效,可以使得他们有更多的时间可以更快的去发明新的想法。

因此在这个方面,我们非常强调,第一我们是投资计算平台,基于GPU的HPC计算平台。第二我们是很大的投资于开发易于使用的深度学习工具,我们把我们自己的深度学习平台开源化,它叫PaddlePaddle,易于使用,大家可以非常方便的尝试深度学习的模型,来发现到底什么样的模型对你的应用是最为合适的。PaddlePaddle支持用多GPU,我们现在不是在一个GPU上进行计算,一次可以用32个、64个、128个GPU进行实验。

我对AI的未来寄予很高的希望,对人工智能的未来充满信心,希望几年后我们可以使用人工智能做到陪伴机器人,做到个性化私教、音乐作曲、机器人医生,这些产品和技术可以为很多行业带来巨大的改变,也对人类带来巨大的价值。这些项目很多都正在研究阶段,在人工智能时代如果你听我们讲未来,未来有时候很快就到了。

我想给大家看一个例子,我们正在做一个百度医疗大脑的项目,这个项目正在研究阶段,请大家看看这段视频。如果你输入一个问题,宝宝发烧了出了很多红疹,百度医疗大脑这个软件会理解你的问题,问你很多病情的问题,如果你慢慢回答它的问题,它就可以识别出你的病情是怎么样的,也可以输出一些有关你病情的信息和建议。这个软件当然不可以替代医生,假如患者想用这些信息先要跟医生讨论,技术还在研究阶段,希望这种技术未来可以为患者和医生带来很多非常有用的信息。

我觉得我们非常幸运能够有这么好的GPU平台,在这个平台上开发很多的AI应用,在百度我非常振奋的是开发出AI的工具,不光是帮助我们自己也帮助很多的行业,我在百度希望能够在我们的硬件的基础之上开发一些AI的工具帮助大家。谢谢大家!

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/cD4r03UnXsdVW3so.html#comments Wed, 14 Sep 2016 09:30:00 +0800
黄仁勋对人工智能的6个总结:GPU怎样催化AI计算 | GTC China 2016 //www.xyschoolife.com/category/zhuanlan/RftUPEQlGN1nsKoz.html 编者按:雷锋网2016年9月13日消息,NVIDIA在北京举办了GPU技术大会(GPU Tech Conference),这也是GTC第一次在国内举办。在这次大会上,NVIDIA发布了Tesla P4、P40深度学习芯片,此外黄仁勋也在北京与数以万计的AI、游戏行业的开发者们分享了他对GPU和未来计算的认知。以下内容是根据黄仁勋在GTC China 2016上的演讲实录整理。

一、4年以前,AlexNet第一次带来了深度学习的爆发

2012年一个年轻的研究员叫Alex Krizhevsky。在多伦多大学AI实验室,他设计了一个可以学习的软件,这个软件靠自己就能进行视觉识别。深度学习这个时候已经发展了一段时间,可能有20年。

Alex所设计的这个网络,它有一层一层的神经网络,包括卷积神经网络、激发层、输入和输出,可以进行区分。这样一个神经网络可以学会识别影像或者是规律。深层神经网络所带来的结果是它会非常有效,会超出你的想象,但是它进行训练需要的计算资源超过了现代计算机的能力,它需要几个月的时间去训练一个网络才能真正地识别图像。

Alex当时的看法是,有一个叫做GPU的新型处理器,通过一种叫CUDA的计算模式,可以适用于并行计算,用于非常密集的训练。2012年他当时设计了叫Alex的网络,提交给了一个大规模计算视觉识别大赛,是一个全球的竞赛,并且赢得了这个大赛。

AlexNet战胜了所有由其他计算视觉专家所开发的算法。Alex当时只用两个NVIDIA GTX580,在通过数据训练了几天后,AlexNet的结果和质量引起关注。所有搞计算视觉的科学家,所有的AI科学家都非常关注。在2012年,Alex Krizhevsky启动了计算机深度学习的基础,这是现代AI的一个大爆炸。他的工作和成果在全世界引起了很大反响。

我相信那个时刻会被记住,因为它确实改变了世界。之后有很多研究开始围绕深度学习进行。2012年斯坦福大学的吴教授(吴恩达)和我们开发了一个非常大规模的GPU配置用于深度学习的训练,很快在三年之后每一年都会有新的网络出来,能够不断地战胜其他方案获得更好的记录。

二、声音和视觉输入铺垫了构造AI世界的基础

到了2015年,谷歌和微软都实现了人类般的视觉识别能力。它是由软件写就的,在GPU上经过训练可以实现比人类更高的视觉识别能力。2015年百度也宣布他们的语音识别达到了超越人类的水平,这是非常重要的一个事件。这是第一次计算机能自己写程序,实现超过人类的水平。

视觉和语音是两个非常重要的感官输入,是人类智能的基础。现在我们已经有了一些基础的支柱,让我们能够进一步推进AI的发展,这在之前是难以想象的。如果声音和视觉的输入值不可靠的话,怎么能够有机器可以去学习,可以有人类一样的行为。我们相信这个基础已经有了,这也是为什么我们认为现在是AI时代的开始。

全世界的研究者都看到了这些结果,现在所有的AI实验室都开始使用GPU跑深度学习,这样他们也可以开始建立未来AI的基础。基本上所有的AI研究者都开始用我们的GPU。

GPU的核心是模拟物理世界,我们用GPU创建虚拟世界用于游戏、设计,用于讲故事,比如制作电影。模拟环境、模拟物理属性、模拟周围所看到的世界,构建虚拟世界的过程如同人类大脑在想象时进行的计算。因为深度学习的发展,使我们的工作进入新的阶段,人工智能。对人类智能的模拟会是我们所做的最重要的工作之一,而且我们对此非常激动。

三、GPU计算渗透到深度学习各个领域

今天也是我们第一次在中国举办GTC大会,这次很大一部分内容会是关于人工智能和深度学习。我们是一个计算公司,SDK对于我们来讲是最重要的产品,GTC是我们最重要的一场盛会。大家可以看一下过去几年的成长,这是非常了不起的增速。

今年GTC有16000名人员参加。下载我们SDK的开发人员增长了3倍,达到了40万开发人员。但最了不起的数字是深度学习开发人员在两年之内有了25倍的增长,现在下载我们的深度神经网络实验室引擎的开发人员已经增长了25倍,下载了5万5千次。

大家到底用它干什么呢?很多都是AI研究人员,他们来自于全球各地,现在所有的实验室都会使用我们的GPU平台来做自己的AI研究,有软件公司、互联网软件提供商,还有互联网公司、汽车公司、政府、医疗成像、财务、制造等公司。现在用GPU深度学习的领域是非常广的,非常了不起的。

四、大脑的运作就像GPU的计算

大家要问为什么AI研究人员选择GPU,Alex他们发现GPU的并行运算实际是非常符合深度学习网络的计算特征。那么进一步来讲,为什么GPU对深度学习来讲是非常适合的工具呢?我想给大家讲一个不是那么严肃的例子说明一下为什么GPU非常重要。

大脑就像一个GPU。比如我让大家想象乒乓球,大家闭上眼睛,你们大脑会形成一个几个人打乒乓球的图像,如果让大家想象功夫熊猫,那么脑子里会出现是类似的功夫熊猫图像。所以我们的大脑在思考时会生成一些图片。反过来,GPU的构架也像大脑一样,它不是由一个处理器进行序列的运算,我们的GPU有上千个处理器,非常小的处理器组合在一起来共同解决问题,这上千个处理器会进行数学计算、互相连接、分享信息,最终能够解决一个很大的问题,就好像是我们的大脑一样。所以说大脑就像GPU,因为大脑可以产生图片,而GPU也像人的大脑一样,所以有可能这种新的计算模式、新的计算模型可以解决虚拟现实的问题,它确实是非常适合GPU的。

深度学习是一种新的计算模式,它会涉及软件的方方面面。深度学习首先要设计一个网络并且对网络进行训练,针对一个网络的训练需要几十亿甚至更多的操作,涉及上百万甚至有更多的数据,通过这些数据对网络进行训练,需要很长的时间。如果没有一个GPU,这个过程可能需要好几个月,但GPU把这个时间压缩到几天内,这也是为什么GPU能够帮助大家更好地解决问题。

五、寻找比摩尔定律进化得更快的计算模式

训练是深度学习的一个基础,这个网络有了之后,你希望运用这个网络来进行预测,进行推理,进行归类,要对一个信息进行推理,比如有几十亿人每天在网上问很多的问题,有可能是图片,文字,语音,将来有可能是视频这种形式。在数据中心当中GPU推理能够非常快地响应。所以深度学习的第一部分是训练,第二部分是推理。

深度学习的第三部分,有些人叫IoT,智能设备、智能终端,也许是摄像头、汽车、机器人,也许是话筒,这样互联设备就变成了智能设备。物联网需要有AI进行驱动,需要深度神经网络进行驱动,大量的智能终端根本目标是需要去识别去归类进行交互,要快要准确,并且尽量在低功耗状态下实现所有这些功能。

在接下来这些时间,软件的开发会和以前不一样,我们运行软件的方法也会不一样,在上面的运算也会不一样,很多设备上要运行什么东西会不一样,所以深度学习将会影响到到计算的各个方面。

现在我们看一下训练,首先我们应该意识到训练的复杂性。前面提到了训练可能是几十亿甚至万亿的运算,模型越大数据越多,结果就会越准确,数据多,加上大模型、大的计算量将会带来深度学习更好的结果,这是非常根本的、非常重要的。

微软有一个叫ResNet的识别网络,如果跟AlexNet比较,AlexNet神经网络是8层,总计算量是1.4G的浮点运算,错误率是16%。8层和1.4G,错误率是16%,意味着什么?这是当时最好的。当时计算视觉专家研发的算法大部分错误率可能比16%更高,这说明用传统计算视觉方式的局限性很大,准确率没有那么高。

如果通过深度学习,我们在过去几年中可以实现3.5%的错误率,3.5%这是在几百万的图像当中进行测试152层的一个网络,几年之前只有8层,现在是152层,总共的计算能力是22.6G/flps,这是18倍的增长,这就表明了深度学习存在的问题。三年之内深度学习的计算负载增长了18倍,这比摩尔定律快很多。

所以问题变得越来越复杂,越来越难,但是计算的能力却没有相应速度的增长,这也是为什么整个行业都开始寻找新的计算模式,为他们都开始来考虑使用GPU计算。

另一个案例更加惊人,是关于语音识别。语音识别是自然语言理解的基础,自然语言理解也是智能的基础。这是百度吴恩达的实验室的工作,2014年有2500万的参数在这个模型当中,训练的材料是7000小时的语料8%的错误率。2015年的训练数据是此前的2倍,深度学习网络是原来的4倍大,2倍的数据量,4倍的网络复杂性,实现的错误率是5%,就在1年之内百度的DPS错误率降至了40%左右。但是需要付出什么样的代价?就是计算量的增长。

深度学习的方法花了这么长的时间才真正出现,因为这样的方法从计算条件来说是没有办法实现的,此前没有任何计算机可以对这样的网络进行训练,直到GPU出现用于深度学习的出现。这是我讲的为什么我们对这样新的计算模式非常振奋,为什么现在在我们这个计算行业当中这个时刻非常重要。

同时这个趋势在未来还会继续,大家要记住我们现在还是5%的错误率,我们希望是0%的错误率。每个人的声音都可以被识别,甚至是做得更好,可以去理解词的语义,所以我们还有很多更大的计算需求。

六、AI会自上而下地改变计算系统

Pascal是我们针对深度学习进行优化的GPU架构。Pascal的处理器是真正的奇迹,Pascal是一个全新的架构,用立体的晶体管制成,用立体的封装,用3D的堆栈,所有这些使得我们的Pascal架构实现了巨大的性能提升,新的指令级和新的制造制成、新的封装方式,以及新的互联连接方式把多个GPU连到一起,这样它们可以做一个团队来开展工作。我们花了3年的时间,1万个人年的投入,完成了这项我们自己史上最大的工作。

我们也认识到处理器还只是开始。在AI计算这块有这样一个新的计算模式,计算系统架构也会发生变化,处理器的设计会发生变化,算法会发生变化,我们开发软件的方式会发生变化,系统的设计也会发生变化。

我们有一个新的超级计算机,在一个盒子的大小之内,这就是叫DGX-1,替代了大约250台服务器,整个数据中心都缩成了一个小盒子的大小。这个超级计算机完全是重新设计的。看一下我们处理器的成就再加上DGX-1,使得我们在一年之内的性能有65倍的提高。相比较这个Alex第一次用我们GPU来训练他的网络的时候,这是65倍的提高。这比摩尔定律的速度要快很多,比整个半导体的发展要快很多,比任何其他的在计算的进步方面要快很多。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/RftUPEQlGN1nsKoz.html#comments Tue, 13 Sep 2016 22:37:00 +0800
一个优秀的运营该如何做好实时分析? //www.xyschoolife.com/category/zhuanlan/cib4zREXMncr23Zr.html 雷锋网按:本文作者GrowingIO增长团队。

在互联网行业精益化运营的背景下,数据分析已成为运营的标配,大家都希望通过精细的分析来提高运营的效率。随着商品秒杀、爆款文章、产品快速迭代等运营手段不断增多,以往小时级的流量监测已经不能满足运营者的需求。我们需要对网站平台上的每一分钟、每一个访客、每一次操作都进行记录,以满足我们实时监测和快速决策的需要。

这种分钟级别的数据监测和分析,就是我们今天要介绍的“实时分析”。

一、实时分析需要关注的三大指标

数据化运营需要关注的指标非常多,如PV、UV、转化率、留存率等等。忽略留存、转化等结果型指标,在分钟级的实时监测中,运营主要关注网站平台的三大类数据指标:1)访问用户量,2)访问来源,3)访问行为。

用户访问量、访问来源和访问行为对网站平台的运营具有重要意义:

  1. 分钟级的访问量(下图模块1)可以帮助我们了解流量的趋势,方便及时发现流量的异常;

  2. 访问来源(下图模块2)的监测方便我们了解实时访问来源和权重,为渠道优化做准备;

  3. 访问行为(下图模块3)的实时监测帮助我们了解用户的访问偏好,方便后期进行网站内容优化。

     

现有的SaaS (软件即服务)产品中,将上述实时指标模块统一于一个后台页面中,这样的设计便于运营者对实时的情况一目了然、运筹帷幄。

二、通过三个案例讲透实时分析 

1.从异常的流量峰值中发现问题
 

运营者一般都比较关注网站平台的PV、UV及其走势,这也是网站流量分析的基础指标。以天或者小时为颗粒度的流量分析较为粗糙,会掩盖很多时间节点上的流量波动细节。如果我们用分钟级的粒度来观察流量,又会有什么发现呢?

某内容社区7月16日16:30-16:35 用户访问量激增,是平时的4倍左右(如上图圆圈所示)。社区的运营人员马上就发现了这个异常值,借助[访问来源]发现该节点访问来源排第一位的是微信(mp.weixinbridge.com),然而当时并不知具体原因。在稍后的朋友圈分享的文章中发现,当时某运营大咖在一个微信群分享中推荐了该社区平台,贡献了16:30-16:35社区激增的访问量。该社区的PR果断抓住这次机会,邀请该运营大咖来该社区做知识分享,起到了非常好的传播效果。

这是通过激增流量发现合作渠道的典型案例,值得所有企业思考。反之,如果流量暴跌,甚至降为零,那么这个时候就马上检查网站/APP是否正常,以便及时修复问题。

2.精准投放:渠道优化与反作弊

作为一个运营人员,如果产品在各大渠道上投放了广告,则可以通过[访问来源]来时刻监测渠道的广告效果,进而确定渠道带来的访问用户量和质量。

 某互联网企业近期做了系列的渠道投放测试。他们通过[访问来源]发现其中两个渠道带来的量非常少,而且价格不菲,于是短暂上线就立即撤掉了该投放。同时实时分析还可以用于反作弊,短时间、单一渠道流量暴增很可能就是刷单或者流量作弊的表现。某日上午该网站访问量连续出现两个异常高峰,且该期间绝大部分流量来自一个渠道。运营人员对此非常警觉,经排查是代理商作弊,用机器人刷量;事后该企业果断放弃该代理渠道。上述两个行为为该企业挽回了大量损失。

3.实时监测,让产品运营更加高效
 

现在互联网产品迭代的速度越来越快,产品运营需要对新上线的产品或者功能进行追踪,评估产品的效果或者市场反馈。

互联网金融领域存在组团诈骗进件(进件,即购买金融产品)的情况。以某互联网金融公司为例,因为风险控制的原因会控制对外宣传的力度,每天的访问用户数基本比较稳定。某日,该互金公司上线了一个新的金融产品,公司的运营人员通过[访问用户实时走势]发现访问用户陡然增加,再通过[活跃网页]发现该产品中的某个页面的访问量特别高,经过排查确定这是该产品的漏洞,会导致公司流失大量资金,他们果断采取修复措施再重新上线。如果还是用传统的流量监测方法,可能等到两三天才能发现这个漏洞,到时候流失资金可能达几百万之巨。

三、数据驱动的精细化运营 

一个产品或者运营手段从最初的“idea”到最后成型上线,运营人员需要通过数据来衡量它的表现及市场反馈。同时,从数据中发现问题,提出假设,不断升级迭代;从而形成“idea — product - data”的良性循环,驱动业务和客户的增长。

在运营的过程中,数据反馈越及时,我们迭代的速度就越快,运营的效率就越高。1.01的365次方约等于38;换言之,通过实时分析可以实现不断的、快速的小幅迭代,而这积累起来就是运营、是企业巨大的进步。

雷锋网注:本文由GrowingIO授权雷锋网(搜索“雷锋网”公众号关注)发布。转载请联系我们授权,并保留出处和作者,不得删减内容。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/cib4zREXMncr23Zr.html#comments Mon, 12 Sep 2016 16:54:00 +0800
又有女演员癌症去世了,但即使去做基因检测,有用吗? //www.xyschoolife.com/category/zhuanlan/mtzJz1rxNcWaDpnl.html 雷锋网按:本文由Deeperblue发布雷锋网。

2016 年 9 月 7 日下午 4 时,女演员徐婷,因急性淋巴癌、肺部感染于北京 304 医院病逝,年仅 26 岁。虽然并非大明星,但这个姑娘的身世以及病情成为了今日焦点。

癌症,是人们的恐惧中心。

“人类用基因来描绘癌症的征程,还有很长的路要走。” —— 杰西卡 · 瓦普纳,著书《费城染色体:基因突变与从基因水平治疗癌症的探索》。

2016 年 7 月 16 日,张华(化名)的父亲因肺癌去世。从检查出肺癌,到去世,全程只经历了 9 个星期。这对张华是一个巨大的心理打击。父亲去世后,除了悲痛,张华的反应是:给自己做全身癌症基因检测。她听人说,家族直系亲属有癌症的,都有极高的几率也会 “遗传” 到癌症。

“花点钱放心。” 张华对深蓝 Deeper Blue 说,“除了我爸爸,我的直系亲属里面还有爷爷和姑姑也都得了癌症。现在我结婚了,即将生子。我不想让我的孩子面对早逝的母亲。”

由于各机构检测成本差异和中介利润的影响,癌症全组基因检测的价格差非常大。在国内,全基因检测定价最高可达到 6、7 万,低的有时候 1 万 5 也能做。

"我当时询价的是武汉的一家检测机构,朋友推荐的,告诉我是亚洲最大的基因实验室,可以为健康人做全组基因测序大概五六万。” 张华说,“也有人建议我去美国做健康人的全组基因,收费十几万到几十万,都有。”

2013 年 2 月,安吉丽娜·朱莉决定切除双乳乳腺。朱莉的母亲患卵巢癌近 10年,56 岁时撑到第一个孙子出生后最终去世。身为六个孩子的母亲,朱莉去检测了自己的基因。检验报告显示:她携带了癌症易感基因 BRCA1(Breast Cancer Susceptibility Gene 1,乳腺癌易感基因1)——一种与乳腺癌密切相关的基因。医生告知她患上乳腺癌的几率大约是 87%,卵巢癌的几率是 50%。

“手术后,我患乳腺癌的可能性从 87% 降到了 5%,”朱莉在写给《纽约时报》的信中说,“现在,我可以告诉孩子们,妈妈不会因为患乳腺癌而去世了。” 仅仅两年后,2015 年 3 月,朱莉又切除了卵巢。

由于安吉丽娜·朱莉,癌症基因检测走向公众视野。现在,越来越多的女性选择在得上肿瘤前就切除乳腺和卵巢。

在安吉丽娜 · 朱莉撰写公开信《我的医疗选择(My Medical Choice)》后选择做 BRCA 检测的女性增长了 40%。 

2016年1月,奥巴马总统在国情咨文中宣布了一项由副总统拜登直接领导的 “国家癌症登月计划”,向相关癌症研究资助共计十亿美元,以 60 年代的登月计划寓意 “人类将最终攻克癌症”。该计划将协调美国国防部、美国食品和药物管理局、国家卫生研究院、美国国家科学基金会等十余个机构,争取在 5 年时间内使攻克癌症的进度翻一番。

然而,“这项任务艰巨而复杂。目前,人类对基因的认识还不足以为癌症患者带来实在的好处。”杰西卡 · 瓦普纳(Jessica Wapner)在《科学美国人》2016年的九月刊上写道。此前她著有《费城染色体:基因突变与从基因水平治疗癌症的探索》一书。

“我们还处在一个过渡阶段。”斯蒂芬 · 查诺克说,他是美国癌症研究中心负责癌症流行病学和遗传学研究的主任。

癌症基因检测从 1995 年开始走向临床,科学家们已经建立了一些基因与癌症的相关性。但问题远远没有那么简单。癌症基因测序到底有多大用?

首先,癌症会遗传吗?

像张华那样因为恐慌而进行癌症基因检测的人不在少数。“我的直系亲属有癌症病史” 成为 “必须要进行癌症基因检测” 的理由。

在美国,著名基因检测企业 illumina 的股价在近 4 年里上涨了 6 倍,目前市值已达到 270 亿美元。在国内一些初创基因检测企业在媒体上公开报道年会赠送员工们宝马汽车。正是人们对癌症的恐惧滋养了这个市场。

illumina 官网

我们先回溯一下什么叫癌症。

癌症是一大类疾病的总称,其共同点是失去控制的细胞增殖。在正常情况下,我们体内的细胞以正常的速度增长、分化和死亡,但癌症细胞的增长速度是疯狂的。这种永生的细胞失去了控制,人类的身体最终因为无法承受它们而走向死亡。

不受控制的癌症细胞能够疯长的确因为基因变异。可是:癌症会遗传吗?

如果是,赖投胎。如果不是,赖自己。

可以导致癌变的基因突变有两类:第一类是可遗传的,发生在生殖细胞中,主要从父母遗传得来。第二类突变和遗传没有关系,发生在体细胞,主要是由年龄增长、吸烟或其他环境因素所引起。比如日晒会诱发皮肤癌;HPV 病毒可能导致宫颈癌;吸烟会导致肺癌。

虽然 DNA 的可遗传突变会导致一些恶性肿瘤,包括一些儿童癌症等,但是这些突变还是相对罕见的。绝大多数人类癌症是由体细胞突变引起的,跟遗传没有关系——根据美国癌症协会数据,只有大约 5% 到 10% 的癌症是由遗传引起的。

华盛顿大学医学院的研究人员通过分析 4000 多个癌症病例的生殖基因信息,研究了 12 种癌症与遗传的关系,结果如下表所示:

此项研究结果发表在《自然》子刊《 Nature Communications 》 2015 年 12 月刊。

结果显示,遗传相关性最高的癌症为卵巢癌,约有 19% 的患者携带生殖系突变,而仅有 4% 的急性髓系白血病患者携带这种突变。也就是说,哪怕是相关性最高的癌症种类,也只有 19% 的遗传相关性。

查出来基因突变,会得相应的癌症吗?

哪怕丈夫已经去世,和张华不同,张华母亲完全不相信癌症基因检测这件事。尽管女儿多次 “逼迫” 她跟自己一起去做测试,她仍旧拒绝了。

“这事儿不够脚踏实地。” 张华的母亲对深蓝 Deeper Blue 说,“还不如三甲医院体检带给我的安全感强。我知道美国那个 23andMe,吐个口水,做个癌症检测,跟游戏一样的。这种检测并不严谨也不科学,花 99 美元知道自己身上的小秘密,没什么权威性。”

张华母亲的评价不是毫无道理。由于目前基因检测尚无统一标准,各家公司自行选择仪器、测序位点、评估方法以及数据库,即使是同一管唾沫,测试结果也不尽相同。

“现在经常有病人会拿着各种所谓的基因检测报告来医院,称自己患癌风险高,让医生治疗,然而检查后却发现没有实体瘤,甚至癌前病变都没有。” 广东省人民医院副主任钟文昭在接收采访时表示,预测癌症的技术并不成熟。

23andMe 出具的癌症检测报告造成了民众恐慌,甚至是过度治疗。大批量的女性因为得到了“风险预警报告”而选择切除卵巢。而事实上这里面没有太确切的科学依据,2013 年,美国 FDA 叫停了 23andMe 与疾病相关的基因检测服务。

过去用户只需要将唾沫吐到采集管,再花上 99 美元,便能知道自己患上糖尿病、心脏病、乳腺癌等 240 多项疾病的风险。

“哪怕花了这个钱,知道我有易感基因之后,我能干什么呢?切掉卵巢之类的,也许可以。但如果是消化道出了问题……我能切消化道吗?” 张华母亲说,“如果我钱很多,我会去尝试做一下,但没钱我不会。我宁可花这钱去买点好吃的。”

事实上,哪怕已经确诊得了癌症,癌症和基因突变之间的相关性目前为止在科学上也未得到严谨系统地认证。

前面说到,癌症的本质是细胞不受控制地繁殖,绝大多数人类癌症是由体细胞突变引起。

大多数的体细胞突变是无害的,其中有很多会被人体自己的 “控制体系”(body's own quality-control processes)所修复。但是总有一些体细胞突变会想办法捣点乱,让细胞不受控制的增殖。

在细胞癌变的情况下,有害的基因突变会做两件事:编码特殊的蛋白质,积极促进细胞进行过度复制;阻止细胞本身的 “刹车” 功能,失去控制不停地复制。

科学家们把那些导致癌症发生、发展的基因突变称为驱动基因突变(driver mutations) ;而另一些无意义,不直接导致癌症的,被称为 “乘客突变”,即非驱动基因突变(passenger mutations)。这很好理解,发生车祸,绝大多数情况都是司机的锅,跟乘客没什么关系。

驱动突变对与癌症的诊断和治疗是有意义的。人们常说的癌症分子标记物检测在很多情况下就是在检测有没有驱动突变。比如, 在肺癌诊断中,医生会检测某些 mRNA(一般组织) 或 DNA (血液)在体内是否表达和表达水平,评估相关驱动突变(比如会导致肺癌的 KRAS 突变和 EGFR 突变)是否存在。

但问题在于,虽然我们知道了驱动基因突变会在癌症中发现,但我们不知道何种驱动基因的突变会导致了癌症发生,也不知道何种程度的驱动基因突变会导致癌症发生。

“癌症基因突变有两种。一种是像肺癌的 EGFR 突变那样的,你知道哪里基因突变会导致相对应的蛋白的某些功能性的缺陷;而针对这些功能性缺陷的药物,通常会对癌症治疗有很大帮助。”Sarah Yang 告诉深蓝 Deeper Blue, 此前她在斯坦福大学取得了生物学博士学位。

“还有一类则是通过基因组测序和癌症发病率的相关性来证实的突变。这种是从统计学角度找到的相关性,比如 KRAS 突变。现在的科学根本不知道具体 KRAS 突变的致病原理。事实上,KRAS 和很多癌症都有很高的相关性。这一类其实对指导癌症的治疗其实没有太大的帮助。”

相关性和因果性是两个截然不同却很容易被混淆的逻辑概念。即使在统计学上证明某些驱动突变和癌症的病发有关联,但并不能证明这些突变就必然会导致癌症的病发。

另外,没有人知道多少驱动突变会诱导产生癌症。平均而言,2 到 8 个驱动突变就可以诱导产生癌症,而另一项发表在 2006 年 Science 杂志上的研究发现,在一些结肠癌以及乳腺癌中,需要多达 20 个驱动突变才可以诱导出癌症。

做完检测,药呢?

张华父亲生前曾做过全基因检测和相关驱动基因检测。

从拿到的基因检测报告中,张华获得最有效的信息就是:父亲身上哪里突变,这些突变有没有相应的药物可以治疗。

“可是哪怕是被称为’全亚洲最大‘的基因实验室,也并没有和药厂、临床机构等进行紧密合作。我们拿到这份报告后,还是很迷茫。我爸那个药,最后找来找去是说在临床试验中,失败率高达 80%……这有什么用?” 张华说。

现实是残酷的。即使找到了明确的基因突变,而目前针对癌症的靶向药只有 104 种,其中,仅有 25.4% 在中国上市。基因检测距离真正地在临床上发挥作用、帮到癌症病人,还有很远的距离。

电影《达拉斯卖家俱乐部》中记录了 1986 年艾滋病患者罗恩 · 伍德鲁夫(Ron Woodroof)为了自救,研究各类未受当局批准的药物,并自己调配组合药物,走私药物卖给其他患者的故事。现实生活中,癌症患者以及家属也是这样挣扎在生死线上。

电影中的故事每天都在印度上演,未在国内上市的靶向药,低价的仿制药大量从印度转运。

癌症大数据公司 Haalthy 的创始人邱威妮见过太多 “罗恩 · 伍德鲁夫"。2012 年她还在 MIT 读书的时候,就有各种人拜托她在专利局寻找原料药,带回国自己配置救命药。

在张华最绝望的时候,她曾抓住一线希望去打通各方认识邱威妮,想要让自己的父亲能够多一条生路。但她并没有邱威妮当年的幸运——和张华父亲一样,邱威妮的父亲也曾患肺癌,但他有幸进入了香港的一支临床试验组。虽然,三年之后,邱威妮的父亲也没能幸免。

就像在游轮沉没的时候那一艘无人营救的救生艇一样,基因检测把患者从沉船打捞上救生艇,但患者仍旧要面临冻死在海面上的威胁。

不少患者在做完基因检测之后仍然发现他们无药可医。比如,90% 的胰腺癌病人都有 KRAS 基因突变,但至今人们还没有找到可以处理癌细胞中突变基因的药物。

生产出可以抑制突变的药物非常不容易。一些由体细胞突变所编码合成的异常蛋白位于癌细胞的表面,便于药物的到达与起效。但也有不少在细胞中被埋得很深,使得即使有药物可以穿过细胞膜接触到目标蛋白,它们往往也因为太小而无法黏在这些蛋白上,起到效果。这个难题使得一些最为常见的驱动突变无法被解决——如 P53、RAS 突变,这两种突变能使正常细胞不受控制地变为癌细胞。

即使有一些药物能够成功抑制突变,他们对于患者生命的延长仍是微乎其微。比如,有一个药物成功的抑制了一个驱动突变,将肿瘤缩小了,但只要有一个抗药的细胞存活下来,这个细胞便可以增殖成一个新的肿瘤,而且对这种药物将毫无反应。

以治疗胃肠道基质肿瘤的药物格列卫为例,它能使晚期癌症患者的存活中位数从 19 个月上升到 60 个月,但 60% 的患者在两年内就会出现抗药性。

在未来,癌症可能像艾滋病一样,需要用多种药物联合的鸡尾酒疗法来治疗,如治疗晚期结肠癌的联合疗法。然而,这些药物每一个都花费不菲,且各自都有副作用。

癌症基因检测的意义还是用药为主。有家族史又有大把钱的,可以玩玩。”Justin Zhang 对深蓝 Deeper Blue 说,他是一名体外诊断投资者,“初期确诊的,做了不包有药,但是不做连希望都没有了。有药也得看情况,很多病人在用完药不久之后就耐药了,还是无底洞。”

对于乳腺癌病人,医生需要根据检测基因检测结果制定治疗方案,而且对于某些基因突变病人,目前还没有有效药物。

大数据的战役

至今,没人敢说癌症基因检测结果可以被完美解读。

奋斗在临床上的医生们只能发现病人的哪些驱动基因中发生了突变,但并不知道这些突变意味着什么。除非,我们能够把病人身上所有可能出现的驱动突变都记录下来,并同时观测病人的临床数据。但这种记录本身就极为困难。

癌症细胞的恐怖之处在于拥有海量突变。

癌症病人肿瘤内的突变数目不一,少如儿童癌症有一千左右,多如吸烟引发的肺癌和黑色素瘤可达到 10 万以上。要在这么多突变里,寻找不超过 20 个驱动突变,无异于大海捞针。

而在肿瘤的生长过程中,新的突变总会产生。除了探寻哪些基因突变导致癌症发生外,研究人员还得去寻找哪些基因会促进癌组织进一步发展。每一波基因突变的出现,都会使得驱动突变和乘客突变的分类被打乱,患者会对之前的药物产生抗药性,医生们不得不重新制定治疗方案。

如果想建立基因与疾病之间的关系,需要不断地对病人的基因进行检测,掌握基因组的动态变化。

为了解决上述这些困难,科学家们需要大量搜集、分析数据。

为此,国际上启动了两项相关癌症基因大数据项目——癌症基因组图谱计划(TCGA)和国际癌症基因联盟(ICGC)。

历经 10 年的癌症基因组图谱计划建立了世界上最大的癌症基因信息的数据库,共收集 2.2 亿 PB 的基因数据,发现了近 1000 万个与癌症相关的基因突变。科学家们利用这个数据库,既可以从某个基因入手,检索已发现的该基因突变类型、方式,及分别在肿瘤中出现的频率;也能从某种癌症入手,查询所有受到影响的基因;

国际癌症基因联盟(ICGC)是由全球 71 个研究机构共同组成的,旨在世界范围内对 50 多种癌症,进行全基因组检测、分析,并将所有的检测结果开源,让医生、科研人员能便捷、免费的使用数据。当前,ICGC 有包括肺癌、胃癌、肝癌、乳腺癌等 13 种癌症相关基因测序在中国开展。

ICGC 公布的在全球以及中国范围内最常见的20种与癌症有关的基因突变。

这是一场大数据的战争,人类仍在奋斗中。

如此绝望

当然癌症基因测序也不是什么用都没有……

比如癌症基因测试帮到了患有黑色素瘤的病人。约有一半的黑色素瘤患者有 BRAF 基因的突变。这种叫 BRAF 基因,主要的害处在于帮助癌症向身体其他部位的转移。2011 年,美国 FDA 批准了第一个可以抑制 BRAF 突变蛋白的药物。直到 2016 年的结果是,80 位接受了新疗法的转移性黑色素瘤病人中,平均生存期达到了两年,远远长于之前的 5.3 个月。

“肿瘤里面是系统性疾病,不是一个基因出了问题,是一堆基因出了问题。肿瘤难治,是因为它是多重基因的问题,远远复杂于单纯的基因测序。全组基因检测对于免疫治疗的作用不可低估。即使没有靶向药吃,但仍旧可以估计免疫治疗的效率。” Haalthy 创始人邱威妮对深蓝 Deeper Blue 说。

更重要的是,基因测序可以帮助判断耐药机制。比如在肺癌中发现的 EGFR 突变和 ALK 突变,如果耐药性产生,只要重新做基因测序,50% 的患者都能用上靶向药。

“驱动基因检测值得尝试,比如肺癌的一些相关突变,只要身体状况允许,按照美国国立综合癌症网络(NCCN)指南就可以立刻去用靶向药。” 邱威妮说,“基因检测不能解决所有肿瘤的问题,但它是基础的事情。”

至少,基因检测这件事让人们对癌症的分类有了新的认识。

就以往来说,大家对于癌症的分类都是根据第一次癌细胞出现的位置:如乳腺癌、肺癌等。但后来人们发现,肿瘤发生的基因突变是更本质的东西。因此,医学上慢慢开始将肿瘤的发生部位与其基因信息相结合来给癌症进行分类与命名——这一观念的转变打开了癌症治疗的新思路。

在进行基因检测后,医生会根据基因检测信息来制定治疗方案。比如,同样的肺癌,存在 EGFR 突变的病人可以服用易瑞沙、特罗凯、阿法替尼、9291 等靶向药物,而如果是存在 ALK 突变,则需要选择克唑替尼、色瑞替尼、阿雷替尼等进行治疗。

简单来说,只要两种肿瘤所对应的基因突变是一样的,那么它们的治疗方式也是一样的。比如乳腺癌和结肠癌,从部位上来讲完全没有任何联系,然而当用来治疗 HER2 突变的乳腺癌药物赫赛汀被用于有同样突变的晚期结肠癌病人身上时,约有一半的病人生存了超过一年。

科学家们正在用基因突变来解释癌症的征程上长途跋涉。但是目前,他们仍被质疑所包围:到底要多久基因检测才能给癌症治疗带来有意义的变化?

至少目前,这条路还很远。

参考文献

  1. Jessica Wapner, Scientific American, September 2016 Issue, http://www.scientificamerican.com/article/why-gene-tests-for-cancer-don-t-offer-more-answers/?from=singlemessage&isappinstalled=0

  2. Spigel, D. R., A. B.  Schrock, and D. Fabrizio. "Total mutation burden (TMB) in lung cancer  (LC) and relationship with response to PD-1/PD-L1 targeted therapies." J. Clin. Oncol. 34.May (15_Suppl.) (2016): 9017.

  3. Schwartzberg, Lee S. "Post-ASCO Immunotherapy Highlights (Part 2): Biomarkers for Immunotherapy." (2016).

雷锋网(搜索“雷锋网”公众号关注)注:本文为deeperblue授权雷锋网发布,转载可联系微信:295513406。不得删减内容。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/mtzJz1rxNcWaDpnl.html#comments Mon, 12 Sep 2016 16:46:00 +0800
苹果的惊喜或许就从这个微不足道的产品开始 //www.xyschoolife.com/category/zhuanlan/Q9DFkDCo6WVcYf5p.html 雷锋网按:本文作者陈孝良,工学博士,声智科技创始人。

苹果2016秋季新品发布会过去了几天,这次发布会同样被吐槽无数,创新不力仍然是被诟病的主要原因。有些媒体认为苹果已经走下了神坛,甚至有些评论家认为苹果可能是下一个诺基亚。苹果似乎也信心不足,宣布不再公布 iPhone 首个周末销量数据,其股价也是连续下跌,股票分析师也着急调低苹果的股票评级。

公平来说,没有人会对苹果的这次发布会感到惊讶。iPhone 7 和 iPhone 7 Plus这两款手机完全在预期之内,仅仅是取消了 3.5 毫米耳机孔,加强了防水防尘性能,提高了存储容量和电池续航时间,重新设计了 Home 按钮,采用了立体声喇叭,同时对处理器进行了升级,iPhone 7 Plus则搭载了双后置摄像头。

苹果的这些创新,早就被国产手机玩了一遍,反而让苹果落下了模仿国产手机的嫌疑。虽然前几次唱衰库克和苹果,不断被苹果实际的销量打了脸,但媒体中还是充斥着唱衰的声音,粉丝也对苹果充满了复杂的情怀。

众所周知,iPhone是苹果最大的摇钱树,为苹果贡献了三分之二的营收,是苹果主要利润的来源。苹果这几次发布会都没有展现超出预期的创新技术,粉丝的质疑就是最正常的反应。其实,行业唱衰的声音,莫不如说是自我的反省,试图找到苹果如何在已经趋于饱和的手机市场再次杀出的答案。

这确实是个头疼的问题,根据IDC公布的2016年中国第二季度智能手机市场数据显示,苹果在中国市场出货量仅有860万部,市场份额仅占7.8%,出货量与去年同期相比下降31.7%,位列第五。而华为、OPPO、VIVO和小米排名前四,共计56.1%的市场份额。苹果唯一欣喜的是在海外市场,比如欧洲,苹果的市场份额反而上升了0.7%。至于iPhone 7 和 iPhone 7 Plus能否逆转这种颓势,似乎众人也不看好。

但是,苹果真的像唱衰的那样没落了吗?似乎远远不是,相信这几天只要你打开手机就会看到有关iPhone的消息,甚至早在一个月前一些媒体就做好了相关准备。而这种眼球待遇,只有苹果才拥有,没有例外,三星、华为、OPPO、VIVO和小米还遥不可及。能够让国外粉丝彻夜排队,国内粉丝卖肾来标签一款电子设备的,截止到目前为止,仅有苹果而已。苹果仍然享受着全球无数粉丝的关注,正是这种极度关注,甚至无限膜拜,才让粉丝产生了一种期望落差,充满了复杂情怀。

这实际上都是苹果的无形价值,而苹果的销量在库克领导的后乔布斯时代继续推高着苹果的实际价值,库克刚刚在发布会上公布的iPhone全球销量是10亿台。虽然众多机构普遍保守预测iPhone 7的首周销量,但这依然是1000万台的天文数字(见下表)。

苹果的霸主地位显然还无法撼动,而且苹果也绝不会是下一个诺基亚。苹果不单单是个硬件公司,她是一个从芯片、硬件,到OS、Cloud的生态链巨头。虽然苹果iPhone市场份额下降,但是iOS相比Android的使用率却还在上升,iOS的用户体验,甚至小孩都能轻松上手的优势,让国内手机厂商遥望不及。

那么苹果还能否像乔布斯时代再次带给粉丝们惊喜呢?回答这个问题之前,不如先思考一下苹果的创新到底是什么? 数一下苹果畅销的iMac,iPod,iPhone,iPad,也包括iWatch和Airpods,事实上都不是苹果创新的品类,而都是苹果跟随进入的存量市场。苹果也试图推出过一些新品类,特别是乔布斯被赶出苹果的期间,比如下图的几款产品,但是遗憾的是丝毫没有市场迎合。乔布斯回归后也是靠着iPod 颠覆了MP3市场,iPhone和iPad同样也不是苹果公司的先创。但是乔布斯厉害之处,就是敢于用创新和设计把这些产品做到极致的用户体验。

这样看来,苹果其实不擅长创造新的品类,但却能把现有品类的用户体验做到极致。苹果并不是一个善于启蒙和教育新兴市场的公司,这似乎是Google和Microsoft的责任,这两家巨头试图不断用各类新奇产品进行市场试错,但是用户的反馈并不是太好,大部分产品也都销声匿迹。

从这点来看,苹果还是极其的保守,苹果对最近火热的VR/AR和AI似乎无动于衷。反而却只是取消了苹果手机的耳机孔,顺带发布了一副狂遭吐槽的AirPods无线耳机那么这就是苹果带给粉丝的惊喜吗?

惊喜暂时算不上,这或许要留到iPhone 8甚至苹果的CarOS(曲面屏和语音交互),但是这次革新绝对是给未来惊喜做好了充足的铺垫。不要轻视了苹果堵住iPhone 7的耳机孔,这不单是技术上的升级,而是引导用户习惯的改变,这和亚马逊Echo取消触摸屏殊路同归,当初也没有人看好亚马逊的这种设计。甚至苹果联合创始人Stephen Gary Wozniak也极其反对苹果的这次举措。

但他们都忽略了,苹果通过取消耳机孔可以继续向产业界收取高昂的授权费用,更重要的是迫使用户逐渐适应AirPods无线耳机,即便这种耳机很容易弄丢。为何苹果会如此重视这样简单的无线耳机呢?

耳机是实在是太过普遍的产品,耳机产业也是一个相对稳定的消费电子产业。但是耳机天生就是一种用户最容易认可的可穿戴设备。自诞生以来,一直作为个人计算机、移动智能终端等主流设备的附件,仅仅起到语音通话和音频播放的作用。蓝牙通话耳机在这方面有所进步,已经具备可穿戴设备的早期雏形,但是蓝牙耳机追求的仍然是辅助手机通话,忽略了音乐和智能的重要应用。随着用户需求的不断改变,蓝牙耳机并不能只专注于追求通话的完美,娱乐性和智能化也是用户强烈的一种需求。耳机的这种天然属性和用户需求,正适合苹果对于产品的定义和追求。

可穿戴产品曾经非常风光,三年前有上千家公司从事相关的产品研发及制造工作,包括了世界顶尖的Google、Nike、Microsoft、Facebook、Sony、Samsung等公司,市场上主要以眼镜、手表、手环、戒指、臂环、跑鞋等相对成熟的产品为主。这类产品主要包括:Google Glass、Jawbone Up、Nike FuelBand、Misfit Shine、Sony Smartwatch、Thalmic LabsMYO、Smith+ReconSki-Goggle、Pebble、Fitbit Flex、Heapsylon、FitBark、Glove One、GolfSense、Smarter Socks、Jetlag Light等(见下图)。

 

2016年这些可穿戴产品怎么样呢?Google早就停掉了Glass,Jawbone有可能即将死掉,大部分热闹的产品都已经销声匿迹。苹果并没有迎着风口凑这份热闹,即使10月开卖的AirPods无线耳机,其智能耳机的首创概念也和苹果无关。几年前市面上就存在多款智能蓝牙耳机,包括Plantronics公司的Voyager Legend蓝牙耳机(图a),Muzik公司的SmartHeadPhones耳机(图b),Iriver公司的IriverOn耳机(图c)和Hybra公司的Orb蓝牙耳机(图d)等,甚至Intel也跟着凑了份热闹。

 

显然,苹果公司喜欢上了智能耳机这个品类,耳机是属性,无线是刚需,智能是附加。而蓝牙耳机厂商和智能耳机厂商都验证了这个市场规模足够的从下面的数字罗列一下,苹果新的惊喜或许就从智能耳机这个微不足道但是影响深远的产品开始。

2007年-2012年,全球蓝牙耳机销量复合增长率达到31.1%,到2012年,其市场规模达到48580万只,比2006年扩大6.5倍。2013年,全球有线耳机销量13.5亿只,其中手机用耳机销量约为11.7亿只,其他行业用耳机销量1.8亿只。全球有线耳机市场总规模超过100亿美金,其中高保真立体声高端耳机销售额占比超过50%,在50亿美元以上。2013年,全球蓝牙耳机销量约5亿只,市场规模可达到100亿美元。加上其他便携类音频产品,全球消费类电声产品的销量近20亿只,市场规模超过200亿美元。

国内的耳机市场近三年保持40%以上的增长率,其中蓝牙耳机占比超过了50%。

再看美国市场,同样美国市场的蓝牙耳机占比早就超过了50%,而且销售增长同样很高。

上面这些数据,都是实实在在的销售数据统计,当全球手机市场趋于饱和,手机也进入改善型更新换代的弱需市场,还会有哪些品类能像耳机或者音箱的市场更加诱人呢?苹果式创新或许不会马上赢得粉丝的赞同,但是市场会逐渐改变粉丝的认识。 

尤为重要的,苹果定义AirPods为新一代可穿戴计算平台不仅揉入了更多传感功能,而且彻底释放了Siri的活力。Siri自从伴随iPhone 4S诞生以来,一直扮演着替换触摸屏的角色,但是事与愿违,Siri这几年的表现并没有产生预期的效果,却证明了公众场合对着触摸屏手机用语音交互是种很傻的体验。但是语音交互符合人类交流的习惯,终归是未来趋势,只是用错了场景而已。如今苹果将Siri移植到了AirPods,利用声学技术的更新迭代,窃窃私语甚至就可以控制手机,而这种方式的普及,将使很多场景下不再需要拿出手机。一旦用户养成了语音交互的习惯,苹果将会有更大的施展空间,比如CarOS、AppleTV。另外,苹果通常不会在自己的新闻发布会上谈论 Beats 产品,然而,粉丝对于苹果继续推出Beats 新型耳机不会感到惊讶。

苹果,依然还是保守,不创新品类,却创新产品,苹果还是全球最容易赚钱的公司之一。即便国内诸多电子制造公司,最好的选择依然是靠着苹果概念上市。苹果发布的新产品,依然会给未来的生活带来重大变化。很多时候,这种变化潜移默化中影响了世界,等我们若干年后再回顾的时候,发现我们有些习惯真的变了。或许,这就是苹果带给粉丝最重大的惊喜,恰似一杯醇酿,回味无穷。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/Q9DFkDCo6WVcYf5p.html#comments Mon, 12 Sep 2016 11:16:00 +0800
Intel收购Movidius,野心绝不仅是无人机和AR //www.xyschoolife.com/category/zhuanlan/AkYWmzfAwSsreQ3H.html

Intel终于出手将业界炙手可热的Movidius揽入怀中,这几天的新闻大都解读为Intel要进入无人机或者AR市场,这当然不能算错,但仅仅从进入某个市场的角度来理解似乎太过表面,结合Intel近期的收购对象,我们有理由相信Intel想摆脱传统处理器架构的束缚,寻找处理下一代计算任务的新架构

中央处理器也就是CPU统治整个计算机世界已经有几十年了,虽然Intel在移动处理器领域完败于ARM阵营,但移动处理器的核心仍旧是CPU。GPU虽然日渐受市场和行业重视,其主要作用仍旧是为游戏加速,定位于专用的图形加速器。直到前几年Nvidia推出GPU的概念,将GPU应用在浮点运算密集的科学计算等应用中,开始在高性能计算领域对处理器巨头Intel发起了直接的挑战。但这个领域毕竟小众,而且Intel也顺势推出了Xeon Phi的加速卡来应对挑战,战况还在Intel可控范围内。

可是随着以深度学习为代表的人工智能的崛起,让GPU找到了更加合适的领域来挑战处理器巨头的统治地位。这一领域显然是全新的领域,而人工智能也将是今后最重要的技术领域,在这个领域一旦占据有利位置,极有可能颠覆原有的处理器市场格局。从Nvidia的角度来看,GPU是运行深度学习最好的处理器架构,今后在数据中心和各类嵌入式环境下都要用GPU来运行各类人工智能应用。如果这一场景得以实现,原有的处理器巨头Intel和ARM都将让出霸主的宝座。

显然原有巨头不甘心让出宝座,于是我们看到了Intel接连出手Altera、Nervana和Movidius。

其中Altera是FPGA巨头,利用FPGA來加速深度算法是业内很热门的方向;

Nervana的联合创始人和 CEO是原来高通Zeroth 神经网络芯片的项目负责人,因为项目无法产品化而离职创业。Zeroth的处理器架构没有更多的信息,但从现有公布的信息来看很有可能是类似IBM的TrueNorth这样的类脑神经元处理器,这是一种更加前沿的处理器架构,但技术成熟度还比较低离商业化还有一段距离。

Movidius最近声名鹊起,主要是因为它是谷歌Project Tango背后的视觉处理器供应商。但其实这家公司十年前就成立了,现任CEO是原来德州仪器OMAP部门的总经理,它的技术指导委员会也是实力强大,拥有半导体和处理器行业的元老级人物——被苹果收购的 P.A.Semi 创始人丹尼尔·多伯普尔(Daniel Dobberpuhl),卡内基梅隆大学计算机科学/计算机视觉专家金出武雄,以及前苹果 iPhone 和 iPod 部门工程副总裁、资深工程师大卫·图普曼(David Tupman)三人坐镇。有这样雄厚的技术背景,它们的处理器架构也令人印象深刻。

从上图可以看出这款处理器主要由SPARC处理器作为主控制器,加上专门的DSP处理器和硬件加速电路來处理专门的视觉和图像信号。这是一款以DSP架构为基础的视觉处理器,在视觉相关的应用领域有极高的能耗比,可以将视觉计算普及到几乎所有的嵌入式系统中。Movidius曾经发布过一款指上型深度学习计算板,显然它的架构也很适合用来做深度学习的计算。而最近已经曝光的微软Hololens当中的HPU全息处理器也是基于Tensillica的DSP内核,擅长于多媒体应用的DSP在视觉领域的威力依然强大。让我们脑补一下,如果将图中的SPARC RISC处理器替换成X86处理器,那就是Intel完全自主的视觉处理器了。

从上面的分析来看,Intel几乎收购了所有的处理器架构来构建自己的人工智能加速处理器,除了GPU没有合适的收购对象它没有收购以外,但它已有的Xeon Phi加速卡就是基于自己的胎死腹中的Larrabee GPU,现在也是和Nvidia竞争的主力战将,所以Intel实际上准备了所有的可能处理器架构来打这一场人工智能芯片大战,从这个角度来讲,获胜的概率更大。

由于计算视觉在人工智能当中居于非常重要的位置,所以intel本身对视觉技术的重视程度也异常高,就在去年的CES展上,Intel CEO 科再奇就说:

“1995 was the last big moment in technology. 2015 will be another turning point. We’re going from a 2D world to a 3D world. This additional dimension will change how we experience computing”。

他讲的3D计算并不是指GPU,而是指计算视觉、三维重建和基于3D数据的应用。于是这几年的公开活动上Intel的三维视觉传感器Realsense一直是瞩目的焦点,而从我们得到的信息看,Realsense内部使用的是ASIC芯片来计算深度信息,显然在算法迭代迅速的计算视觉领域,使用固定算法的芯片来处理信息非常不合理,这次收购以后,Movidius的芯片也能用在他们的Realsense摄像头上,对这一战略性产品的增强也会带来极大帮助

从去年CogniVue被Freescale收购,到今年Movidius高调卖身,视觉处理器已经成为半导体领域极少数仍旧获得业界和资本关注的领域,这显然与三维视觉应用的大规模爆发有关,毕竟要让机器认识和理解这个世界,视觉是其中的关键信息来源,在人工智能大爆发的时代,VPU将变成和当年的GPU一样热门的领域,也许会引来更多巨头和创业公司进入该领域,躬逢其盛,不禁让我们感觉似乎回到1995年开始的显卡大战年代。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/AkYWmzfAwSsreQ3H.html#comments Fri, 09 Sep 2016 18:51:00 +0800
模块化设计会是智能手机的未来吗? //www.xyschoolife.com/category/zhuanlan/nqKGsayP1iY2mutL.html 最近联想发布了Moto Z/Z Play模块化手机,与此同时,路透社传出谷歌将暂停模块化手机Project Ara的消息。

模块化手机概念的提出——谷歌Project Ara

Moto Z的发布把手机模块化热度再一次提升到了一个新高度,这个词最早是由谷歌提出来的——谷歌Project Ara。谷歌最初设想的模块化是手机全系统模块化,如同当年玩组装电脑一样,包括CPU、内存、相机模组、音响模组等等,全部可模块化定制。

谷歌最初设想的手机模块化是这个样子的:

图1 谷歌模块化手机概念图

可是电脑都玩不转真正的模块化,手机如何玩得转?体积限制、外观设计、稳定性等制约了谷歌模块化手机的研发。

而相对于技术限制,谷歌模块化手机产品应用定位不清晰的尴尬才是谷歌模块化手机最大的问题。毕竟,有谁需要一台可以更换CPU的手机呢?

而与此同时有传言流出,声称谷歌已经停止了模块化手机的研发工作,虽然消息的可信度不高,但毕竟空穴来风。

很多时候,伟大的想法不一定能够在有想法的人手里实现,但伟大的想法最后一定会实现,比如2011年摩托罗拉推出的ME860就具有指纹识别,然而当时并没有火。那么这次的模块化呢?

| 模块化手机的尝试——LG G5

在2016年初,LG发布了自家旗舰LG G5,这部手机的主打卖点便是模块化定制。

不同于谷歌的全系统模块定制化,LG采用了类似于可更换镜头相机的策略,在手机“下巴”的位置做出了一个可拔插的接口。通过这个接口,用户可以根据自己的需求更换定制化配件,支持热拔插。和手机一同发布的配件包括一个自拍手柄和一个hifi模块。

图2 LG G5的模块更换方式

LG G5也许是吸取了谷歌模块化手机设计失败的教训。为了对外形设计和体积进行控制,模块化选择了相对保守的部件——hifi模块和自拍手柄。

这么做,LG G5保证了手机依然是一个和谐统一的整体,而不是谷歌概念手机那样拆得四分五裂。

凡事有优点,自然也有缺点。LG G5虽然避免了手机模块化给手机本身设计造成的影响,但却也只能设计出鸡肋的功能。产品本身功能定位都不清晰,又怎么去期待其得到市场的追捧?

LG G5的市场反响也印证了这一点。其相对于谷歌的进步只能说是,谷歌想到了,LG 做到了。

| 模块化手机到底为什么而生?

对于手机设计,我们必须思考这样一个问题——消费者到底需要什么?

但很多科技企业会陷入另外一个死胡同——我们能做出什么?

谷歌的模块化手机显然是采用了“我们能做出什么?”的思维方式。其实一款能够更换CPU的手机,即使是做出来了,又有什么意义呢?同样的,对于LG G5来说,带电池的自拍手柄?我需要这个吗?

技术从来都是为需求服务的,也只有满足了用户需求的技术突破才有可能赢得市场。那么,模块化手机设计的目的到底是什么?它解决了用户什么问题和需求呢?

解决的就是消费者需要专业领域更加高素质的硬件体验,同时又不牺牲手机本身的精致和便携。

智能手机在今天,其实已经不能说是一台手机了,其更为准确的说法应该是移动智能终端。

对于智能终端来说,其主要有四大功能——数据采集、数据处理、数据通讯和数据呈现。

相机、麦克风和各种传感器等属于信息采集模块,SOC、 RAM和rom等属于数据处理模块,屏幕、音响等属于信息呈现模块,而wifi、网络通讯等属于数据通讯模块。

当手机开始具有这些功能的时候,它受到了足够的关注度和追捧。一时间,手机成了人们手中的万能数码王。而很多曾经的数据采集和呈现终端就在智能手机普及的浪潮中,尘归尘,土归土了。最典型的例子就是卡片机和MP3了。

但随着技术的进步,随着人们认知的提升,人们不再只满足于有或者没有,人们开始追求质量了。

手机,因为体积便携的同时集成大量的功能,而获得了前所未有的成功。但同样因为体积,手机很难在专业领域做到极致。比如相机、比如音质。

大家都知道手机导航基本干掉了车载GPS,但在专业领域,其测试精度还远不能和专业的GPS相提并论,而这其中最大的制约便是体积了。

相机领域也是,手机摄影能够干掉卡片机,却干不掉大底相机,原因就在这。

一方面,为了便携和美观,手机越要更加轻薄;另一方面,为了满足专业级别数据采集和呈现的需要,手机又需要足够的体积去容纳功能。怎么办?

模块化似乎是一个很不错的解决方案,联想,想要做的就是这个。

| 谈谈模块化手机Moto Z的模块——以哈苏摄影模块为例?

这款手机主打了模块化的设计,随机发布了五款可更换模块,哈苏摄影模块、JBL扬声器模块、投影模块、电池模块、背壳模块。

在这五个模块里面,真正值得关注的只有三个,哈苏摄影模块、JBL扬声器模块和投影模块。

图4 魔影模块

在这三个模块里面,如果真的会有一个模块会成功,应该就是这个哈苏出品的影像模块了。

前段时间,华为拉上徕卡做出来的P9获得了极大的成功,一时间,P9成了国产手机摄影的标杆。

但实际上,论在相机领域的地位,哈苏并不逊色徕卡,无论是底蕴还是现状。底蕴是一样的深厚,现状是类似的凄凉。

我们不去扯太多无关的,单就这个相机模块谈谈Moto Z的创新之处以及未来需要走的路

作为手机爱好者,这个模块是划时代意义的,但是作为摄影爱好者,这玩意提不起哪怕一丁点的欲望,为什么?

图5 哈苏摄影模块

我们来看看摄影模块的基本参数:1200w 1/2.3英寸cmos,等效25-250mm f3.5-6.5镜头,ISO 最高3200。

大家在看到10倍光学变焦的时候,会惊叹,wow,这么牛!但实际上,在相机领域,40倍,50倍的光学变焦也就几千块钱,画质上不去,有什么用

这是什么配置?这就是被手机摄影干掉的卡片机的基本配置索尼在2012年的时候推出了具有划时代意义的相机黑卡 rx100,1英寸cmos,镜头规格是等效28-120 f1.8-4.9。

正是这款相机开启了大底卡片机的时代。但这款相机的第三代也就是RX100 3,镜头规格由等效28-120mm f1.8-4.9升级到了等效24-70 f1.8-2.8。焦距变短,光圈变大,这才是升级。

图6 索尼RX100

也就是说,Moto 如果真的想做出这么一台专业的配件,为什么要做1/2.3 cmos,为什么要做10倍光学变焦?

如果这次的相机模块是1英寸cmos,24-70 f1.8-2.8,或许才会真的让人惊叹黑科技吧,参考索尼黑卡,其体积还是可以控制在一个能够接受的范围的。

当然了,相对于这些,也许对于普通消费者,10倍光学变焦更具有吸引力。但你既然主打模块化,既然你把触角伸到了专业领域,怎么也得做出点真料吧?而不只是拉个大旗做广告。真论卡片机造诣,日系厂商比哈苏强多了。不过以哈苏跟索尼的关系,这相机到底出自谁的手,还真不好说。

| 写在最后

当年谷歌提出模块化手机概念的时候,大家以为这会是手机行业的一次巨大创新,无论是否成功,必将引领潮流,现在谷歌偃旗息鼓了,但这股吹起来的风,是不会熄灭的。

今年的LG G5就是第一个例子,LG G5的问题依然在于思想的禁锢,太过于执着手机本身的形态。在手机形态本身的制约下,该如何去解决性能和体积这一对孪生的矛盾体呢?

总的来说,Moto Z所代表的创新意义要比实际使用价值大得多。但对于其产品,依然是噱头有余,诚意不足。

那么,这股由谷歌提出、由LG和Moto吹起的手机模块化之风,会一如当年Moto做出的指纹,HTC做出的双摄那般,慢慢成为潮流,还是说只是昙花一现的噱头,很快就消失在人们的记忆里呢?

这个问题,我们就交给手机厂商未来的行动回答吧。

雷锋网注:本文作者张小凡,微信公众号小凡聊手机。本文由作者首发雷锋网,转载请联系我们授权,并保留出处和作者,不得删减内容。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/nqKGsayP1iY2mutL.html#comments Fri, 09 Sep 2016 18:12:00 +0800
吃屎可以减肥,这些公司没开玩笑 //www.xyschoolife.com/category/zhuanlan/TRuZBtURAiCwk4yB.html 雷锋网按:本文由DeeperBlue发布雷锋网。

你以为你每天克制饮食,勤于锻炼,就一定会瘦吗?

实验证明,与其刻苦减肥,不如 “吃屎”。

2009 年,美国微生物科学院院士、上海交大教授赵立平通过微生物基因组测序技术,证实肥胖与双歧杆菌减少 、硫酸盐还原菌增加正相关。为了改变胖子的肠道菌群,美国麻省总医院研发了一种 “有味道” 的技术:把瘦子的粪便制成减肥药。这项技术称为 “粪菌移植” ,已经成为微生物组产业三大支柱之一(微生物基因组检测、微生态药物以及粪菌移植技术)。

听起来有些难以下咽,但学界认可:目前粪菌移植技术在 SCI 上已有 614 篇相关文献发表。

我们的肠道里有上千种微生物、万亿个微生物细胞。如何知道哪一种微生物能够帮助减肥?哪些微生物会让人变胖?

肠道中有双歧杆菌、大肠杆菌、优杆菌、类杆菌等上千种微生物。

这就需要用到微生物基因组测序和分析。简而言之,就是对微生物进行基因测序,然后放到数据库中进行比对,继而分析出微生物的种类,哪一种有益,哪一种有害,甚至各自的功能。

2016 年 5 月,奥巴马政府推出 “国家微生物组计划(NMI)”,启动资金超过 5 亿美元。国际上已有 8 个人体微生物组计划,9 个环境微生物组计划。人类投资数十亿美元,试图用基因测序精准描绘十几万种微生物的遗传信息。

为什么微生物的基因会受到如此重视?

目前人体与动物基因组已测序完毕,数据库完备。而微生物基因组测序比前两者整整晚了十年。

微生物组测序这片未知领地一经探索,可推动以下三个领域的发展:

1. 微生物可以应用于临床诊断和治疗。

例如,如果我们想要避免做肠镜,可以以粪便为样本,检测肠道菌群,找出失调的微生物,与已知的病症对应菌群分布进行对比,诊断病情。进而研发出相应药物对失调的微生物进行激活或者抑制。

人体自身携带 1000 万亿个微生物细胞,总重量加起来超过 1 公斤。微生物与人体互利共生,互相影响健康。科研已证实肠道菌群失调与肥胖症、糖尿病、精神疾病等等有直接关系。

2. 微生物可以应用于保健品行业。

比如某些酸奶就主打益生菌和益生元对肠道的益处。不同菌种、不同菌株和配比,能产生不同功效,可根据每种人群的肠道菌群,针对性研制益生菌产品,还可用肠道菌群测序结果来评价保健品的调理效果。

3. 微生物可应用于农业。

微生物养料可精确定制不同农作物所需的微生物养料,可显著提高农业产量。

图为非洲最大的棉花基地 Burkina Faso,主席 Christian Kabore 在采访中表示,棉花产量已经不足了。

1995 年,生命科学家弗雷彻曼( Fleichman )完成了流感嗜血杆菌的全基因组测定,微生物基因测序的研究启动。

2016 年,微生物基因测序已做好广泛应用的准备 。为什么这么说呢?

第一,基因测序技术经历了三代革新,第三代测序技术时间缩短、成本降低,让大规模微生物组测序成为可能对于一个微生物的全基因组,第一代测序技术要 100 台仪器、数年、数十万美元才能测完。而现在一台仪器、十分钟、几千美元就能测。

第二,微生物基因的数据库越来越大、越来越精准。

2007 年,美国启动了 900 个微生物组测序的 “人类微生物组计划”,目前已接近完成。截止 2015 年,在美国国家生物技术信息中心(NCBI)的公开数据库,已收录 4517 种细菌、 3926 种病毒、 272 种古生菌的全基因组序列。

第三,云计算、机器学习在生物方面的应用开始普及。

微生物组信息量极大。如果把 NCBI 的微生物组数据用 DVD 储存(平均 700 MB),这些 DVD 垒起来有 4 个世界第一高楼迪拜塔高。云计算的出现,能够突破本地储存对硬件的高要求。

微生物基因的数据信息复杂。即使最新测序技术也无法突破测序结果误差大,不完整的瓶颈。这些碎片化,有错误的的微生物信息难以正确比对数据库中的信息。而机器学习算法发展,能够有效,快速得分析数据。

在欧美,“微生物组测序”正在从实验室走向市场。在中国,微生物组测序服务只针对科研,提供者如华大基因、诺禾致源、美吉生物等。目前,微生物组测序的商业应用一片空白,人们正期待新的产业诞生。

目前,将微生物组测序进行商业应用的公司大部分处于初创阶段,主要集中在法国和美国两个国家。应用于医疗诊断,农业和保健食品三个领域。深蓝挑选出了三家相对成熟的创业公司,挑选依据如下:对应市场需求点、技术可靠程度、创始人背景。

1. Enterome Biosicence 

创始团队通过研究肠道菌群基因组开发药品,有望根治号称消化科 “头号怪病” 的克罗恩病。这是一种病因不明、反复发作、无法根治的肠道炎症性疾病。团队发现,形成该病的主要原因是粘附侵袭性大肠杆菌(AIEC)过多,造成肠道黏膜病变。这款能有效抑制大肠杆菌增殖的药物正处于人体临床试验阶段。

Enterome Bioscience 官网界面,主打多年资深微生物基因组研究技术。

Enterome Bioscience 2012 年成立于巴黎,今年 5 月在位于波士顿的生物医药创业硅谷——肯德尔广场( Kendall Square)开了一家分公司。肯德尔广场紧邻哈佛、MIT,是世界生物技术研发重镇。公司获得了两轮共 1750 万欧元融资,投资方包括微生物投资的全球领导者 Seventure Partners 及雀巢等。

公司亮点:

1. 欧美有约 100 万克罗恩患者,其中 50% 中重度患者需进行长期治疗。然而,服用免疫抑制剂和手术等治疗手段只治标不治本。据估计,在 2020 年将有 60 万中重度患者,意味着 56 亿美元的市场。


2. 创始人达斯库 · 艾瑞里奇( Dusko Ehrlich) 担任法国国家农业研究所(INRA)的研究总监,领导开发了 INRA 宏基因组平台。艾瑞里奇曾在科技期刊发文超过 350 篇。他参与过多个国际微生物组计划。其余两位核心人物均有超过 15  年的微生物组科研经验。


3. Enterome 获得法国国家农业研究所(INRA)技术和资金支持,拥有超过 20 年的研发历史,是微生物组应用的先驱。


4. Enterome 基因组数据库完备,包含所有粪便微生物的全基因组。


5. 公司的合作伙伴包括强生制药,梅奥诊所,药物开发公司艾伯维,武田药品工业株式会社等。Enterome 利用其专有的完备基因组数据库,和这些公司共同开发针对克罗恩病、运动障碍疾病等微生物相关疾病。

2. uBiome 

这家公司可以为你口腔或肠道中的菌落测序。一个采样套餐 89 美元,用户自主采样后将样本寄回 uBiome, 4-6 周后收到报告。报告不仅包括肠道菌落的种类分布,还可将你的结果与健康人、素食主义者、肥胖者、嗜酒者等等对比。多次测试后,还可以比较不同时间的菌落分布。

uBiome 网站界面,展示单次或多次测量套餐产品,自主测试,方便用户。

2013 年,uBiome 作为全球第一个对大众开放微生物组测序的商业公司,最初的资金由网络众筹得来,共吸引到了 2500 个参与者的 35 万美元支持。2014 年,uBiome 获得种子轮 150 万,A 轮 450 万美金的融资,后成功选入 Y Combinator 以及由 PayPal/Google 创立的 500 Startups.

公司亮点:

1. uBiome 主要提供个人基础测序服务,利用云服务储存与机器学习,最后将分析结果整理成生动直观,用户容易理解的报告。


2. 可以分析的微生物来源广。公司不仅可以分析口腔、肠道中的菌落,还可以分析鼻子、皮肤、生殖器的菌落。除了人体,uBiome 已经分析了肿瘤活检样本、猪的粪便、海水里的微生物等等。


3. 开启多方合作,建立商业生态系统。uBiome 为益生元公司 ISOThrive 提供微生物基因测序服务。同时,uBiome 与美国疾病控制与预防中心合作,对至少 1 万份病人粪便样本进行测序分析,拓展数据库。此外,uBiome 还向医疗领域进军,与医疗机构 OpenBiome 的临床医生合作,研究粪菌移植技术。

2. Indigo

Indigo 今年 7 月刚发布首款产品 Indigo Cotton 。 这款 100% 环保产品, 通过微生物组测序,将干旱地区的棉花产量提高了 10%。而现代农业的产量年增长仅为 1%。

Indigo 官网界面。Indigo 采用微生物方式提高作物产量,相比化肥等催产方式,既可以节水,又不会对农作物造成损伤,100% 环保可持续。

这家美国公司成立于 2014 年,首轮投资获得 5600 万美元,今年又获得 1 亿美元的投资,这是农业标的有史以来获得的最大一笔融资。

公司亮点:

1. Indigo 的产品不仅仅可以提高农作物产量,迎合万亿级农业市场需求,还可以应对全球水资源短缺问题。农业生产水资源用量占全球水资源用量的 70%。在保护环境的基础上,Indigo 用有益微生物处理的低用水量、高产量农作物可能会彻底改变农业现状。


2. 公司只有当作物产量有可量化的增长时才会收取费用,这种模式可促使客户购买今年年底将推出第二款产品 Indigo Wheat,继续针对美国大片的干旱地区,提高小麦的水分利用率。


3. 公司 CEO 在过去的 18 年里创立了 3 家公司,其中两个都已经成功上市,募集了超过 7.5 亿美元; 第三个公司是开发一个小分子生物药的,今年被辉瑞以 52 亿美元收购。


4. 科技总监罗杰特(Roger) 是农业学专家, 2009-2011 被奥巴马钦点的国家食品农业研究所第一任所长。他目前还担任加州大学世界食品中心所长,Donald Danforth 植物科学中心名誉校长。


5. Indigo 利用微生物组测序技术和生物信息学计算方法,组建了一个关键微生物组信息数据库,利用机器学习,预测对农作物生长最有利的微生物。将这些微生物应用到农作物上,有利于农作物抵御病虫害,提高营养摄入量、水分利用率,最终提高产量。


6. 公司的研究团队约 60 人,已为 4 万个微生物进行全基因组测序。公司还已经在三个大洲的十几种作物进行了全年测试。

雷锋网注:本文为deeperblue授权雷锋网发布,转载可联系微信:295513406。不得删减内容。

]]>
专栏 //www.xyschoolife.com/category/zhuanlan/TRuZBtURAiCwk4yB.html#comments Fri, 09 Sep 2016 14:42:00 +0800