雷峰网 //www.xyschoolife.com //www.xyschoolife.com/resWeb/images/common/lp_logo.png 雷峰网 //www.xyschoolife.com 2015 www.xyschoolife.com All rights reserved. zh_cn Thu, 24 Mar 2022 00:49:36 +0800 2022年考研「怪」象:国家分数线全面上升,部分院校的计算机类复试线却不增反降? //www.xyschoolife.com/category/academic/s4dukkOPVmgh0bTa.html
今年,你上岸了吗?
作者 | 郑宇宏

编辑 | 陈彩娴

我们知道,不久前2022年研考国家分数线公布,各学科全面上涨,引来众多考生的一片哀嚎。在微博上,“#考研将有300万人落榜#”的话题更是冲上了热搜榜。

无疑,内卷在加剧。一位微博网友感叹:

与此同时,中科大软件学院复试线335分、比去年低于53分的话题又冲上了知乎热榜。

计算机、金融等专业历年受到高校考研学生的欢迎。但据调查,今年虽然国家基本分数线全面上涨,但多所知名 985 高校的计算机专业复试线却有一定的下降趋势。

今年的互联网裁员大潮惹得人心惶惶,大厂的坑位越来越少,难道计算机要退出内卷赛道了吗?



1

国家基本分数线大幅上涨

据教育部于2021年底发布的消息显示,2022年考研人数约457万人,创历年人数新高,而院校计划招生人数只有约110万,招录比大约是1 : 4。

如此竞争残酷,考研赛道难免会疯狂内卷。

今年的考研人数与往年相比有明显增高的原因之一是疫情之下,出国留学已不再成为部分学生的首选,他们转战国内的研考。比如大部分同传、英语专业的考生就在社交媒体上大倒苦水,因为与他们竞争的考生有些已经考过托福,雅思等更高难度的考试,竞争力自然被迅速拉升。

由于考生人数众多,高校录取的名额又少,那筛选的办法自然只能从分数线下手了。

先来看2022年国家基本分数线:

这样可能并不能很明显地看出来分数线有多“疯狂”。那就从折线图来看:

对比2021年的分数线,2022年的分数线只有军事学和农学保持稳定,其余专业涨幅颇高,完全符合考生们口中“涨疯了”的说法。

以教育学为例:2021年教育学专业学位A类国家线为327分,2022年高达341分。上涨14分。微博上,教育类考生更是调侃:“连教育学家看见国家线都要选择调剂的离谱程度。”

考研口号说“提升一分,干掉千人”。按照这个概念换算,那这14分就已经刷掉了14000人了。而这,只是一个专业上涨的分数。数据显示,今年大部分学位专业国家线涨幅都超过了10分:

  • 哲学上涨 15

  • 经济学上涨 12

  • 法学上涨 14

  • 教育学上涨 14

  • 文学上涨 12

  • 历史学上涨 15

  • 工学上涨 10

  • 医学上涨 10

  • 管理学上涨 12

  • 艺术学上涨 15

国家线已经这么“魔鬼”了,比国家线更卷的是什么?

是34所自主划线高校的考研复试线。

清华大学已经公布了大多数学院的复试线,以教育研究院为例,今年入围复试的分数线为351分,反观2021年的复试线只有340分,这个分数连今年的国家线都没有达到。不知是否有2020届的硕士研究生庆幸自己早一年上岸呢?



2

计算机学类分数线不增反降

但是,今年各大高校的复试录取分数线却有一类学科出现了不同的情况,就是:计算机。

举例来看:

  • 清华大学:2021年计算机科学与技术的复试线是 375 分,2022年是 365 分,降 10 分

  • 浙江大学:2021年计算机科学与技术399,软件工程341,电子信息375,而2022年计算机科学与技术377(下降22分),软件工程373,电子信息360(下降15分

  • 中国科学技术大学:2021年软件学院388,2022年软件学院335,下降53分

  • ……

计算机类的分数线与大趋势不同,不增反降。

2021年计算机类的分数线基本都超过350分,在国内引起轩然大波,讨论程度不亚于今年对国家线的讨论。

把无数考生心态搞到爆炸的中国科技大学的软件学院(科软)更是飙升到388分,甚至刷掉了部分超过400分的考生。2021年报考人数高达4300之多,最终录取了607名考生,这些考生中,超过400分的考生有431名。录取平均分甚至达到了408分,最高为448分。被戏称为“卷王”可谓是当之不愧。

但是今年,中国科技大学软件学院的分数则是“跳水式”下跌,为335分,比2021年降低53分。由于去年的可怕让很多同学望而生畏,今年报考科软的人数不足2000人。这无形之中降低了一部分竞争难度,也造成了今年科软分数爆冷的情况。

不止是中国科技大学,浙江大学、清华大学、哈尔滨工业大学、西安交通大学等高校的复试线都有明显的降低。虽然降低幅度没有科软多,但是大部分复试线降低5-20分左右。

这也许是被近几个月互联网大厂的裁员有关。考生们考虑的方向也开始有对以后编制工作的考量。这也是让教育学、医学等学科卷到如此地步的原因。

此外,随着人工智能时代的到来,程序员或被 AI 替代的危机感也在上升。比如,今年春节期间,DeepMind 发布的 AlphaCode 在人类的竞赛中打败 54% 的参赛者,被称「编程能力能与一般人类程序员相媲美」,当时也引起一众程序员的恐慌。

大家怎么看?

参考资料

1.https://yz.tsinghua.edu.cn/zsxx/sszs/ptzk.htm

2.https://www.zhihu.com/question/522435393?utm_source=wechat_session&utm_medium=social&utm_oi=963201298515021824&utm_content=group2_supplementQuestions&utm_campaign=shareopn

3.https://yz.chsi.com.cn/kyzx/kydt/202203/20220311/2172338980.html

4.https://www.ioe.tsinghua.edu.cn/info/1176/2391.htm

5.http://www.cs.zju.edu.cn/csen/27010/list.htm

雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/s4dukkOPVmgh0bTa.html#comments Wed, 23 Mar 2022 10:05:00 +0800
「翻版王攀」?深大研究生控诉导师不让毕业:读研三年,猪狗不如 //www.xyschoolife.com/category/academic/DLzXssVKng8xgN8Z.html

作者 | 西西

编辑 | 陈彩娴

师生关系一直是最为热门的高校话题之一。

老师与学生处得好,是「一日为师,终身为父」;处不好,就是八百集粤语长片,凄凄惨惨兮兮。而近年来,由于国内人才竞争激烈、内卷加重等等因素,硕博阶段的师生矛盾话题也越来越多,如武汉理工大学陶崇园与其导师王攀之争。

近日,又有另一个研究生控诉导师的话题冲上知乎热搜,引发网友的热烈讨论:

据了解,该控诉受导师迫害的学生名为吕品,目前就职于深圳大学土木与交通工程学院,而他所控诉的硕士导师叫胡明伟。该学生于2022月3月17日向校方发送实名投诉信件,深大研究生院于2022年3月18日便发公告,宣布暂停胡明伟的硕导工作,予以调查。

目前,该帖在知乎已经被浏览超过四百万次,引来了超过700条网友的回答。



1

控诉详情

根据网友对信件内容的截图,吕同学的控诉内容如下:

师生关系:

  • 读研三年,「过着猪狗不如的日子」,逢年过节要给导师送礼物,开组会要给导师倒茶;

  • Ta 从2019年夏天入读深圳大学,在选导师时,胡明伟让学生签毕业协议,包含「必须发表核心期刊」、「必须服从他的领导」等一系列在吕同学看来是「霸王条款」的内容;

  • 2019年11月,课题组发生「地震」,五年研三学生中有四名申请换导师,原因是「专业硕士毕业要求本就不高,根本不需要核心期刊」;

  • 2020年,学校暂停胡明伟招生两年,但他继续招学生、签协议;

  • 两年内,吕同学发了该发的核心,做了该做的项目,到二月中旬写完毕业论文,一个月内改动了四五次,「任务量足够」,但导师胡明伟每次都只回复「我没有时间看」、「你最好延期毕业」

  • ……

胡明伟个人不当作风:

  • 节假日都要收集各种车票报销,由吕同学帮忙报销;

  • 在专家咨询会给自己等同于院士级别的专家费用;

  • ……

具体截图如下:



2

事件进展与讨论

根据深圳大学研究生院的官方信息,胡明伟已在2022年3月18日被宣报暂停硕导职责:

目前调查结果尚未披露。

根据百度百科的介绍,胡明伟现任深圳大学土木与交通工程学院教授。他的本、硕、博均毕业于清华大学,2003年至2005年继续在清华大学土木水利学院担任博士后,2005年7月加入深圳大学担任讲师,4个月后被选为副教授,2010年11月转为正教授至今。

他的研究方向主要是智慧交通与物流。

也就是说,胡明伟从讲师到教授,仅用了5年时间。(画外音:真·深圳速度)

图注:胡明伟

在该贴下,知乎网友们也纷纷表达了自己的看法。但讨论主要聚焦于研究生的弱势地位。

根据吕同学的叙述,事件的中心问题是:胡明伟让吕同学延期毕业,是否合理?

在网友曝出的深大贴吧讨论中,有人便指出吕同学在进行毕业论文时「先斩后奏」,选择了没有研究价值的课题,不听导师指导,「一意孤行推进进度」:

此外,从吕同学的叙述中,我们可以明确的一点是:胡明伟对待学生与学术非常严格。那么,他所制定的毕业标准是否合理呢?吕同学的工作真实性如何?等等这些问题,都有待探究。

不过,从各路人士对该事件的反应中,我们可以看到,大家对硕博生在求学路上的「弱势」地位讨论热烈。此前武汉理工王攀在风波后又恢复了招生学生的资质,加重了学生对「处于弱势只能听天由人」的担忧。几条最高赞的回答也传达出了网友的心声:

知乎网友@简在我心:遇见渣导,真的比遇见渣男渣女还可怕……因为你的前途捏在他手里。搞不好就是前功尽弃。

知乎网友@大卫的小屋:之所以走到这一步,是因为从某种意义上讲,研究生群体是一个毫无人权可言的群体。……研究生群体是不是不受《劳动法》的保护?如果受《劳动法》的保护,为什么还被要求一周工作80个小时且月薪只有几百or一两千呢?

……

但回归到最底线的人文关怀,还是要问:事件真实性如何?硕博生与导师应该如何相处?硕博生如何调节个人的内心压力?

无论如何,身体发肤,受之父母,希望该同学不要轻生,大家也要理性吃瓜。

参考链接:

1.https://www.zhihu.com/question/522590716

2.https://www.sohu.com/a/531184885_115479

雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/DLzXssVKng8xgN8Z.html#comments Tue, 22 Mar 2022 15:42:00 +0800
斯坦福最新调研:中国在AI期刊论文被引用数、会议论文与专利申请上均排名第一,超过美国 //www.xyschoolife.com/category/academic/dmoINDaDi2OLEIF9.html

作者 | 西西

编辑 | 陈彩娴

刚刚,斯坦福大学发布了著名的《2022年人工智能报告》(Artificial Intelligence Index Report 2021,以下简称「报告」),迅速在人工智能领域引起传阅。

报告链接:https://aiindex.stanford.edu/wp-content/uploads/2022/03/2022-AI-Index-Report_Master.pdf

从2017年至今,斯坦福大学 AI Index 每年都会发布一份报告,由于数据详细、调查来源清晰、观点充实等等优点,在总结过去一年的 AI 发展上有着较为权威的发声,一向为读者关注。到今年,由李飞飞领导的 HAI 实验室领导,已是第五版。

除了原先的技术趋势分析,今年该报告还增加了对全球机器人的调查,以及25个国家与地区(不包含中国,所以此处不讨论)在 AI 层面的立法活动。

更值得注意的是,今年斯坦福的AI指数报告首次大篇幅地讨论了人工智能在现实生活中的落地问题,包括 AI 在经济发展中的角色,以及 AI 在落地推广过程中所引起的潜在伦理问题。

报告指出,一方面,外界对 AI 领域的投资比例在上升:与2020年(460亿美元)相比,2021年 AI 投资的资金增长了103%(965亿美元)。同时,AI 出现「物更美、价更廉」的特征,例如,自 2018 年以来,训练图像分类系统的成本降低了 63.6%,而训练效率却了 94.4%。

但另一方面,AI 在现实生活中的日益渗透也加剧了社会伦理的危机。因此,接下来,我们也许会看到,越来越多对 AI 的讨论不仅再局限于模型与算法的创新,或连接主义与符号主义孰劣孰优,而是:在人工智能时代全面来临之前,我们应该做好哪些「基建层面」的准备工作?

由于报告内容长达200多页,所以AI科技评论仅从中美对比的角度对报告进行了整理:



1

中美 AI 研究对比

根据报告,从研究机构看,全球范围内高校对 AI 研究出版物的贡献比例最高,高达59.58%,而公司仅占 5.21%:

单就这一层面,美国的 AI 出版物中,高校比例不断下降,2021年占 57.63%,企业占 9.76%:

而中国的 AI 出版物中,高校比例不断上升,占比 60.24%,企业占比虽然也不断上升,但2021年仅占比 3.93%:

尽管中美关系紧张,但报告发现,在 2010 年到 2021 年期间,中美合作的AI论文数量在跨国合作论文数量排行中位居榜首,是第二名(中英合作)的2.7倍:

报告还对比了中国、欧盟&英国、与美国在过去12年的AI出版物占比,其中中国的数量一直保持第一,占比31.04%,其次是欧盟与英国(19.05%),美国为 13.67%:

在 AI 期刊论文的引用数上,中国的占比逐渐上升,2021年排名第一(27.84%),美国的被引用数则为 17.45%:

在 AI 会议上,中国的论文发表数量也是排名全球第一,占比 27.6%,而美国为 16.9%,位居第三:

尽管出版数量上中国占优势,但报告发现,美国在 AI 会议上的论文被引数最高,占比29.52%,中国则只有15.32%:

在AI存储库(如arXiv)出版物上,美国自2011年以来一直保持领先地位,2021年占比 32.52%,但中国也不甘落后,比例一直上升,2021年占比16.6%:

在AI存储库出版物的引用数上,美国在2021年也是位居第一,引用率高达 38.6%,而中国为 16.4%:

在人工智能专利的申请上,2021年中国申请了全球一半以上的人工智能专利(51.69%),美国则为 16.92%:



2

中美 AI 市场对比

首先,在人才招聘一块,报告显示,中国香港在 AI 人才的招聘增长速度上位于全球第二,较 2016 年增长了 1.56 倍:

通过计算 2015 年至 2021 年期间 LinkedIn 用户在给定领域的自我添加技能的频率,报告发现,在AI 技能的渗透率上,印度的平均渗透率最高,其次是美国(2.24),而中国为 1.56,排名全球第四:

此外,在 AI 产业的投资上,美国的 AI 公司在获得总体私人投资上位居世界第一,约为 529 亿美元,而中国位居第二,为 172 亿美元,美国是中国的三倍:

而在2013年至2021年的私人投资总额上,美国投资总额为 1490 亿美元,中国投资总额为 619 亿美元:

值得注意的是,从 2013 年到 2021 年,美国对人工智能公司的私人投资是中国的两倍多,而中国本身是同期英国总投资的六倍左右。按地理区域划分,如图 4.2.6 所示,2020 年至 2021 年美国、中国和欧盟的投资均有所增长,其中美国分别领先中国和欧盟的 3.1 倍和 8.2 倍:

从 AI 公司的数量上看,2021 年,美国以 299 家公司领先,其次是中国,有 119 家:

在 AI 的采用率上,2021年采用率最高的是高科技/电信的产品和/或服务开发(45%),其次是金融服务的服务运营(40%), 高科技/电信(34%)和金融服务的风险职能(32%):

而采用的 AI 能力类型上,2021 年,嵌入率最高的是高科技/电信行业的自然语言文本理解(34%),其次是金融服务和汽车和装配行业的机器人流程自动化(33%)和金融服务的自然语言文本理解(32%):

那么,采用人工智能的风险可能有哪些?

报告称,55% 的受访者认为 2021 年最突出的 AI 应用风险是网络安全,其次是监管合规性(48%)、可解释性(41%)和个人隐私(41%):



3

最后,谈谈 AI 伦理

报告还称,「尽管人工智能在全球范围内部署,许多研究人工智能伦理的论文还是集中在英语模型与数据集上」。

由于 AI 系统已被部署到世界各地,研究人员开始加大对 AI 与现实交互的关注度,尤其是 AI 落地可能带来的危害,例如带有种族歧视的人脸识别系统、带有性别歧视的简历筛选系统,以及经济收入歧视的 AI 临床工具等。

AI 模型在落地过程中展示出来的社会偏见,使研究者们增加了对研究 AI 伦理、公平与偏见的兴趣,并驱使相关从业者积极寻找解救措施。

如前所述,该报告还增加了对 AI 伦理的探讨。报告发现:

  • 语言模型所展现出的「偏见」问题最明显,且新数据表明:语言模型的规模越大,在训练数据中反映出来的偏见也越普遍。比如,一个2021年开发的 2800 亿参数模型比 2018 年 1.17 亿参数的模型的毒性增加了 29%

  • 自 2014 年以来,针对 AI 公平性与透明性的研究呈爆炸式增长,相关出版物增加了五倍,算法公平与偏见的研究逐渐成为主流研究课题,而且工业界在该方向的研究工作发表同比增加了 71%

  • 多模态模型也呈现出多种多样的、创纪录的「偏见」,例如,关于 CLIP 的实验表明,黑人图像被错误分类为非人类的比率是其他种族的两倍以上

此外,报告指出,虽然全球范围内的研究者都对 AI 公平性、问责性与透明性的研究越发感兴趣,但在相关会议 FAccT 上,大多数的论文都由美国的研究人员撰写。从2020年到2021年,来自北美机构的论文比例从70.2%上升到75.4%:

与其他语言的事实检验数据集相比,英语数据集的比例最高,有 142 个,而非英语数据集只有35个(其中中文数据集只有5个):

这一点间接地讽刺了人工智能领域的中文研究者缺少对 AI 伦理的论文发表。换言之:较少中国研究者从事 AI 伦理层面的科研工作。那么,报告的观点是否有失偏颇呢?也许只能评论区见分晓。

在 AI 的落地研究上,如何缩小中美差距?谈谈你的看法。

参考链接:

https://aiindex.stanford.edu/report/

雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/dmoINDaDi2OLEIF9.html#comments Mon, 21 Mar 2022 10:27:00 +0800
作文写到8000字发现中间写错了怎么办?新版GPT-3: 别怕,我可以改 //www.xyschoolife.com/category/academic/WgI1glhtT1VJ58RM.html

作者 | 西西

编辑 | 陈彩娴

刚刚,OpenAI 在官博与推特上宣布:

GPT-3 又增加了两项新功能:编辑与插入,可以修改现有内容、而不仅是预测文本。目前已开放 API。

立即收获过千点赞。

下面立即有热心网友评论:

怎么样用这个点子创业?有人可以给我点建议吗?

另一个网友回复:

你可以问GPT-3。(哈哈被戳中笑点)

自2020年4月发布,GPT-3 就凭借 1750 亿参数的规模在人工智能领域引起了巨大轰动,又凭借对各类问题的「在线热心问答」成功出圈,「预言家」般的魔力收获了一大批追随者。如今,已过去近两年,OpenAI 发布新功能,可见在 GPT 系列上,OpenAI 对「魔幻」语言模型的梦想仍在继续发光发热。

事实上,在这两年内,OpenAI 一直在不断更新 GPT-3。比如,去年11月,OpenAI 就称 GPT-3 掌握了一定的逻辑推理能力,做小学数学题能得 55 分(差一点就及格!)

那么,这次 OpenAI 给 GPT-3 赋上的新魔法又有什么神奇之处呢?一起来看看。



1

「编辑」与「插入」

根据 OpenAI 的官博介绍,他们发布的 GPT-3 和 Codex 新版本可以在现有文本的基础上编辑或插入新的内容。

这与旧版本不同:旧的 GPT-3 是一路写下来,就像在单行道上驾驶;而新的 GPT-3 可以修改现有内容,例如重写一段文本或代码,是行驶在可以变道、掉头的双向多行道上。

啥意思呢?就是 GPT-3 有了一定的「改错」能力。用中国的古话说,不至于过了这个村就等于过了这个店。实在错过了,也可以绕路回来,找到心仪的目标点。

当然,「插入」并非新版 GPT-3 首创,此前 GitHub Copilot 也有这项功能,并取得了不错的成绩:

图注:GitHub Copilot 在代码尾部直接添加代码

旧的 GPT-3 与 Codex 的「插入」功能也是像 GitHub Copilot 一样,是在已有文本的基础上,在现有文本的结尾处添加内容。

而新的 GPT-3 与 Codex 是可以在文本中间编辑、修改或添加新的内容。这显然更符合我们人类的思考与写作方式:往往写了一大堆话后,由于「对自身的要求过高」,或达不到预期时,就要推倒重来。

(上述情况常见于给领导写工作报告、码代码修bug、七夕给心仪的女生写情书等等正当的场景中……)

(如果你也有这样的烦恼,GPT-3 就是你的好朋友)

插入

依赖于原有的技术积累,GPT-3 在判断「如何在文本中插入新内容」上的功力已经达到了较高的水平。

如下图示例:GPT-3 希望在大纲内的两个节标题中填写文本。如果没有下文的内容参考,模型可能会生成与 Section 2 无关的文本;如果考虑到下文,模型就会生成一段能够良好连接两部分内容的文本。

在代码编辑中,「插入」功能有很大的作用。OpenAI表示,他们最初研究「插入」功能的动机是 Codex,原因是:在软件开发中,程序员通常需要参考前后的代码,在现有文档的中间插入新的代码。

如下图示例:GPT-3 能够顺利补全缺失的函数 prune,同时将已编写的代码联系在一起。同样,这个功能是需要参考上下文的。

插入功能可以在已发布的测试版 API 中试用。

编辑

需要注意的是,此处的「编辑」更多是「修改」现有文本,而不是像旧的 GPT-3 一样,沿着已有文本完成后面的写作。

We’ve also observed edits to work well on empty prompts, thus enabling text generation similar to the completions endpoint. In the example above, we use edits to (1) add a poem, (2) change the poem to be in first-person, (3) transform the poem into a letter, with the appropriate salutation and signature.

通过将现有文本指定为「提示」,并给出如何修改的指示,新的 GPT-3 可以更改现有文本的语气与结构,或进行有针对性的更改,例如修改单词的拼写。

例如,在下面的示例中,使用新版 GPT-3 可以进行以下「编辑」:1)添加一首诗;2)将这首诗更改为第一人称;3)将这首诗转换为一封带有适当称呼和签名的字母。

在代码编写中,「编辑」端点可以重构、添加文档,翻译编程语言以及更改编码风格等等。

如下图示例,模型可以从 JSON 输入(包含按人口排名的城市)开始。在第一次编辑中,Codex 从 JSON 中删除了排名字段,并将州缩写更改为全名。第二次编辑则将 JSON 文件转换为从函数返回的 YAML。



2

新版 GPT-3 怎么玩?

2021年初,李宏毅曾称 GPT-3 是「来自暗黑大陆的模型」。如今新版 GPT-3 在文本编辑上增加了更「类人」的功能,不知李老师会如何评价?

此前 GPT-3 刚发布时,AI科技评论也发过 GPT-3 的50种玩法,包括写作、提问、回复邮件等等。但当时,由于 GPT-3 的一些测试回答缺乏逻辑,且无法给出依据,所以曾被抨击。

比如,有实验者向 GPT-3 提问:「新冠疫情何时结束?」当时,GPT-3 的回答是:「2023年12月31日。」

因为这是一个未来的日子,所以我们只能等待,等到那一天,才能验证 GPT-3 的回答是否正确。那么,若幸运,新冠疫情能够在2023年12月31日之前就结束,拥有了「中途改错」能力的 GPT-3,是否会修改这个答案呢?

无可否认,OpenAI 推出的新版 GPT-3 拥有了更接近人类表达与思考逻辑的能力,但距离如美剧《疑犯追踪》里超级智慧大脑的魔力还有多久?或许,这还需要时间的验证。

参考链接:

1.https://openai.com/blog/gpt-3-edit-insert/

2.https://mp.weixin.qq.com/s/KmCLi1W5RVrVvOPUzzMpjA

雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/WgI1glhtT1VJ58RM.html#comments Thu, 17 Mar 2022 10:20:00 +0800
打破「反向传播」垄断,「正向自动微分」也能计算梯度,且训练时间减少一半 //www.xyschoolife.com/category/academic/rGx7tY1FPEcPNQdg.html
用反向传播(backpropagation)来计算优化目标函数的梯度,是当前机器学习领域的主流方法。近日,牛津与微软等机构的多位学者联合提出一种名为「正向梯度」(forward gradient)的自动微分模式,可以完全抛弃反向传播进行梯度计算。实验证明,在一些问题中,正向梯度的计算时间是反向传播的二分之一。
编译 | 张倩
编辑 | 陈彩娴
反向传播和基于梯度的优化是近年来机器学习(ML)取得重大突破的核心技术。
人们普遍认为,机器学习之所以能够快速发展,是因为研究者们使用了第三方框架(如PyTorch、TensorFlow)来解析ML代码。这些框架不仅具有自动微分(AD)功能,还为本地代码提供了基础的计算功能。而ML所依赖的这些软件框架都是围绕 AD 的反向模式所构建的。这主要是因为在ML中,当输入的梯度为海量时,可以通过反向模式的单次评估进行精确有效的评估。
自动微分算法分为正向模式和反向模式。但正向模式的特点是只需要对一个函数进行一次正向评估(即没有用到任何反向传播),计算成本明显降低。为此,来自剑桥与微软等机构的研究者们探索这种模式,展示了仅使用正向自动微分也能在一系列机器学习框架上实现稳定的梯度下降。
论文地址:https://arxiv.org/pdf/2202.08587v1.pdf
他们认为,正向梯度有利于改变经典机器学习训练管道的计算复杂性,减少训练的时间和精力成本,影响机器学习的硬件设计,甚至对大脑中反向传播的生物学合理性产生影响。



1

自动微分的两种模式
首先,我们来简要回顾一下自动微分的两种基本模式。

正向模式

给定一个函数 f: θ∈R n,v∈R n,正向模式的AD会计算 f(θ) 和雅可比向量乘积Jf (θ) v,其中Jf (θ) ∈R m×n是f在θ处评估的所有偏导数的雅可比矩阵,v是扰动向量。对于 f : R n → R 的情况,在雅可比向量乘积对应的方向导数用 ∇f(θ)- v表示,即在θ处的梯度∇f对方向向量v的映射,代表沿着该方向的变化率。
值得注意的是,正向模式在一次正向运行中同时评估了函数 f 及其雅可比向量乘积 Jf v。此外,获得 Jf v 不需要计算雅可比向量Jf,这一特点被称为无矩阵计算。

反向模式

给定一个函数 f : R n → R m,数值 θ∈R n,v∈R m,AD反向模式会计算f(θ)和雅可比向量乘积v |Jf (θ),其中Jf∈R m×n是f在θ处求值的所有偏导数的雅可比矩阵,v∈R m是一个邻接的矢量。对于f : R n → R和v = 1的情况,反向模式计算梯度,即f对所有n个输入的偏导数∇f(θ)=h ∂f ∂θ1,. . . , ∂f ∂θn i| 。
请注意,v |Jf 是在一次前向-后向评估中进行计算的,而不需要计算雅可比Jf 。

运行时间成本

两种AD模式的运行时间以运行正在微分的函数 f 所需时间的恒定倍数为界。
反向模式的成本比正向模式高,因为它涉及到数据流的反转,而且需要保留正向过程中所有操作结果的记录,因为在接下来的反向过程中需要这些记录来评估导数。内存和计算成本特征最终取决于AD系统实现的功能,如利用稀疏性。
成本可以通过假设基本操作的计算复杂性来分析,如存储、加法、乘法和非线性操作。将评估原始函数 f 所需的时间表示设为 runtime(f),我们可以将正向和反向模式所需的时间分别表示为 Rf×runtime(f) 和 Rb×runtime(f)。在实践中,Rf 通常在1到3之间,Rb通常在5到10之间,不过这些结果都与程序高度相关。



2

方法

正向梯度

定义1
给定一个函数 f : R n → R,他们将「正向梯度」 g : R n → R n 定义为:
其中,θ∈R n 是评估梯度的关键点,v∈R n 是一个扰动向量,被视为一个多元随机变量v∼p(v),这样 v 的标量分量 vi 是独立的,对所有 i 都有零均值和单位方差,∇f(θ)-v∈R 是 f 在在 v 方向上 θ 点的方向导数。
简要地谈一下这个定义的由来。
如前所述,正向模式直接给我们提供了方向导数∇f(θ) - v = P i ∂f ∂θi vi,无需计算∇f。将 f 正向评估 n 次,方向向量取为标准基(独热码)向量ei∈R n,i=1 ... n,其中ei表示在第i个坐标上为1、其他地方为0的向量,这时,只用正向模式就可以计算∇f。这样就可以分别评估f对每个输入∂f ∂θi的敏感性,把所有结果合并后就可以得到梯度∇f。
为了获得比反向传播更优的运行时间优势,我们需要在每个优化迭代中运行一次正向模式。在一次正向运行中,我们可以将方向v理解为敏感度加权和中的权重向量,即P i ∂f ∂θi vi,尽管这没办法区分每个θi在最终总数中的贡献。因此,我们使用权重向量v将总体敏感度归因于每个单独的参数θi,与每个参数θi的权重vi成正比(例如,权重小的参数在总敏感度中的贡献小,权重大的参数贡献大)。
总之,每次评估正向梯度时,我们只需做以下工作:
  • 对一个随机扰动向量v∼p(v)进行采样,其大小与f的第一个参数相同。
  • 通过AD正向模式运行f函数,在一次正向运行中同时评估f(θ)和∇f(θ)-v,在此过程中无需计算∇f。得到的方向导数(∇f(θ)-v)是一个标量,并且由AD精确计算(不是近似值)。
  • 将标量方向导数∇f(θ)-v与矢量v相乘,得到g(θ),即正向梯度。
图 1 显示了 Beale函数的几个正向梯度的评估结果。我们可以看到扰动vk(橙色)如何在k∈[1,5]的情况下转化为正向梯度(∇f-vk)vk(蓝色),在受到指向限制时偶尔也会指向正确的梯度(红色)。绿色箭头表示通过平均正向梯度来评估蒙特卡洛梯度,即1 K PK k=1(∇f - vk)vk≈E[(∇f - v)v]。

正向梯度下降

他们构建了一个正向梯度下降(FGD)算法,用正向梯度g代替标准梯度下降中的梯度∇f(算法1)。
在实践中,他们使用小型随机版本,其中 ft 在每次迭代中都会发生变化,因为它会被训练中使用的每一小批数据影响。研究者注意到,算法 1 中的方向导数dt可以为正负数。如果为负数,正向梯度gt的方向会发生逆转,指向预料中的真实梯度。图1显示的两个vk样本,证明了这种行为。
在本文中,他们将范围限制在FGD上,单纯研究了这一基础算法,并将其与标准反向传播进行比较,不考虑动量或自适应学习率等其他各种干扰因素。笔者认为,正向梯度算法是可以应用到其他基于梯度算法的优化算法系列中的。



3

实验
研究者在PyTorch中执行正向AD来进行实验。他们发现,正向梯度与反向传播这两种方法在内存上没有实际差异(每个实验的差异都小于0.1%)。

逻辑回归

图 3 给出了多叉逻辑回归在MNIST数字分类上的几次运行结果。我们观察到,相比基本运行时间,正向梯度和反向传播的运行时间成本分别为 Rf=2.435 和 Rb=4.389,这与人们对典型AD系统的预期相符。
Rf/Rb=0.555和Tf/Tb=0.553的比率表明,在运行时间和损失性能方面,正向梯度大约比反向传播快两倍。
在简单的模型中,这些比率是一致的,因为这两种技术在空间行为的迭代损失上几乎相同,这意味着运行时收益几乎直接反映在每个时间空间的损失上。

多层神经网络

图4显示了用多层神经网络在不同学习率下进行MNIST分类的两个实验。他们使用了三个架构大小分别为1024、1024、10的全连接层。在这个模型架构中,他们观察到正向梯度和反向传播相对于基础运行时间的运行成本为Rf=2.468和Rb=4.165,相对测量 Rf/Rb 平均为0.592,与逻辑回归的情况大致相同。
有趣的是,在第二个实验中(学习率为2×10-4),我们可以看到正向梯度在每个迭代损失图中都实现了快速的下降。作者认为,这种行为是由于常规SGD(反向传播)和正向SGD算法的随机性不同所导致的,因此他们推测:正向梯度引入的干扰可能有利于探索损失平面。
我们可以从时间曲线图看到,正向模式减少了运行时间。我们看到,损失性能指标Tf/Tb值为0.211,这表明在验证实验损失的过程中,正向梯度的速度是反向传播的四倍以上。

卷积神经网络

图 5 展示了一个卷积神经网络对同一MNIST分类任务的正向梯度和反向传播的比较。
在这个架构中,他们观察到,相对于基本运行时间,正向AD的性能最好,其中正向模式的Rf=1.434,代表了在基本运行时间之上的开销只有 43%。Rb=2.211 的反向传播非常接近反向 AD 系统中所期待的理想情况。Rf/Rb=0.649 代表了正向AD运行时间相对于反向传播的一个显著优势。在损失空间,他们得到一个比率 Tf /Tb=0.514,这表明在验证损失的实验中,正向梯度的速度比反向传播的速度要快两倍。

可扩展性

前面的几个结果表明:
  • 不用反向传播也可以在一个典型的ML训练管道中进行训练,并且以一种竞争计算的方式来实现;
  • 在相同参数(学习率和学习率衰减)的情况下,正向AD比反向传播所消耗的时间要少很多。
相对于基础运行时的成本,我们看到,对于大部分实验,反向传播在Rb∈[4,5]内,正向梯度在Rf∈[3,4]内。我们还观察到,正向梯度算法在整个范围内对运行都是有利的。Rf/Rb比率在10层以内保持在0.6以下,在100层时略高于0.8。重要的是,这两种方法在内存消耗上几乎没有差别。



4

结论
总的来说,这篇工作的几点贡献主要如下:
  • 他们将「正向梯度」(forward gradient)定义为:一个无偏差的、基于正向自动微分且毫不涉及到反向传播的梯度估算器。
  • 他们在PyTorch中从零开始,实现了正向模式的自动微分系统,且完全不依赖PyTorch中已有的反向传播。
  • 他们把正向梯度模式应用在各类随机梯度下降(SGD)优化中,最后的结果充分证明了:一个典型的现代机器学习训练管道可以只使用自动微分正向传播来构建。
  • 他们比较了正向梯度和反向传播的运行时间和损失消耗等等,证明了在一些情况下,正向梯度算法的速度比反向传播快两倍。

雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/rGx7tY1FPEcPNQdg.html#comments Thu, 17 Mar 2022 10:17:00 +0800
AI算法中的围城,外卖骑手的"突围" //www.xyschoolife.com/category/academic/xQUEkq9BYNUYxkBt.html
作者丨维克多

编辑丨岑峰

困在系统中的外卖骑手正在反击。

近日国外科技媒体Wired报道,平台公司利用算法迫使外卖骑手更快、更高效工作,导致了相关交通事故增多。

为了应对困境,他们正在采取行动:一方面建立沟通信息的渠道分享道路等情况,例如微信群;另一方面对一些明知道不可按时送达的业务,集体拒绝。

这篇报道的观点来自两位学者团队,HUANG HUI和Zizheng Yu。前者是伦敦国王学院的博士生,此前在上海做了6个月的零工;后者是卡迪夫大学的教学助理,相关研究发表在《Media International Australia》期刊上。

 
图注:骑手交流群,来源于Zizheng Yu论文

和Zizheng Yu有相同观点的还有首都经济贸易大学的冯向楠,他在《社会发展研究》中的一篇论文中说:骑手正通过合理利用规则、主动的合作与抗争、自主选择餐路线和顺序、搭建 “前后台”、寻找成就感与身份认知等方式减少平台的控制,争取劳动的自主性,维护自身的主体性。

同时,Wired报告中提到,针对涉及事故的骑手,平台会在系统中完全删除骑手,订单数据也会莫名其妙的消失。此论点是引用自媒体“一席”的研究报告:《我们应聘过骑手,打过卧底电话,看了1907份判决,最后拼出了这部外卖平台进化史》。

据悉,中国有2亿人正在进行灵活就业,大概占全国劳动力的1/4,而受服务群体(订餐)大概有4.69亿人。灵活就业群体大概来自“夕阳产业工人”和偏远地区的“农民工”。送外卖等灵活就业形势,对他们来说就像创业,因为除了算法,没有人能控制他们,工作具有灵活性和自主权。

为了保障这些群体的权益,Wired提到,政府出台了《互联网信息服务算法推荐管理规定 》,并在3月1号实施,其中有一条规定 劳动者取得劳动报酬、休息休假等合法权益,建立完善平台订单分配、报酬构成及支付、工作时间、奖惩等相关算法  ”。同时,政府还将成立专业的评估团队,深入分析算法的机制,让算法变得“公平、透明”。



1

AI平台如何控制劳动过程?

去年,北大博士后陈龙在体验了5个半月的配送工作,然后将工作经历写成了一篇题为《“数字控制”下的劳动秩序*———外卖骑手的劳动控制研究》的论文,其中就披露了平台控制骑手的过程与手段。

论文表示,AI与其背后的人,正在通过重新分配控制权和数字控制,进行“优化”劳动过程。

骑手的工作流程是:到店——取餐——送达。骑手GPS定位和配送时间均受到平台和消费者的监控;平台会根据消费者给出的评价对骑手进行奖惩(虚拟积分和现实奖金)。

在骑手的劳动过程中,负责指导骑手工作的是平台系统,负责对骑手的工作进行评估的是消费者,而最终对骑手进行奖惩的工作再由平台系统完成。

因此,在互联网平台行业,控制权的重新分配带来的平台系统与消费者的介入则使平台公司更加容易摆脱劳资关系和雇主责任。

在数字控制层面,平台通过两个角度收集数据,其一针对骑手,智能手机的GPS定位系统、蓝牙、手机传感器的运动状态识别;针对商家和消费者,收集他的地址、楼层、出餐时长、订单重量、体积、消费口味等等。

然后平台根据上述数据对骑手进行管理。值得一提的是,自动化生产中的“数值控制”是公开的,平台系统“数字控制”的过程却是隐秘的,因为其收集数据、运用数据结果的过程是隐秘的。



2

劳动者如何应对AI平台?

在论文《人工智能时代互联网平台劳动过程研究* ———以平台外卖骑手为例》中,研究者冯向楠和詹婧披露了的劳动者的反制措施。

正如前文所述,路线和顺序、搭建“前后台”、寻找成就感与身份认知等方式减少平台的控制,争取劳动的自主性,维护自身的主体性。

作者说:骑手的抵抗与抗争方式有限,并呈现出被动抵抗尝试的特点。只有在极端情形下,骑手才会主动抗争与维权。

被动的抵抗尝试包括,上报异常,延长送餐时间、利用平台规则转让订单以及通过平台申诉机制维权。其中,申述往往没啥用,这仅仅是一种形式上的权利。

在主动的合作与抗争层面,骑手尝尝采用同伴互助、“用脚投票(辞职、不干了)”、主动维权。采取诉讼的方式解决问题只会发生在极端情况下,往往是骑手无奈的选择。

 

图片来源于Zizheng Yu论文

同伴互助在论文中被定义为微弱的反抗,骑手一般以站点为单位,建有自己的微信群。在微信群中,骑手可以交流送餐技巧,如餐品如何摆放、路线如何规划、讨要好评话术等。通过以上内容的交流,骑手之间形成互助,以提高送餐效率和减少差评。

值得一提的是,面对不太灵活的人工智能技术,骑手在送餐过程中还是会依靠自己的经验积累和思考规划路线,自主选择。而对个人伤害最大的是对真实情感的压抑:

“我们做外卖就是吃苦受罪,受累受气,什么责任都是自己,餐撒了,送错了都是自己的。比如餐撒了,我给你买了。别投诉我,投诉我就要扣钱。( 20180710Y1 - 005)”

在送餐过程中,外卖骑手必须遵守平台规范,态度和蔼地将餐品送给顾客,对于顾客的斥责和谩骂也必须尽量克制并道歉,压抑真实的情感。否则,骑手可能会被顾客投诉,失去奖励和服务分,并被罚款。

雷峰网雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/xQUEkq9BYNUYxkBt.html#comments Wed, 16 Mar 2022 15:02:00 +0800
战争中的 AI :乌克兰用人脸识别「摸底」俄罗斯士兵,但这只是小儿科 //www.xyschoolife.com/category/academic/HQSLHLjQlF0cmoRt.html
愿科技向善,愿世界和平。

作者 | 西西

编辑 | 陈彩娴

现代人对时间的概念是模糊的。若不细想,绝大多数人也许无法立刻想到:自2月24日普京向乌克兰宣战以来,俄乌战争已经进行了二十多天。

在这二十多天里,国际媒体的聚光灯照在这两片离大多数人都十分遥远的土地上。如鲁迅所说,「人类的悲欢离合并不相通。」当我们在阅读这些新闻时,往往难以深切地共情,尤其目前国内的疫情防控正值严峻当头。

然而,时代的雪花终究落在每一个人的肩膀上。当世界成为一个整体,当领域与领域的联系愈加紧密,政治从来便已不仅是政治,科研也从来便不仅是科研,当下的我们也再也做不到「两耳不闻窗外事,一心只读圣贤书」。

比方说,俄乌战争爆发没多久,MIT 便立即宣布与俄罗斯莫斯科的一所私立科学研究院切断研究合作关系。据《波士顿环球报》报道,这所俄罗斯研究机构名为「斯科尔科沃科学技术研究所」(Skolkovo Institute of Science and Technology),主要研究人工智能、能源、核能、生物医学与太空,此前曾发现并量化谷歌广泛使用的量子算法技术的基础功能缺陷。

原先聚焦于全球前沿科研成果发布的 Nature 与 Science,自战争爆发以来,也从未间断更新与这场全球事件相关的科研动态资讯。比如,最新的Nature版面就是一篇关于乌克兰研究者呼吁学术期刊抵御俄罗斯作者的新闻,正正写照了「覆巢之下,焉有完卵」的残酷现实:

对于这场事件,科学家也无法保持沉默。比如,吴恩达在推特上公开表示「支持乌克兰」,新晋美国国家工程院院士的马斯克发推艾特普京说「要与普京单挑」,被誉为天才数学家的陶哲轩也在个人博客上为因战争流离失所的乌克兰数学家发表了「求助的资源清单」(如下图):

但笔者猜想,随着人工智能作为新兴科技代表的发展愈发如火如荼,自俄乌战争爆发以来,众多 AI 研究者或追随者心中大约都有一个这样的疑问:在这场战争中,人工智能扮演了什么样的角色?

怀着谨慎的心情,笔者在过去几周也翻阅了多份记录俄罗斯人工智能发展的文献。一个显而易见的事实是:在「战斗民族」的眼中,人工智能也自然而然被归类为了壮大军事力量的手段之一。但需要注意的是,俄罗斯并不是唯一使用 AI 作战的一方。据 Wired 报道,乌克兰在线侦探也使用了人脸识别技术来精准定位俄罗斯士兵。

无论科学家们多么惶恐,当因「科技向善」而催生的成果被用于不端的途径时,科学家也是无计可施的。即使天才如爱因斯坦,也只能徒生悔恨。但历史的车轮已启动,又有谁可以阻挡?



1

用 AI 「识别」敌方士兵

谈起 AI 与战争的关系,大多数人首先想到的也许是「作战机器人」,而非人脸识别。

众所周知,人脸识别技术的发展已十分成熟,甚至可以被称为「普罗大众最熟悉的人工智能技术」,已渗透大众生活的方方面面,尤其是支付与安防两块。而如今,这项技术多了一个更紧要的用途:军事防备。

更准确的说法是:军事道德惩戒。

据 Wired 报道,乌克兰方的在线侦探使用了人脸识别技术,仅通过屏幕截图就能用五分钟识别出俄罗斯士兵的身份信息。

事情的经过是:

3月1日,车臣的总统 Ramzan Kadyrov 在 Telegram 上发了一条短视频。视频中,一名欢快的大胡子士兵站在一列坦克前,发表自己的感想。

紧接着,法国一家名为「Tactical Systems」的军事训练企业的CEO截取了这名士兵的面容,利用在线面部识别技术,不到一个小时就确定了该名士兵可能是一名叫做「Hussein Mezhidov」的车臣指挥官,并很快找到了他的 Instagram 账号。

为了识别这名留着胡子的车臣士兵,Tactical Systems 的 YC 首先使用 FindClone,搜索来自 VKontakte 的照片,结果找到了一张士兵与 Ramzan Kadyrov 握手的照片。一个可公开访问的 Microsoft 服务演示,比较两张照片中的面孔,大致可以判断照片显示的是同一个人。

换言之,在俄乌战争中,由于互联网的发达,新闻中一位军事指挥官的身份,不仅只有军情分析员或他的亲朋好友能够识别出来,地球另一端的网络用户也能使用他的面部屏幕截图来追踪出他们的姓名与家庭照片。

为了验证,《Wired》使用了俄罗斯一款名为「FindClone」的免费面部识别软件,不到五分钟就成功追踪到一名被俘俄罗斯士兵的社交媒体资料。

乌克兰的开源情报组织 InformNapalm 也向《Wired》确认他们利用了面部识别技术来辅助识别两名被俘俄罗斯士兵的身份信息。此前,乌克兰也有一支由计算机专家组成的志愿「IT军队」向俄罗斯网络发起了黑客攻击。

3月2日 Tactical Systems 在推特上公开这一调查后,立即引起了网友的关注。这家公司的 CEO 表示希望以此激励技术人员开发开源情报技能,以帮助减少俄乌战争的冲突:「这些人越是被公开识别,并且知道 OSINT 社区正在追踪他们的行动,他们在战争中犯罪的可能性就更少。」

但对 Tactical Systems 的推特,微软、PimEyes 与 FindClone 并没有进行评论回复。



2

人脸识别是「小儿科」

事实上,「道德惩戒」之外,人工智能技术已被应用于实际的战斗规划与军事竞赛中。

欧美各国均在加强机器人军队的建设,并且都将2030年作为一个目标时间点。此前,英军国防参谋长尼克·卡特曾宣称,英国预计将在下一代战争中部署12万个「终结者」机器人,「在未来十年或2030年代,机器人可能占英国军队总成员的四分之一左右。」美国的陆军研究实验室与阿德尔菲实验室中心等机构也正在研制机器人战车,希望到2030年代,这些战车可以配合陆军进行作战。

图注:美国陆军研究实验室开发的作战机器人「RoMan」

2021年4月29日,美国空军还在佛罗里达州和墨西哥湾上空成功测试了一款自主无人战斗机,名为「天堡自主核心系统」(SkyborgAutonomy Core System,ACS)。在测试中,ACS 成功飞行了2小时10分。

除了机器人,人工智能系统在战争中的应用也越来越深入。事实上,人类第一场人工智能参与的战争,就是以色列将 AI 系统应用于对抗哈马斯的战斗中。在长达11天的以哈战争中,以色利使用了三个 AI 系统(分别为「Alchemist」、「Gospel」与「Depth of Wisdom」)进行数据分析、战略提醒与地图绘制,致150多名哈马斯特工死亡。

在宣传 AI 的军事潜力时,各国的态度是暧昧的。

比如,以色列在以哈战争中就曾有意突出 AI 袭击的「精确性」,表示人工智能的应用让军队的战斗力倍增,同时大大降低了殃及平民的「误杀率」。但据加沙卫生官员报告称,至少有243名巴勒斯坦平民在这场冲突中丧生,其中包括66名儿童。

有时候技术的威力远远抵不过「理想」的野心。



3

俄罗斯的「军事 AI 」

那么,在人工智能用于军事行动的这条赛道上,俄罗斯的态度是怎样的?

当我们在讨论全球的人工智能布局时,中国与美国往往拔得头筹,哪怕诞生过艾伦·图灵的英国也不常被 AI 的媒体关注,更别提近年来在国际上影响力不复从前的俄罗斯。

单从超级计算机的数量来看,俄罗斯只有三台超级计算机位列全球500台最强计算机系列,而中国有 228 台,美国有 117 台,日本有 29 台。此外,根据 TRAXCN 在2021年的统计,俄罗斯只有 168 家 AI 初创企业,而美国有 6903 家,中国有 1013 家。

俄罗斯主要从事人工智能研究的院校分别是莫斯科国立大学、莫斯科物理技术学院和莫斯科高等经济学院。其中,莫斯科国立大学是俄罗斯领先的计算机科学研究型大学,但在 2021 年泰晤士报高等教育世界大学排名中也排到了第 174 位。

资料显示,俄罗斯直到2019年10月才通过了第一项人工智能发展战略(以2030年为节点),以俄罗斯最大的银行 Sberbank 为主导。

图注:俄罗斯人工智能相关政策制定时间表

尽管如此,在人工智能的发展上,俄罗斯仍是有一些行动的。2017年普京曾对人工智能发表过一句简短的评论,便迅速引起各国的注意。当时,普京说:「谁成为人工智能领域的领导者,谁就可能在未来主宰世界。」

此外,俄罗斯的人工智能与其他各国相比,也有一个明显的区分是:与「军事」紧密结合。在国际舞台上,俄罗斯也是公开反对禁止致命性自主武器系统(LAWS)和人工智能的军事使用。

俄罗斯政府的第一个重大人工智能提案就是俄罗斯国防部 (MoD) 于 2018 年 3 月发布的 10 点声明,呼吁在黑海建立一个新的国防部研究园区,为武装部队提供创新的、由人工智能驱动的解决方案:

2021年,美国海军分析中心(CNA)就向国防部提交了一份报告,称俄罗斯在战事 AI 上的进步比预期快。根据他们的研究,俄罗斯军事战略家高度重视「战场上的信息优势」,致力于开发人工智能工具,以最大限度地掌握战争中的相关数据、保护士兵安全。

报告地址:https://www.cna.org/centers/cna/sppp/rsp/russia-ai

俄罗斯军方在 AI 上的应用覆盖了方方面面,包括改善指挥、控制与决策,以及训练、后勤、维护和物资采购等。

在CNA的报告中,他们称,俄罗斯军方已经进行了 ACS 环境的真实试验与模拟试验。例如,在2019年的海舰队演习期间,俄罗斯将海陆空三方力量集合到一个单一的信息空间中,「检测到的目标数据实时加载到系统中,根据目标类型与命令选择最佳攻击方法」,此外,「所有信息都是实时接收,并使用人工智能的自动化命令和控制系统进行分析」。

此外,俄罗斯国防部也一再表示,俄罗斯武装部队拥有全套基于人工智能的武器,如无人机、战斗机和水下机器人。普京在 2018 年 3 月 1 日于联邦议会发表讲话时也曾说,俄罗斯已经开发出一种能够在全球范围内旅行并可以携带核武器的无人深海航行器。俄罗斯的一些国有公司也坦诚他们正在用人工智能开发武器,比如,Tecmash 多年来一直试图将AI 融入自家的凌空射击系统中。

据统计,截至 2018 年 7 月,俄罗斯无人机在叙利亚的飞行任务超过 2.3 万次,飞行时长 14 万小时。这一成功归功于众多中短程 ISR 无人机平台。如今,俄罗斯的无人机机队已扩大到 2000 多架无人机,地面部队飞行了大约 1500 架无人机。

2020年4月,俄罗斯国防部还发布了一向价值高达530万美元的封闭招标,主要用于「为新一代人工智能军事构建神经网络开发、训练和执行的实验模型研究」,代号为「Kashtan」。

俄罗斯战略家认为,人工智能的处理能力对于加快综合防空系统 (IADS) 监控、检测和响应即将发生的航空航天攻击的速度至关重要,包括 Pantsir 防空系统和 S-500 导弹防御系统——后者在导弹弹道末端对洲际弹道导弹具有一定的拦截能力。

图注:Pantsir

在CNA的这份长达200多页的报告中,他们还列举了数十种经 AI 增强的军事设备或系统。例如:

Avangard,一种弹道导弹发射的高超音速滑翔飞行器。高超音速滑翔飞行器的一个特殊挑战是,由于高超音速在大气层中产生的极热,它们难以维护和更新遥测技术。该系统的首席设计师Herbert Efremov称,他们利用了 AI 增强系统,在车辆实际发射前计算其路径。

图注:Avangard

Su-35S,一种重型远程多用途战斗机。它使用了一个名为 IUS-35 的机载信息和控制系统,该系统由几台独立的计算机组成,这些计算机将飞机上不同的信息通道汇集到一个信息源中,为飞行员进行目标获取和飞机作战机动提供「智力支持」。消息称,在叙利亚冲突期间,该系统还能帮助简化飞行前准备和提高飞行员心理承受能力,增加每天的出动次数。

图注:Su-35

Galtel,一种水下侦察机器人,2012 年在俄罗斯符拉迪沃斯托克举行的 APEC 峰会上首次公开展示,并以其在叙利亚支持俄罗斯海军部队而闻名。据俄罗斯报道,该综合体包括两艘自主无人潜艇,其作战限制为 24 小时,最长可达 100 公里。报告还声称它可以在 12 小时内测量一个四平方公里的区域。据称,其控制系统的人工智能组件使其能够独立评估当前情况、绕过障碍并选择最佳路线来完成任务。

图注:Galtel

POM-3,一种兼容了人工智能技术的地雷,号称能够区分平民(例如农民)和士兵。注入地面的地震传感器会检测到地表扰动,然后算法会确定扰动的轮廓以及是敌是友。该算法利用了步行士兵使用随行装备与步行平民制作的不同姿态。当地雷确定威胁已进入其杀伤半径时,它会将弹头发射到 1 到 1.5 米的高度,然后引爆。

图注:POM-3

……

在此不一一列举。尽管目前仍未有详细的报道称俄罗斯在战争中使用了人工智能造成的具体伤害,但它们被应用于军事规划的现实不容轻视。



4

愿世界和平

无可否认,人工智能在各个领域的影响力越来越大,军事行动也无法豁免。大势所趋,再去争论人工智能的「威胁」也已毫无意义。

但愿世界和平。

参考链接:

1.https://www.bostonglobe.com/2022/02/26/metro/mit-announces-its-cutting-ties-with-graduate-research-university-russia-following-invasion-ukraine/

2.https://www.wired.com/story/facial-recognition-identify-russian-soldiers/

3.https://www.sohu.com/a/381607642_120090895

4.https://terrytao.wordpress.com/2022/03/02/resources-for-displaced-mathematicians/

5.https://mp.weixin.qq.com/s/yYg5s6-b-orsqCLawq6f2w

6.https://mp.weixin.qq.com/s/bTdCO9K3DUHn9f_1KCbJdw

7.https://t.me/RKadyrov_95/1285

8.https://www.wired.com/story/ukraine-it-army-russia-war-cyberattacks-ddos/

9.https://www.c4isrnet.com/artificial-intelligence/2021/05/24/a-warning-to-dod-russia-advances-quicker-than-expected-on-ai-battlefield-tech/

10.https://www.c4isrnet.com/artificial-intelligence/2021/05/24/a-warning-to-dod-russia-advances-quicker-than-expected-on-ai-battlefield-tech/

11.https://www.nationaldefensemagazine.org/articles/2021/7/20/russia-expanding-fleet-of-ai-enabled-weapons

12.https://carnegiemoscow.org/commentary/82422

13.https://tracxn.com/explore/Artificial-Intelligence-Startups-in-Russia

雷峰网雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/HQSLHLjQlF0cmoRt.html#comments Wed, 16 Mar 2022 14:59:00 +0800
AI 是否拥有意识?从意识的定义说起 //www.xyschoolife.com/category/academic/0IVFUaVxaEH1LnG9.html

鲜少探索人类意识的科学家们,开始讨论起「AI 意识」。

作者 | Antonio

编辑 | 陈彩娴

毫无疑问,人类有自己的意识。在某种意义上,这种「意识」甚至可以被视为人类智能的内涵之一。

随着「人工智能」(Artificial Intelligence)的深入发展,「AI 能否拥有意识」也渐渐成为科学家们心中的一个疑问,「意识」也被视为衡量 AI 是否智能的标准之一。

例如,2月中旬,OpenAI 的首席科学家 IIya Sutskever 就曾在推特上发起对 AI 意识的讨论。当时,他说:

如今的大型神经网络可能已初具意识。

他的观点立即引起了一众 AI 大咖的讨论。针对 IIya Sutskever 的见解,图灵奖得主、Meta AI 首席科学家 Yann LeCun 首先就抛出了反对意见,给出一个直截了当的观点:「Nope.」(不。)Judea Pearl 也力挺 Lecun,表示现有的深度神经网络还无法「深度理解」某些领域。

唇枪舌战几回合后,Judea Pearl 称:

……事实上我们都没有一个关于「意识」的正式定义。我们唯一能做的也许就是向历代研究意识的哲学家请教...

这是一个关于源头的问题。如果需要讨论「AI 意识」,那么:什么是「意识」?拥有「意识」意味着什么?要回答这些问题,光有计算机知识是远远不够的。

事实上,关于「意识」的讨论最早可以追溯到古希腊「轴心时代」。自那时起,「意识」作为人的认识论的本质就已成为后代哲学家们无法回避的议题。关于 AI 意识的讨论兴起后,曾任 OpenAI 研究科学家的学者 Amanda Askell 也就该话题作了一番有趣的见解。

图注:Amanda Askell,她的研究方向是 AI 与哲学的交叉
在她的最新博文《My mostly boring views about AI consciousness》中,Askell 探讨了现象学意义上的「现象意识」(phenomenal consciousness),而非「自觉意识」(access consciousness)。
现象意识强调主体的体验过程,侧重感觉、经验,被动注意;而自觉意识则强调主体的主观能动性,它强调主体在主观上的主动留意。比如,你在轻松的音乐下写作业,你可以感受到背景中的音乐(现象意识),但不会留意它的具体内容;作业对你而言是主观留意的(自觉意识),你真切地知道你到底在做什么。
这有点像计算机视觉和认知科学中常用到的两种不同的注意力机制。现象意识对应「bottom-up」,而自觉意识对应「top-down」。

图注:一眼就可以注意到书本的大字部分是「现象意识」;意识到其中的细节则属于「自觉意识」。
Askell 认同更高级的智能和自觉意识更相关,这也可以将人类和其它动物有效地区分开来,但她「更感兴趣的是老虎与岩石的区别,而不是人与老虎的区别」,而现象意识足以完成这样的区分。
而且她认为,如果出现了「现象意识」,就意味着一些道德和伦理问题也将随之出现。这也是她认为研究意识具有重要意义的原因所在。



1

当下的AI系统是否有意识?
Askell 提出一个有趣的观察:
当下的 AI 系统比椅子更有可能具有现象意识,但远不如老鼠有意识,甚至还没有昆虫、鱼或双壳类动物有更多意识。
她把 AI 系统大致类比为植物的区域——由于植物的行为方式似乎需要规划,并且可以做出一些看似需要内部和外部交流的事情。AI 系统似乎也有类似的行为。
不过她也确信,AI 系统作为一个整体在未来会比植物或双壳类动物具有更大的意识潜力。尤其未来有更多受生物启发的神经网络的AI研究可能会产生更多与意识相关的架构、行为和认知系统。
图注:有研究已经表明,植物也具有意识和智能,它们也可以感知疼痛,并与环境很好地交流互动
那么考虑AI到底有无意识,该从哪些方面考虑证据呢?Askell 列出了四个类型的证据:架构、行为、功能和理论
  • 架构证据是指系统的物理结构与人类的相似程度,例如大脑的结构要远比指头的更加像有意识。
  • 行为证据是实体做出与意识、认知等相关的行为,例如可以意识到周围环境,对外部刺激的反应,或更复杂的行为,如言语和推理。
  • 功能性证据考虑它的目标以及这些目标与环境的关系。例如桌子或椅子并没有真正受到环境的演化压力,因此它没有任何理由形成像老鼠对环境所拥有的的那种意识。
  • 理论证据包括理论本身的连贯性、说服力等。
现在研究心智的哲学家大致有两方面的理论倾向:一是包容派,例如认为原子都可以拥有意识的泛心派;二是机械主义派,他们否认非人类实体拥有意识。但无论是哪种倾向,都可以从上述的四种不同证据中讨论 AI 的意识问题。



2

AI 是否有意识重要吗?
绝大多数 AI 从业者都不会将意识这一特性考虑进去,AI 和意识似乎还只存在于某些科幻电影对未来的想象中。不过在安全、伦理、偏见与公正性方面,意识与 AI 的结合已在学术界和工业界中引起越来越多的重视。
Askell 认为,AI 具有现象意识,这就意味着它很有可能发展出伦理观,而这与它的创作者之间有莫大关系。尤其是当 AI 犯了错误或者受到「虐待」的时候,它的创造者应该承担一定的责任。
Askell 讨论了道德伦理学中的两个重要概念:道德行为体(moral agent)和道德关怀对象(moral patient)。其中,「道德行为体」是具有分辨善恶对错能力、并可以承担后果的行为体,如成年人;而「道德关怀对象」则无法分辨善恶是非,即无法从道德上进行约束、一般不会承担后果的实体,如动物或者幼小的婴儿。

道德关怀对象

Askell 认为,实体一旦拥有类似快乐和痛苦的知觉(sentisent)就极可能成为道德关怀对象。而如果发现道德关怀对象(比如一只猫)受到痛苦,而普通人却没有试图去尽道德义务减轻其痛苦,这是不合理的。她同时认为,现象意识是感知的必要条件,因而进一步,现象意识是成为道德关怀对象的先决条件。
可能的争论是某些群体是否具有道德地位(moral status),或者是否拥有更高的道德地位。道德地位来自伦理学,是指一个群体是否可以从道德意义上讨论它们的过失。例如,多数生物具有道德地位,而无生命物体则没有。过分强调某一群体具有这一地位似乎在暗示这一群体更加重要,其他群体没那么重要。这就像「给予动物、昆虫、胎儿、环境等更多道德地位的论点一样让人担忧」。
Askell 指出,帮助一个群体并不需要以牺牲其他群体为代价。例如,食用素食对动物和人类健康都有好处。「团队通常不会竞争相同的资源,我们通常可以使用不同的资源来帮助两个团队,而不是强迫在它们之间进行权衡。如果我们想增加用于全球脱贫的资源,将现有的捐款从慈善事业中拿出来并不是唯一的选择——我们还可以鼓励更多的人捐款和捐款。」
所以,当未来有感知能力的 AI 系统成为道德关怀体时,并不意味着我们对其它人类的福祉不再关心,也不意味着我们需要转移现有资源来帮助他们。

道德行为体

道德行为体因为懂得善恶是非,他们倾向以好的方式行事,避免以坏的方式行事。当做了道德或法律上不允许的事情的时候,他们会受到相应的惩罚。
道德行为体中最弱的部分只需要对积极和消极的激励做出反应。这就是说,另外的实体可以惩罚该行为体的不良行为或奖励其良好行为,因为这将改善行为体今后的行为。
值得注意的是,Askell 指出:接收刺激并得到反馈似乎并不要求现象意识。当前的 ML 系统在某种意义上已经符合这一规律,比如模型需要降低损失函数,或者强化学习中更明显的「奖励」和「惩罚」。

图注:强化学习的奖励反馈机制
那么对于更强的道德行为体呢?我们通常认为,只有当行为体有能力理解是非对错,并没有被糊弄采取其它行为时,Ta 才能对他们的行为负有道德责任。比方说,一个人说服他的朋友在森林放火,如果这位朋友被抓到,不管他怎么辩解自己是受到别人教唆才放火的,承担道德责任的都是引发火灾的人(即朋友本人),而不是说服他的人。但是,如果一个人训练他的狗去放火,在这种情况下,我们会将大部分的道德责任放在这位训练师而不是他的宠物身上。
为什么我们让人类纵火犯承担道德责任,而不是训练有素的狗?首先,人类纵火犯有能力考虑他们的选择,并选择不听从朋友的劝说,而狗则缺乏这种能力来推理他们的选择。其次,狗从不明白自己的行为是错误的,也从不表现出做错事的意图(disposition)——它只是做了它受过训练的事情。
假设先进的机器学习系统在这种更强的意义上成为道德行为体,即它完全有能力理解是非,充分考虑可行的选项,并按照自己的意愿行事,那么这是否意味着:如果机器学习系统做错了事,那些创建该系统的人应该被免除道德责任?
对此,Askell 持反对意见。为了更加细致地考虑这一问题,她认为可以询问创造者们以下几个问题:
  • 创造特定的实体(如AI)预期的影响是什么?
  • 创造者为获得有关其影响的证据付出了多少努力?
  • 他们对他们创造实体的行为可以在多大程度上进行控制(无论是直接影响其行为还是间接影响其意图)?
  • 在他们力所能及的范围内,他们为改善实体的行为付出了多少努力?
即使创造者尽一切努力确保 ML 系统运行良好,它们还是可能会失败。有时这些失败还是由于创造者的错误或疏忽而导致的。Askell 认为:创造道德行为体肯定会使事情复杂化,因为道德行为体比自动机(automata)更难预测,比方自动驾驶对于路况的判断。但这并不能免除创作者为其创造的 AI 系统的安全问题负责的义务。



3

研究 AI 意识的工作有多重要?
目前 AI 领域专门针对意识(甚至其它哲学方面的思考)的研究非常少,但也已经有学者在针对该话题进行跨领域的合作研究。比如,GPT-3问世后,专注哲学问题探讨的博客 Daily Nous 就专门开辟了一个板块讨论语言哲学在 AI 上的思考。
但同时,Askell 强调,对 AI 意识的讨论不应仅仅停留在哲学式的抽象思辨上,还要致力于发展相关的实用框架,比如为机器意识和感知建立一系列高效的评估。目前已经有一些方法可以用于检测动物疼痛,似乎可以从那里获得一些灵感。
反过来说,我们对 AI 意识的理解多一分,对人类本身的理解就多一分。因此,对 AI 意识的讨论虽暂未达成统一的共识,但讨论本身已是一种进步。期待更多的 AI 意识研究工作。

参考链接:

https://askellio.substack.com/p/ai-consciousness?s=r

雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/0IVFUaVxaEH1LnG9.html#comments Tue, 15 Mar 2022 10:26:00 +0800
这届Meta博士奖学金「不一般」:15名华人获奖,传媒学博士生也能入选 //www.xyschoolife.com/category/academic/Rp9paML0JTn69H9e.html

一共37名博士生入选,华人学生约占四成。

作者 | 西西

编辑 | 陈彩娴

Emmm…首先声明,这是一条「旧」闻。

2月3日(春节期间),改了名后的「Facebook」公布了2022年博士生奖学金,从24所学校中选拔出37名优秀的博士生,每人颁发4.2万美元,以支持他们在科研上的进步。

思前想后,决定还是得报(狗头护体)。

据统计,今年入选的博士生中,有15名华人学生。他们中,有的人在本科阶段所学的专业与计算机毫无关系,有的人获顶会最佳论文奖,还有人是从文跨理(本科学习艺术史、后来转计算机)。此外,有4人为清华校友。

据称,自2011年成立以来,「Meta博士生奖学金」(Meta PhD Research Fellowship)项目已资助了超过179名计算机博士生。不少入选博士生在后来成为 AI 领域的知名青年学者,如朱海一、朱俊彦、宋舒然、李纪为、陈丹琦等等。

由此可见,「Meta博士生奖学金」的选拔还是很有含金量的。

更值得注意的是,今年 Meta 所选拔的博士生中,除了计算机专业的「纯理工科」学生,还有来自看似与 AI 八杆子打不着的传媒专业!与往年相比,着实突兀。除了「文科」色彩浓厚,人机交互与AR/VR方向的获奖者也占了获奖学生的大多数。

黑人问号之余,笔者转眼就想到了 Meta 的「元宇宙」布局,不知这两者之间是否有什么关系?

那么,2022年获得「Meta博士生奖学金」的华人学生是什么来路?一起来看看:

陆昱成

获奖领域:人工智能系统软硬件协同设计

本科毕业于上海交通大学电子工程系,目前在康奈尔大学计算机科学系攻读博士,师从 Christopher De Sa 教授,主要研究构建可扩展、可证明正确的机器学习系统,研究项目包括通信压缩、模型压缩、去中心化等。他在去中心化学习方面的研究 DeTAG 曾获得 ICML 2021 杰出论文荣誉提名奖。此外,他曾在微软、谷歌与亚马逊担任研究实习生。

个人主页:https://www.cs.cornell.edu/~yucheng/

骆沁毅

获奖领域:人工智能系统软硬件协同设计

她的本科毕业于清华大学电子工程专业,现在是南加州大学计算机系的博士生,师从钱学海教授。她的研究兴趣集中在理解与创造智能,目前专注于开发能够提升机器学习训练速度与效率的分布式系统,尤其是新型并行化和同步化方法的开发。

个人主页:http://alchem.usc.edu/~qinyi/

Lianmin Zheng

获奖领域:人工智能系统软硬件协同设计

他的本科毕业于上海交通大学 ACM 班,目前是加州大学伯克利分校 EECS 系的博士生,师从 Ion Stoica 教授和 Joseph E. Gonzalez 教授。他的研究兴趣集中在机器学习和编程系统的交叉领域,特别是用于加速和可扩展深度学习的特定领域的编译器,曾在 Amazon Web Services、OctoML 和华盛顿大学实习,与陈天奇、Luis Ceze 和 Yida Wang 等人进行过合作。

个人主页:http://lmzheng.net

Lucy Chai

获奖领域:AR/VR 人类理解

本科就读于宾夕法尼亚大学计算机科学与生物工程系,后在剑桥大学丘吉尔学院攻读机器学习,现在是麻省理工学院 EECS 系的博士生,师从2022年新晋斯隆奖得主 Phillip Isola,隶属 MIT CSAIL 实验室。她的成绩十分优异,此前已获NSF博士生研究奖与Adobe研究奖资助。Lucy Chai 的研究重点是图像合成,特别是为交互式图像编辑和下游视觉分析任务生成增强的图像形式。

个人主页:https://people.csail.mit.edu/lrchai/

Boyang Deng

获奖领域:AR/VR 人类理解

他目前在自动驾驶知名企业 Waymo 的研究部门担任研究科学家,即将赴斯坦福大学计算机系攻读博士。此前,他曾就职于谷歌大脑加拿大多伦多分部。他的研究兴趣主要是使用机器学习解决计算机视觉和计算机图形学交叉领域的问题,目前的主要研究内容是基于物理的光传输和随机梯度下降来推断、编辑和渲染神经表示的形状、材料和照明。

个人主页:https://boyangdeng.com

Yufeng Zheng

获奖领域:AR/VR 人类理解

她的本科毕业于清华大学电子工程专业,后赴苏黎世联邦理工学院(ETH Zurich)攻读硕士,目前是苏黎世联邦理工学院与马克斯-普朗克智能系统研究所联合培养的一年级博士生,师从 Otmar Hilliges 教授和 Michael Black 教授。她主要研究以人为中心的计算机视觉和图形领域,重点是基于学习的人脸和身体 3D 建模。

个人主页:https://ait.ethz.ch/people/zhengyuf/

Serina Chang

获奖领域:计算社会科学

她的本科毕业于哥伦比亚大学计算机科学与社会学双学位,目前在斯坦福大学攻读博士,师从 Jure Leskovec 和 Johan Ugander。她的研究方向是开发模拟复杂社会系统的计算方法,结合网络科学、数据科学和机器学习的技术。此前,她使用大规模人类移动数据对新冠疫情传播进行建模的工作《Supporting COVID-19 policy response with large-scale mobility-based modeling》曾在 Nature、KDD 和 IAAI 上发表,并获得了 KDD 2021 最佳论文奖,产生了巨大的影响力。此前,她也获得 NSF 博士生奖学金。

个人主页:https://serinachang5.github.io/

Audrey Cheng

获奖领域:数据库系统

她的本科毕业于普林斯顿大学运筹学和金融工程系,目前在加州大学伯克利分校(UC Berkeley)计算机系攻读博士,师从 Ion Stoica 和 Natacha Crooks,隶属于RISELab。她的研究重点是数据库系统的交易处理,尤其关注在大规模条件下提供更强安全性和正确性保证的挑战。

个人主页:https://audreyccheng.github.io/

吴仁智

获奖领域:数据库系统

他的本科与硕士毕业于清华大学,本科专业为能源动力工程与经济学(辅修),硕士专业为热物理学,现在在佐治亚理工学院计算机科学系攻读博士,师从 Xu Chu 教授。真·跨专业大神。他的研究重点是使用机器学习来解决具有挑战性的数据管理问题,例如实体匹配、基数估计和真值推理。

个人主页:https://wurenzhi.github.io/

刘璟

获奖领域:分布式系统

她在2016年本科毕业于南京大学,目前在威斯康星大学麦迪逊分校计算机科学系攻读博士,师从 Andrea Arpaci-Dusseau 教授和 Remzi Arpaci-Dusseau 教授。她的研究兴趣在于存储系统,重点关注规模和性能,此外还研究分布式存储系统的可调度性和可靠性。

个人主页:https://jingliu.xyz/

Alexander Wei

获奖领域:经济与计算

他的本科毕业于哈佛大学计算机科学与数学双学位,硕士也毕业于哈佛,目前在加州大学伯克利分校(UC Berkeley)计算机科学系攻读博士生,师从 Nika hagtalab、Michael i. Jordan 和 Jacob Steinhardt 等人。他的研究兴趣集中在算法、经济学和机器学习的交叉研究,特别是对于在复杂环境中开发学习、决策和合作的原则。他的研究曾得到 SODA 2019 最佳学生论文奖。

个人主页:https://www.alexwei.org/

Pengfei Zhao

获奖领域:人机交互(社交媒体、人与社会)

她的本科与硕士均毕业于中国传媒大学广告专业,后又赴亚利桑那大学攻读传播硕士,现在在康奈尔大学传播系攻读博士,师从 Natalie Bazarova 。她的方向聚焦于新的通信技术、人际沟通和幸福感的交叉研究,具体来说,就是研究新的通信技术(如智能手机和社交媒体)如何影响自我表露、社会支持、关系的开始和发展以及幸福和心理健康等。

个人主页:https://cals.cornell.edu/pengfei-zhao

蔡其哲

获奖领域:网络

他的本科毕业于密歇根大学计算机科学系,硕士毕业于普林斯顿大学计算机系,目前在康奈尔大学计算机系攻读博士,师从 Rachit Agarwal。他的研究广泛涉及系统和网络,尤其是为太比特以太网(Terabit Ethernet)构建网络系统和协议。

个人主页:https://www.cs.cornell.edu/~qizhec/

Kaiwen Sun

获奖领域:隐私与数据使用

她的本科毕业于明尼苏达大学市场专业,硕士毕业于密歇根大学人机交互专业,目前在密歇根大学信息学院攻读博士,师从 Florian Schaub 和 Chris Brooks。她主要研究儿童隐私和安全、智能家居技术和人机交互的交叉领域,主要是通过设计和开发以儿童为中心的功能和控件,以在智能家居技术的环境下理解和支持儿童的隐私和安全需求。

个人主页:https://www.si.umich.edu/people/kaiwen-sun

Chen Ling

获奖领域:安全与隐私

她在2015年本科毕业于清华大学艺术史专业,2019年从伊利诺伊大学厄巴纳-香槟分校(UIUC)获得计算机科学硕士学位,目前在波士顿大学计算机工程系攻读博士,师从 Gianluca stringini 教授。她的研究兴趣在于安全、隐私和计算社会科学,主要研究通过多模态、多平台和混合方法更好地理解网络协同攻击行为,并开发更好的解决技术。

个人主页:https://ciciling.com/

参考链接:

https://research.facebook.com/blog/2022/2/announcing-the-recipients-of-the-2022-meta-phd-research-fellowship/

雷峰网雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/Rp9paML0JTn69H9e.html#comments Mon, 14 Mar 2022 10:30:00 +0800
PapersWithCode官宣突破6k+基准,TensorFlow影响力第一 //www.xyschoolife.com/category/academic/jsXovjsS5Rzrxb7v.html

作者 | 西西

编辑 | 陈彩娴

刚刚,知名机器学习论文网站 Papers With Code 在推特上官宣:

「我们突破了 6000 个基准!我们现在囊括了超过6.4k个机器学习的基准。非常感谢领域成员的持续贡献!」

Papers with Code 中收集了各种机器学习的内容(论文、代码、结果),为研究者们提供了迅速搜索论文与掌握行业领先研究的途径,一向受到「MLer」的欢迎。

自2018年7月成立以来,该网站便经历了几个重要的发展阶段:

  • 2019年12月,加入Facebook人工智能研究院(FAIR),彼时已累积18000 篇论文、1000 项任务和 1500 个排行榜;

  • 2020年10月,与arXiv合作,在arXiv上引入代码;

  • 2021年5月又与arXiv进一步合作,在arXiv上引入数据集;

  • 2021年6月,官宣上线论文复现报告

如今,距离 Papers with Code 成立不过三年多,该网站就集合了6.4k+个基准,妥妥的「机器学习网站一哥」。

根据 Papers with Code 的最新统计,它还分「Top」(上升趋势)、「Social」(社交推荐)、「New」(时间新旧)与「Greatest」(影响力大小)四个板块对其所集合的 SOTA 模型做了划分,其中,在「Greatest」行列,TensorFlow排名第一,Transformer第三,PyTorch第五。

这四个板块的前十名整理如下:

1、Greatest 10

2、New 10

3、Top 10

4、Social 10

参考链接:
1.https://twitter.com/paperswithcode/status/1501921186917273607
2.https://paperswithcode.com

雷峰网雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/jsXovjsS5Rzrxb7v.html#comments Mon, 14 Mar 2022 10:06:00 +0800
AI 与人文共舞!DeepMind 用神经网络修复古希腊铭文,登顶Nature最新封面 //www.xyschoolife.com/category/academic/g3eXq4W1rAE5hIAg.html

作者 | 西西

编辑 | 陈彩娴

今天,人工智能领军团 DeepMind 又爆出了一项重要成果:用深度神经网络修复古希腊受损的石碑铭文,号称「Predicting the Past」(预测过去),在以Nature为首的科学媒介上掀起了一番热烈关注。

他们以古希腊的岛屿名为该模型命名——「Ithaca」(伊萨卡岛),以表对古希腊文明的神往。在荷马史诗《奥德赛》中,伊萨卡岛是英雄奥德修斯(Odysseus)的故乡。传闻,公元前1183年,国王奥德修斯在特洛伊战役中取得胜利后,历经十七年的艰险斗争,战胜无数困难,最终回到伊萨卡岛,与妻儿幸福团聚。

「伊萨卡」也从此成为古希腊文明中「家」的象征。这可能也是 DeepMind 迄今为止被赋予了最浪漫名义的 AI 模型。

在官方推特中,他们也称,希望能够「帮助历史学家,更好地理解古代历史」,马上就收获了过千的点赞:

作为「AI for Science」的著名代表,显然,DeepMind 祭出的深度神经网络 Ithaca 打破了外界对它的「纯理工科」误解。在官方博客中,DeepMind 也解释,这次的成果符合他们「实现智能、促进科学与人文发展」的使命。

Ithaca 是 DeepMind 在「AI for Humanity」(用人工智能研究人文社科)的第一个里程碑。那么,这是否意味着:DeepMind 的野心不仅是「AI for Science」,还有「AI for Humanity」?

科学与人文从来便是人类文明的两大黄金分支。历史的前进,从来离不开这两个车轮。往后回看,Ithaca 的出现,或许正是 AI 进军人文社科的起点。



1

揭开 Ithaca 的神秘面纱

3月9日,Nature最新封面发布,Ithaca登顶。古老的土黄铭文与酷炫的深蓝编码交织,完美写就了 DeepMind与威尼斯 Ca' Foscari 大学人文系、牛津大学经典学院和雅典经济大学信息系学者的研究成果:

用神经网络修复、破解几千年前的古希腊铭文,不仅有历史的滚滚黄尘,还有最新的时代印记——人工智能。

相关论文也以“Restoring and attributing ancient texts using deep neural networks”为题发表在了 Nature 上(如下图):

一个字:秀!?

文字是文明的载体。从两千多年前开始,古希腊人便在石头、陶器和金属上书写文字,以记录租约、法律、日历、神谕等社会生活的内容。但由于年代久远,许多铭文经过风雨摧残,已被损坏,并从原来的位置移走。

在文物修复一块,现代的测年技术(如放射性碳测年)并不能用于研究刻在石头、陶瓷和金属等材料上的铭文,使得这些铭文难以解读或解读十分耗时。因此,DeepMind 的团队开始思考:是否可以用人工智能帮助历史学家解释铭文?

于是,他们与历史学家们合作,推出了 Ithaca——据称,这是第一个可以恢复受损铭文的缺失文本,识别铭文在载体上的初始位置、以确定书写年限的深度神经网络。

Ithaca 的架构如下:文本的损坏部分用破折号“-”表示;此外,DeepMind 研究团队还人为地破解了字符“δημ”。提供输入后,Ithaca 会自动恢复文本,并识别文本的编写时间和地点。

据介绍,Ithaca 在帕卡德人文学院(Packard Humanities Institute)最大的希腊铭文数字数据集上进行训练。

通常来说,自然语言处理模型是使用单词进行训练,因为它们在句子中出现的顺序以及单词之间的关系提供了额外的上下文背景和含义。但由于许多铭文都处于损坏状态,并且经常有大块的文字丢失。因此,为了确保模型适用于文字损失状态,他们使用了单词和单个字符作为输入来训练。模型核心的稀疏自注意力机制会并行评估这两个输入,以更好地评估铭文。

图注:Ithaca 的输出。(a) 雅典铭文 (IG II² 116) 中 6 个缺失字符(用「-」表示)的恢复预测。绿色的顶部修复是正确的(συμμαχία,「联盟」的意思)。注意红色部分的假设(ἐκκλησία,「集会」和 προξενία,「国家与外国人之间的条约」)常出现在雅典的政治法令中,这也揭示了 Ithaca 对上下文的接受度。(b) Amorgos 铭文的地理归属 (IG XII 7, 2)。Ithaca 的顶部预测是正确的,最接近的预测是相邻区域。(c) Delos 铭文的日期分布 (IG XI 4, 579)。灰色部分是真实日期公元前300-250年,而 Ithaca 的预测分布为黄色,平均值为公元前 273 年(绿色),准确率极高。

为了最大限度地发挥 Ithaca 的价值,DeepMind 团队还创建了许多视觉辅助工具,以确保 Ithaca 的研究结果容易被历史学家解读:

  • 恢复假设:Ithaca 为文本恢复任务生成了几个预测假设,供历史学家使用他们的专业知识进行选择。

  • 地理归因:Ithaca 通过为历史学家提供所有可能预测的概率分布(而不仅仅是单个输出)来显示其不确定性。它会返回代表其确定性水平的 84 个不同古代区域的概率。它在地图上将这些结果可视化,以阐明古代世界可能存在的潜在地理联系。

  • 年代归属:在对文本进行年测时,Ithaca 会生成从公元前 800 年到公元 800 年所有十年的预测日期分布。这可以使历史学家对特定日期范围的置信度可视化,可能会提供有价值的历史见解。

  • 显着性映射:为了将结果传达给历史学家,Ithaca 使用计算机视觉中常用的一种技术来识别哪些输入序列对预测的贡献最大。输出以不同颜色强度突出显示导致 Ithaca 预测缺失文本、位置和日期的单词。

图注:这段文字(IG II² 116,Athens 361/0 BCE)记录了雅典人和色萨利人的联盟。通过使用显着映射,他们可以在恢复损坏的单词「alliance」时将 Ithaca 「关注」上下文重要的词「Athenians」和「Thessalians」可视化。

据 DeepMind 介绍,经评估表明:Ithaca 在恢复受损文本方面的准确率达到了 62%,在识别其原始位置方面的准确率达到 71%,并且可以将文本的日期确定在其真实日期范围的 30 年内。

DeepMind 还说:与他们合作的历史专家在单独修复古代文本时准确率只有 25%,但当他们与 Ithaca 合作修复时时,准确率提高到了 72%,超过了模型的个人性能,体现出了人机协作在历史解释、建立历史事件的相对年代上的优势。

通过 Ithaca,历史学家们重新评估了希腊历史上的多个重要时期。用一个夸张点的说法是:Ithaca 「改变」了历史;四舍五入,人工智能「改变」了历史。

图注:历史学家们用 Ithaca 修复了记录雅典卫城法令的铭文 (IG I3 4B) ,日期为公元前 485/4 年

目前,Ithaca已开源,供历史学家们按需使用。



2

进一步讨论

DeepMind 认为,Ithaca 的出现有助于历史学家对历史事实的辩论。

目前历史学家们在苏格拉底等人物生活的时代制定的一系列重要的雅典法令的日期上有争议。长期以来,人们一直认为这些法令是在公元前 446/445 年之前制定的,但新的证据表明其日期是公元前 420 年代。虽然这些差异看起来很小,但对人类理解古典雅典的政治史至关重要。

图注:Ithaca 的预测与帕卡德人文学院(PHI)数据集的基本事实与最近的历史重新评估相比。PHI 标签平均距离重新评估的日期是 27 年,而 Ithaca 的预测平均距离新提出的日期是 5 年,准确率更高。

不过,也有网友指出:Ithaca 的性能指标似乎单单聚焦在「准确率」上,并不足以测出有说服力的年份。

事实上,「AI for Humanity」也并不是一个新鲜的话题。中国人民大学的高瓴人工智能研究院自成立之初,就将「用人工智能促进人文学科研究」作为主要的方向之一,此前 AI 科技评论就报道过《人大:和清、北做不一样的 AI》。

对于 DeepMind 来说,AI 进军人文社科是第一次,但此前已有许多学者用神经网络进行文字修复。此次登 Nature 封面,究竟是工作够强,还是 DeepMind 的 IP 号召力够大,仍有待商榷。

不过,不可否认,用 AI 帮助人文学科研究,总归利大于弊!值得喝彩!

参考链接:

1.https://deepmind.com/blog/article/Predicting-the-past-with-Ithaca

2.https://www.nature.com/articles/s41586-022-04448-z

3.https://github.com/deepmind/ithaca

雷峰网雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/g3eXq4W1rAE5hIAg.html#comments Fri, 11 Mar 2022 15:50:00 +0800
时隔两年,CVPR重启「线下参会」,程序主席:不忙的话,来面基呀 //www.xyschoolife.com/category/academic/ef0dTBrxD3jqDZj9.html
作者丨维克多
编辑丨岑峰

如有必要,请尽量线下参会!这是 CVPR 官推最新指示。

来自CVPR 2022程序主席的消息:

除非疫情发生重大变化,否则2022年的会议将开放线下参会,不能旅行的人,可以选择在线参会。近几天,有关签证的消息将会发送给各位作者。

CVPR是人工智能领域的顶级会议,今年的会议将于6月19日~23日在美国路易斯安那州新奥尔良举办。据悉,它是该州最大的城市,重要繁忙的美国大型港口之一。一些著名的景点包括法属区皇家街、杰克逊广场、圣路易斯大教堂、奥杜邦公园和杜兰大学等等。所以,如能线下参会,学术讨论之余,也感受异国风情。

在人工智能领域,CVPR已经“当选”最顶级会议。据2021谷歌学术期刊与会议影响力榜单。CVPR在综合榜单中排名第四,超过了《柳叶刀》 ,仅次于《Science》。对于此排名,有学者François Fleuret“表示”:一篇CVPR相当于86%篇《Nature》;LeCun回复道:2篇ICLR相当于一篇《Nature》。

2020年疫情发生后,该会议搬到线上,曾一度被各位用户吐槽“网站卡得要死,有时还404”;2021年的会议也因疫情被迫线上召开。如果顺利的话,2022年CVPR组委会将重启线下,为学者提供沉浸式的交流环境,不容错过。

或许是受CVPR决定的影响,ICML也开始讨论会议形式,目前来看混合(线上-线下)模式或许成为主流。




1

CVPR 2022 现状

据统计,CVPR2022一共接收了2067篇论文。有效投稿量数据尚未放出。不过按照20%左右的接收率推算,可能会有接近万篇的投稿。

目前所给出的接收论文编号链接为:https://drive.google.com/file/d/15JFhfPboKdUcIH9LdbCMUFmGq_JhaxhC/view

从2016年至今,CVPR的投稿数量几乎呈指数级增长。CVPR 2018相较于CVPR 2017投稿量增长了 23%;CVPR 2019 相较于CVPR 2018 投稿量更是一下子增长了56%。当时CVPR 2019 的程序主席、UIUC 教授 Derek Hoiem 曾开玩笑说,“按照这个指数增长速度,只需要到2028年,CVPR 就可以收到 108 亿篇投稿,全地球平均每个人都至少有一篇论文投稿,其中包括了老人和小孩。”

相比去年,CVPR 2022为学术论文设置了“社交媒体静默期”,在此期间,任何由作者主动发起的对论文的社交媒体宣传都被视为违反政策。这项规定的宗旨是解决同行评审过程中,因为作者机构被曝光后产生的偏见问题。

而且,如下,真的有作者因为提前宣传而被拒。



2

不可或缺的线下交流

CVPR 2022组委会的这一决定,在某种程度上说明,在拓展人脉、和研究同一个课题的学者深入讨论方面,线下交流是如何都不能替代的。

毕竟参加学术会议的收获往往不止于见牛人、听报告、学功力、长技能,很多时候它能够给参会者一种“学者”的身份,来观察不同的文化,不同的人群,甚至观察我们自己。

单纯从收益方面考虑,如果和论文研究的时间点契合,去这样的场合宣传自己的研究是有益无害的。询问对方感兴趣的话题,和不同的人找共同的兴趣点,是非常有意思的事情。

在很多领域,其实有相当一部分人在研究相对比较冷门主题。参加学术会议,现场发言不仅能够让更多人知道你的工作,如果口才过硬还能把“学术路人”拉到你的阵营,努力让自己的学术成果表现得更有价值。

从学生的角度而言,云会议可能会让学生们无法获得切身的参会体验,得不到很好的锻炼。学术会议的目的在于思想的交流,你一个思想,我一个思想,经过交流就分别拥有两个思想了。实际上,本科生、研究生、博士生在学术会议上的交流和诉求可能各有侧重点:本科生对未来的研究方向尚未确定,如果让他们有更多机会在学术会议现场与大牛面对面交流,对于培养下一代学术新人有着无比珍贵的意义。

对于研究生来说,参加学术会议能够锻炼口才,让自己的学术成果得到同行的指正、指导和认可,不仅如此,还可以结实一些国外的教授,积累人脉。如果你未来打算在国外读博,也是一次了解国外情况,认识大佬的好机会,没准之后申请的老板就认识某个去这次会议的教授......

至于博士生,将会是他们开始在学术界崭露头角,向学术界展示自己的研究成果的绝佳机会。如果恰好能够在会议上碰到志同道合的人,说不定还能意外收获一份满意的工作或者“收割”到一群创业导师和伙伴。

雷峰网雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/ef0dTBrxD3jqDZj9.html#comments Fri, 11 Mar 2022 15:50:00 +0800
Michael Bronstein 最新几何深度学习综述:超越 WL 和原始消息传递的 GNN //www.xyschoolife.com/category/academic/uoCy4Sh5SzhVHYsl.html

如何突破基于 WL 测试和消息传递机制的 GNN 的性能瓶颈?且看几何深度学习旗手、牛津大学教授 Michael Bronstein 如是说。

编译丨OGAI

编辑丨陈彩娴

图可以方便地抽象关系和交互的复杂系统。社交网络、高能物理、化学等研究领域都涉及相互作用的对象(无论是人、粒子还是原子)。在这些场景下,图结构数据的重要性日渐凸显,相关方法取得了一系列初步成功,而一系列工业应用使得图深度学习成为机器学习方向的热门研究话题之一。

图注:通过图对复杂系统的关系、交互进行抽象。例如,「分子图」中构成分子的原子至今的化学键,「社交网络」中用户之间的关系和交互,「推荐系统」中用户和商品之间的联系。

受物理启发的图上的持续学习模型可以克服传统 GNN 的局限性。多年来,消息传递一直是图深度学习领域的主流范式,使图神经网络(GNN)在粒子物理到蛋白质设计的广泛应用中取得了巨大成功。

从理论角度来看,它建立了与 Weisfeiler-Lehman(WL)层次结构的联系,我们可以以此分析 GNN 的表达能力。但是在 Michael Bronstein 看来,当前图深度学习方案「以节点和边为中心」的思维方式带来了无法克服的局限性,阻碍了该领域未来的发展。

另一方面,在关于几何深度学习的最新综述中,Bronstein 提出了受物理启发的持续学习模型,从微分几何、代数拓扑和微分方程等领域出发开启了一系列新工具的研究。到目前为止,图机器学习领域中还鲜有此类研究。

针对Bronstein的最新思考,AI科技评论做了不改原意的整理与编译:



1

图神经网络的工作原理

GNN 的输入为具有节点和边特征的图,计算一个既依赖于特征又依赖于图结构的函数。消息传递类的 GNN(即 MPNN)通过交换相邻节点之间的信息在图上传播特征。典型的 MPNN 架构由几个传播层组成,基于邻居特征的聚合函数对每个节点进行更新。根据聚合函数的不同,我们可以将 MPNN分为:卷积(邻居特征的线性组合,权值仅依赖于图的结构)、注意力(线性组合,权值依赖于图结构和特征)和消息传递(广义的非线性函数)。消息传递 GNN 是最常见的,而前者可以视为消息传递 GNN 的特殊情况。

图注:GNN 的三种风格——卷积、注意力和广义非线性信息传递风格,它们都是消息传递的表现形式。

传播层由基于下游任务学习的参数构成,典型的用例包括:节点嵌入(每个节点表示为向量空间中的一个点,通过点之间的距离恢复出原始图的连通性,此类任务被称为「链接预测」),节点级的分类或回归(如推断社交网络用户的属性),或者通过进一步聚合节点的特征进行图级别的预测(例如,预测分子图的化学性质)。



2

消息传递 GNN 的不足之处

GNN 在多个方面都取得了令人印象深刻的成功,最近的相关研究也具有相当的广度和深度。但是,当下的图深度学习范式的主流模型是:对于构建好的图,通过消息传递的方式沿着图的边传播节点信息。Michael Bronstein 认为,正是这种以节点和边为中心的思维方式,为该领域进一步发展带来了主要的障碍。

WL 的类比能力有限。适当选择像「求和」这样的局部聚合函数,可以使消息传递等价于 WL 图同构测试,使图神经网络能够根据信息在图上的传播方式发现某些图结构。通过这种与图论的重要联系,研究人员提出了多种分析 GNN 表达能力的理论结果,决定了图上的某些函数是否可以通过消息传递来计算。然而,这种类型的分析结果通常不能说明表征的效率(即需要多少层来计算某个函数),也不能说明 GNN 的泛化能力。

图注:WL 测试就好比在没有地图的情况下走进迷宫,并试图理解迷宫的结构。位置编码提供了迷宫的地图,而重连则提供了一个越过「墙壁」的梯子。

即使是对于三角形这种简单的图结构,有时 WL 算法也无法将它们检测出来,这让试图将信息传递神经网络用于分子图的从业者非常失望。例如,在有机化学中,像环这样的结构非常普遍,并且对分子的性质十分重要(例如,萘等芳香环之所以被称为芳香环,是因为它们主要存在于具有强烈气味的化合物中)。

图注:十氢化萘(左)和二环戊基(右)有不同的结构,但我们无法通过 WL 测试区分它们。

近年来,研究者们已经提出了一些构建表达能力更强的 GNN 模型的方法。例如,WL 层次结构中的高维同构测试(以更高的计算和内存复杂度以及缺乏局域性为代价),将 WL 测试应用于子图集合;位置或结构编码,为图中的节点着色,以这种方式帮助打破迷惑 WL 算法的规律。位置编码目前在 Transformer 模型中是最常见的技术,在 GNN 中也广为使用。虽然存在多种位置编码方法,但具体的选择还取决于目标应用,要求使用者有一定经验。

图注:位置编码示例:随机特征、拉普拉斯特征向量(类似于 Transformer 中的正弦曲线)、结构特征(三角形和矩形的个数)。

「图重连」突破了 GNN 的理论基础。GNN 和卷积神经网络(CNN)之间的一个重要且微妙的区别是:图既是输入的一部分,也是计算结构的一部分。传统的 GNN 使用输入的图结构来传播信息,通过这种方式获得既反映图结构又反映图上特征的表示。然而,由于某些结构特征(「瓶颈」),一些图在信息传播方面的性能较差,导致来自太多节点的信息被压缩到一个节点彪悍尊能中,即「过压缩」。

现代 GNN 实现通过将输入图与计算图解耦(或为计算目的优化输入图)来处理这种现象,这种技术称为「图重连」。重连可以采取以下形式:邻域采样、虚拟节点、连通性扩散或演化,或节点和边的 Dropout 机制。Transformer 和像 GAT 这类基于注意力的 GNN 通过为每条边分配不同的权重来有效地学习新的图,这也可以理解为一种「软性」的重接。最后,潜图学习方法也可以归入这一类,它可以构建针对特定任务的图,并在每一层中更新它(初始状态下有位置编码、初始图,或有时根本没有图)。很少有现代 GNN 模型在原始输入图上传播信息。

图注:GNN 中使用的各种图重连技术——原始图、邻域采样(例如,GraphSAGE)、注意力机制(例如,GAT)、连通性演化(例如,DIGL)。

WL 测试根据信息在图上的传播方式来描述图。重连突破了这种理论上的联系,但又让我们陷入机器学习领域常见的问题中:学术界从理论上分析的模型与实践中使用的模型并不相同。

有时,图的「几何特性」不足。GNN 是几何深度学习宏伟蓝图中的一个实例。几何深度学习是一个「群论框架」,使我们可以根据数据底层的域的对称性设计深度学习架构。由于图没有规范的节点顺序,在图的场景下,这种对称性指的是节点排列。由于这种结构特性,局部作用图上的 MPNN 必须依赖于满足排列不变性的特征聚合函数,这意味着图上没有「方向」的概念,信息的传播是各向同性的。这种情况与在连续域、网格上的学习有着显著的不同,并且是 GNN 的缺点之一,人们认为各向同性滤波器的作用有限。

图注:网格是具有局部欧氏结构的离散流形。我们根据旋转来定义邻居节点,从而形成了「方向」的概念。图的结构较少,它根据排列来定义邻居节点。

有时,图的「几何特性」又过多。距离与方向的差异在某种程度上也与构建节点嵌入时遇到的问题有关。在某些空间中节点表征之间的距离被用来捕获图的联通性。我们大致可以将嵌入空间中接近的节点通过图中的一条边连接起来。在推荐系统中,图嵌入被用来在节点所代表的实体之间创建关联(边)。

图嵌入的质量及其表达图结构的能力,在很大程度上取决于嵌入空间的几何性质及其与图的几何性质的兼容性。欧氏空间在表示学习中有重要的地位,也是目前最简单、最方便的表征空间,但对于许多自然中的图来说,欧氏空间并不理想,原因之一是:欧几里德度规球的体积随半径以多项式形式增长,而随维数指数增长,而现实世界中许多图的体积增长是指数的。因此,嵌入变得「过于拥挤」,我们被迫使用高维空间,从而导致较高的计算复杂度和空间复杂度。

最近流行的一种替代方法是使用负曲率(双曲)空间,它具有与图更兼容的指数体积增长。双曲几何的使用通常会使嵌入维数更低,使节点表示更加紧凑。然而,图往往是异质的(例如,有些部分看起来像树,其它部分看起来像团,具有非常不同的体积增长特性),而双曲嵌入空间是同质的(每个点都有相同的几何性质)。

此外,即使嵌入空间具有非欧几何性质,但通常不可能在该空间中准确地表示通用的图的度量结构。因此,图的嵌入不可避免地是近似的。然而,更糟糕的是,由于嵌入是在考虑链接预测标准的情况下构建的,高阶结构(三角形、矩形等)的畸变可能会大到无法控制的。在社会和生物网络等应用场景下,这样的结构扮演着重要的角色,因为它们可以捕获更复杂的非成对的相互作用和模体。

图注:图的模体是一种高阶的结构。在对许多生物现象建模的图中可以观察到这种结构。

当数据的结构与底层图的结构不兼容时,GNN 的性能就会受到挑战。许多图学习数据集和对比基准都默认假设数据是同质性的(即相邻节点的特征或标签是相似的,或者说是平滑的)。在这种情况下,即使是对图进行简单的低通滤波(例如,取邻接平均值)也能起到很好的效果。早期的对比基准测试(例如,Cora),都是在具有高度同质性的图上进行的,这使得 GNN 的评估过于容易。

图注:同构和异构数据集。在同构图中,节点特征或标签的结构与图是兼容的(即节点与其邻居节点相似)。

然而,在处理亲异(heterophilic)数据时,许多模型显示出令人失望的结果,在这种情况下,必须使用更精细的聚合方式。我们不妨考虑两种典型的情况:(1)模型完全避免使用邻居信息(GNN 退化为节点级的多层感知机)(2)出现「过平滑」现象,即节点的表征在经过 GNN 的各层后变得更加平滑,最终「坍塌」为一个点。亲同数据集中也存在「过平滑」现象,对于某些 MPNN 来说是一个更为本质的缺陷,使深度图学习模型难以实现。

我们通常很难理解 GNN 学到了什么,GNN 往往是难以解释的黑盒模型。虽然可解释性的定义在很大程度上还较为模糊,但在大多数情况下,我们确实并不真正理解 GNN 学习了什么。最近的一些工作试图通过以紧凑的子图结构和在 GNN 预测中起关键作用的节点特征子集的形式来解释基于 GNN 的模型,从而缓解可解释性的缺陷。通过潜图学习架构学习的图也可以看作提供「解释」的一种形式。

约束通用的消息传递函数有助于排除不合理的输出,确保 GNN 学到的东西有意义,并且在特定领域的应用程序中可以更好地理解 GNN。具体而言,这样做可以为消息传递赋予额外的「内部」数据对称性,从而更好地理解底层的问题。例如,E(3)-等变消息传递能够正确地处理分子图中的原子坐标,最近对 AlphaFold 和 RosettaFold 等蛋白质结构预测架构的成功作出了贡献。

在 Miles Cranmer 和 Kyle Cranmer 合著的论文“Discovering symbolic models from deep learning with inductive biases”中,作者用符号公式取代了多体动力系统上学习的消息传递函数,从而可以「学习物理方程」。还有的研究者试图将 GNN 与因果推理联系起来,试图构建一个图来解释不同变量之间的因果关系。总的来说,这仍然是一个处于起步阶段的研究方向。

图注:不同的「可解释」GNN 模型——图解释器、潜图学习、等变消息传递。

大多数 GNN 的实现是与硬件无关的。目前大多数 GNN 依赖于 GPU 实现,并默认数据可以装入内存。然而,在处理大规模图(如生物网络和社交网络)时,这往往是一种一厢情愿的想法。在这种情况下,理解底层硬件的局限性(如不同的带宽和内存层次结构的延迟),并方便地使用硬件是至关重要的。大体来说,在相同物理内存中的两个节点和不同芯片上的两个节点之间,消息传递的成本可能存在一个数量级的差异。「使 GNN 对现有硬件友好」是一个重要而又经常被忽视的问题。考虑到设计新芯片所需的时间和精力,以及机器学习的发展速度,开发以图为中心的新型硬件是一个更大的挑战。



3

图学习新蓝图——「持续」模型

「持续」学习模型是一个取代离散 GNN 的新兴的、希望的方案。「受到物理系统启发的持续学习」从微分几何、代数拓扑和微分方程等领域出发开辟了一系列新的工具,迄今为止在图机器学习中还尚未被探索。

将 GNN 重新想象为连续的物理过程。与在图上传递多层消息不同,我们可以考虑在连续的时间维度上发生在某个域(可以是流形等连续的域,并将其转化为离散图)上的物理过程。该过程在空间和时间上的某个点的状态取代了一层 GNN 生成的图中某个节点的潜在特征。该过程由一组参数(表示底层物理系统的属性)控制,这些参数取代了消息传递层的可学习权值。

我们可以根据经典系统和量子系统构造出大量不同的物理过程。研究者们在一系列论文中证明,许多现有的 GNN 可能与扩散过程有关,这可能最自然的传播信息方式。也可能存在一些更奇特的方式(如耦合振荡系统),它们可能具备某些优势。

图注:图耦合振荡系统的动力学。

连续系统在时间和空间上可以是离散的。空间离散化指的是:以图的形式在连续域上连接附近的点,它可以随时间和空间变化。这种学习范式与传统的 WL 测试截然不同,后者严格地受底层输入图假设的约束。更重要的是,空间离散化思想启发了一系列新的工具的诞生。至少从原则上说,它让我们可以解决一些重要的问题,这些问题是现有的图论技术所无法解决的。

图注:2D 拉普拉斯算子的不同离散化结果。

学习是一个最优控制问题。在给定的时间内,过程的所有可能状态的空间可以被看作是一个可以表示的函数的「假设类」。这种学习方式可以看作一个最优控制问题,即是否可以控制过程(通过在参数空间中选择一条轨迹)使其达到某种理想状态。我们可以将表示能力定义为:是否可以通过在参数空间中选择适当的轨迹来控制过程,从而实现某种给定的功能(可达性);效率与达到某一状态所需的时间有关;而泛化性则与该过程的稳定性有关。

图注:将学习作为控制问题。通过飞机来比喻物理系统,其 xyz 坐标(系统状态)是通过操纵推理、副翼、和方向舵(参数空间)来控制的。

可以由离散微分方程推导出 GNN。物理系统的行为通常可由微分方程控制,其解产生系统的状态。在某些情况下,这样的解可以是闭式解。但在更普遍的情况下,必须依靠基于适当离散化的数值解。经过一个多世纪的研究,数值分析领域出现了各种各样的迭代求解器,为图上的深度学习提供了可能的全新架构。

GNN 中的注意力机制可以解释为具有可学习扩散系数的离散扩散偏微分方程,使用显式数值方法求解。此时,求解器的每一步迭代对应于 GNN 的一个层。目前还没有 GNN 架构能够直接类比于更复杂的求解器(例如,使用自适应步长或多步方案),该方向的研究可能催生出新的架构。另一方面,隐式的方案则需要在每次迭代时求解一个线性系统,可以将其解释为「多跳」滤波器。此外,数值方法具有稳定性和收敛性的保证,为它们能够工作提供了条件,也为失效情况提供了解释。

数值求解器应该对硬件友好。迭代求解器比数字计算机更古老,从数字计算机诞生之日起,它就必须知道自己拥有底层硬件,并有效地利用它们。科学计算中的大规模问题通常必须在计算机集群上解决,而这些问题是至关重要的。

在图上进行「持续」深度学习的方式,使我们以与模拟它们的硬件兼容的方式对底层微分方程进行离散化。这里可能用到超级计算研究社区的大量成果(如域分解技术)。具体而言,图重连和自适应迭代求解器考虑了内存的层次结构,例如:在不同物理位置的节点上执行很少的信息传递步骤,而在相同物理内存中的节点上执行更频繁的步骤。

将演化方程解释为与物理系统相关的能量函数的梯度流,有助于理解学习模型。许多物理系统都有一个相关的能量泛函(有时也包含某些对称或守恒定律),其中控制系统动力学的微分方程是一个最小化的梯度流。例如,扩散方程使狄利克雷能量最小化,而它的非欧版本(Beltrami 流)使 Polyakov 泛函最小化,从而直观地理解了学习模型。利用最小作用原理,某些能量泛函可以导出双曲方程(如波动方程)。这些方程的解是波动的(振荡的),与典型的 GNN 动力学有很大的不同。

分析这种流的极限情况提供了对模型表现的深刻理解,而这是很难通过其它方法获得的。例如,在论文“Neural Sheaf Diffusion: A Topological Perspective on Heterophily and Oversmoothing in GNNs”中,Michael 等人证明了传统的 GNN 必然会导致过平滑,并且只有在同质性假设下才具有分离的能力;在使用图上的额外结构可以获得更好的分离能力。在论文“Graph-Coupled Oscillator Networks”中,Michael 等人证明了振动系统在极限下可避免过平滑。这些结果可以解释为什么在某些 GNN 架构中会产生某些不良现象,以及如何设计架构来避免它们。此外,将流的极限情况与分离联系起来,揭示了模型表达能力的界限。

可以在图中使用更丰富的结构。如前文所述,有时图的几何性质可能「不足」(无法捕获更复杂的现象,如非成对关系),也可能「过剩」(即难以在同质空间中表示)。我们可以通过使用额外的结构使图更丰富,从而处理图几何性质不足的问题。例如,分子包含环,化学家认为环是单一的实体,而不是原子和键(节点和边)的集合。

Michael 等人的研究指出,图可以被「提升」为「简单元胞复合体」(simplicial- and cellular complexes)的高维拓扑结构。我们可以设计一个更复杂的消息传递机制,使信息不仅可以像在 GNN 中那样在节点之间传播,还可以在环这样的结构之间传播。恰当地构造这类「提升」操作使这些模型比传统的 WL 测试具有更强的表达能力。

图注:将图「提升」为元胞复合体,元胞消息传递。

在论文“Neural Sheaf Diffusion: A Topological Perspective on Heterophily and Oversmoothing in GNNs”中,Michael 等人证明了,通过给节点和边分配向量空间和线性映射,可以给图配备一种额外的几何结构,即「元胞束」。传统的 GNN 隐式地假设图具有简单的底层束结构,这反映在相关扩散方程的性质和图拉普拉斯算子的结构上。与传统的 GNN 相比,使用复杂的「束」可以产生更丰富的扩散过程,有利于对其渐近行为。例如,在选择出的恰当的束结构上的扩散方程可以在极限的多个类中分离,即使在亲异环境中也是如此。

从几何的观点来看,束结构类似于连接,这是微分几何中描述流形上向量的平行传输的概念。从这个意义上说,我们可以把束的学习看作是一种取决于下游任务演化图的几何结构的方法。Michaedl 等人证明,通过限制束的结构群(例如,限制为特殊的正交群),可以使节点特征向量只旋转,这样可以获得一些有趣的发现。

图注:建立在图上的元胞束由附加在每个节点上的向量空间和连接它们的线性约束映射组成。这可以被认为是赋予图几何性质,约束映射与连接类似。

「离散曲率类比」是另一种图几何结构的例子,这是微分几何领域用来描述流形局部性质的标准方法。在论文“Understanding over-squashing and bottlenecks on graphs via curvature”中,Michael 等人证明了负图 Ricci 曲率会对图上的信息流产生瓶颈,从而导致 GNN 中的过压缩现象。离散 Ricci 曲率可以被应用于高阶结构(三角形和矩形),这在许多应用中都很重要。这种结构对于传统的图嵌入来说有些「过剩」,因为图是异构的(非常曲率)。对于通常用于嵌入的空间,即使是非欧空间,也是同构的(常曲率)。

在论文“Heterogeneous manifolds for curvature-aware graph embedding”中,Michael 等人展示了一种具有可控 Ricci 曲率的异构嵌入空间的构造,可以选择与图的曲率匹配的 Ricci 曲率,不仅可以更好地表示邻域(距离)结构,而且可以更好地表示三角形和矩形等高阶结构。这些空间被构造成同构、对旋转对称的流形的乘积,可以使用标准黎曼梯度下降方法进行有效优化。

图注:(左)空间形式(球体、平面和双曲面)具有常的正的、零的和负的Ricci曲率,下方为它们与相应的离散的 Forman 曲率的图的类比(团、网格和树)。(中)积流形(圆柱可以被认为是圆和线的乘积)。(右)具有变曲率的异质流形及其图的类比。

位置编码可以看作是域的一部分。将图看作连续流形的离散化,可以将节点位置坐标和特征坐标视为同一空间的不同维度。在这种情况下,图可以用来表示由这种嵌入引出的黎曼度规的离散类比,与嵌入相关的谐波能量是狄利克雷能量的非欧扩展,在弦论中称为 Polyakov 泛函。这种能量的梯度流是一个扩散型方程,它演化了位置坐标和特征坐标。在节点的位置上构建图是一种针对特定任务的图重连的形式,它也会在扩散的迭代层中发生变化。

图注:通过带有重连的 Beltrami 流对 Cora 图的位置和特征分量进行演化的结果。

域的演化可替代图重连。作为一个预处理步骤,扩散方程也可以应用于图的连通性,旨在改善信息流和避免过压缩。Klicpera 等人提出了一种基于个性化 Page Rank 的算法,这是一种图扩散嵌入。在论文“Understanding over-squashing and bottlenecks on graphs via curvature”中,我们分析了这个过程,指出了它在异构设定下的缺陷,并提出了一个受 Ricci 流启发的过程的图重接的替代方案。这样的重连减少了负曲率造成的图瓶颈的影响。Ricci 流是流形的几何演化方程,非常类似于用于黎曼度规的扩散方程,是微分几何中类流行且强大的技术(包括著名的 Poincaré 猜想的证明)。更广义地说,与其将图重连作为预处理步骤,还不如考虑一个演化过程的耦合系统:一个演化特征,另一个演领域。

图注:(上)具有负曲率的瓶颈的哑铃形黎曼流形,经过基于曲率的度规演化,变得更圆,瓶颈更不明显。(下)一个类似的基于曲率的图重连过程,减少了瓶颈,使图对消息传递更友好。



4

结语

新的理论框架能让我们走多远,是否能够解决该领域目前尚未解决的问题,仍然是一个悬而未决的问题。

这些方法真的会在实践中被使用吗?对于实践者来说,一个关键的问题是,这些方法是否会催生新的更好的架构,或者仍然是一个脱离实际应用的理论工具。Michael Bronstein 相信,这个领域的研究将是实用的,通过拓扑和几何工具获得的理论成果将使我们对现有 GNN 架构做出更好的选择。例如,如何约束消息传递函数,以及何时使用这些特定的选择。

我们是否已经超越了消息传递的范畴?从广义上讲,数字计算机上的任何计算都是一种消息传递形式。然而,在严格意义上的 GNN 中,消息传递是一个计算概念,它通过将信息从一个节点发送到另一个节点来实现,这是一个内在的离散过程。另一方面,所描述的物理模型以连续的方式在节点之间共享信息(例如,在一个图耦合振荡系统中,一个节点的动力学依赖于它的邻居在每个时间点上的动力学)。在对描述该系统的微分方程进行离散化和数值求解时,所对应的迭代确实是通过消息传递实现的。

然而,人们可以假设使用这些物理系统的实际实现或其他计算范式(例如,模拟电子学或光子学)。在数学上,底层的微分方程的解有时可能以封闭形式给出:例如,各向同性扩散方程的解是一个高斯核卷积。在这种情况下,邻居的影响被吸收到核的结构中,没有发生实际的消息传递。

图注:基于反向传播的深度学习在真实物理系统中的应用。

原文链接:
https://towardsdatascience.com/graph-neural-networks-beyond-weisfeiler-lehman-and-vanilla-message-passing-bc8605fa59a

雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/uoCy4Sh5SzhVHYsl.html#comments Thu, 10 Mar 2022 14:04:00 +0800
Science给的英文写作指南:非母语人士,如何用英语写出漂亮的科学论文 //www.xyschoolife.com/category/academic/Anehm9ZKYp3hBPnv.html
编译丨维克多

编辑丨岑峰

如何开始完成一篇英文论文写作?大多数学生都是先写出中文,然后用翻译软件“润色”。近日,布里斯托大学的博士生Yunhe Tong在“Science职业栏目”发文表示,这种方式或许可行,但不长久。
在文中,Yunhe Tong表示,他从14岁开始学英文,每天背单词,看阅读,做完形填空应付考试....但即使如此努力,当硕士期间撰写第一篇英文论文时,也没有足够的信心,也需要遵循先“写出中文,然后翻译”的套路。他说:“直接写英文是痛苦的,有时候坐那一天,就写了200字。”
最后,他开始不那么注重完美,尝试先写出点东西,然后修改......取得了不小的进展。
Science职业栏目的这篇文章不长,但可以给纠结英文写作的学子一点点感悟,AI科技评论编译如下:
我成长于中国,目前在“磨炼”英文技能,一周前我将一篇论文初稿电邮给我的博士导师。当他返回论文修改意见时,看着秘密麻麻的修改意见,感到非常沮丧。当我仔细阅读意见之后,我明白了我确实犯错了。
首先,导师将一些句子简写,并告诉我应该避免不必要且复杂的表达。说实话,该建议与我这么多年接受的英文教育理念背道而驰。毕竟,当年在应对英文考试时,“炫耀”复杂的语法和高级词汇总能带来更高的分数,所以我的写作风格也是如此。
14岁开始学英文,那时老师叮嘱我们多练习词汇和语法,然后通过笔试进入高中。晚一点,也需要通过各种英文考试,才能进入大学、从大学毕业。这段时日,写作并不是重点,试卷重点考察的是阅读理解、词汇、以及语法。
我在中国读的硕士,当时需要向国际期刊投稿,这次投稿经历也是我第一次需要用英文写实质性的东西。我没有足够的英文实力和信心,因此,我先把论文写成中文,然后用在线翻译软件翻译....最后,论文被接收了,我的策略奏效了。
但当我有了足够的英文阅读经历之后,重新评估自己的写作,我发现借用翻译工具的方法写英文并不理想。翻译工具逐字翻译文本,但英文和中文的语法结构不同,翻译结果看起来正确,却有点不自然。
当我去英国攻读博士学位的时候,我不仅需要发表英文论文,还必须用英文写电子邮件和准备提案。起初,我整天坐在电脑前,最后只写了200字, 不知道是我的文笔不好,还是咋的。我每写一个句子,都能想象到有人在嘲笑它。
我受够了一遍一遍地重复写同样的句子,我决定尽快写出草稿,不管写的咋样。神奇的事情发生了,句子在我身上流淌,几个小时后我有了一个草稿。当然,草稿还有很多问题,但修改它只会越来越好。
我导对我论文草稿的修改,打破了我对英文写作的误区,如果没有他的意见,我不会发现,华丽的辞藻,高级的句式会使读者困惑。
现在,每当我开始写作之前,我都会构思一下,怎样简化信息。尽快写出第一稿,并不需要完美主义。然后,修改句子,剪掉不必要的细节,让它更简洁。即使我收到一份满是建议的反馈,我不会沮丧,我只会把它当成一个发现问题的机会。最近,我导给的修改反馈越老越少,我知道我正在进步。
对于,母语是非英文的人来说,写作真的很难。解决它需要多加练习。希望我的感悟能对你有些帮助。
原文链接:https://www.science.org/content/article/nonnative-speaker-i-struggled-write-scientific-papers-english-here-s-how-i-learned
雷峰网
]]>
人工智能学术 //www.xyschoolife.com/category/academic/Anehm9ZKYp3hBPnv.html#comments Wed, 09 Mar 2022 15:59:00 +0800
剑桥高级机器学习讲师Ferenc Huszár评马腾宇新作:它改变了我对上下文学习的思考方式 //www.xyschoolife.com/category/academic/nyWyTucvYcjqeu46.html

不久前,剑桥高级机器学习讲师 Ferenc Huszár 在个人博客上力荐斯坦福马腾宇与 Percy Liang 团队的工作《将上下文学习视作隐式贝叶斯推理的阐释》(被 ICLR 2022 接收),称其改变了他“对上下文学习以及将语言模型训练成小样本学习工具的思考方式”。

对一项工作的深入思考与精彩点评,同样是科学进步的源泉。同行切磋,堪比华山论剑。为此,AI科技评论将马腾宇团队的新作进行简单介绍,并整理了 Ferenc Huszár 的评论笔记,希望对该领域的研究者有所启发。

作者 | 丛末

编辑 | 陈彩娴



1

从隐式贝叶斯推理看上下文学习

根据 Ferenc Huszár 的介绍,他是在 ICLR 审稿期间阅读到马腾宇等人的这篇工作,觉得该论文所取得的成果十分引人入胜,并进行了深入思考。

ICLR 2022 在去年11月公布初审结果,马腾宇团队有3篇工作入选,《将上下文学习视作隐式贝叶斯推理的阐释》(An Explanation of In-Context Learning as Implicit Bayesian Inference)便是其中之一。

作者:Sang Michael Xie, Aditi Raghunathan, Percy Liang,马腾宇

论文地址:https://arxiv.org/pdf/2111.02080.pdf

马腾宇与Percy Liang分别为斯坦福大学计算机系的助理教授与副教授,是人工智能领域的著名新秀,都曾获得斯隆研究奖,其研究工作受到同行关注。

图注:马腾宇

如AI科技评论此前对马腾宇的专访介绍,马腾宇主要从事人工智能基础理论的研究工作,课题覆盖非凸优化、深度学习及理论等等。这篇被 ICLR 2022 接收的工作也是从理论出发,研究上下文学习/境学习(In-Context Learning)与隐式贝叶斯推理之间的关系。

当前,GPT-3等大规模预训练语言模型进行上下文学习的表现惊人:模型只需基于由输入—输出示例组成的提示进行训练,学习完成下游任务。在没有明确经过这种预训练的情况下,语言模型会在正向传播过程中学习这些示例,而不会基于“分布外”提示更新参数。

但研究者尚不清楚是什么机制让上下文学习得以实现。

在这篇论文中,马腾宇等人研究了在预训练文本具有远程连贯性的数学设置下,预训练分布对上下文学习的实现所起到的作用。在该研究中,对语言模型进行预训练需要从条件文本中推断出潜在的文档级别概念,以生成有连贯性的下一个标记。在测试时,该机制通过推断提示示例之间共享的潜在概念,并应用该概念对测试示例进行预测,从而实现上下文学习。

他们证明了:当预训练分布是混合隐马尔可夫模型时,上下文学习是通过对潜在概念进行贝叶斯推理隐式地产生的。即便提示和预训练数据之间的分布不匹配,这种情况依旧成立。

与自然语言中用于上下文学习的混乱的大规模预训练数据集不同,他们生成了一系列小规模合成数据集(GINC),在这个过程中,Transformer 和 LSTM 语言模型都使用了上下文学习。除了聚焦预训练分布效果的理论之外,他们还实证发现,当预训练损失相同时,缩放模型的大小能够提高上下文(预测)的准确性。



2

Ferenc Huszár 的评价

Ferenc Huszár 是剑桥大学计算机系的高级机器学习讲师,对贝叶斯机器学习有深入的研究。2016年与2017年,他在基于深度学习的图像超分辨率与压缩技术上取得两大突破(如下),谷歌学术引用了超过1万4。

  • Photo-realistic single image super-resolution using a generative adversarial network(谷歌学术引用7.5k+)

  • Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network(3.5k+)

图注:Ferenc Huszár

Ferenc Huszár 对马腾宇等人的工作给予了高度评价。AI科技评论对 Ferenc 的点评做了不改原意的整理:

我喜欢这篇论文,因为它与可交换性(exchangeability)相关,这是我最喜欢的概念和想法之一。它让我想起了我在2015年(当时还处于深度学习的发展早期)的想法——利用可交换序列模型实现大规模通用学习机。在那篇旧博文中,我对可交换模型做了如下思考:

如果我们有一个可交换的循环神经网络(RNN),我们就可以在同一输入空间的多个无监督学习问题上对它进行训练。这个系统其实就学会了学习。如果想在一个新的数据集上使用该系统,只需将它输入到循环神经网络中,它就能够输出贝叶斯预测概率,无需任何额外的计算。所以,它就是一个终极通用推理机。
实际上,终极通用推理机(很庆幸我给它注册了商标)跟 OpenAI 的 GPT-3 有时给人呈现的样子和使用的方式并没有太大区别。实践显示,使用者可以在多种多样的任务中将它们重新调整为小样本(或在某些情况下为零样本)学习工具。语言模型的这种通过输入精心设计的提示来解决不同任务的能力,有时候被称为“提示黑客”(prompt-hacking)或“上下文学习”。

老实说,在我读到马腾宇等人发表的这篇论文之前,我从来没有把大型可交换序列模型视作通用学习工具的动机和使用GPT-3进行上下文学习的最新趋势联系起来。事实上,我对后者深表怀疑,认为它本质上就是必然存在根本缺陷的另一种黑客行为。但是这篇论文将这些点都联系起来了,这也是它为什么如此吸引我的原因,因为我永远无法想到“提示黑客行为”和上下文学习竟然完全一样。

1)将可交换序列作为隐式学习机

在探讨这篇论文前,让我们先来温习下关于可交换序列和隐式学习的已有概念。

可交换序列模型是一个序列概率分布,在序列中,对于任意一个置换 π,该分布都是对标记的置换不变量。

de Finetti 定理将这些序列模型与贝叶斯推理联系在一起,假设任意分布都可以分解成混合独立同分布(I.I.D.)序列模型:

因此,前一步的预测分布(用来预测序列的下一个标记)总能分解成贝叶斯积分:

其中,是由先验计算得到的贝叶斯后验,计算的贝叶斯公式为:

在这种情况下,如果我们有一个可交换序列模型,就可以将这些前一步的预测分布视作隐式执行的贝叶斯推理。关键是,即便我们并不知道θ个 π 是什么,以及可能性是什么,也能实现这一操作。我们不必明确指出公式的这些组成部分是什么,de Finetti 定理都能够确保这些组成部分都存在,而只需要让预测与可交换序列模型保持一致。

这一想法驱使我通过构建这一模型,来尝试设计总是能够产生可变换分布的循环神经网络(当时Transformer 还没有出现)。最终证明这种想法很难实现,不过这一想法最后衍生出了 BRUNO(名字取自Bruno de Finetti)这一工作。

论文地址:https://arxiv.org/pdf/1802.07535.pdf

BRUNO 是一个用于可交换数据的灵活的元训练模型,拥有小样本概念学习能力。这个想法后来在 Ira Korshunova 的博士论文中得到多种方式的拓展。

2)从可交换序列到混合隐马尔可夫模型(HMM)

但GPT-3是一个语言模型,很明显语言标记是不可交换的,所以两者联系是什么?

伴随着de Finetti 型定理出现了一些引人关注的泛化成果,可交换性的概念也出现了一些有趣的扩展。Diaconis、Freedman(1980)等人定义,偏导可交换性(Partial exchangeability),指的是能确保序列可被分别为混合马尔可夫链的序列分布的不变属性。因此,可以说,使用偏导可交换过程对马尔可夫链进行贝叶斯推理,与使用可交换过程对独立同分布(I.I.D.)数据生成过程进行推理的方式非常相似。

马腾宇等人在这篇论文中,假设使用的序列模型是混合隐马尔可夫模型。这比 Diaconis 和Freedman 提出的偏导可交换混合马尔可夫链更具泛化性。

我不知道是否混合隐马尔可夫模型能用可交换性此类的不变性来表征,但这不打紧。实际上这篇论文根本没有提及可交换性,其关于隐式贝叶斯推理的核心论点是:每当使用由简单分布组成的序列模型时,可以将前一步的预测阐释为“对一些参数隐式地进行贝叶斯推理”。虽然互联网上人类语言的分布不太可能遵循多观察隐马尔可夫模型(Multi Observation Hidden Markov Model,MoHMM)分布,但假设GPT-3输出的序列可能是混合隐马尔可夫模型的某些部分,这种说法就是合理的。并且如果真是这样,预测下一个标记就会对一些参数(作者所指的“概念”)隐式地进行贝叶斯推理。

3)上下文学习和隐式贝叶斯推理

这篇论文的核心思想是,也许上下文推理能够利用这种与语言统计模型密切相关的隐式贝叶斯推理来解决问题。语言模型能够学习隐式地对任何概念进行概率推理,因为要想在预测下一个标记的任务上表现得好,就必须进行这种推理。如果模型具备这种隐式学习能力,那它就能够操纵这种能力去执行其他同样需要这种推理的任务,包括小样本分类等等。

我认为这是一个非常有意思的泛化想法。但令我稍感遗憾的是,作者聚焦的关键问题是特定性和人为性:虽然多观察隐马尔可夫模型可以用来“补全”从某个特定的隐马尔可夫模型(混合组成部分的其中一个)中提取的序列,但如果让多观察隐马尔可夫模型补全它们根本无法直接生成的序列,例如一个人为构建的嵌入了小样本分类任务的序列,会发生什么?这就变成了一个分布不匹配的问题。

论文关键的发现在于,即便这种分布不匹配,多观察隐马尔可夫模型中的隐式推理机制也能够识别正确的概念,并且能在小样本任务中使用这种分布来做出正确的预测。

这一分析为嵌入序列中的上下文学习任务与多观察隐马尔可夫模型分布的相关性,做出了强有力的假设(具体细节请阅读原论文)。从某种程度上来说,作者研究的上下文任务,与其说是一个分类任务,不如说是一个小样本序列补全任务。

总而言之,这是一篇值得思考的、有意思的论文,它显著地改变了我对整个上下文学习以及将语言模型训练成小样本学习工具的研究方向的思考方式。

大家怎么看?

参考链接:

1.https://www.inference.vc/implicit-bayesian-inference-in-sequence-models/

2.https://www.inference.vc/exchangeable-processes-via-neural-networks/

雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/nyWyTucvYcjqeu46.html#comments Wed, 09 Mar 2022 15:52:00 +0800
扎克伯格最新专访:美国人“恨”我们,但我们在做正确的事情 //www.xyschoolife.com/category/academic/QYPxFYrmY3JdoSKp.html
编译丨维克多
编辑丨岑峰

社会分裂,非左即右。

这是最近扎克伯格对美国现状的最新评价。他认为这种状态是他和他的公司在美国得到恶意评价的最重要原因。

“我们惹怒了两个党派。我们不追随任何一方,只是以一种有原则的方式‘驾驭’这个两极分化的国家,因此非常具有挑战性。”在接受MIT的AI科学家Lex Fridman专访时,小扎如此说道。

除此之外,将扎克伯格推上风口浪尖的事情就是元宇宙,有人认为它是世纪骗局。而他带领Facebook (Meta)押注元宇宙,并预测在未来人们可以在虚拟世界中工作、社交和娱乐,这一环境将最终代替互联网。

在这次专访中,扎克伯格对争议做出了回应,对all in 元宇宙给出了说明。此外,还谈到了一些敏感问题,例如“审查制度”、“别人为什么不喜欢你”、“人生的意义”、“未来的世界”......

专访视频如下,由于视频过长,AI科技评论在不改变逻辑的情况下,进行了有删改的编译。

视频内容:Mark Zuckerberg: Meta, Facebook, Instagram, and the Metaverse | Lex Fridman Podcast

Youtube链接:https://www.youtube.com/watch?v=5zOHSysMmH0



1

元宇宙的现在、过去与未来

Lex:就像这次谈话,面对面的形式很有“魔力”,你认为多长时间我们能在元宇宙里实现这种“身临其境”?

扎克伯格:好问题。

“身临其境”这种存在感是虚拟现实和增强现实的不同之处。当前电视、手机等屏幕都在努力提供高保体验,但无论如何它们都不会让你感觉身临其境。

目前,在视觉系统以及空间音频方面,我们正在取得合理的进展。我们也已经推出元宇宙工作间,在公司我要求高管使用它进行会议,我说,这是未来的工作方式,我们必须现在就适应。

事实上,我感觉比典型的Zoom会议好很多,尽管头像的保真度还不够,但有空间音频的技术加成,虚拟会议能带来优质空间感体验,例如可以清晰感觉到侧身子交谈、做手势等等,这些都是在Zoom中无法做到的。

我认为,在未来几年,技术就会成熟。这里的成熟是指在虚拟空间里感受物理世界中的交互,而不是简单的“缩放”啥的,可以有感觉、温度、嗅觉。十年吧!十年左右的时间我们会拥有这些构件,并在这之前,会出现很多惊人的东西。

在之前,我们只有一个VR头盔,只能用它环顾四周。后来手出现在了“视野”里,你可以用它与虚拟世界进行交互。其实,当时我们遇到了一个大问题:用什么方式表现这只手?最初的想法是,让虚拟世界的手和物理世界中的一样,能够看到整个手臂,肘部角度也符合现实。事实上,我们还根据手的位置和头戴式耳机的位置插值肘部角度,但效果并不好。后来我们发现,并不需要如此完美的复刻,即使只有手,没有手臂的存在,也是用户友好型的体现。当然,这里涉及到一些心理暗示。

所以如果进展快的话,五年内就能实现一些东西,毕竟我们不需要解决每件事情,不用提供完整的存在感。

Lex:嗯,这是一个迷人的心理学问题,就像表情符号也能传达情感一样,虽然它并不逼真,但也能体现出喜怒哀乐。

扎克伯格:是的,我的工作就是集中在计算机和心理学的交叉点上。其他的公司专注于让人类和产品互动,而我关心的是人与人之间互动。这种设计产品的思维,也是我们与其他公司的不同之处。

人类的大脑比较独特,与动物相比,我们对特定的事物,例如面部表情,更加敏感。我们下一代的VR头盔的一大重点就是脸部追踪,甚至达成眼球追踪,从而进行眼神交流。显然,这是当前的视频会议无法做到的。

人类的情感正是来自这些微妙的信号传达,就像面对面交流一样,我的眉毛稍微动一下,你就能知道我在传递信号。

相较于其他专注元宇宙,或者虚拟现实和增强现实的公司,都不会把这些功能优先加入硬件中。而Meta非常重视大脑的工作机理,以及如何表达情绪,从而使体验越来越人性化和社会化。

Lex:现在很多人的重要时刻都发生在数字空间,尤其是疫情期间,他们在平台上恋爱、认识朋友......你认为什么时候,元宇宙能提供这些体验?

扎克伯格:要明白空间不仅是一个地方,更多的还是和时间相关。当前确实有很多人将时间花费在数字空间里,他们在里面发邮件、开视频会议。元宇宙所能提供的是更加沉浸式的数字空间,我们现在技术还没有达到这一步。

打造沉浸式的体验需要注意什么?我认为当你构建技术的时候,很多技术都由自己决定,所以你可以打造很多可扩展的优雅,让数十亿人使用,并从中获取价值;有也可以把它看做一种游戏,只是包含很多不同的用例。

我最初在研究虚拟现实的时候,人们只认为它是游戏。但是,如果你看一下所有的计算平台,游戏只是一部分,它附在PC上面,是移动设备的一部分。这些游戏目前是分散的,单拿出一个是非常小的体量,如果将他们“合”起来,那会是另一个境地,例如会极大提高人们的合作生产力。

Lex:这个生产力是指?

扎克伯格:就拿会议方面来说吧,它有点像Word、Excel这种角色。可以预见的是,你很快就会有一个屏幕,随身携带,可以放在任何地方,然后做任何事情。这种理想的工作站完全有可能实现,就像手机竟然可以成为健身工具一样,它是可行的。

Lex:我是虚拟世界的超级粉丝,在里面我们会像《爱丽丝梦游仙境》一样,可以尝试任何疯狂的东西,实现无限的可能。我本人花费大量的时间在计算机编程上面,所以你提到的生产力工具,对程序员而言,真的很有趣。将编程社区“搬到”线上,程序员们一起工作,想想就令人兴奋。

扎克伯格:嗯,建造时需要一些平衡。可能会有一些我们意想不到的新东西,带来惊人的体验。但新鲜劲过去了,就会变得平淡。所以,要想清楚,当你把大部分时间花费在平台上,想要得到什么?这里需要说一下,我们并不是提倡让人们花费更多的时间在计算机上,而是让人与计算机更自然。

所以,元宇宙是完美的工作站,可能会提升你5%的生产力,这种提升与公司更新硬件设备也能提升5%生产力的感觉不太一样。

Lex:你如何看待元宇宙中分身问题?有人说头像应该与身份相绑定,但也有人认为它应该是“一切皆有可能”的。

扎克伯格:会有一定的范围,根据实际情况灵活变通。例如,在军事模拟游戏中,想让体验更加逼真,那么就可以成为一个更加真实的士兵;在和朋友逛街中,使用一个卡通头像,显然更有趣味。

在网上的身份不会只局限于一种形式,在Facebook的早期,人们会倾向于一种身份,随着时间的推移,大家认为用不同的身份应对不同的事情才更有效。这也带来了一些技术挑战,即如何让不同身份无缝切换。

围绕“身份变化”会催生元宇宙服装经济,人们会花钱投资投资虚拟外观和表情,让更富表现力的形象出现在各种场合。同时,我认为在这也是一些人工智能进步的方向,例如风格转换这些领域,试图根据每个人的喜好设计不同的艺术品。因此,设计数字服装会有一个很大的市场。

同时,也要明白一点,能够在多重场景下应用的数字内容才更有价值,也就是说,如果购买的数字产品不只是绑定在一个平台或者用例上,人们才更愿意对它们进行投资。我的这一观点,也是我之前对NFTs开玩笑的原因。

Lex:如何看待它的消极方面,人们可能隐瞒自己的身份。你考虑过“如何识别善意或者恶意”么?

扎克伯格:需要将这个问题分情况来看。如果你明确你所交谈的对象是好人,那么不需要担心。如果你和一个虚拟头像是龙的对象谈话,显然这个头像并不代表着它是一个人,元宇宙需要解决的这背后的不确定性。

实际上,人们更关心“某人没有冒充你”,“在成千上万的相似头像中找到自己”。目前有两个思考解决这个问题:1.采用更加逼真的头像,就像柯达照片一样;2.利用头盔和传感器,告诉VR我在做什么。但有一个问题是:是否应该有某种生物识别的安全性,以便当我戴上我的头盔时候,需要首先证明我是那个人。

被人冒充是个巨大的安全问题,不是元宇宙所特有的。需要明确的是,当你在一个具有沉浸感的环境中,会有更多存在感,但同时也会存在很多痛苦。互联网发展这么多年,目前也有许多方法应对安全问题。例如人工智能系统基本上可以识别出哪个账户是机器人。

然而我发现最有效的做法是,尽可能找出不真实的账户,同时识别哪个账户在总体上是有害的。这一方法相比监督说话内容更友好。

显然,元宇宙会更难,毕竟它存在更多属性。我们公司已经在内部建立了安全团队,已经有了更先进的人工智能检测系统,基本上可以检测出“僵尸账户”。但这不意味着我们是完美的,但确实我们在该领域比行业有着领先几年的实力。



2

隐私泄露、数据安全、社会分化

Lex:在技术层面和哲学层面,这确实是一个令人难以置信的问题。想一想,如果我开源我的头像,有数以百万计的Lexes走来走去,就像一支军队。

另一方面,我最近使用了 QNAP NAS 存储服务,但被黑了。所以,需要采取什么措施保护人们的数据?

扎克伯格:关于数据存储,也有不同的解决方案,去中心化以及中心化各有优势和劣势。去中心化的存储方式非常安全,例如WhatsApp,使用加密算法保护用户信息发送,即使有人黑了Meta的服务器,也不会得到什么有用的信息。同时,如果你的手机丢失,那么也会丢失所有存储的信息。

中心化的存储方式可以允许相关机构进行系统训练,从而为用户提供更好的个性化服务。

任何系统都有优劣之分,作为一个公司,只有不断强化自己的缺陷才能立于不败之地。不要试图隐藏问题,开源系统之所以变得相对安全,是因为它足够开放,敢于直面自己的问题。

Lex:试图比攻击者(黑客)领先一步?

扎克伯格:这是固有的对抗现状,过去五年,在某些领域,攻击者一直在进步。

Lex:回到人工智能这个话题。之前有一部纪录片《社交困境》,基于社交媒体由广告资助、算法希望最大限度地提高关注度的现状,提出观点是:社交媒体左右我们的生活,并将世界逐渐分化。你好像不同意?

扎克伯格:嗯,我不同意《社交困境》的观点。我知道人们担心什么,确实我们的商业模式是越多人使用服务,我们赚钱越多。但要记住,只有好的服务,才有更多的人使用。当前有两种商业模式,一种是短期,能抓住当下人们的注意力,另一种是长期主义,人们不一定喜欢,但有价值。

在专注长期这方面,我们已经做了17年,还比较年轻,在未来几十年,我们还有很多事情要做。一个专注于长期的公司,它的核心永远是让人们发现有价值的事情,而不是吸引人们的注意力。

很多时候,大众都是从媒体的角度看待问题。我是产品设计师,我们制造产品,不仅是向大众提供功能和效用,而是提供感觉。例如,我们花了很多时间讨论虚拟现实,而找到存在感才是它的内涵。

总的来说,希望在高层次上观察我们的真正动机。而且,很多问题并不是广告商业模式所独有的。以党争为例,在订阅模式下,其实更有隐患,毕竟一些内容提供商会生产更多的党争内容让读者订阅。

没有完美的商业模式,任何东西都有隐患。广告商业模式的好处是,消费服务是免费的,能够连接更多人的声音,让每个人充分表达自己的观点。

Lex:关于两级分化的说法,你有更多的观点么?

扎克伯格:社交媒体并不是两极分化的主要驱动因素。一些经济学家和社会科学家研究发现,分化在各个国家并不一样,但社交媒体却存在于各个国家,除了某些地方,Facebook几乎覆盖了全球。

在不同的地方,两级分化有不同的趋势:分化加剧、分化减缓、分化持平。因此,对于存在同一社交媒体,却有不同的分化这一现象,我们可以得结论“社交媒体和分化加剧没多大关系”。

同样,有些学者(例如Gentzkow)经过研究认为,社交媒体在某种程度上减少了分化,而且在美国2016年大选后,那些最极端的选民实际上是那些不上网的人。

Lex:曾经有个调查,主题关于:谁是最不受欢迎的科技领袖,你得到了54%的票,马斯克得到了23%的票。为什么会有这么多人不喜欢你,你如何重新获得支持和信任?

扎克伯格:全世界的统计?

Lex:只是美国地区。

扎克伯格:我认为原因是:我们公司的品牌在美国受到了独特(政治)的挑战。具体而言,在2016年之前,我们的评价相对积极,变化发生在2016年之后。

在世界的其他地方,我们还是比较受欢迎的。在美国,我们不是一个民主党派公司,当然也不是共和党派公司。我们只是帮助人们建立联系,帮助他们发表意见......嗯,是的,我们惹怒了两个党派。我们不追随任何一方,只是以一种有原则的方式“驾驭”这个两极分化的国家,因此非常具有挑战性。但,我们在做正确的事情,我们将会继续尝试。

Lex:你付出了这么多,日以继日的试图治愈分裂。但在美国,你所称之为家的地方,对你有负面看法。你怎么看?

扎克伯格:经营一家公司很难,规模化一些东西也很难。只有当你真正关心你所做的事情的时候,那你才能真正长期做下去。作为一个公众人物,我的经验是:会有很多人不喜欢你。美国正在变得两极分化,尤其在过去五年的时间里,它变得更加有争议性,这让运行一家社交媒体公司更加艰难。

作为一个科技公司领导人,我认为,重点应该是,分辨出那些善意的批评。它们正使得你变得更好,必须珍惜和喜欢这些人,聆听他们的意见。其实,只接受赞美,而忽略负面评价,在心理上是很危险的、

对于那些“恶意的咒骂”,我真的不知道该怎么办,只能随着时间的推理,它变得没那么重要。



3

言论自由、社交欺凌与小扎的初心

Lex:在想法可能被误导的时候,你是否有信任的朋友或者同事,能够听听你的“废话”。

扎克伯格:我们公司的文化相对开放,也鼓励内部异议。公司有很多人,包括新来的,包括一些“老人”,有非常高的信任水平。总之,我们相对是一个“对抗”的群体。

Lex:问一个相对难回答的问题:Francis Hagan发表了Instagram对青少年和健康的内部研究,她说Instagram正在选择利润而不是少女的福祉,能具体谈谈Facebook对年轻人的积极和消极影响么?

扎克伯格:青少年的健康很重要,我们也有专门的团队来研究它。但这不是互联网或者社交媒体独有的问题。例如,几十年来一直有杂志在谈论妇女和儿童的体型。目前,我们不期望所有的事情都是正面的,有些研究可能提供了20个指标,有18或者19个表明,Instagram对青少年的影响是中性或积极的。但有一个指标表明我们需要改进。但新闻报道只盯住一个点,我认为准确的描述应该是:孩子们使用Instagram,对他们的心理健康一般来说是积极的。

我们做研究是为了改进缺点,而有些人的研究目的是为了“鄙视”它。未来,我们将在很长一段时间内致力于与青少年心理健康有关的工作,我也鼓励行业内的其他人这样做。

Lex:显然,欺凌行为从物理世界转移到数字世界,如何看待社交网络中的欺凌?这种现象已经导致用户抑郁、自杀。

扎克伯格:同样,欺凌不是社交媒体所独有的,早在互联网之前就是一件重要的议题。我们也一直关注这件重要的事情,需要明确的是,并不能摆脱和避免所有的欺凌,所能做的是通过构建人工智能工具识别欺凌事件。其实,建立工具非常难,欺凌事件往往非常具体,并发生在某些语境下,所以有些时候并不能通过一个公式进行识别。

Lex:确实,有些时候社交欺凌看起来像一个玩笑,但对某个人来说可能是破坏性。

扎克伯格:有些行为可以通过人工智能识别,但重要的是给予人们自己更多的操作权利,例如关闭评论。

对于类似自杀的行为,我们也已经建立了相当领先的系统,及时识别苗头,并与相关责任人进行联系。目前,已经成功运行。社交欺凌是一个沉重的话题,需要一揽子手段进行应对。

Lex:来谈一谈言论自由和审查制度

扎克伯格:广告商和政治家并不能阻止我们做这件事情。有些时候,人们在网上只是表达观点,这些内容占绝大数。而对恐怖主义、盗版宣传的审查并不违反言论自由。在深度学习之前,这种信息的筛选非常困难,也无法审查一切,而深度学习技术成熟之后,人工智能能够主动检测一些东西,并且是细微的粒度。例如对于色情内容,可以训练一个图像分类器,迅速识别不合规的内容。

关于言论自由,每个人都同意有一个界限,如果你真的要对人造成伤害,那就应该限制。目前大家还没有对界限达成一致的意见。从社会角度,较少容忍度确实是有意义,毕竟能够减少潜在伤害。

Lex:如何定义伤害?很多人认为CDC、WHO这些公认机构在很多方面都失败了?所以,从Meta和Facebook角度,我如何分辨出错误信息(谣言)?专家给出的就是正确信息么?我拥有博士学位,但我仍然不确定我知道什么是专家,特别是在一个新的领域,例如疫情时代......请告诉我真相的来源是什么?

扎克伯格:如果站在我的角度,你如何处理这些事情?

Lex:确实,这非常、非常、非常困难。实际上,一些错误的信息,我认为应该归咎于科学家糟糕的沟通技巧。另外,应该将一些争论看成思想的斗争,新冠时代,对于反对疫苗的人,我们不应该简单的审查,而是与他们交谈,展示数据,说服他们。

所以,思想斗争才是言论自由的全部意义,打败思想的方法是用更好的思想。作为一个平台,我会后退一些,倾向于言论自由,因为这从品牌的角度看,人们不会把社会的弊病归咎于你。

由于Facebook在世界中的核心地位,一些抱怨都以某种方式传播到了Facebook。而你作为“哲学家柏拉图”必须回答一些最困难的问题。

Facebook最近宣布了最新AI研究超级集群RSC,因此或许可以借助机器学习的力量解决一些问题。例如搭建实时翻译系统解决不同语言者沟通问题。

以上只是我作为一个美国人的答案,不知道是否适用于全球。

扎克伯格:帮助人们建立联系,不可避免的会产生大量内容,不同语言之间的翻译会释放出大量的价值。训练越来越大的模型,让一种语言直接转换成另一种语言,这是研究SuperCluster的力量,也是目前机器学习的趋势。目前,关于翻译,我们已经能够在100种语言之间进行无缝切换,在不久的将来就能达到300种语言。

当接触到足够多的语言时,就会遇到小语种问题,它们没那么多数据。如何用更少的数据,建立优秀的模型,这是围绕人工智能的一个大问题。

当人们提到翻译时,更多是考虑文本-to-文本之间的问题。在早期,我们把语音转录成文本,然后翻译成另一种文本语言,随后输出语音。现在,随着技术的进步,用户可以直接从语音转换成语音。当然,这对计算量和计算能力也有非常高的要求。



4

人生感悟:关于意义、死亡与价值

Lex:你对年轻人有什么想说的么?如何过上引以为豪的生活,做有意义的事情,以及如何对世界产生巨大的积极影响

扎克伯格照顾好自己,保持良好的状态,爱自己的朋友和家人。对于大学生而言,你要做你认为最重要的决定,周围人很重要,因为你会向周围人“看齐”.....我认为当前人们过于关注目标,对身边人关心不够。

Lex:你希望你的女儿在什么样的世界长大?

扎克伯格:未来的世界会以大众为中心,他们可以将想象力付诸实践。正如毕加索所言“所有的孩子都是艺术家,困难在于长大之后如何保持原样。”孩子都有美妙的想象力,未来更多人会做创造性的工作,而不是今天认为的传统劳动和服务。

我经常教孩子编程,我认为编程就是建设,但我的女儿喜欢音乐,她很有艺术气息,她说编程就是艺术。所以,对我来说,编程是一种功能,它帮助我建立一些功利性的东西,而对下一代来说,它是一种表达,一种艺术感,一种想象力的实现。

Lex:你是一个凡人,你想过死亡么?害怕过死亡么?

扎克伯格:活动更久当然是好事情,但当你经历不同的技术浪潮时,会有很多有趣的事情,有些东西实际上是无限的,有些东西则不是。生病和死亡是一件坏事,在现实世界中,我希望在有限的时间中实现本世纪可能时间的目标,治愈、预防或者控制所有疾病。我们为此做了很多慈善工作,但不会把重点放在长寿或者长生上。

Lex:当你去世了,你有机会问上帝一个问题,你会问什么?

扎克伯格:我的家人是否安好,这是目前为止,我所关心的最重要的事情。

另外,随着时间的推移,物理世界在现实世界中的比例越来越小,走进元宇宙,人们会在不同的地方工作,接近不同的人,这很好。

Lex:消除地理障碍、语言障碍,这是美丽的愿景。问一个可笑的问题:你觉得生命的意义是什么?

扎克伯格:我的生活工作是围绕着人与人之间的联系,所以我首先想到的是,帮助人与人之间建立联系是意义所在。我们的社会目前低估了这种联系。

Lex:同意,联系是创造和爱的载体。

雷峰网雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/QYPxFYrmY3JdoSKp.html#comments Tue, 08 Mar 2022 10:16:00 +0800
身形千变万化!MIT开发出太空探索神器——模块化自重构微型机器人 //www.xyschoolife.com/category/academic/nGVoN32WV0SMGFkK.html

编译丨Ailleurs

编辑丨陈彩娴

如果你想将一大批机器人送入太空,那么你面临两种选择:一是选择全尺寸的、形态各异的机器人,二是选择微型模块化机器人。显然,后者是更优选。如电影《超能陆战队》(Big Hero 6)中大反派所使用的微型磁力机器人就是一种模块化机器人,它们在自组装和重构方面的能力尤有前景。 

图注:电影《超能陆战队》中的微型模块化机器人(图源:cg99.CN

30多年来,机器人专家一直在追求模块化的自重构机器人这一愿景。这种机器人在适应性、可扩展性和鲁棒性方面具有显著优势,其应用领域涵盖太空探索、可重构环境、搜索救援以及形变的用户界面。然而,尽管人们雄心勃勃地希望实现快速、可靠的部署,将模块化机器人扩展到这些重要领域,但迄今为止制造出来的模块化机器人仍面临着可扩展性较差的巨大挑战。

大量体积庞大、复杂且昂贵的机械部件不免显得笨拙,阻碍了其小型化和可扩展性的发展。尤其是在太空探索中,在轨道上建造物体颇具挑战性,很可能投入和产出不成正比。再者,宇航员在国际空间站的生活环境非常狭窄,不得不将空间站的家具像俄罗斯方块一样以最佳朝向紧凑放置,因此小型化技术非常重要,它可以为宇航员提供更多的机动空间,也可降低火箭有效载荷成本。因此,我们迫切需要在数量上和尺寸上都更具可扩展性的架构。

近日,麻省理工学院计算机科学与人工智能实验室 (CSAIL) 的一项研究利用电磁解决了可重构机器人在造价和尺寸方面的问题。

研究团队从电影《超能陆战队》中汲取部分灵感,创造了一种可以通过排列组合组装成复杂形状的立方体形机器人。他们将小型、易于制造且价格低廉的电磁铁嵌入立方体的边缘,而非将笨重昂贵的执行器塞进单个模块中。这些电磁体之间的相互排斥和吸引作用,使得机器人能够彼此旋转和移动,并迅速改变形状。

这种立方体机器人被命名为“ElectroVoxels”,单个边长约为 60 毫米,磁铁由用铜线包裹的铁氧体磁芯(它们看起来像黑色的小管子)组成。每个立方体内部都有微型印刷电路板和电子器件,能将电流输送到正确方向的电磁铁上。制作一个立方体只需一个多小时,总成本仅为 60 美分。

传统铰链需要在两个元件之间进行机械连接,而ElectroVoxels与此不同,它是完全无线的,不需要专门的物理机制,可以在任何电磁铁对之间动态地形成,这使得大型系统的维护和制造变得更加容易。

ElectroVoxels 是一种可使用电磁体进行重构的机器人立方体。它不需要电机或推进剂来移动,并且可以在微重力环境下运行

那么这样一堆模块是如何交互的呢?为了更好地可视化,科学家们使用了一种软件规划器来对重构这一过程进行可视化并计算底层的电磁分配。用户只需要点击几下,即可操作多达1000个立方体,或者使用预定义的脚本来对多个连续旋转进行编码。这样一种系统可以让用户在合理范围内随心玩转模块,比如你可以改变其速度,突显磁铁,以及将必要的动作显示出来以避免碰撞。你还可以如魔术师一般变换模块的形状,让它们能够在某一时刻呈现为一把椅子,随即又变为一张沙发。

图注:立方体从椅子重构为桌子、沙发

这些成本廉价的小模块尤其适合微重力环境。因为在这种环境下,任何你想要发射到轨道上的结构都需要安装在发射火箭内。在气浮台上进行初步测试后,研究者进行了微重力飞行测试,借助更好的空间探索工具如无推进剂重构或改变航天器惯性特征,ElextroVoxels发现了真正的失重状态。

无推进剂驱动的好处在于,我们无需再为重构发射额外的燃料,从而解决了发射质量和体积方面的许多挑战。据此,我们可以期待,这种可重构方法能够协助未来各种各样的太空探索工作,比如在多次发射中增强和替换空间结构,利用临时结构来协助航天器检查和航天员工作,以及运用未来迭代出的立方体作为自分拣存储容器。

欧洲航天局高级概念团队(ACT)负责人Dario Izzo谈道:

“ElectroVoxels展示了如何设计一个完全可重构的系统,并给我们科学界提出了一个需要解决的挑战,即如何在太空轨道上拥有一个功能齐全的模块化机器人系统。这项研究示范了电磁驱动的旋转立方体在建造、操作和维护方面的便捷性,实现了一个灵活、模块化且可重构的系统,这在未来探索任务中会给智能组件的设计带来灵感。”

就像均匀的俄罗斯方块一样,立方块要想移动,就必须遵循一个序列。一个极化序列(polarization sequence)包含三个步骤:发射、移动、捕捉,每个阶段都分别有一个行进的立法体(用于移动)、一个起点(行进的立方体进行发射的地方)和一个目的地(捕获行进的立方体)。该软件的用户可以指定哪一个立方体在哪一方向上进行旋转,而算法会自动计算出所需的电磁分配的顺序和地址(排斥、吸引或关闭)。

在未来,模块化机器人的应用场景将从太空转向地面。这将需要对电磁铁进行更详细的建模和优化,以便在地球的重力环境中进行重新配置。ElectroVoxels 仍存有不足之处,如卡内基梅隆大学机器人研究所助理教授Zachary Manchester指出的(他没有参与这项研究),它在零重力环境之外会不起作用,尽管 ElectroVoxels 已经在抛物线飞行的测试中表明可以模拟微重力。但它们在地面上很难聚集足够的力进行回旋。

研究团队希望能够使立方体足够坚固以抵抗地球引力,如此,这些机器人将会缓解外太空的不利生活条件,允许人们在地面上建立大规模、可重构的操作。该研究论文的主要作者、麻省理工学院的博士生Martin Nisser表示:

“在建造大型复杂结构时,你肯定不希望受到组装人员的可用性和专业知识、运输工具的大小或组装场地的不利环境条件的限制。虽然相关公理在地球上是成立的,但在太空中建造东西时会变得异常复杂。如果你能用简单的、同质的模块来组装结构,那么就可以消除很多类似问题。因此,尽管太空环境具有显著的潜在好处,但矛盾的是,微重力提供的有利动力使得其中一些问题实际上也更容易解决——在太空中,即使是微小的力也能让让大的物体进行移动。通过应用这项技术来解决太空中的短期实际问题,我们有望孵化出未来在地面上也可使用的技术。”

ElectroVoxels 并非一个单一用途的机器人,小型的模块可以组合在一起,构建具有各种功能和类型的结构。体积虽小,却可在太空探索方面发挥相当大的作用。

参考来源:

https://news.mit.edu/2022/robotic-cubes-electrovoxels-shapeshift-outer-space-0223

https://hcie.csail.mit.edu/research/Electrovoxel/electrovoxel.html

https://www.popsci.com/technology/selfspace-robot-cubes/

雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/nGVoN32WV0SMGFkK.html#comments Mon, 07 Mar 2022 09:58:00 +0800
大数据究竟有多“大”?谷歌搜索的规模为 62 PB,排名倒数第一 //www.xyschoolife.com/category/academic/YrQ24uAcDms8iBBD.html
作者 | 西西
编辑 | 陈彩娴
众所周知,算法、算力与数据是人工智能(AI)发展的“三驾马车”,吴恩达等学者也常说:以数据为中心的AI,或数据驱动的AI。
由此可见,近年来激增的数据量是 AI 腾飞的源动力之一,数据在 AI 中扮演重要角色。那么,人们口中常说的“大数据”,规模究竟有多大呢?
出于好奇心,一位意大利物理研究者 Luca Clissa 调查了 2021 年几个知名大数据源(谷歌搜索、Facebook、Netflix、亚马逊等等)的规模大小,并将它们与大型强子对撞机(LHC)的电子设备所检测到的数据做了对比。
地址:https://arxiv.org/pdf/2202.07659.pdf
毫无疑问,LHC 的数据量是惊人的,高达 40k EB。但商业公司的数据量也不容小觑,比如,亚马逊S3存储的数据量也达到了大约 500 EB,大致相当于谷歌搜索(62 PB)的 7530 倍。
此外,流数据在大数据市场中也占有一席之地。Netflix 和电子通信等服务产生的流量比单纯的数据生产者要多一到两个数量级。


1

LHC 的数据量
根据 Luca Clissa 的调查,2021年各大知名数据源的体量大约如下:

图注:2021年的大数据规模
右上角(灰色部分)是欧洲核子研究组织(CERN)大型强子对撞机(LHC)实验的电子设备所检测到的数据,规模最大。
在上一次运行(2018 年)中,LHC 在四个主要实验(ATLAS、ALICE、CMS 和 LHCb)中的每一个实验里,每秒产生大约 24 亿次粒子碰撞,每次碰撞可以提供约 100 MB 数据,因此预计年产原始数据量约为 40k EB(=10亿千兆字节)。
但根据目前的技术和预算,存储 40k EB 数据是不可能的。而且,实际上只有一小部分数据有意义,因此没有必要记录所有数据。记录的数据量也降低到了每天大约 1 PB,2018 年的最后一次真实数据只采集了 160 PB,模拟数据 240 PB。
此外,收集的数据通过 WLCG (全球LHC计算网络)不断传输,2018 年产生了 1.9k PB 的年流量。
不过,欧洲核子研究组织(CERN)正在努力加强 LHC 的能力,进行 HL-LHC 升级。这个过程预计生成的数据量将增加 5 倍以上,到 2026 年,每年估计产生 800 PB的新数据。

2

大厂数据量对比
大公司的数据量很难追踪,且数据通常不会公开。对此,Luca Clissa 采用了费米估算法(Fermi estimation),将数据生产过程分解为其原子组成部分,并做出合理的猜测。
比如,针对特定数据源,检索在给定时间窗口内产生的内容量。然后通过对这些内容的单位大小的合理猜测来推断数据总量,例如平均邮件或图片大小,1 小时视频的平均数据流量等等。
他对谷歌搜索、YouTube、Facebook等等数据源进行了估算,结论如下:
谷歌搜索:最近的一项分析估计,Google 搜索引擎包含 30 到 500 亿个网页。根据 Web Almanac 所提供的信息,假设谷歌的年度平均页面大小约为 2.15 MB,截至 2021 年,Google 搜索引擎的数据总规模应约为 62 PB
YouTube:根据 Backlinko 的数据,2021 年用户每天在 YouTube 上上传的视频时长为 72 万小时。假设平均大小为 1 GB(标准清晰度),2021年 YouTube 的数据大小约为 263 PB
Facebook 与 Instagram:Domo 的 Data Never Sleeps 9.0 报告估计,2021 年 Facebook 与 Instagram 每分钟上传的图片数量分别为 240k 和 65k。假设平均大小为 2 MB,则总共大约为 252 PB 和 68 PB
DropBox:虽然 Dropbox 本身不产生数据,但它提供了云存储解决方案来托管用户的内容。2020年,公司宣布新增用户 1 亿,其中付费订阅用户达到 117 万。通过推测免费和付费订阅的占用率分别为 75%(2 GB)和 25%(2 TB),Dropbox 用户在 2020 年所需的存储量约为733 PB
电子邮件:根据 Statista 的数据,从 2020 年 10 月到 2021 年 9 月,用户大约传送了近 131,000 亿次电子通信(包含 71,000 亿封电子邮件和 60,000 亿封垃圾邮件)。假设标准邮件和垃圾邮件的平均大小分别为 75 KB 和 5 KB ,我们可以估计电子邮件的总流量约为 5.7k PB
Netflix:Domo 估计,2021 年 Netflix 用户每天消耗 1.4 亿小时的流媒体播放,假设每小时 1 GB(标准定义),总计大约 51.1k PB
亚马逊:亚马逊网络服务 (AWS) 的首席布道师 Jeff Barr称,截至 2021 年,亚马逊 S3 (Simple Storage Service)中存储了超过 100 万亿个对象。假设平均每桶的对象大小为 5 MB ,那么存储在 S3 中的文件的总大小则约等于 500 EB
总的来说,科学数据可以在数量上与商业数据源相媲美。
参考链接:
1.https://towardsdatascience.com/how-big-are-big-data-in-2021-6dc09aff5ced
2.https://firstsiteguide.com/google-search-stats/
3.https://backlinko.com/
4.https://mms.businesswire.com/media/20210929005835/en/911394/5/data-never-sleeps-9.0-1200px.jpg?download=1
5.https://backlinko.com/dropbox-users
6.https://www.statista.com/
7.https://aws.amazon.com/cn/blogs/aws/amazon-s3s-15th-birthday-it-is-still-day-1-after-5475-days-100-trillion-objects/
8.https://atlas.cern/

雷峰网雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/YrQ24uAcDms8iBBD.html#comments Mon, 07 Mar 2022 09:56:00 +0800
谷歌 AI 加入蛋白质解析大军!ProtENN 模型助增 680 万个蛋白质注释词条,登顶 Nature 子刊 //www.xyschoolife.com/category/academic/2GIKDeVX7FmyXSKS.html
作者 | 陈彩娴
编辑 | 岑峰
要说“AI for Science”的扛大旗者,大家也许都会首先想到 DeepMind:
2018年,DeepMind 推出蛋白质折叠结构预测模型 AlphaFold,从氨基酸序列计算预测蛋白质结构,不仅为 Alpha 系列锦上添花,奠定了其在 AI 创新上的领头羊地位,还彰显了深度学习攻破其他领域难题的潜力,生物学首当其冲。
AlphaFold 出世后,“AI for biology”(将人工智能用于生物学研究)成为人工智能领域的研究潮流,吸引了世界各地的优秀研究者投身其中。
谷歌 AI 也是其中之一。
这不,最近谷歌便发布了用于蛋白质解析的机器学习模型——ProtENN,登顶 Nature 子刊《Nature Biotechnology》。
地址:https://www.nature.com/articles/s41587-021-01179-w

值得注意的是,早在2019年,谷歌 AI 就在 bioRXiv 发过 ProtENN 的预印本,不知是不是最近才被 Nature 接收?


蛋白质结构对生命有着至关重要的作用,了解蛋白质的氨基酸序列(如其结构域)与功能之间的关系是一项具有重大科学意义的长期挑战。
自计算机兴起,科学家们就开始尝试用计算工具助攻该课题。例如,被广泛使用的蛋白质家族数据库Pfam便囊括了大量详细描述蛋白质结构功能的计算注释,例如珠蛋白与胰蛋白酶家族。但发展至今,目前至少仍有三分之一的微生物蛋白质的注释有待完善。
而据谷歌 AI 的官博介绍,ProtENN的出现,能够为完善蛋白质结构的计算注释起到重要作用。



1

蛋白质注释
根据谷歌 AI 介绍,他们所提出的 ProtENN 方法可以帮助在 Pfam 的蛋白质功能注释集中添加大约 680 万个条目,大约相当于过去十年的新增条目总和,将 Pfam 的覆盖范围扩大了9.5%以上。
他们将其命名为:Pfam-N。
在计算机视觉中,模型通常首先用于图像分类任务的训练,如 CIFAR-100,然后将其扩展到更专业的任务,如物体检测和定位。
受此启发,谷歌团队也决定开发一个蛋白质域分类模型,在给定蛋白质结构域的氨基酸序列的情况下,从 17,929 个类别(所有类别都包含在 Pfam 数据库中)中预测单个标签。
目前有许多模型可以用于蛋白质结构域分类,但当前最前沿的方法也存在许多缺陷。
首先,它们基于线性序列的比对,并且不考虑蛋白质序列不同部分的氨基酸之间的相互作用。然而,蛋白质不仅仅停留在一行氨基酸中,还会折叠起来,这样不相邻的氨基酸也会相互影响。
此外,当前最前沿的方法是将新的查询序列与一个或多个具有已知功能的序列进行比对。如果新序列与任何具有已知功能的序列高度不同,这种对具有已知功能的序列的依赖就会加大预测新序列功能的难度。
另外,基于比对的方法需要密集的计算量,将它们应用于大型数据集(例如包含超过 10 亿个蛋白质序列的宏基因组数据库 MGnify)时,成本会非常高昂。


2

谷歌 AI 怎么做?
为了解决这些问题,谷歌团队想到了使用扩张卷积神经网络(CNN),因为“它非常适合模拟非局部成对氨基酸的相互作用,并且可以在 GPU 等现代 ML 硬件上运行”。
他们训练了一维 CNN (称之为“ProtCNN”)来预测蛋白质序列的分类,以及一组独立训练的 ProtCNN 模型(称之为“ProtENN”),目的是通过开发一种可靠的机器学习方法来补充传统的基于对齐的方法的缺陷。
与其他领域的分类问题相似,蛋白质功能预测的挑战不在于为任务开发全新的模型,而更多在于创建公平的训练和测试集,以确保模型能够对看不见的数据进行准确的预测。
由于蛋白质是从共同的祖先那进化而来的,因此不同的蛋白质通常共享一大部分氨基酸序列。如果不加以注意,测试集可能会被与训练数据高度相似的样本所控制,从而使模型可能仅通过简单地“记忆”训练数据而不是学习来泛化模型的优异性能。
为了防止这种情况,研究者必须使用多个单独的设置来评估模型性能。在每次评估中,他们都将模型精度分层为每个保留测试序列与训练集中最近序列之间的相似性函数。
第一个评估包括一个聚类分裂训练和测试集,与先前研究者提出的方法一致。其中,蛋白质序列样本按序列相似性进行聚类,并将整个聚类放入训练集或测试集中。由此,每个测试示例与每个训练示例之间至少有 75% 的差异。在此任务上的出色表现表明,他们所提出的模型可以泛化、以对分布外的数据做出准确的预测。

图注:谷歌团队创建了一个测试集,使 ProtENN 能够很好地泛化远离训练集的数据
在第二次评估中,他们使用随机拆分的训练和测试集,根据对样本分类难度的评估来对样本进行分层。难点主要有两点:1)测试示例与最近的训练示例之间的相似性;2)真实分类的训练示例数量(这比在仅有少量训练示例的情况下准确预测函数要困难得多)。
他们还评估了最广泛使用的基线模型和评估设置的性能,特别是以下基线模型:(1) BLAST,一种使用序列比对来测量距离和推断函数的最近邻方法;(2) TPHMM 和 pmmer。每一个模型都包括基于上述序列比对相似性的模型性能分层。
他们将这些基线与 ProtCNN 和 CNN 的集合 ProtENN 进行了比较。实验表明,ProtENN 的泛化能力高于 ProtCNN 与两类基线模型。

图注:谷歌团队衡量了每个模型的泛化能力,从最难的例子(左)到最简单的例子(右)
他们与 Pfam 团队合作,测试 ProtENN 是否适用于标记真实世界的序列。
实验证明,ProtENN 学习到基于比对的方法的互补信息,并创建了两种方法的集合,以标记比任何一种方法都多的序列。他们公开发布了这项工作的结果——Pfam-N,其包括 680 万个新的蛋白质序列注释。
目前,ProtENN 模型的架构已在 github 上开放。此外,他们还设计了一个交互工具 ProteInfer,用户可以在浏览器中输入蛋白质序列,并实时获得蛋白质功能预测的结果:
项目地址:https://google-research.github.io/proteinfer/
AI 解析蛋白质还能更卷吗大家怎么看?

参考链接:

1.https://ai.googleblog.com/
2.https://www.nature.com/articles/s41587-021-01179-w
3.https://github.com/google-research/google-research/tree/master/using_dl_to_annotate_protein_universe#availability-of-trained-models
4.http://pfam.xfam.org/

雷峰网雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/2GIKDeVX7FmyXSKS.html#comments Fri, 04 Mar 2022 15:35:00 +0800
参数量翻了10倍!Meta AI 祭出100亿参数的“新SEER”,为元宇宙铺路 //www.xyschoolife.com/category/academic/Tv036mZEzpXJU586.html

作者 | 陈彩娴

编辑 | 岑峰

不久前,Meta AI 宣称,其于去年3月提出的10亿参数自监督模型 SEER (SElf-supERvised)又取得了新突破:新的 SEER 参数量翻了10倍,达到了100亿参数,可以取得更优秀、更公平的性能表现!

以下我们暂且称新的 SEER 模型为“SEER 10B”(一个牛逼不足以形容 Meta AI 在行动上落实自监督的野心,手动狗头)。

根据 Meta AI 的团队介绍,他们将 SEER 10B 模型在50+个基准与多个不同未标记数据集上进行了测试。其中,SEER 10B 不仅在 ImageNet 上取得了高达 85.8% 的准确率(排名第一),与原先只有 10 亿参数量的 SEER (84.2%)相比性能提升了 1.6%。

此外,SEER 10B 在性别、肤色、年龄等三个公平基准上获得了更出色的识别效果,明显优于监督模型。

论文地址:https://arxiv.org/pdf/2202.08360.pdf

留意 Meta AI 的朋友不难发现:最近,Meta AI 首席科学家 Yann LeCun 与 Meta 创始人扎克伯格在公开发言中坚持强调自监督学习的优越性。上周,LeCun还提到自监督与世界模型,将 AI 最终能学会像人类一样学习与推理的希望寄托在这两个方法上。

所谓“自监督学习”,就是 AI 系统可以直接从文本、图像或其他类型的无标记数据中直接学习,主要针对解决监督学习所需的海量标记数据问题,因为在现实研究中,要获取大量的标记数据难度极高。

LeCun一直认为,自监督学习是构建具有背景知识或“常识”的机器、以解决远远超出当今 AI 任务的最有前景的方法之一。

但同时,也有读者评价 Meta 倡导的自监督本质上不过是强化学习。不久前,“怼王”Jürgen Schmidhuber 也发表文章,称“All You Need Is Supervised Learning”,重申监督学习在突破 AI 瓶颈中扮演的重要角色。

勿论其他,那么,Meta AI 在自监督学习上有哪些研究实践?参数量翻了10倍的 SEER 模型又有哪些新花样?一起来看看~



1

SEER 从 1B 到 10B

去年3月初,Meta AI(原 Facebook AI)发布了10亿参数自监督模型 SEER,曾在 AI 领域引起广泛关注。

据 Meta 介绍,这是他们在计算机视觉领域所取得的第一个基于自监督学习方法的成果:它可以直接从互联网的任一随机图像集合中学习,无需详细的数据管理和标记,随后直接输出图像嵌入。

经过一年的提升,如今 Meta 的研究团队将 SEER 的参数量扩大了10倍,在原有的基础上取得了更出色的性能表现:

除了可以在无标记数据上直接学习,SEER 还可以提取更高质量的视觉特征,以及发现现实世界大规模图像数据集中的显著信息,方式与人类分析所观察事物之间的关系的方式来了解世界般相似。

注意:这些数据集的覆盖范围是全球数万亿张随机、未经处理的图像。

据悉,扩大了10倍密集参数后的 SEER 是当前规模最大的密集计算机视觉模型。

他们在 50 多个基准上检验了 SEER 模型的性能,包括公平性、鲁棒性、细粒度识别,还在医学成像、卫星图像和光学字符识别 (OCR) 等领域的多个图像分类数据集上进行了实验。

不难想象,参数量翻倍后的 SEER 10B模型在一些挑战性较高的任务上也取得了更优秀的表现。

首先,100亿 SEER 在 ImageNet 上获得了高达 85.8% 的准确率,排名第一!

除了在标准计算机视觉基准上的优秀表现外,SEER还擅长处理高难度任务,并提高了对域外泛化的鲁棒性。

例如,它可以正确识别素描图和艺术画中的动物,还可以搞定常见的图像问题,例如掩装、模糊、遮挡、运动和怪异视角拍摄等。

SEER 10B 模型还能够捕获大量随机的、未经过滤的互联网图像中存在的显着信息,甚至跨越不同的地理和语言概念。

例如,即使该模型仅在没有位置信息或其他元数据的图像上进行训练,它也能够将全球多种语言的相同概念组合在一起。例如,将来自世界各地的“婚礼”概念嵌入到模型的特征空间中。

除了性能的突破,Meta AI 还称:SEER 10B 模型能取得更公平的效果。

他们使用 Meta 新开源的 Casual Conversations 数据集以及他们最近为CV模型提出的新公平基准对 SEER 进行测试,发现与较小的 SEER 模型以及 ImageNet 训练的监督和自监督模型相比,SEER 10B 模型能更准确地识别这些社会成员属性,适用于不同性别、肤色和年龄的人。

图注:该图使用 Casual Conversations 数据集显示了性别检索的准确性

此外,他们使用 Casual Conversations 数据集评估了模型标签的错误率,例如在给定特定的人像中预测“非人类”或“犯罪”等标签。研究表明,SEER 10B 问题不大,但在 ImageNet 上训练的监督模型却产生了大量的错误关联。

图注:该图显示了 SEER 模型对不同人群的关联预测错误率

SEER 10B模型还不仅适用于欧美国家的图像示例,还适用于全球各地收入水平中下的地区,以前所未有的精度对图像进行地理定位。

通过在 Gapminder 的 Dollar Street 数据集(该数据集收集了世界各地家庭中的物体图像及家庭收入信息)上实验,他们还发现,SEER 10B模型对识别全球中低收入家庭与非西方地区家庭的性能有了大幅提升,且明显优于10亿参数的 SEER 与其他监督方法。

图注:在 Meta AI 于 2020 年创建的数据集 Hateful Memes 上检测多模态(图像 + 文本)仇恨言论时,SEER 10B 的表现也优于受监督的 ImageNet 训练模型 2 个百分点。



2

对抗性攻击

Meta AI 的研究团队表示,秉着“负责任地开发 AI 系统”的原则,他们还对 SEER 10B模型进行了对抗性攻击,以保护训练数据的隐私安全。

他们在 Meta 的开源工具 Privacy Linter 上进行了测试,发现攻击的准确度(50.02%)仅略高于完全随机猜测,而随机攻击的准确度对于相同大小的训练集,准确度为 50%。

此外,他们计算了不同召回级别的精度,以确保没有训练图像在低召回级别中暴露——这种情况可能发生在所有得分最高的样本都属于训练集时;同时,精度低于 50.15% 适用于所有级别的召回(包括最低级别)。

图注:由于 SEER 不依赖于标记数据集,所以它能够在一组比 ImageNet 的地理多样性更优的示例上训练模型

为了测试模型在对抗性攻击中的鲁棒性,他们将模型用于识别模糊、插入、已被裁剪或经过其他编辑的扭曲图像。其中,SEER 10B在 CopyDays 基准测试中实现了 90.6% 的平均精度,提高了 5.1%,超越了之前的最佳结果。

此外,SEER 在域外鲁棒性基准上优于在 ImageNet 上训练的最先进的自监督模型,并且随着规模的增大,鲁棒性也不断提高。

目前,SEER 10B 的模型权重、实现细节与技术文档都已开放:

项目地址:https://github.com/facebookresearch/vissl/blob/main/projects/SEER/README.md#pretrained-models-weights



3

自监督学习与元宇宙

自监督学习是 Meta AI 首席科学家 Yann LeCun 近年来一直力推的研究方向。早在2018年Lecun就表示,人工智能的下一个发展方向可能是放弃深度学习的所有概率技巧,转而掌握一系列转移能量值的方法。与“常规”的深度学习标记训练方法相比,这一方式无需创建大量带标签的数据集,其基本设想是通过获取一些丰富的原始数据(如大量Facebook Live视频或Instagram照片)并“喂”给机器进行训练,训练的目标是达到能量值越小越好(即预测更为准确,与现实之间实现更好的兼容性)。

Lecun 2018年在UCSB做的“Self-Supervised Learning”演讲Slide

基于能量的学习早就有之。在AI研究中,“能量函数”是一个上世纪80年代一度流行的“上古”概念,由美国生物物理学家霍普菲尔德(John Hopfield)发明的“霍普菲尔德神经网络”(HNN)引入并普及。Lecun认为,监督学习无法获得像人类一样可以泛化的智能,当 AI 系统不再需要监督学习时,下一次 AI 革命就会到来,而基于能量的学习正是“减少监督”的有效实现方式。

Lecun的这一思路,在他上周接受 IEEE Spectrum 的访谈中也可见一斑。他认为AI想要突破现在的瓶颈,必须让机器学习世界模型,从而能够填补缺失的信息,预测将要发生的事情,并预测行动的影响。这种学习范式与预测架构的不同,或许也是不久前Lecun对OpenAI创始人Ilya Sutskever提出的“大型神经网络可能有意识”坚决说不的原因。

Lecun的力推下,META围绕自监督模型取得了一系列的研究成果(例如最近推出的多模态自监督学习新架构deta2vec等)。这种通过自监督学习“观察世界并学习”、最终实现像人类一样泛化的智能的学习方式,一方面可以最大程度利用META丰富的数据资源,同时也是META抢先打造元宇宙世界、加速数字世界与现实世界融合的重要技术手段。

Meta AI Research 团队也表示,计算机视觉的发展是构建元宇宙的重要步骤,而自监督视觉模型 SEER 的增强无疑为元宇宙的更上一层楼作了铺垫。

举例来说,如果要打造一幅能够帮你导航寻找钥匙或教你如何做饭的 AR 眼镜,那么就需要机器能够像人类一样理解视觉世界。这些机器不单单要能在堪萨斯州和日本京都的厨房中工作,还要在吉隆坡、北京、纽约等等世界各地的厨房中工作,这就需要机器能识别常见物体的多种模样。而 SEER 10B 在多种不同数据集中的强大性能为实现突破提供了可能。

参考链接:

1.https://ai.facebook.com/blog/seer-10b-better-fairer-computer-vision-through-self-supervised-learning-training-on-diverse-datasets/?__cft__[0]=AZUdZehe1bz4Tl8QchITah3UYSJOxM5A9Ml6XS-IK4l2-IIH1BebGORQtD-N2Z84rVGnL6CFkpLT_tfW-Gc8EgnEh41TGTQl7mNXXxhC9_xvgzTKaOOorJn40G3qNRMEoqJfcndj1xd186wZn6so_sSLjWN1dp-QhJDipaWL5namAg&__tn__=-UK-R
2.https://arxiv.org/pdf/2202.11960v1.pdf

雷峰网雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/Tv036mZEzpXJU586.html#comments Fri, 04 Mar 2022 15:33:00 +0800
普林斯顿邓嘉学生亲述:一定要博士学位?不,我本科生也能在大厂当应用科学家 //www.xyschoolife.com/category/academic/5yXbFyRVKMkMYFkO.html

编译 | 王晔

编辑 | 陈彩娴

科研界的学历内卷早已不是新鲜话题,博士后文凭更被认为是进入高校任职不可或缺的条件之一。以至于青年学生有这样一种感觉:高校尚且如此,进大厂做研究也是博士以上学历最佳吧?

不过,近日有一位正在亚马逊担任应用科学家的华人研究者发表了一篇文章,亲述了他如何在本科毕业后仅拿着学士学位进入大厂做研究的经历。

一句话总结:很难,但也不是没有希望!

这位华人的名字叫 David Fan,2019年本科毕业于普林斯顿大学计算机系,辅修统计学与机器学习,本科期间曾受邓嘉指导,在ICCV上发表过计算机视觉相关的论文。此外,他曾在罗格斯大学物理系、罗格斯新泽西医学院、哈佛医学院与普林斯顿大学视觉与学习实验室等机构做过研究。

图注:David Fan(图源:个人主页)

据其主页显示,他在2018年8月加入亚马逊,先是在亚马逊网页服务(Amazon Web Service, AWS)担任软件工程师实习生,2019年8月转正,然后在2020年7月正式入职亚马逊担任研究工程师、2021年5月转为应用科学家。

他是如何做到的呢?AI科技评论对其自述做了不改原意的整理与编译:

我目前是一名应用科学家,在亚马逊担任全职的机器学习(ML)研究员,而且我并没有博士学位。在这里,我参与了研究创新难题,与聪明又上进的同事一起工作,在做我喜欢做的事情的同时,还能获得高额的行业薪酬

了解到还有很多人对机器学习感兴趣,但网上关于如何从软件工程过渡到机器学习的指导却很少。所以,我发表了这篇文章,分享我从大学进入软件工程领域,再到后来成为机器学习研究员的历程,希望能够有借鉴指导意义。

虽然这篇文章只是针对我个人的经验总结,但我相信有一些要点是适用于每个人的。



1

大学四年(2015-2019

我的大学之旅不是一条一成不变的直线,导致我对机器学习的研究起步较晚。

刚进入普林斯顿大学那会儿,我对计算生物学研究有着浓厚的兴趣,一直坚持研究该方向,直到大三。那时候,我突然意识到自己过于专注在生物领域了,我想发展能解决更多领域问题的技能。

于是,我开始对机器学习感兴趣,特别是具有现实应用意义的计算机视觉。

然而,那时我也只上过机器学习课程,缺乏实践经验。我的三段实习经历(罗格斯大学物理系、罗格斯新泽西医学院、哈佛医学院)也都是有关生物信息学和软件工程的,第一次独立提出研究的项目也是关于生物信息学的。

当时普林斯顿大学只有少数老师从事计算机视觉和深度学习方面的研究,他们的实验室也没有更多接纳本科生的空位了。

幸运的是,大四前的那个夏天(2018年),我与一位新聘用的助理教授(邓嘉)取得了联系,并成为了第一批加入他的实验室的学生之一。

2018年的夏天,我查阅论文、参加Kaggle比赛(座头鲸识别比赛)等自学深度学习,还有阅读文献、以准备毕业论文的构思。

在我第一次跟导师见面时,我就告诉他我想研究一个有望发表论文的项目,因为我知道无论是申请读研究生还是参加工业界的机器学习职位招聘,我都需要有论文发表成果。所以他就安排我与一名高年级的博士生一起做了一个3D视觉研究项目。

在课程都是满的情况下,我坚持平均每周拿出25个小时用来研究。虽然我对这个领域几乎完全陌生,但通过努力我很快就跟上了进度,这些工作也为我的毕业论文做出了重要贡献。

毕业周前夕,我们向 NeurIPS 提交了一篇论文,但遗憾的是,这篇论文被拒了。但那年夏天我们又进行了更深入的研究,这篇论文后来也被 CVPR 接收了。



2

进入亚马逊

毕业论文的研究经历重燃了我对研究的热情,我决定把机器学习研究作为我的事业。

当时我已经收到了亚马逊软件工程方向的应届毕业生offer。然而,我没有任何把握可以得到研究机器学习的职位。那时,我的论文尚未被CVPR 2020接收,所以我当时唯一发表过的论文是生物学和物理学方面的研究。我没有具体的成果可以证明我在ML研究方面做出过有意义的贡献。

于是,我决定先尝试加入机器学习基础设施团队,希望先在该领域获得一些工作经验,为以后的职业生涯打基础。

我认为,与大多数缺乏研究经验的工程师相比,我对机器学习软件生态系统的了解是我的优势;而与缺乏产出经验的科学家相比,拥有端到端交付的能力又能使我脱颖而出。

尽管亚马逊应届毕业生通常都是服从团队的职位安排,但我还是给招聘经理发了邮件,想通过网络联系进入亚马逊网络服务(AWS)的云机器学习部门。

后来,我加入了SageMaker组,该团队主要负责销售机器学习一体化云平台。在SageMaker,我为降低深度学习模型的实时推理成本和延迟工作了一年。我还为一项关键功能的发布做出了贡献,并撰写了随附的AWS官方博客文章。

相关链接:https://aws.amazon.com/cn/blogs/machine-learning/reduce-ml-inference-costs-on-amazon-sagemaker-for-pytorch-models-using-amazon-elastic-inference/



3

2020年6月:转折点

不久之后,我的毕业论文被CVPR接收并发表了。至此,我在大学毕业大概一年后既有了一篇顶级ML会议的论文,也有了一项新功能发布的成果。

研究按计划推进,此时,我有了足够的筹码与亚马逊的ML研究团队交谈。

有趣的是,在我即将晋升二级软件工程师时,我对原本的计划有了动摇。

由于我当时的团队不属于研究团队,所以如果我想做研究,就必须转到研究团队,但换团队就要重新调整晋升时间。当时我的朋友和同龄人都已经开始升职了,我不想成为最后一个升职的人。

我也开始怀疑,如果没有博士学位,我是否能够在机器学习研究上取得成功?

我与亚马逊的科学家以及一些有研究背景但最终选择从事工程的工程师一起喝咖啡、聊天,期冀从他们那里能够获得一些建议。

一方面,很多人告诉我,我唯一的选择是重回学校,读一个研究型的硕士,最好是博士。

另一方面,也有一小部分人给了我鼓励。他们说我可以进行内部调动,并且他们也知道一些成功调动的例子。

但总的来说,这些谈话加深了我的疑虑,因为如果我失败了,我不仅会丢掉早期的晋升机会,而且还会 “浪费”我生命中的几年时间。

经历自我思考后,我才意识到我的担忧在很大程度上是肤浅和琐碎的。当一个人需要承担更少来自家庭等的个人责任时,其实他更容易在人生早期进行诸如转换职业道路之类的冒险赌注。

我意识到我不会因为没能在研究中取得成功然后转回软件工程而后悔,但如果没有尝试ML研究我会非常后悔,因为我相信自己有能力可以取得成功。我的竞争好胜心又使我无法接受延迟晋升。

但幸运的是,我能够认识到职业发展是一场马拉松比赛,而不是四百米短跑。投资于长期成功而不是短期成功不仅会让我更快乐,而且还能更好地迎接ML变得更加无处不在的未来。

于是我开始在亚马逊内部寻找 ML 研究团队,并与一位刚在Prime Video成立新团队的经理取得了联系,该团队致力于用机器学习理解视频。

由于我没有硕士和博士学位,所以我不能直接面试应用科学家的职位,但我可以面试研究工程师。因此,我做了一个研究工程师的内部面试,包括一轮 ML 算法面试和一轮编码面试。

在这个过程中,我亲历了令人惊讶的学位偏见。虽然我通过了两轮面试,但后来我被告知,包括我的经理在内的一些人都因我没有硕士和博士学位而表示担忧。

尽管如此,我的转组申请最终还是得到了批准,并成为了团队的第一个员工。2021年5月,我开始全身心地投入到成为一名ML研究科学家的目标中。



4

从工程师到科学家

在以研究工程师的身份加入Prime Video后,我的下一步计划是通过内部调动成为一名应用研究科学家。

由于亚马逊的应用科学家大多拥有博士学位,因此我需要证明自己完全有能力独立完成普遍认为博士生或优秀硕士生水平才能完成的研究。然后我再对这些研究项目进行总结,并以晋升文件的方式收集同行的反馈,以便申请调动。

大多数应用科学家都是外部聘用的,很少有工程师能在内部成功转型,特别是学位上还存在偏见,因此,机会对我来说是很难得的。

很长一段时间我都感觉自己身处迷雾之中,因为没有人能指导我完成这个过程。

通过推测成为一名研究科学家的必备要求,并评估我距离这些要求的差距,我制定了一个规划图,争取在日常工作中少做工程项目,多做ML研究。

然而,事实证明,执行这个计划比预期要困难得多。尽管我的经理支持我争取成为一名研究科学家,但公司的业绩要求使我难以追求自己的职业目标。如果我作为一名工程师占用了公司太多的时间来做研究项目,这自然会导致我的工程成果比其他工程师少。从绩效评估的角度来看,这是非常不利的。

找到两者之间的正确平衡是一个微妙的过程,我需要经常与领导讨论要求和目标,并在工作之余投入大量时间从事研究项目。

幸运的是,我在新冠疫情爆发期间完成了这一转变,因为分心的事情和社交活动比平时少得多。如果不工作更长时间,我很可能无法收集到足够的研究数据和同行的反馈意见,更不可能转为应用科学家。

这期间,我参与的一个研究项目是与另一组的一位首席科学家合作,这位科学家能够提供反馈意见,为我的调组申请助力。在这个项目中我做出了新的贡献,帮助开发了一个最先进的用于电影场景分割的自监督模型并完成部署,这也是我的第二篇CVPR 论文,并在全公司进行了主题演讲。

论文链接:https://arxiv.org/pdf/2104.13537.pdf

在这之后,我写了一份转组文件,并通过了一位资深科学家的技术评估。

尽管我有所有的可交付成果来证明我符合应用科学家的要求,但由于要对我的文件进行内部审查,我的转组被推迟了。

直到2021年5月,在我进入机器学习领域3年后、也是我加入Prime Video11个月后,我转为应用科学家的申请终于被批准了!

现在,作为一名应用科学家,我领导着前瞻性的研究,这些研究有可能为Prime Video等产品带来新功能和优化。我用约一半的时间来开发和生产支持新功能的机器学习模型,剩下的时间花在可发表的研究和撰写论文上。

与我当工程师那会儿相比,我现在对自己的工作方向有更多的自主权和所有权,这也给了我更大的成就感。

机器学习研究是我现在梦寐以求的工作,我非常幸运能够通过做我喜欢的事情来获得报酬。



5

实用性的建议

如果你是一名学生并且确定对ML研究感兴趣,那么你目前所能做的最好的事情就是获得已发表论文的研究经验和共同作者身份,甚至是第一作者身份。

你也可以和有兴趣合作的教员交谈,看看是否有项目需要帮助进行实验。有时教师太忙、无法直接回答或指导你,在这种情况下,你可以尝试寻找在项目方面需要帮助并愿意与你合作的研究生。

学习额外的课程是有帮助的,但收益会递减,因为进行研究所需的大多数知识都是高度具体的,最好通过阅读相关论文和通过实践进行动手实验来学习。

如果你已经要毕业并且没有研究经验,那么可以进行一到两年以研究为中心的硕士学习。当你可以在行业工作中获得经验和报酬时,以课堂为重点的硕士课程并不是对时间的有效利用方式。

是否要攻读博士学位是一个复杂的话题,但基本上我不认为博士学位对于行业研究中的职业发展是必要的。只有当你想要有高度专注的时间来解决一个非常具体的问题,并且有兴趣之后成为一名教授时,博士学位才是一个不错的选择。

同样,如果您在行业中并没有研究经验,要么可以选择读硕,继续以研究为重点,要么你也可以像我一样尝试在内部进行转组,先加入一个研究团队,成为一名软件工程师,然后逐渐赢得更多的研究工作机会。

当你的学历不满足岗位要求时,内部调动比外部申请要更容易,因为招聘系统是高度自动化的,并且经过了优化、可以最大限度地减少误报。但第二个选择的缺点是,在公司内部发展时,你需要花时间来建立联系并赢得信任。

对你有利的一点是,工程经验对于可扩展性迭代实验很有价值,并且通常会让你比纯粹的科学家更有优势(尤其是经验方面)。

无论你在哪里,你都需要算力来做ML研究,而ML研究的计算量越来越大。如果你没有机会进入学术界或工业界的计算集群,我会建议你建立自己的PC,并做一些诸如ML 会议主办的竞赛之类的辅助项目,以跟上ML的发展速度,发展综合能力。我认为Kaggle比赛也是一个公平的学习选择,但不是培养综合能力的理想之选,因为这些项目通常与学术文献相关性不大,而是更侧重于现实世界的使用,与NeurIPS等ML会议主办的比赛形成了鲜明对比。



6

总结

回顾我在亚马逊至今的经历,我可以想到以下主要教训:

  • 我是唯一一个可以决定我的事业走向的人。作为一个刚毕业的学生,我不理解我的经理的激励措施,当他们没有给我想要的项目时,我经常怨恨他们。当时我不明白、后来才知道的一点是:我不应该期望别人为我出力。我需要为自己而战,创造我想要的机会。

  • 运气=准备+机会。虽然我很幸运得到了加入Prime Video的机会,但我之前也做了充分的准备,通过我的努力工作和人脉来利用这个机会。

  • 规则很少是一成不变的。虽然博士学位是机器学习研究工作职位的硬性要求,但学位只是能力的代表。博士学位预示着一个人很可能有能力做独立的研究,但也有很多人没有博士学位,却做了了不起的工作。归根结底,唯一重要的是你是否可以完成工作。学位可以使你更容易被雇用,但一旦你被雇用,没有人在乎你有什么学位。当对要求有疑问时,试着从招聘经理的角度思考这个角色的职能职责是什么。在我看来,这同样适用于MBA和其他专业学位。

  • 自己喜欢的事。有些人主张为生活而工作,然后在工作之外做自己喜欢的事情。我认为这也可以,并且我很钦佩那些能够实现它的人,但我发现这对我而言具有挑战性。当我刚开始在亚马逊的一个非研究团队工作时,我试图在工作之余保持对研究论文的关注,但这并不持久,因为工作已经耗费了我大量的精神和体力。当我的激情与我的工作交织在一起时,我就会更有动力提高自己。

原文链接:https://medium.com/@davidfan/entering-industry-ml-ai-research-without-a-phd-e56761979c8f

雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/5yXbFyRVKMkMYFkO.html#comments Wed, 02 Mar 2022 15:24:00 +0800
​数据集拥有自己的世界观?不,其实还是人的世界观 //www.xyschoolife.com/category/academic/8KY8XTKOf1isQ1pU.html

编译 | Antonio

编辑 | 陈彩娴

伴随深度学习的不断日常化,数据集中的偏见(bias)和公正性(fairness)已经成为一个热门研究方向。

偏见在AI领域是一个很棘手的话题:有些偏见是有益的,例如噪声数据可以增加模型的鲁棒性,有些偏见是有害的,例如倾向对有色人种识别错误。

而且,当我们得到一个不完美的模型的时候,其中的数据集到底存在什么偏见?这些偏见是如何产生的?

谷歌的PAIR (People + AI Research)团队最近发表了一篇博文,用一个很简单有趣的例子讨论了这些问题。

原文链接:https://pair.withgoogle. com/explorables/dataset-worldviews/



1

有偏见的分类

假设我们拥有如下所示的不同形状的数据集,它们对应的标签是有无阴影,如下图。

利用页面上的交互式分类器,可以分类出如下的结果,并得出相应的准确性。

模型并不完美,为了对结果进行纠正,你可能想知道模型正在犯什么错误,或者,数据存在哪种类型的偏见?



2

公正性分析

由于各个图形的主要区别在于形状,一个可能的偏见存在于形状的差别。通过观察你可能认为三个最主要的形状主要是圆、三角形和矩形。为了证实这个假设,你要确信你的模型在面对圆、三角形和矩形的时候模型的表现能力的一样的。接下来我们来做公正性分析(fairness analysis)。

首先我们需要对每个的形状进行标注,但是一个问题是,有些形状并不能很肯定地确定是什么形状,这时候有两种策略,一是把这种形状判断为最有可能是圆、三角形和矩形(with their best guess);一种是给出一个选项:上述三种形状都不是(as "other")。之后我们分析模型对于每一类形状的分类准确率。该交互式页面给了两种策略的结果:

策略一:寻找最有可能的形状:

第一种策略表明分类器对于矩形分类的结果最好,圆次之,三角形最差。不过这可以表明模型对三角形存在偏见吗?我们在页面上切换第二种策略。

策略二:上述都不是:

结果发生了变化!第二种策略则表明分类器对于三角形和矩形分类结果都最好,圆却最差。我们对于偏见的理解因为我们制定分类的策略不同而不同,换言之,每一种分类方式代表着采取不同的角度看待哪些是重要的分类特征。而决定数据集和最终模型决策的是你——制定策略的人。也就是每个数据集都代表一种“世界观”,其收集背后莫不代表着人的意志。

所以,再回过头来想想,还有哪些策略或者规则的指定可能会影响我们的对于公正性的判断?

对,我们当初对于分类的标准是依照形状,比如圆、三角形或者矩形,这也是我们人为定的标准,如果换成”尖的“或者”圆的“呢?或者“小的”或者“大的”呢?下图给出了不同评价标准下,正确和错误分类的个体:

图注:当类别标准是“尖的”或者“圆的”,以及其它模糊类别是“寻找最有可能的形状”的时候的分类结果

图注:当类别标准是“小”或者“大的”,以及其它模糊类别是“寻找最有可能的形状”的时候的分类结果

可以看到,每当选择一种标准的时候,所得到的错误分类的数据分布也都不同,因而每种情况下对于实例的偏见程度或者公正性分析也都会出现偏差——偏见似乎也有了偏见。



3

标签在讲述故事

回顾一下,假设你是收集该数据集的负责成员,刚开始你做出关于与偏见相关的分类类别的决策,所有的形状实例到底怎么分?你按照“尖的”和“圆的”,也就是下图:

其它标注者试图回答下述问题:这个图形是“尖的”还是“圆的”?

之后,收集完毕,你根据上述错误类别分析,你可以得到分类器在尖的形状表现的好,圆的则表现的差,之后便有了如下的报告:

然后,如果一开始的评价标准是“大的”还是“小的”,重复上述步骤,你却可以得到分类器在小的形状上分类效果好,于是便有了这样的故事...

想要避免这个问题的一个自然的解决方式是,收集更多的数据和更多的特征:如果我们有足够多的数据,知道它们足够多的细节,我们将可以避免做出不同的分类决策,从而产生唯一的偏见的影响因子。

不过,似乎并非这样。想象一下,当我们描述我们周围的一件事情的时候,不管是向一个朋友讲述一件事情的时候,还是告知计算机关于形状的事情的时候,我们都会自觉不自觉地选择自己认为的最重要的部分,或者选择用什么工具去传递它。

不管我们是否这么想,我们无时无刻不在做分类——

正如我们在形状的例子中所看到的那样,所有的选择都使得某些特征比其它的特征更加重要,使得一些特征的差别是可见的一些却可被忽略都使得某些事物变得容易分类有些成为噪声点。

是分类的标准在讲述整个故事。



4

真实的场景

如果我们再回顾真实的机器学习应用,比如监督学习任务中的目标检测任务。我们想象有下面一幅图片:

我们想在这样的数据集上打标注,因而我们想先对其中的目标物体进行标注。其中的一种标注如下:

这样已经看起来很客观了,对吗?毕竟山就是山、树就是树。可是即使这样,同一张图的同一个区域的标签也可能不一样,比如这样:

山可以具体化名称,树也可以具体化“没有医用的植物”。

是的,并没有一个普遍的方法去对待每一个物体、每一个单词或者每一张图片。数据集总是特定时间空间和条件的结果。它们是社会的产物,它们有历史观,它们有政治色彩。而忽略这些会带来非常现实的后果。

那我们应该怎么对待这些信息呢?

一个很好的起点是反思数据所在的上下文,并且始终对数据保持好奇。

很难去判断一个数据集本身的价值——它们是客观的,普遍的,中立的吗——它可能只是反映一种你自己习惯的世界观。所以理解你自己的世界观可以告诉你所谓客观数据的局限性。时刻问自己:你对这个世界做出了什么假设?什么是感觉像是常识?什么有些违背常理?重要的是,对于数据集不应该忘记考虑:谁收集的它?为什么会收集它?谁付钱收集了它?所谓的”真值“标签来自哪里?

之后,你甚至可能会发现自己在质疑收集数据过程中的某些假设,从而对你的分类任务有更加整体地理解。

如果对你的数据有很多问题,你就已经有很好的开端了。



5

研究团队介绍

People + AI Research (PAIR) 是 Google 的一个跨学科团队,通过基础研究、构建工具、创建设计框架以及与不同社区合作来探索人工智能的人性方面。

团队的宗旨让机器学习发挥其积极潜力,因为它需要具有广泛的参与性,涉及到它影响的社区,并由不同的公民、政策制定者、活动家、艺术家等群体指导。

该团队开发了很多有趣的可视化交互页面,探讨了很多有趣的AI+公正性或者可解释性的课题。快去试试吧!

团队官网:https://pair.withgoogle.com/

原文链接:https://pair.withgoogle.com/explorables/dataset-worldviews/


雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/8KY8XTKOf1isQ1pU.html#comments Tue, 01 Mar 2022 10:04:00 +0800
斯隆奖新晋得主宋舒然:从视觉出发,打造机器人之「眼」 //www.xyschoolife.com/category/academic/PhJVt0Bqviem0tmg.html 「我一直希望家里有一个机器人,可以帮我洗衣服、做饭。」

宋舒然谈道。而要实现这一设想,机器人视觉研究是不可缺少的一环。

近年来,计算机视觉与机器人的「联姻」在人工智能领域如火如荼。单就自动驾驶来看,就有许多研究人员拥有计算机视觉的学科背景,比如阿里达摩院自动驾驶实验室的前负责人王刚,中国RoboTaxi领先企业AutoX(安途)的创始人肖健雄等等。

从算法架构来看,计算机视觉的研究潜力或已「穷途末路」;但在机器人的应用中,人们普遍相信,计算机视觉仍大有可为。设计出优秀的算法,让机器人系统能在与物理世界的交互中学习、自主获得执行复杂任务和协助人类的感知和操纵技能,是新一代计算机视觉研究者的主要目标之一,宋舒然也是该赛道上的一员。

作为一名「CVer」,宋舒然为何会转向机器人领域?她在该领域的研究故事又是怎样的?计算机视觉与机器人系统如何互动?针对这些问题,我们与宋舒然聊了聊。


1、与机器人视觉的首次「邂逅」

不久前,2022年斯隆研究奖公布,计算机领域有四位华人女性科学家入选,宋舒然便是其中之一,名噪一时。

斯隆研究奖被誉为「诺贝尔风向标」,主要授予被认为在各自领域最有潜力的青年科学家,以往获得该荣誉的人工智能学者均非同凡响,如AI科技评论往期报道过的鬲融、马腾宇、方飞等等。宋舒然能成功当选,实力可见一斑。

但这并不是宋舒然第一次被「看见」。此前,她与团队已在多个国际机器人顶会上获得最佳论文奖,包括RSS 2019最佳系统论文奖、CoRL 2021最佳系统论文奖,以及2020年《IEEE Transactions on Robotics》最佳论文奖,是近年来「机器人视觉」赛道最知名的青年代表人物之一。

更令人钦佩的是,此时距离她博士毕业后进入学术界才不过四年时间。

目前宋舒然在哥伦比亚大学计算机系担任助理教授,主要研究计算机视觉与机器人技术的交叉领域,如开发能使机器人系统在与物理世界的交互中学习、并自主获得执行复杂任务和协助人们的感知和操纵技能的算法。

回顾自己的研究经历,宋舒然对AI科技评论谈道,她第一次对机器人感兴趣,是在大一时上的第一门基础课上:

「那是我第一次接触到机器人。这门课没有教特别多的专业知识,就是一门动手操作的课,做一辆小车、最后让小车成功地跑起来,过程很简单,编程也很简单,但整个过程中有很多意想不到的惊喜,对我影响非常大。」

于是后来,在学校的机器人社团来招新时,宋舒然毫不犹豫就报名了。也是在参加机器人社团的过程中,她有机会在本科阶段就接触到了计算机视觉的知识。

图注:香港科技大学

宋舒然的本科就读于香港科技大学电子与计算机工程专业(ECE)。

作为一名土生土长的北京人,2008年奥运会加速了北京发展的国际化,年少的宋舒然对探索世界有着极高的热情。所以2009年她在高考前夕填写大学志愿时,除了北京大学的医学院,还报考了香港科技大学的计算机专业:

「我们那时候还是在高考前报志愿。一是报考香港的大学不占志愿名额,二是我当时就打算未来要出国走一走。相比直接就去英国、美国读书,香港是一个比较折中的选择。」

宋舒然自幼是一个擅长学习的学生,在重要的考试中总能发挥超常。出于对自我学习能力的自信,在报考大学志愿时,她也专门挑选了学习难度较高的专业。即使当时的编程基础几乎为零,在填写计算机为志愿专业时,她也没有任何犹豫。

也正是这股子无所畏惧的劲,让宋舒然在一个男性占大多数的领域中也能披襟斩棘、所向披靡。

2009年,宋舒然从北京南下,来到香港这座以国际化著称的城市。刚到港科大不久,她就明显地感觉到多元化的校园环境:

「高中时感觉周围的同学想要做的事情都差不多。到了香港后,发现大家想要实现的人生都很不一样。大家学不同的专业,有些人注重社交,有些人会提前规划职业发展,像我这样喜欢做研究的学生反而不多,所以我在本科时的科研机会也更多。」

大学期间,宋舒然有幸参加香港科技大学机器人社团(HKUST Robotics Team),还在2011年代表社团参加了一年一度的国际性机器人比赛——ABU Robocon。那一年,宋舒然与团队赢得了香港地区的选拔赛,代表香港去泰国参加决赛。

「印象中,当时机器人的研究里面,最难的也是计算机视觉的部分。虽然我的专业不是计算机视觉,但我在那个过程中也学到了不少知识,比如视觉追踪与检测。」宋舒然回忆道。

除了参加机器人社团,宋舒然还在大三那年(2012年)参加了香港科技大学与美国麻省理工学院(MIT)的暑期交换生项目。「那一年是第一届,申请的人并不多,所以我就非常幸运地得到了这个机会。」

虽然只有短短一个暑假,交换期间参与研究的内容也十分基础,但整个过程给宋舒然留下了深刻的印象。

宋舒然记得,当时她每天都会去MIT CSAIL的大楼,每天在路上都能遇到形形色色的人。在这栋形状奇特的大楼里,有很多做机器人研究的人,她每天都可以在大楼里看到各种各样奇怪的机器人,「研究者不停地调试着什么」,整个研究氛围非常活跃。

当时她的指导老师是图形学领域的大神 Frédo Durand。宋舒然记得,虽然 Frédo 是一名非常有名、事物繁多的教授,但还是会不厌其烦地腾出教研时间指导交换生们学习目标课程,与他们固定时间开会、解答疑问。在这个过程中,宋舒然也学到了许多图像视觉的知识。

原先宋舒然只是对研究感兴趣,但这次赴MIT交换的经历使她下定了读博的决心:

「刚上大学时我并没有想好之后要读博,或者在学术领域有多大的发展。但到了MIT,认识的学生都是PhD,他们做的研究非常有意思,做研究的过程感觉非常振奋,让我开始觉得我好像也很想去做研究。」


2、请回答2015:突破3D视觉

2013年,宋舒然加入普林斯顿大学的计算机视觉与机器人实验室(计算机视觉领域的知名华人学者邓嘉也在共同领导该实验室)攻读博士,先后师从肖健雄(2016年离开普林斯顿去创业)与Thomas Funkhouser。据悉,Thomas Funkhouser每年均只招收1-2名博士生。

图注:普林斯顿大学

普林斯顿大学最吸引宋舒然的一点是它较小的实验室规模,和与之带来的能与教授进行更多交流的机会。

读博期间,宋舒然的研究内容聚焦在计算机视觉。虽然本科时做过物体追踪项目,但宋舒然回忆,在刚开始读博时,她的视觉基础是相对薄弱的。

在导师的指导下,她延续本科时期的学习,先是研究3D物体检测与追踪。当时恰逢微软推出一个新的3D感知相机(Kinect 3D Camera Sensor-System),他们便思考是否能用这些新设备,将2D物体检测延伸到3D物体追踪。

图注:微软在2013年推出的Kinect 3D相机感知系统

2014年前后,计算机视觉领域的一个重要研究方向就是2.5D到3D的物体识别与检测追踪。宋舒然从2013年开始研究,恰好赶上了这一热潮,加上个人的后天努力,她的博士生涯也因而比大多数人的成长要迅速得多。

2015年是宋舒然在计算机视觉研究上的「丰收年」。那一年,她在计算机视觉顶会上发表了4篇高引论文,篇篇经典,而彼时距离她入学博士才不过两年时间:

  • 3d shapenets: A deep representation for volumetric shapes(谷歌学术引用3500+)

  • Shapenet: An information-rich 3d model repository(谷歌学术引用2500+)

  • Sun rgb-d: A rgb-d scene understanding benchmark suite(谷歌学术引用1100+)

  • Lsun: Construction of a large-scale image dataset using deep learning with humans in the loop(谷歌学术引用1000+)

宋舒然对AI科技评论介绍,她第一次接触深度学习是在“3D ShapeNets: A Deep Representation for Volumetric Shapes”这篇工作中,经汤晓鸥与吴志荣的带领入门。当时,就读于香港中文大学的吴志荣到普林斯顿交换,宋舒然与他由此结识。

「那时候深度学习还没有那么火。2D视觉开始火起来,但把深度学习用于3D视觉的研究还几乎没有。我当时完全没有做过深度学习的研究,只是做过一些比较传统的2D识别与检测。因为志荣在汤晓鸥的组里做了很多深度学习的研究,所以我们就把他拉过来一起合作。」宋舒然回忆道。

开辟性的工作往往艰难重重。宋舒然记得,当时他们在合作的过程中遇到了很多困难,其中最大的困难是没有成熟的机器学习库或框架去支持深度学习系统的搭建,「只有贾扬青提出的Caffe,而且比较初期的Caffe并不支持计算机视觉的操作」。

所以他们当时的研究重点就放在了如何开发系统、将2D算法转化为可以接受3D数据上。他们当时的想法其实非常简单 –从2D pixel 表征方式转化成 3D voxel 的表征方式。虽然现在看来这个方法有很多明显的缺陷(需要大量的显存空间), 但好处是可以沿用很多传统的2D 算法,比如卷积。

图注:3D ShapeNets(2015)的转换原理

这是第一个成功通过深度学习方法将2.5D延伸到3D上的视觉工作。在此之前,深度学习多用在2D图像或自然语言处理上。「3D ShapeNets」首次展示了深度学习系统如何学习形状表征的过程,且通用性强,可以应用在多个不同的任务上,在计算机视觉领域产生了深远的影响。

对于宋舒然来说,这个工作既是她研究生涯中的一个里程碑,也是启发她在研究中采用「简单而高效」的方法论的起点:

「它很简单,但非常高效,唯一的限制是对算力的需求加大,因为数据的维度提升,计算量也会随之增长。此外,这是我第一次研究3D,我之后的许多工作都延续了这个项目的idea(观点),即用3D深度学习系统做形状表征。」

凭借在计算机视觉方向(尤其是数据驱动的3D场景理解)的一系列出色工作,宋舒然获得2015年Facebook博士生奖学金。她的工作登上普林斯顿研究校刊,还入选了「普林斯顿25岁以下创新25人」。

图注:宋舒然在普林斯顿读博期间


3、从视觉到机器人

机器人对现实世界的感知准确率依赖于视觉中的3D语义场景完成技术。宋舒然在3D视觉上的研究突破奠定了她从事机器人视觉研究的基础。

从2016年提出「Deep Sliding Shapes」后,她就开始在研究视觉之余探索如何用3D视觉提高机器人推理周围环境的物体的能力。彼时,计算机视觉正越来越多地从分析单个静止图像转向理解视频和空间数据,对机器人的智能提升是一大利好。

图注:宋舒然在普林斯顿大学研究的机器人(“Robot In a Room: Toward Perfect Object Recognition in Closed Environments”)

想象一下,如果一个机器人要打扫房间,那么它既需要有空间导航能力、知道移动到哪里,也需要识别出房间中的不同物体,才可以执行扫地、收拾、整理等任务。

这时,机器人就需要理解两个层级的信息:第一层级是帮助机器人与周围环境互动,可以识别移动的开放空间,并定位要操作的物体对象;第二层级及以上的信息则使机器人了解一个物体是什么,并使用该物体来执行任务。

在这个问题上,以往的研究趋于将两者分开,划分为「场景完成」与「对象标记」。但2017年,宋舒然与团队提出了「SSCNet」系统,通过从单个2D图像生成场景的完整3D表示与场景对象的标记,将两者结合起来,取得了更佳的算法效果。

尽管仍是从3D视觉出发,但这项工作预示了宋舒然之后在研究机器人视觉上的一个重要理念:机器人通过与现实世界的互动中了解世界。比如,即使一个房间里的椅子视线部分被桌子挡住,但如果机器人能够将其对椅子形状的基本识别与房间布局相结合,那么它也能判断桌子旁边的形状是椅子。这类预测的准确率会大幅度提升。

图注:在「SSCNet」中,只需要输入「桌子」的图像,就可以预测桌子周围的物体摆放

在3D物体检测与追踪上做了许多工作后,2017年,宋舒然与MIT的机器人团队合作,一起参加了亚马逊机器人挑战赛——Amazon Picking Challenge,开始尝试视觉与机器人的「软硬结合」。

「我们最开始合作的想法非常简单。他们是做机器人的,我们是做视觉的,我们把两边的系统合起来就可以去参加比赛。我们第一年也确实是这么做的。」宋舒然对AI科技评论讲道。

不过,这种「粗鲁搭配」的做法并没有取得很好的效果。

2017年,他们合作的方式是:由宋舒然的计算机视觉组先定义一个要输出的算法结果(如物体姿势),然后再由MIT的机器人组通过视觉输出的算法去做动作规划(motion planning),计算机器人如何可以抓取目标物体。

但这次的合作并不高效。普林斯顿与MIT位于不同的城市,两个团队之间的交流主要是通过邮件传代码,宋舒然团队的视觉算法过了一个月后才放在MIT的机器人上试验。

在试验的过程中,他们也发现了许多问题,比如:宋舒然团队所提出的视觉算法非常慢,导致整个系统也很慢;可用于训练的标注数据极其有限,模型跑不起来;算法精度不够,对于计算机视觉来说,误差在5度5厘米以内的算法精度已是效果极佳,但当这个误差被真正应用在机器人操作上时,却可能造成整个机器人环境的崩溃。

所以,2017年的比赛中,他们只取得了第三名的成绩。但是,这次的合作也激起了宋舒然对机器人视觉的研究热情,他们发现了许多有意思的问题,激发了许多提升系统的想法,于是决定继续合作参加2018年的比赛。

图注:MIT-Princeton 团队在亚马逊机器人竞赛 (2018)

这一次,宋舒然和整个团队对物体姿态的算法进行了重新整合,不再使用中间的物体姿态作预测,而是直接从图像出发去预测机器人应该采取怎样的动作。如此一来,整个算法系统的速度有了大幅提升,而且更加通用。

亚马逊挑战赛的内容是:机器人要从一个装了各种物体的盒子里挑选出目标物体。这时,盒子里的物体之间可能彼此遮挡,会挡住机器人的视线。

针对这个问题,宋舒然团队摈弃了之前「先识别物体」的步骤,而是设为「先抓取物体」,把物体先取出来再识别。这时,机器人只需要知道物体的哪个部位更易抓取,而无需判断物体是什么,系统的鲁棒性也大大加强了。

在改进算法后,他们的机器人抓取速度快速提升,获得了2018年亚马逊抓取机器人挑战赛的冠军,还获得2018年亚马逊最佳操作系统论文奖。

自此,宋舒然也正式踏上了用计算机视觉帮助机器人感知物理世界、与物理世界交互的研究道路。


4、简单,但高效

2018年,宋舒然从普林斯顿大学获得计算机博士学位,后加入哥伦比亚大学计算机系担任助理教授。问及为何选择哥大,她给出的理由是:

「我选择哥大的一个重要原因是地理位置。我还是喜欢待在城市里。我是在北京长大的,然后去了香港读大学。去了普林斯顿后,我就发现我不适合在一个小镇子里生活,所以我就想回到大城市,就选了哥大,因为它在纽约。」

图注:哥伦比亚大学

担任教职后,宋舒然在机器人视觉的研究上屡出成果,三年内接连拿下RSS 2019最佳系统论文奖、T-RO 2020最佳论文奖、CoRL 2021最佳系统论文奖,相关工作还获得了IROS 2018、RSS 2019、CVPR 2019、ICRA 2020等顶级会议的最佳论文提名。

2018年,宋舒然团队延续亚马逊挑战赛的思路,进一步研究机器人在「推」与「抓」两个动作上的协同。尽管强化学习在当时很火,但宋舒然的这个工作首次在机器人视觉研究中直接引入了强化学习方法,并获得了IROS 2018最佳感知机器人论文奖提名。

图注:该感知机器人先「推开」物体,再「抓取」物体

「当时我们的最终目标是能把物体抓起来。『抓』这个动作很好评估,只要能抓起来就是positive reward(正向奖励)。但『推』这个动作很难评估,什么样的『推』才算是好的『推』?所以我们就采用强化学习方法,提供一个好的评估函数去定义『推』,最后只需要编写一个最终奖励(即推的动作能帮助抓取物体)即可。」宋舒然向AI科技评论解释道。

据宋舒然介绍,在她与团队「凭直觉」做这个项目之前,大多数人都认为强化学习方法需要大量的数据,所以很难在真实的机器人上直接训练。即使到现在,强化学习被应用于机器人的方法也不是主流,宋舒然与团队也没想到「真的能跑起来」,可以说打破了不可为的魔咒、给予了该方向的研究者以莫大的信心。

宋舒然在机器人视觉系统上的第一个里程碑工作当属获得RSS 2019最佳系统论文奖的「TossingBot」。在这个工作中,他们与谷歌的研究团队合作,最终成果登上了《纽约时报》商业板块的封面。

图注:TossingBot登上《纽约时报》商业版封面

这个投掷机器人的「绝杀技」是可以学习快速准确地捡起任意物体,并将其扔到附近的目标框中。研究者认为,投掷是一种利用动力学来提高机械手能力的绝佳方法。例如,「在拾取与放置的例子中,投掷可以使机械臂快速地将物体放入其最大运动范围之外的选定盒子中,从而提高其可接触的物理范围和拾取速度。」

这个工作背后的关键思想是「残差物理学」(Residual Physics),可以将简单的物理学与深度学习相结合,使系统能够从试错中快速训练、并泛化到新的场景中。

物理学提供了世界如何运作的先验模型,宋舒然与团队可以利用这些模型开发初始控制器。比如,在投掷中,他们可以使用弹道学来估计使物体降落在目标位置所需的投掷速度,同时使用神经网络在物理估计之上预测调整,以补偿未知动态以及现实世界的噪声和可变性。

作为一名计算机视觉专业的「科班生」,宋舒然每研究一个项目,便愈发为视觉与机器人的交叉结合所能产生的神奇效果惊讶。TossingBot的工作发表后,她在接受《纽约时报》的采访时惊叹道:「It is learning more complicated things than I could ever think about.(机器人正在学习更复杂的事情,这是我以前没有想过的。)」

不过,这显然不是终点。「TossingBot」发表两年后,宋舒然又挑战了机器人在高速动态动作上的新高度。她带领她在哥大的第一位博士生Huy Ha,又凭借另一个机器人「FlingBot」拿下了第二个最佳系统论文奖——CoRL 2021最佳系统论文奖。

当时CoRL 2021的评选委员会对「FlingBot」这项工作给出了极高的评价:「这篇论文是我见过的迄今为止对模拟和现实世界布料操作方面的最了不起的工作。」

论文地址:https://arxiv.org/pdf/2105.03655.pdf

「FlingBot」挑战的任务是布料处理,迁移到日常生活中,就是常见的铺床单、铺被子等等。此前,针对这项任务的大多数工作是使用单臂准静态动作来操作布料,但这需要大量的交互来挑战初始布料配置,并严格限制了机器人可及范围的最大布料尺寸。

于是,宋舒然与学生使用了自监督学习框架FlingBot,从视觉观察出发设置双臂操作,对织物使用拾取、拉伸并抛掷的初始配置。实验表明,FlingBot的3个动作组合可以覆盖80%以上的布料面积,超过静态基线的面积4倍以上。

图注:FlingBot

听起来是不是很简单?

「算法确实不难,所以这篇工作还被RSS拒过,理由是方法过于『trivial』。」宋舒然笑道。

他们一开始的想法很简单:当时他们看了许多文献,所有工作都是采用拾取、放置,这与人们在日常生活中的习惯十分不同。「举一个非常简单的例子,就是早上铺床。我们不可能小心翼翼地去做『pick up-place』(拾取-放置),我们铺床单一般就是一扔,抛开后再把床单铺开,但没有机器人系统是这样做的。」

所以他们就思考,是否可以让机器人采用一些扔高、展开的动作,如抛开。最后做出系统时,他们也发现,整个系统确实非常简单,只需分解成三步:第一步是抓布料,第二步是把布料展开,第三步是「扔」开布料。而「展开」与「扔」这两个动作基本不需要学习,因为学与不学的区别不大,真正要学的只有「抓」这一步,因为如何抓会直接影响后面的「展开」与「扔」。

虽然他们在「抓」这一步上也突破了传统算法,但整体而言,「FlingBot」的整个系统是比较简单的。所以在第一次提交论文时,评审们就将论文拒了,理由均是:结果很了不起,系统也很了不起,但算法非常简单。

这时候宋舒然的反向思维又来了:在第二次提交时,他们就在论文中强调了「简单但高效」的亮点——

「用一个简单的算法就可以解决一个这么复杂的任务,难道不是好过你去设计一个非常复杂的系统吗?而且它的效果非常好,恰恰证明了它在高速动态动作上的效率。」

这与她在博士期间与汤晓鸥等人合作3D ShapeNets的研究思想是一脉相承的:简单,但高效。后来,FlingBot 果然被 CoRL 接收,还获得了最佳系统论文奖。


5、一些思考

这时想必大家都已发现,与在结构性环境中的机器人(如亚马逊工厂的产线机器人)相比,宋舒然的机器人工作,无论是「TossingBot」还是「FlingBot」,都需要先对物理环境进行感知,掌握环境信息,然后执行适应环境的动作。

「在工厂或仓库中,机器人每天遇到的物体、物体位置与物体类别高度相似,在这类场景下,机器人的感知与规划已经达到非常成熟的状态。很多工厂的流水线上都安置了自动化机器人。但如果你仔细观察,这些机器人大多是没有『视觉』的,它们只是在记忆特定的动作,然后重复同样的动作,所以它们不能照搬到一个新的环境。」

因此,宋舒然认为,如何让机器人去适应非结构化的环境,是机器人视觉接下来的关键研究方向。在她的研究中,无论是从对人的观察中学习机器人的进化经验,还是强调机器人与现实世界的交互,都是在为这个方向努力。

比如,在FlingBot中,为什么会用「扔」的动作去展开物体呢?宋舒然解释:「如果物体被展开,是更容易被识别的。如果衣物揉成一团,不展开的话你根本不知道是T恤还是裤子。」从这个角度来看,机器人与物理世界的交互也有利于提升感知的准确性。

换言之,在视觉与机器人的联姻中,不仅是视觉帮助机器人感知,反过来,机器人的动作也会增加视觉的感知。


6、探讨「通用人工智能」

AI科技评论:Yann LeCun 之前一直强调自监督学习是下一代人工智能的重要方向,老师您怎么看?

宋舒然:我非常同意。我觉得的确是的。现在我们已经在监督学习上取得了很多的进展,包括ImageNet和现有的许多Benchmark(基准),下一步如果我们想用上更大的数据集,其实很难再标注更多的数据了。我们需要的是在算法上的提高,就是如何去利用这些没有标注的数据。

在这个方向上,不同的领域有不同的定义方法。如何去定义自监督学习?我觉得这是最核心的问题。在计算机视觉领域,你可以做视频预测;在自然语言处理方向,你可以做语言计算。我一直在想的是,在机器人领域,如何定义自监督学习?如何去定义一个统一框架可以去做自主自监督学习?

AI科技评论:而且之前很多人在强调这个方向的时候,好像都没有提到跟现实的交互。

宋舒然:对的,因为它的成本的确比较高。如果你没有机器人,你需要买一个机器人。而且就算是有机器人,通过交互去收集数据,感觉上是要比标注数据慢很多的。但这并不代表它没有前景;相反,我觉得这是一个更有潜力的方向。雷峰网

尤其是,如果你考虑未来的人工智能发展,当机器人不再是一个昂贵的设备,当机器人的标价降低、遍布各地,并且可以执行很多任务时,我觉得通过交互的自监督学习会变成更主流的方法。

AI科技评论:明白。老师您可否再总结一下,这种交互加自监督学习的学习方式,过去的发展、当前存在的瓶颈和未来趋势是什么?

宋舒然:目前「自监督+交互」的方式里仍然掺杂了许多人为经验。我们现在的许多工作,比如我们可以用自监督的方式做「抓取」,原因是我们可以很好地计算这个物体是不是被抓起来了。对于「展开」这个动作也是一样的。我们可以通过物体的表面、面积有没有展开作为一个监督的信息。但是这些奖励虽然是自监督,可以直接从图像里计算,但它也是由人来定义的,是经验告诉我们可以得到这样的信息。

而且我觉得在任何一个算法里,如果必须由一个人类工程师去定义事情的话,往往会成为一个瓶颈。所以展望未来,我们如何去减少这种人为的经验?是不是可以通过学一个未来预测模型,或者学一个比较通用的世界模型,然后用一种比较统一的方式去看,或者比较直觉的方式去设计?而不是我们需要去对每一个任务特定设计世界模型。我觉得这个可能是将来比较有意思的发展方向。

AI科技评论:目前对于通用人工智能的实现,您有没有一些理解和设想?

宋舒然:我觉得我没有很清晰的理解和设想(笑)。通用人工智能是最终目标,但我们的确还有很大的距离。很多想法是有意思的,但以我现在有限的理解,还是需要很长时间的发展,很难说哪个方向是更有前景的,或更有意义的。雷峰网

但我觉得学习嵌入式智能是非常关键的一步,因为我觉得通用人工智能不只是理解网络信息,不只是理解图像或抽象数据,还需要理解物理、理解3D环境。

AI科技评论:就是先不说通用人工智能是什么样子,但是要增进我们对通用人工智能的理解的话,我们不能局限于当前已有的这些任务,而是要去不断探索新的任务是吗?

宋舒然:对的,而且不能只考虑对机器学习模型进行抽象,还要考虑如果你要构建一个「物理分身」(physical embodiment),比如机器人,它是可以在现实的物理世界中去与不同的物体互动的。

不说人工智能,只是说我们(人类)的智能。其实我们学到了很多智能,但不只是通过网络,不只是通过读书、看图片或看视频,很大一部分的智能是在交互中学习的,比如怎么走路,怎么拿起物体。

所以我的一个理解是,实现通用人工智能,机器人或嵌入式智能是非常重要的一步。

注:琰琰、青暮对本文亦有贡献。雷峰网

参考链接:

1. https://www.researchgate.net/figure/The-Microsoft-Kinect-3D-Camera-Sensor-System-an-IR-transmitter-3D-Depth-Sensors_fig15_309740491

2. https://www.cs.princeton.edu/news/andy-zeng-shuran-song-win-best-systems-paper-award

3. https://www.cs.princeton.edu/news/article/shuran-song-wins-facebook-fellowship

4. https://www.cs.princeton.edu/news/deep-learning-improves-robotic-vision

5. https://www.cs.princeton.edu/news/scene-completing-system-may-show-robots-what-theyre-missing

6. http://arc.cs.princeton.edu/

]]>
人工智能学术 //www.xyschoolife.com/category/academic/PhJVt0Bqviem0tmg.html#comments Mon, 28 Feb 2022 23:56:00 +0800
AAAI 2022大奖出炉!中科院德州扑克程序AlphaHoldem获卓越论文奖 //www.xyschoolife.com/category/academic/VE5eK3YW31oAGoft.html

作者 | 西西、王晔

编辑丨陈彩娴

近日,人工智能国际顶会 AAAI 2022 正在召开,大会论文奖也陆续公布。AI科技评论获知,中国科学院自动化所的兴军亮教授团队获得 AAAI 2022 的卓越论文奖(Distinguished Paper)!

AAAI 的英文全称是“Association for the Advance of Artificial Intelligence”(美国人工智能协会)。该协会是人工智能领域的主要学术组织之一,具有一定的学术权威性。

兴军亮团队此次获奖的工作是他们所开发的轻量型德州扑克 AI 程序——AlphaHoldem。据介绍,该系统的决策速度较 DeepStack 的速度提升超1000倍,与高水平德州扑克选手对抗的结果表明其已经达到了人类专业玩家水平。

  • 论文名称:《AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Poker via End-to-End Reinforcement Learning》

  • 作者团队:赵恩民,闫仁业,李金秋,李凯,兴军亮



1

德州扑克AI的意义

与围棋任务相比,德州扑克是一项更能考验基于信息不完备导致对手不确定的智能博弈技术。

德州扑克是国际上最为流行的扑克游戏,由于最早起源于20世纪初美国德克萨斯州而得名。

德州扑克的规则是使用去掉王牌的一副扑克牌,共52张牌,至少2人参与,至多22人,一般参与人数为两人和十人之间。

游戏开始时,首先为每个玩家发两张私有牌作为各自的“底牌”,随后将五张公共牌依次按三张、一张、一张朝上发出。在发完两张私有牌、三张共有牌、第四张公共牌、第五张公共牌后玩家都可以多次无限制押注,这四轮押注分别称为“翻牌前”、“翻牌”、“转牌”、“河牌”。图1展示了一场德州扑克游戏的完整流程示意。

图1:两人无限注德州扑克一次游戏过程示意

经过四轮押注之后,若仍不能分出胜负,游戏进入“摊牌”阶段,所有玩家亮出各自底牌并与公共牌组合成五张牌,成牌最大者获胜。图2给出了德州扑克不同组合的牌型解释和大小。

图2:德州扑克不同牌型大小说明和比较

德州扑克博弈的问题复杂度很大,两人无限注德州扑克的决策空间复杂度超过10的161次方;其次,德州扑克博弈过程属于典型的回合制动态博弈过程,游戏参与者每一步决策都依赖于上一步的决策结果,同时对后面的决策步骤产生影响;另外,德州扑克博弈属于典型的不完美信息博弈,博弈过程中玩家各自底牌信息不公开使得每个玩家信息都不完备,玩家在每一步决策时都要充分考虑对手的各种可能情况,这就涉及到对手行为与心理建模、欺诈与反欺诈等诸多问题。

研究者认为,由于德州扑克游戏规则又非常简单且边界确定,特别适合作为一个虚拟实验环境对博弈的相关基础理论方法和核心技术算法进行深入探究。

近年来,国际研究者在德州扑克这一大规模不完美信息博弈问题的优化求解中也取得了长足进步。

比如,之前加拿大阿尔伯特大学和美国卡内基梅隆大学的研究者就设计出 AI 程序 DeepStack 和 Libratus,并先后在两人无限注德州扑克中均战胜了人类专业选手,随后卡内基梅隆大学设计的 Pluribus 又在六人无限注德州扑克中战胜了人类专业选手。

但目前主流德州扑克AI背后的核心思想是利用反事实遗憾最小化(Counterfactual Regret Minimization, CFR)算法逼近纳什均衡策略。

具体来说,首先利用抽象(Abstraction)技术[3][7]压缩德扑的状态和动作空间,从而减小博弈树的规模,然后在缩减过的博弈树上进行CFR算法迭代。

这些方法严重依赖于人类专家知识进行博弈树抽象,并且CFR算法需要对博弈树的状态结点进行不断地采样遍历和迭代优化,即使经过模型缩减后仍需要耗费大量的计算和存储资源。例如,DeepStack使用了153万的CPU时以及1.3万的GPU时训练最终AI,在对局阶段需要一个GPU进行1000次CFR的迭代过程,平均每个动作的计算需耗时3秒。Libratus消耗了大于300万的CPU时生成初始策略,每次决策需要搜索4秒以上。

这样大量的计算和存储资源的消耗严重阻碍了德扑AI的进一步研究和发展;同时,CFR框架很难直接拓展到多人德扑环境中,增加玩家数量将导致博弈树规模呈指数增长。另外,博弈树抽象不仅需要大量的领域知识而且会不可避免地丢失一些对决策起到至关作用的信息。



2

AlphaHoldem是何方神圣?

这个问题也吸引了很多中国研究者,中科院自动化所的兴军亮教授团队便是其中之一。去年12月,他领导的博弈学习研究组针对德州扑克任务,提出了一种高水平、轻量化的两人无限注德州扑克AI程序——AlphaHoldem。

不同于已有的基于CFR算法的德州扑克AI,中科院博弈学习研究组所提出的架构是基于端到端的深度强化学习算法(如图4所示)。

图4:端到端学习德州扑克AI学习框架

根据团队介绍,AlphaHoldem采用Actor-Critic学习框架,其输入是卡牌和动作的编码,然后通过伪孪生网络(结构相同参数不共享)提取特征,并将一种改进的深度强化学习算法与一种新型的自博弈学习算法相结合,在不借助任何领域知识的情况下,直接从牌面信息端到端地学习候选动作进行决策。

他们还指出,AlphaHoldem的成功得益于其采用了一种高效的状态编码来完整地描述当前及历史状态信息、一种基于Trinal-Clip PPO损失的深度强化学习算法来大幅提高训练过程的稳定性和收敛速度、以及一种新型的Best-K自博弈方式来有效地缓解德扑博弈中存在的策略克制问题。

AlphaHoldem 使用了1台包含8块GPU卡的服务器,经过三天的自博弈学习后,战胜了Slumbot和DeepStack。每次决策时,AlphaHoldem都仅用了不到3毫秒,比DeepStack速度提升超过了1000倍。同时,AlphaHoldem与四位高水平德州扑克选手对抗1万局的结果表明其已经达到了人类专业玩家水平。



3

团队部分成员介绍

赵恩民,论文一作。中国科学院自动化研究所模式识别与智能系统专业博士四年级研究生,2018年于清华大学获得工学学士学位。研究方向为计算机扑克和深度强化学习。

兴军亮,中国科学院自动化研究所研究员、博士生导师、特聘青年骨干,中国科学院大学岗位教授,中国科学院人工智能创新研究院创新专家组专家。兴教授2012年毕业于清华大学计算机科学与技术系,获工学博士学位。

此外,他还是美国电器与电子工程学会(IEEE)高级会员、美国《科学》杂志中国官方公众号特邀评论员、中国计算机学会(CCF)高级会员、计算机视觉专委会委员。

他的主要研究领域为计算机视觉和计算机博弈。目前已在包括顶级国际期刊如TPAMI、IJCV、AI以及顶级国际会议上如ICCV、CVPR、AAAI、IJCAI上发表论文100多篇,谷歌学术引用超过10000次,出版计算机视觉译著2部,参与撰写深度学习领域著作1部、人工智能领域著作1部。

曾获清华大学计算机系“学术新秀”、“谷歌学者”、多次顶级国际和国内会议最佳论文奖等荣誉和奖励,以及十余次在人脸识别、车辆识别、视频识别等国际和国内挑战赛中获奖。

目前作为项目和课题负责人承担多项国家重点项目,研发的视觉感知相关技术在国家广电总局、华为、微软等得到了多次验证应用和落地推广,取得了良好的经济效益和社会价值。

近年来主要围绕深度强化学习相关的智能感知和决策问题,研发了多款针对不同游戏的博弈决策AI,其中研发的星际争霸AI曾获2017年IEEE CIG星际争霸AI第2名,研发的德州扑克AI程序AlphaHoldem胜率超过了目前公开的最好德州扑克AI程序DeepStack,速度提升超过1000倍。开放了学界首个大规模不完美信息博弈平台OpenHoldem。



4

AAAI 2022其他获奖工作

杰出论文奖:

  • 论文名称:Online Certification of Preference-Based Fairness for Personalized Recommender Systems

  • 作者团队:Virginie Do,Sam Corbett-Davies,Jamal Atif, Nicolas Usunier

杰出学生论文奖:

  • 论文名称:InfoLM: A New Metric to Evaluate Summarization & Data2Text Generation

  • 作者团队:Pierre Colombo,Chloé Clavel,Pablo Piantanida

卓越论文奖:

除了中科院兴军亮团队的 AlphaHoldem,还有 5 篇工作获得 AAAI 2022 “卓越论文奖”。分别如下

  • 论文名称:Certified Symmetry and Dominance Breaking for Combinatorial Optimisation

作者团队:Bart Bogaerts,Stephan Gocht,Ciaran McCreesh,Jakob Nordström

  • 论文名称:Online Elicitation of Necessarily Optimal Matchings

作者团队:Jannik Peters

  • 论文名称:Sampling-Based Robust Control of Autonomous Systems with Non-Gaussian Noise

作者团队:Thom S. Badings, Alessandro Abate,Nils Jansen,David Parker,Hasan A. Poonawala,Marielle Stoelinga

  • 论文名称:Subset Approximation of Pareto Regions with Bi-objective A

作者团队:Jorge A. Baier,Carlos Hernández,Nicolás Rivera

  • 论文名称:The SoftCumulative Constrain with Quadratic Penalty

作者团队:Yanick Ouellet,Claude-Guy Quimper

参考链接:

1.https://twitter.com/rao2z/status/1496866889921822721

2.https://mp.weixin.qq.com/s/OBRybZ-NwcNW-S9TCObaLA

雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/VE5eK3YW31oAGoft.html#comments Mon, 28 Feb 2022 10:42:00 +0800
重磅!Nature子刊发布稳定学习观点论文:建立因果推理和机器学习的共识基础 //www.xyschoolife.com/category/academic/wn299MpwC0BqvdXA.html

整理丨AI科技评论

2月23日,清华大学计算机系崔鹏副教授与斯坦福大学Susan Athey(美国科学院院士,因果领域国际权威)合作,在全球顶级期刊Nature Machine Intelligence(影响因子IF=15.51,2020)上发表题为“Stable Learning Establishes Some Common Ground Between Causal Inference and Machine Learning”(稳定学习:建立因果推理和机器学习的共识)的观点论文。深入探讨和总结了因果推理在机器学习和人工智能领域取得的关注,并对“稳定学习”提出了系统性分析和展望。文章认为,机器学习和因果推理之间应该形成共识,而稳定学习正在向实现这一目标的方向迈进。



1

机器学习与经济学的碰撞,会产生什么样的火花?
人工智能的目标是让机器像人类一样“思考”和“决策”,机器学习是实现这一愿景的重要方法。那么,用机器学习的方法来解决现实中的决策问题是否可行?斯坦福大学的Susan Athey在一次演讲中用身边的例子进行了举例:斯坦福大学的经济学系女教授的平均水平似乎比男教授更高,老是发不出文章的教授中女教授很少,但这很有可能是因为数据自身的局限性,如果通过机器学习的方法编写程序按性别来筛选候选人,并用斯坦福的训练数据去推而广之,很有可能在实际中产生歧视。
利用机器学习实现对一项政策效果进行更精准的推断,这正是诺贝尔奖级别的研究成果——Susan Athey与她的丈夫Guido Imbens近年来关注的研究方向正是利用机器学习实现对政策效果更精准的推断,并在融合机器学习与政策的处置效应方面合作撰写了多篇文章。而Guido Imbens2021年也因此与另两位学者分享了当年的诺贝尔经济学奖,评奖委员会认为,他们在劳动经济学和从自然实验中分析因果推理方面做出了突出贡献,掀起了经济学研究的“可信革命”。
所谓“因果推理”是计量经济学中近年来得到重视的一个重要概念。传统计量经济学一般集中在统计推理方面,重视变量之间的相关性而忽视了当中的因果关系;因果推断则是将相关性与因果性进行独立分析,科学地识别变量间的因果关系。在机器学习领域也存在类似的问题,目前大多数机器学习模型注重各因素之间的相关性分析,由此衍生的“泛化性”和“可信性”正是当前机器学习需要面对的两大问题。
在大数据时代,人们认为可以利用更大的机器或者更多数据解决问题,但很多时候问题的答案并不在数据中。这也正是机器学习难以在实际场景中应用于决策的原因:机器学习存在缺乏可解释性和未知环境下的稳定性的问题,既难以预测结构变化之后的结果,也不能对结果进行合理的解释。

(人工智能的两大问题:缺乏可解释性和稳定性,来自崔鹏的报告ppt)
Susan Athey在2017年为《Science》撰写的综述性文章《Beyond Prediction:Using big data for policyproblems》中总结,在做出预测和做出决策之间存在许多差距,为了优化数据驱动的决策,需要理解基本假设。而这也正是解决机器学习两大问题的有效途径。

(Susan 2017年为《Science》撰写的综述性文章)
在机器学习过程中带来的关联统计被认为是导致目前的机器学习缺乏可解释性和稳定性的重要原因。现有的大部分机器学习方法都需要IID假设,即训练数据和测试数据应当是独立同分布的。然而在现实中这一假设很难满足。以我们熟悉的图片“猫狗检测”为例,如果训练数据的大部分图片中狗位于草地上,模型对“水中的狗”这一极端样例的检测可能会完全失效,甚至可能出现“指猫为狗”的错误,把在草地上的猫错认为狗。

(来自崔鹏的报告ppt)
当下的人工智能技术往往不能很好地泛化到未知的环境,是因为现有大部分机器学习模型主要是关联驱动的,这些模型通常只做到了知其“然”(即关联性)而不知其“所以然”(即因果性)。将因果推理的思想推广到机器学习领域,去除关联中的虚假关联,使用因果关联指导模型学习,是提升模型在未知环境下稳定性根本路径之一。
值得一提的是,从因果角度出发,可解释性和稳定性之间存在一定的内在关系,即通过优化模型的稳定性亦可提升其可解释性,从而解决当前人工智能技术在落地中面临的困境。
基于此,清华大学崔鹏团队从2016年起开始深入研究如何将因果推理与机器学习相结合,并最终形成了“稳定学习”(Stable Learning)的研究方向。稳定学习有望弥补机器学习模型的“预测”到经济生活等现实“决策”之间的鸿沟,随着对因果分析研究的进一步深入,以稳定学习为代表的因果分析建模技术将成为人工智能发展的突破口,帮助我们从数据中推断出因果关系并进行有效检验,从而做出更好的决策。



2

稳定学习:建立因果推理和机器学习的共识
摘要
因果推理近年来在机器学习和人工智能领域引起了广泛关注。它通常被定位为一个独特的研究领域,可以将机器学习的范围从预测建模扩展到干预和决策。而从作者的角度来看,即便对于机器学习所擅长的预测类问题,如果对预测稳定性、可解释性和公平性提出较高要求,那么因果统计的思想对于改善机器学习、预测建模也变得不可或缺。基于此,作者提出了稳定学习的概念和框架,以弥合因果推理中传统精确建模与机器学习中的黑盒方法之间的鸿沟。本文阐明了机器学习模型的风险来源,讨论了将因果关系引入机器学习的必要性,从因果推理和统计学习两个视角阐述了稳定学习的基本思想和最新进展,并讨论了稳定学习与可解释性和公平性问题的关系。
当前机器学习的主要风险
论文指出,机器学习技术的优化目标是预测的精度和效率,而错误预测的潜在风险往往被忽视。对于预测点击量或对图像进行分类等应用,模型可以频繁更新,错误的代价也不会太高。因此,这些应用领域非常适合结合持续性能监控的黑盒技术,这也是近年来机器学习得以快速发展的基础。
然而,近年来机器学习被应用于医疗健康、工业制造、金融和司法等高风险领域,在这些领域,机器学习算法犯下的错误可能会带来巨大的风险。尤其是当算法预测在决策过程中发挥重要作用时,错误会对安全、道德和正义等社会问题产生重大后果。因此,缺乏稳定性、可解释性和公平保障是当今机器学习中亟需解决的最关键和最紧迫的议题。
虚假相关性:风险的主要来源
如图所示,相关性有三种来源,即由因果性导致的相关性、干扰变量导致的相关性、由样本选择偏差导致的相关性。在这三种相关性中,只有由因果性导致的相关性是可以保证在各种环境下稳定成立、且可以被解释的。而目前的神经网络模型并没有对特征是否存在因果性加以区分,这也是导致模型性能不稳定的重要原因。

(相关性的三种来源)
论文进一步论述了机器学习可以避免由因果推理的基本问题引起的可验证性等挑战和局限性,并认为,机器学习和因果推理之间应该形成共识基础,稳定学习的框架正是实现这一目标的路径之一。
稳定学习:建立因果推理和机器学习的共识
论文还进一步阐述了稳定学习的定位与发展脉络,并比较了与常见的独立同分布模型和迁移学习模型的异同:

  • 独立同分布模型的训练和测试都在相同分布的数据下完成,测试目标是提升模型在测试集上的准确度,对测试集环境有较高的要求;

  • 迁移学习同样期望提升模型在测试集上的准确度,虽然允许测试集的样本分布与训练集不同,但要求测试集样本分布已知;

  • 稳定学习无需测试数据集与训练数据来自同一分布,并且不假设测试数据分布已知。测试目标是在保证模型平均准确度的前提下,降低模型性能在各种不同样本分布下的准确率方差。与上述学习模式相比,稳定学习的目标更接近现实的问题设置,理论上,稳定学习可以在不同分布的测试集下都有较好的性能表现。

结论
文章最后提出,如果我们希望机器学习算法能被进一步应用,需要解决稳定性、可解释性和公平性问题,而这些问题是当今学习范式的根本局限,需要从根本上加以解决。尽管业内对预测、相关性和因果关系的基础仍存在争论,因果推理,尤其是在观察研究中所取得的一些最新进展已经可以为机器学习提供更多的见解和理论支持。作为一种新的学习范式,稳定学习试图结合这两个方向之间的共识基础。如何合理地放松严格的假设,以匹配更多具有挑战性的真实应用场景,并在不牺牲预测能力的情况下使机器学习更可信,是未来稳定学习需要解决的关键问题。
论文完整内容参见Nature网站:https://www.nature.com/articles/s42256-022-00445-z



3

作者简介
崔鹏
清华大学长聘副教授。于2010年获得清华大学博士学位,研究兴趣包括大数据环境下的因果推理与稳定预测、网络表征学习,及其在智慧医疗、商业决策等场景中的应用。从2016年起,崔鹏与团队开始深入研究如何将因果推理与机器学习相结合,并最终形成了“稳定学习”(Stable Learning)的研究方向。他在数据挖掘和多媒体领域的著名会议和期刊上发表了150多篇论文,并先后获得7项国际会议及期刊最佳论文奖。曾获得CCF-IEEE CS青年科学家奖,国家自然科学二等奖,以及省部级一等奖3项。目前是ACM杰出会员,CCF杰出会员以及IEEE高级会员。
Susan Athey
斯坦福大学商学院教授,美国科学院院士,美国艺术与科学院院士,美国经济学会主席,约翰·贝茨·克拉克奖(该奖项也被视为诺内尔经济学奖的风向标)的第一位女性获得者。她曾在微软担任咨询首席经济学家六年,目前是斯坦福大学斯坦福经济政策研究所高级研究员、以人为本人工智能研究所副主任、 Golub Capital 社会影响实验室主任。Susan Athey本科期间在杜克大学同时主修经济学、数学与计算机科学三个专业,目前专注于数字化经济学、市场设计以及计量经济学与机器学习领域的交叉领域研究,是因果领域的国际权威。

雷峰网雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/wn299MpwC0BqvdXA.html#comments Mon, 28 Feb 2022 10:38:00 +0800
Yann LeCun最新发声:自监督+世界模型,让 AI 像人类一样学习与推理 //www.xyschoolife.com/category/academic/OiU6hsSE6CQD3NKG.html

作者 | 维克多、西西、王晔
编辑 | 陈彩娴

如何突破当代人工智能(AI)的瓶颈?不同学者存在不同观点。

总体来看可以概括为两类,其一监督学习者,提倡通过改善数据标签质量,从而完善监督学习。代表人物有发起“以数据为中心AI”革命的吴恩达,提倡设计“合成数据自带所有标签”的Rev Lebaredian。

其二,无监督学者,例如Yann LeCun,提倡下一代AI系统将不再依赖于精心标注的数据集。

近日,Yann LeCun在meta AI(原Facebook)官方博客上以及IEEE采访中,深度阐述了他的自监督学习思路,他认为AI想要突破现在的瓶颈,必须让机器学习世界模型,从而能够填补缺失的信息,预测将要发生的事情,并预测行动的影响。

这虽然不是革命性的想法,但却是革命性的行动。正如LeCun在在多次演讲中提到:这场革命将是无监督的(THE REVOLUTION WILL NOT BE SUPERVISED)。具体而言这种革命性体现在对两个问题的思考:

第一,我们应该使用什么样的学习范式来训练世界模型?

第二,世界模型应该使用什么样的架构?

同时,他也提到:监督学习的局限性有时会被误以为是深度学习的局限性,这些限制可以通过自监督学习来克服。

以下是LeCun对自监督的思考与世界模型设计,内容来源于meta AI与IEEE,AI科技评论做了不改变原意的编译。



1

AI可以学习世界模型

LeCun提到,人类和动物能够通过观察,简单的交互,以及无监督的方式学习世界知识,因此可以假设,这里面蕴含的潜在能力构成了常识的基础。这种常识能够让人类在陌生的环境下完成任务,例如一位年轻的司机,从来没有在雪地里开过车,但是他却知道如果车开的太猛,轮胎会打滑。

早在几十年前,就有学者研究人类、动物甚至智能系统如何“借力”世界模型,自我学习。因此,当前AI也面临着重新设计学习范式和架构,使机器能够以自我监督的方式学习世界模型,然后使用这些模型进行预测、推理和规划。

世界模型需要融合不同的学科的观点,包括但不限于认知科学、系统神经科学、最优控制、强化学习以及 "传统 "人工智能。必须将它们与机器学习的新概念相结合,如自监督学习和联合嵌入架构(joint-embedding architectures)。



2

AI新架构:自主智能架构

在上述世界模型思想的基础上,LeCun 提出了自主智能机构,由六个独立模块组成,且假设每个都可微:可以容易地计算一些目标函数,以及相对应的梯度估计,并将梯度信息传播到上游模块。

自主智能的系统架构:配置器(configurator)是核心,从其他模块获取输入。

  • 配置器的角色是控制。给定一个要执行的任务,它会通过调整参数预先配置感知模块、世界模型,以及计算成本和添加参与者(actor)。

  • 感知模块能够接收信息,估计现实世界。对于一个特定的任务,只有一小部分感知到的世界状态是相关和有用的。配置器为感知模块提供动力,从感知中提取与任务相关的信息。

  • 世界模型模块是最复杂的部分,具有双重作用。1.估计感知模块无法得到的缺失信息;2.合理预测世界的未来状态,其中包括世界的自然演变以及参与者行动的影响。世界模型是现实世界的模拟器,由于世界充满了不确定性,该模型必须能够处理多种可能的预测。直观的例子是:一个接近十字路口的司机可能会放慢汽车行驶的速度,防止另一辆接近十字路口的车没有按规矩停在停车标志上。

  • 成本模块用来计算预测智能体(agent)的不合适程度。由两部分组成:内在成本( intrinsic cost),特征是不可训练,但能实时计算“不适”:智能体损害、违反硬编码行为等;评价者(critic),它是一个可训练的模块,预测内在成本的未来值。

LeCun表示:成本模块是基本的行为驱动和内在动机的所在。因此,它将考虑到内在成本:不浪费能源,以及任务的具体消耗。成本模块是可分的,成本的梯度可以通过其他模块反向传播,用于规划、推理或学习。

  • 参与者模块提供行动建议。参与者模块可以找到一个使估计的未来成本最小化的最佳行动序列,并在最佳序列中输出第一个行动,其方式类似于经典的最优控制。
  • 短期记忆模块可以记录当前情况,预测世界状态,以及相关成本。



3

世界模型架构和自监督训练

世界模型架构的核心在于预测。

构建世界模型的一个关键挑战是如何使该模型能够表示多个模糊的预测。现实世界并不是完全可以预测的:一个特定的情况可能有多种演变的方式,并且许多与情况相关的细节与手头的任务无关。比如,我可能需要预测我开车时周围的汽车会做什么,但我不需要预测道路附近树木中个别叶子的详细位置。那么,世界模型如何学习现实世界的抽象表示,做到保留重要的细节、忽略不相关的细节,并且可以在抽象表示的空间中进行预测呢?

解决方案的一个关键要素是联合嵌入预测架构 (Joint Embedding Predictive Architecture ,JEPA)。JEPA 捕获两个输入(x 和 y)之间的依存关系。例如,x 可以是一段视频,y 可以是视频的下一段。输入 x 和 y 被馈送到可训练的编码器,这些编码器提取它们的抽象表示,即 sx 和 sy。预测器模块被训练为从 sx 预测 sy。预测器可以使用潜在变量 z 来表示 sy 中存在但 sx 中不存在的信息。JEPA 以两种方式处理预测中的不确定性:(1)编码器可能会选择丢弃难以预测的有关 y 的信息;(2)当潜在变量 z 在一个集合上变化时,将导致预测在一个集合上变化一组似是而非的预测。

那么,我们如何训练 JEPA 呢?

截至目前为止,研究者所使用的唯一方法就是“对比”,包括显示兼容 x 和 y 的示例,以及许多 x 和不兼容 y 的示例。但是当表示是高维状态时,这是相当不切实际的。

过去两年还出现了另一种训练策略:正则化方法。当应用于 JEPA 训练时,该方法使用了四个标准:

  • 使 x 的表示最大限度地提供关于 x 的信息

  • 使 y 的表示最大限度地提供关于 y 的信息

  • 使 y 的表示可以从 x 的表示中最大程度地预测

  • 使预测器使用尽可能少的潜在变量信息来表示预测中的不确定性

这些标准可以以各种方式转化为可微的成本函数。一种方法是 VICReg 方法,即方差/变量(Variance)、不变性(Invariance)、协方差正则化(Covariance Regularization)。在 VICReg 中,x 和 y 表示的信息内容通过将其分量的方差保持在阈值之上并通过使这些分量尽可能地相互独立来最大化。同时,该模型试图使 y 的表示可以从 x 的表示中预测。此外,潜变量的信息内容通过使其离散、低维、稀疏或噪声来最小化。

JEPA 的美妙之处在于它自然地产生了输入的信息抽象表示,消除了不相关的细节,并且可以执行预测。这使得 JEPA 可以相互堆叠,以便学习具有更高抽象级别的表示,可以进行长期预测。

例如,一个场景可以在高层次上描述为“厨师正在制作可丽饼”。它可以预测厨师会去取面粉、牛奶和鸡蛋,将食材混合,把面糊舀进锅里,将面糊油炸,并翻转可丽饼,然后不断重复该过程。在较低层次的表达上,这个场景可能是倒一勺面糊并舀均匀,且将其铺在锅周围。一直持续到每一毫秒的厨师的手的精确轨迹。在低层次的手部轨迹上,我们的世界模型只能进行短期的准确预测。但在更高的抽象层次上,它可以做出长期的预测。

分层 JEPA 可用于在多个抽象级别和多个时间尺度上执行预测。训练方式主要是通过被动观察,很少通过互动。

婴儿在出生后的头几个月主要通过观察来了解世界是如何运作的。她了解到世界是三维的,知道有些物体会摆在其他物体的前面,当一个物体被遮挡时,它仍然存在。最终,在大约 9 个月大的时候,婴儿学会了直观的物理学——例如,不受支撑的物体会因重力而落下。

分层  JEPA 的愿景在于它可以通过观看视频和与环境交互来了解世界是如何运作的。通过训练自己来预测视频中会发生什么,它可以生成对世界的分层表示。通过在世界上采取行动并观察结果,世界模型将学会预测其行动的后果,进而能够推理和计划。



4

“感知-行动”情节

通过将分层 JEPA 训练为世界模型,一个智能体(机器人)就可以执行复杂动作的分层规划,将复杂任务分解为一系列不太复杂和不太抽象的子任务,一直到对效应器(effector)的低级动作。

一个典型的感知-行动情节如上。该图说明了两级层次结构的情况。感知模块提取世界状态的分层表示(图中 s1[0]=Enc1(x) 和 s2[0]=Enc2(s[0]))。然后,在假设二级行动器提出的一系列抽象动作的情况下,多次应用二级预测器来预测未来状态。行动器优化二级动作序列以将总成本最小化(图中的C(s2 [4]))。

这个过程类似于最优控制中的模型预测控制。对第二级潜在变量的多个绘图重复该过程,这可能会产生不同的高级场景。由此产生的高级动作并不构成真正的动作,而只是定义了低级状态序列必须满足的约束(例如,食材是否正确混合?)。它们确实构成了子目标。整个过程在低层重复:运行低层预测器,优化低层动作序列以将上层的中间成本最小化,并对低层潜在变量的多个绘图重复该过程。一旦该过程完成,智能体将第一个低级动作输出到效应器,整个情节可以重复。

如果我们成功构建了一个这样的模型,那么所有的模块都是可微的,因此整个动作优化过程可以使用基于梯度的方法来执行。



5

使 AI 更接近人类水平的智能

LeCun 的愿景需要更深入的探索,而且前方还有许多艰巨的挑战。其中最有趣又最困难的一项挑战是为世界模型将架构和训练细节实例化。我们甚至可以说,训练世界模型是未来几十年人工智能可以真正取得进展的主要挑战。

但是架构的许多其他方面仍有待定义,包括如何精确地训练Critic(Critic网络的作用是衡量一个Actor在某状态下的优劣),如何构建和训练配置器,以及如何使用短期记忆来跟踪世界状态和存储世界状态与行动的历史,用内在成本来调整Critic。

LeCun 和其他 Meta AI 的研究人员期待在未来数月和数年内探索这些内容,并与该领域的其他人交流想法和学习。创造可以像人类一样有效地学习和理解的机器是一项长期的科学努力——而且不能保证成功。但我们相信,基础研究将继续加深对思想和机器的理解,并将带来更多造福人类的人工智能突破成果。



6

Yann LeCun:AI 不需要人类的监督

IEEE Spectrum:您曾说过,监督学习的局限性有时会被误认为是深度学习的内在局限,那哪些限制可以通过自监督学习来克服呢?

Yann LeCun监督学习在一些结构稳定的领域中表现很出色。在这些领域中,你可以收集大量的标记数据,并且在部署过程中可以看到,这些输入类型与训练过程中使用的输入类型没有太大区别。要收集大量且相对没有偏差的标记数据是很难的。我所说的不一定是社会偏差,而是说系统不应该使用数据中的相关性。一个非常著名的例子是,当你在训练一个能够识别奶牛的系统时,若训练中用的都是草场上的奶牛,那么系统将把草作为奶牛的背景。如果再给它一头在海滩上的奶牛,它可能就很难识别出了。

自监督学习 (SSL) 允许我们训练系统以独立于任务的方式学习良好的输入表示。因为 SSL 训练使用未标记的数据,所以我们可以使用非常大的训练集,并让系统学习更稳健和更完整的输入表示。然后,它只需要少量的标记数据就能在监督任务上获得良好的性能。这大大减少了纯监督学习所特有的标记数据量,并使系统更加稳健,能够更好地处理与标记训练样本不同的输入。它有时还会降低系统对数据偏差的敏感性——关于这一改进,我们将在未来几周内分享更多关于研究的见解。

现在在实际的 AI 系统中正在发生的事情是,我们正在转向使用 SSL 对大量未标记数据进行预训练的更大架构。这些可用于各种任务。例如,Meta AI 现在拥有可以处理几百种语言的语言翻译系统。这是一个单一的神经网络!我们还有多语种语音识别系统。这些系统可以处理几乎没有数据的语言,更不用说带注释的数据了。

IEEE Spectrum:其他行业先驱说,人工智能的前进方向是通过更好的数据标记来改进监督学习。吴恩达最近和我谈到了以数据为中心的AI,英伟达 的 Rev Lebaredian 和我谈到了带有所有标签的合成数据。该领域是否存在关于前进道路的分歧?

LeCun:我不认为存在哲学上的分歧。SSL 预训练是 NLP 中非常标准的做法。它在语音识别方面表现出了出色的性能改进,并且在视觉方面开始变得越来越有用。然而,“经典”监督学习仍有许多未开发的应用,因此人们当然应该尽可能使用合成数据和监督学习。据说英伟达也正在积极开发 SSL。

早在 2000 年代中期,Geoff Hinton、Yoshua Bengio 和我就确信,我们能够训练非常大和非常深的神经网络的唯一方法是通过自监督(或无监督)学习。这也是吴恩达开始对深度学习感兴趣的时候。他当时的工作也集中在我们现在称之为自监督的方法上。

IEEE Spectrum:自监督学习如何促成具有常识的 AI 系统?常识能把 AI 系统带向人类水平的智能多远?

LeCun:我认为,一旦我们弄清楚如何让机器像人类和动物一样学习世界是如何运作的,人工智能就会取得重大进展:这主要是通过观察,并在观察中采取行动。我们了解世界是如何运作的,因为我们已经了解了世界的内部模型,该模型使我们能够填补缺失的信息,预测将要发生的事情,并预测我们行动的影响。我们的世界模型使我们能够感知、解释、推理、提前计划和行动。

但机器如何学习世界模型呢?这归结为两个问题:我们应该使用什么学习范式来训练世界模型?世界模型应该使用什么架构?

对于第一个问题,我的答案是 SSL(自监督学习)。一个例子是让机器观看视频,暂停视频,然后让机器学习视频中接下来会发生什么的表示。在这样做的过程中,机器可以学习大量关于世界如何运作的背景知识,可能类似于婴儿和动物在生命的最初几周和几个月内的学习方式。

对于第二个问题,我的答案是一种新型的深度宏架构,我称之为分层联合嵌入预测架构(H-JEPA)。简单解释,JEPA 不是预测视频剪辑的未来帧,而是学习视频剪辑的抽象表示和剪辑的未来,以便后者能够基于对前者的理解很容易地预测。这可以使用非对比 SSL 方法的一些最新发展来实现,特别是我和我的同事最近提出的一种称为“VICReg”的方法。

IEEE Spectrum:几周前,你回复了在OpenAI任职的 Ilya Sutskever 的一条推文,他在推文中推测,今天的大型神经网络可能有意识。你的回答是响亮的“不”。在您看来,构建一个有意识的神经网络需要什么?那个系统会是什么样子的?

LeCun:首先,意识是一个非常模糊的概念。一些哲学家、神经科学家和认知科学家认为这只是一种幻觉,我非常接近这种观点。

但我对导致意识错觉的原因有一个猜测。我的假设是,我们的前额叶皮质中有一个单一的世界模型“引擎”。该世界模型可根据当前情况进行配置。我们是帆船的舵手;我们的世界模型模拟了我们船周围的空气和水流。我们建了一张木桌;我们的世界模型想象切割木头和组装它们的结果,等等。

我们的大脑中需要一个模块,我称之为“配置器”,它为我们设定目标和子目标,配置我们的世界模型来模拟当前的情况,并启动我们的感知系统以提取相关信息并丢弃赘余信息。监督配置器的存在可能是让我们产生意识错觉的原因。但有趣的是:我们需要这个配置器,因为我们只有一个世界模型引擎。如果我们的大脑足够大,可以容纳许多世界模型,我们就不需要意识。所以,从这个意义上说,意识是我们大脑局限的结果!

IEEE Spectrum:自监督学习在元宇宙的构建中可以扮演什么角色?

LeCun:深度学习在虚拟世界中有很多具体的应用,比如 VR 护目镜和 AR 眼镜的运动跟踪,捕捉和重新合成身体运动和面部表情等等。

元宇宙中人工智能驱动的新创意工具有很多机会,可以让每个人在虚拟世界和现实世界中创造新事物。但元宇宙也有一个“纯AI”的应用:虚拟 AI 助手。我们应该有虚拟的 AI 助手,可以在日常生活中帮助我们,回答我们的任何问题,并帮助我们处理每天轰炸我们的海量信息。为此,我们需要我们的 AI 系统对世界如何运作(无论是物理还是虚拟)有一定的了解,有一定的推理和计划能力,以及一定程度的常识。简而言之,我们需要弄清楚如何构建可以像人类一样学习的自主 AI 系统。这需要时间。但是Meta在这条赛道上已经走了很长时间。

参考链接:
1.https://ai.facebook.com/blog/yann-lecun-advances-in-ai-research
2.https://spectrum.ieee.org/yann-lecun-ai

雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/OiU6hsSE6CQD3NKG.html#comments Mon, 28 Feb 2022 10:34:00 +0800
《经济学人》新观点:机器人数量增长不会减少人类就业机会,反会促增岗位数量 //www.xyschoolife.com/category/academic/TeK9mCT7jb3f5rSf.html

近日,英国权威期刊《经济学人》(The Economist)就人工智能对人类的影响进行了最新讨论:发展机器人对「打工人」是利还是弊?综合多项研究调查表明,将机器人视为「工作杀手」的说法是十分片面的。

作者 | 王晔

编辑 | 陈彩娴

自2016年Alpha Go战胜人类世界围棋冠军李世石以来,「人工智能威胁论」在普罗大众中的影响就甚嚣尘上。

人们担忧:世界冠军这等智商极高的人类都能被人工智能打败,我等凡人又岂能侥幸逃之?

Alpha Go的出现,就如同一枚炸弹投入原本波澜不兴的海面,惊涛骇浪。这时,人们再环顾四周,早已渗透在日常生活中的机器人作业与自动化产线,也突然变得不再只是象征「智能化」,更被视为了人工智能有一天将会「全面」代替人类的表现。

因此,另一种声音开始成为大众看待人工智能的主流观点之一:机器人会在越来越多的岗位上威胁「打工人」、提高社会的失业率。

显然,这是一个武断的说法。机器人的「职业工具属性」确实肉眼可见地在增加,但至于是否会在人类的社会生活中威胁到就业率,仍有待商榷。比如,《经济学人》便提出:目前全球人工智能与机器革命正处于发展中期,但2019年发达经济体的就业率飙升至历史最高水平,机器人使用率最高的日本与韩国的失业率恰巧是最低的。

在《Economists are revising their views on robots and jobs》一文中,笔者谈到,尽管近两年新冠疫情的大流行加速失业率飙升(比如美国在2020年4月的失业率曾高达14%),使人们将失业率与自动化生产直接因果挂钩,但「自动化发展引起失业的证据并不多」。

不仅如此,发达国家还面临劳动力短缺的问题。根据OECD(经济合作与发展组织)的统计,近两年岗位空缺的数量甚至还破了新纪录,被认为更容易被机器人取代、技能要求低的职业工资增长得却异常迅速。

换言之,机器人的「打工人威胁论」是不是空穴来风?



1

自动化 vs. 就业率

事实上,不久前哈佛大学的研究者Philippe Aghion等人提出了一个关于机器人的新观点:从公司层面来看,自动化发展所带来的直接影响可能是增加就业,而不是减少就业。

论文地址:https://scholar.harvard.edu/files/aghion/files/direct_and_indirect_effects_of_automation.pdf

在研究报告《The Direct and Indirect Effects of Automation on Employment: A Survey of the Recent Literature》中,Philippe Aghion调查了大量文献与数据,发现过往的研究聚焦于「自动化减少劳动力」的陈词滥调中,没有从企业的发展层面讨论问题。

早在2020年,基于国际机器人联合会(IFR)的总体数据,MIT的Daron Acemoglu与波士顿大学的Pascual Restrepo就调查了1990年至2007年间工业机器人对美国就业市场的影响,发现自动化是影响就业的主要因素——每千名工人中多一个机器人,就会使就业与人口的比率减少约0.2个百分点,工资增长减少0.42%。

更直白点,就是在美国,每多用一个工业机器人,就会取代6个工人。

但是,基于德国的数据,Wolfgang Dauth等学者在2021年发表了《Adjustment of Labor Markets to Robots》一文,反驳了这种观点,称「机器人对总就业率的影响为零」。类似报告也支持了这一观点,还指出「机器人密集化与总体的工厂生产力提高、工资上涨和产出价格下降有关」,机器人的使用有利于提升整体就业率。

相比往期报告从劳动力份额层面讨论,Philippe Aghion等人从企业层面的数据分析入手,发现了多家英美研究公司曾提出不一样的视角——自动化对使用自动化技术的企业的就业有直接的积极影响。

这背后的逻辑是:自动化企业的生产力会得到提高,可以在保证高质量的情况下降低成本,从而增加市场对企业产品的需求,由此扩大发展规模,提供更多的招聘岗位。与此同时,技术可能会帮助公司进军新的领域,或聚焦在劳动力更密集的产品与服务当中。

表格1:行业采用机器人的速度和就业人口比例的变化之间属于负相关关系

表格2:工具变量回归

根据表格2的分析,第(1)列从没有任何控制的回归开始,发现了一个负效应:每1000名工人多一个机器人会导致就业与人口比率下降1.317个百分点。第(2)列增加了对ICT和进口的控制,其幅度仍然相同。但第(3)列和第(4)列依次测试了人口特征和大区假数的影响,结果几乎没有受到影响。在第(5)列中,仅增加对制造业份额的控制就足以失去显著性,并大幅降低点估计。

结合不同的控制措施,第(6)列至第(8)列的规格提供了负的和有统计学意义的IV估计。然而,在第(9)列和第(10)列中,研究者用通勤区层面的制造业特定行业份额的控制来取代广泛的行业份额控制。

具体来说他们控制了期末机器人数量最多的三个2位数行业(占2014年机器人总数的74%):汽车、橡胶和食品行业。相对于指数的构建,这些是关键行业。系数仍为负数,但变得不显著。这最后两列强调,结果对纳入少数高度机器人化的行业是敏感的。



2

企业 vs. 工厂 vs. 行业

在Aghion等人的研究中,他们分为企业与工厂两个层面进行调查。他们发现,自动化对工厂就业的影响也是积极的,并且这种积极的影响会随着时间的推移不断增加。

如图1所示,若今天工厂的自动化程度提高1%,就业率就会上涨0.2%,十年后则会增加0.4%。企业层面的结果也类似。

图1:自动化对工厂层面的就业影响

图2则显示,在企业实现自动化后的几年里,自动化会转化为企业总销售额的增加。从投资自动化的那一年到八年后,这种效应将会保持稳定。

图2:自动化对企业层面的就业影响

在行业上,生产力效应会增加自动化企业与非自动化企业的竞争,具体表现为:

  • 自动化企业的生产力会使该企业的产品需求增加、市场份额上升,而非自动化企业的市场空间被挤压;

  • 使用机器人的企业创造了新的就业机会,扩大了经营规模,而不使用机器人的企业会逐渐在激烈的竞争中出现负产出,失去就业机会

对于国内就业来说,积极影响与消极影响不一定能直接抵消;因此,这种竞争在一定程度上要以牺牲其他国家的利益为代价。

图3表明,与没有进行自动化投资的公司相比,在新的工业设备上进行大量投资的公司在接下来的十年里,其倒闭的可能性会大大降低。

图3:对工业设备的大量投资对企业退出概率的影响

总的来说,就是自动化本身与就业并不敌对。通过使生产过程现代化,自动化技术可以给企业带来更强的竞争力,赢得新市场,从而在全球化的浪潮中雇佣到更多员工。



3

重新审视「AI威胁论」

在2017年发表的《Revisiting the risk of automation》一文中,Melanie Arntz等学者曾试图预测702种工作的计算机化概率,得出一个结论是「美国47%的就业岗位在未来十年或二十年内会面临自动化的风险,且只有33%的工作有较低的自动化风险」。

但Aghion的报告指出:这份分析其实忽略了工作的任务内容。事实上,如果考虑任务的差异性,美国工人中,只有9%会面临自动化的高风险。

越来越多的研究支持验证了Aghion等人的观点。比如,耶鲁大学的Daisuke Adachi及其同事研究了1978至2017年间日本的制造业。研究发现,每1000名工人中增加一个机器人,企业的就业率就会提高2.2%。

论文地址:https://daisukeadachi.github.io/assets/papers/robot_japan_latest.pdf

麻省理工学院(MIT)的Joonas Tuhkuri与其同事在另一项研究中考察了芬兰企业,也得出相似结论:对先进技术的采用导致了雇用的增加。

论文地址:https://economics.mit.edu/files/22239

总的来说,经济学家对于机器人与人类就业之间的关系的看法正在改变。

不过,Aghion等人也明确了一点:虽然自动化在公司或行业层面上促进了就业,但对整个经济领域的影响尚未可知。

理论上,采用机器人的公司可能会非常成功,然后在竞争中取胜,减少了可提供的工作岗位总数。诸如这样的问题还有待研究人员继续研究。但至少在这个阶段,我们可以明确的是:对自动化全盘悲观的叙述时代已经结束。

AI科技评论招聘JD

招聘岗位:人物编辑
职位亮点:一个能让你走得更快的平台
1、负责雷峰网技术前沿组的原创内容生产,记录人工智能行业的激荡故事;
2、与国内外科技大佬对话,输出人物专访报道与深度稿件;
3、紧跟行业最新动态,参加各类前沿会议,独立发现新闻选题,输出高质量快反文章。
我们希望你具备:
1、本科及以上学历,计算机或新闻传媒专业相关背景优先;
2、1年以上文字编辑经验,对人物与科技故事感兴趣,对人工智能有自己的独特认知;
3、具备良好的沟通能力,写作功底扎实,较强的逻辑能力与分析能力。
联系方式:hr@leiphone.com

雷峰网雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/TeK9mCT7jb3f5rSf.html#comments Thu, 24 Feb 2022 10:46:00 +0800
中国首次!清华刘奕群团队获得WSDM 2022唯一最佳论文奖,港中文获得「时间检验奖」 //www.xyschoolife.com/category/academic/jnpRxJmeJ4tIRZks.html

作者 | 西西
编辑 | 陈彩娴
2月21日至25日,第15届国际互联网搜索与数据挖掘大会(WSDM 2022)在线上召开,来自清华大学计算机系的研究团队获得了大会唯一的最佳论文奖!
这也是自大会创办以来,由来自中国的科研团队首次获得该奖项。
WSDM(读音为「Wisdom」)由国际计算机学会(ACM)旗下的信息检索(SIGIR)、数据挖掘(SIGKDD)、数据库(SIGMOD)与网络信息处理(SIGWEB)等四个专委会共同举办,在数据挖掘领域享受崇高的学术声誉。
此外,除了最佳论文奖,WSDM大会还公布了「时间检验奖」的获奖工作——香港中文大学团队的“Recommender systems with social regularization”(WSDM 2011)。



1

WSDM最佳论文奖
据大会官网信息,清华大学获得今年WSDM唯一最佳论文奖的工作是“Learning Discrete Representations via Constrained Clustering for Effective and Efficient Dense Retrieval”(基于有约束聚类的离散表示学习提升稠密向量检索性能)。
论文链接:https://arxiv.org/pdf/2110.05789.pdf
论文作者为:詹靖涛,毛佳昕,刘奕群,郭嘉丰,张敏,马少平。第一作者为清华大学计算机系博士生詹靖涛,通讯作者为清华大学计算机系刘奕群教授,相关成果由清华大学、中国人民大学、中科院计算所等单位共同完成。
图注:刘奕群教授
随着深度学习和预训练语言模型等的广泛应用,稠密向量检索已经成为互联网搜索过程中最重要和频繁的数据操作之一,但已有的稠密向量检索模型与传统索引检索模型相比大幅增加了存储开销与时间复杂度,造成了性能提升的重要瓶颈。
针对上述问题,这篇论文提出了一种通过有约束聚类(Constrained Clustering)改进稠密向量检索过程的检索模型RepCONC。
图注:论文提出的检索模型训练流程图
该模型基于有约束聚类方法端到端地联合优化文本编码器和向量量化过程,RepCONC约束稠密向量被均匀地分配到不同的量化中心,从而大幅提升了稠密向量表示的可辨别性,改善了检索性能。
论文从理论上证明了该约束的重要性,并使用最优传输理论推导了有约束聚类过程的近似解以提升算法效率。RepCONC可以在业界通用的向量倒排文件系统(IVF)上运行,即使脱离GPU仅使用CPU也能取得较好的索引压缩与检索效果,比传统稠密向量检索方法在压缩比、检索性能、时间效率等方面均有显著提升。
图注:约束聚类过程的示意图
除了每年选出的唯一最佳论文,大会还分别选出了3篇最佳论文提名(Best Paper Award Runner-Ups):
  • Doubly Robust Off-Policy Evaluation for Ranking Policies under the Cascade Behavior Model(东京工业大学)
  • Evaluating Mixed-initiative Conversational Search Systems via User Simulation(提契诺大学)
  • The Datasets Dilemma: How Much Do We Really Know About Recommendation Datasets?(南洋理工大学)



2

时间检验奖
获得WSDM 2022「时间检验奖」的工作是来自香港中文大学的“Recommender Systems with Social Regularization”。
大会给出的颁奖理由是:
推荐系统已成为学术界与工业界经久不衰的研究课题。委员会选中这篇论文,是因为它的重要性和对领域的影响力。该论文深入探讨了信任和推荐之间的关系,认识到用户不一定与他们信任的人有相似的品味,但同时又肯定了信任对推荐的重要性。论文作者通过为多个不同的推荐任务建立最合适的社交联系,从而帮助确立了将社交信号纳入推荐系统的价值。因此,这篇论文不但产生了强大的影响力(在 WSDM 时间检验奖的所有提名中被引用次数最多),还提前预见了信任和透明度在推荐系统中的重要性,在近日已成为一个重要的话题。
该论文在2011年WSDM 2011接收。
论文地址:https://dennyzhou.github.io/papers/RSR.pdf
在这篇工作中,香港中文大学计算机系的研究团队开创性地研究了当时少人问津、现下火热的「社交推荐」问题。目前,社交推荐已成为各个互联网产品的必备技能,微博、抖音、淘宝、微信「看一看」等等都有该功能。
他们基于用户的社交好友信息(从豆瓣等平台挖掘数据),提出了两种社交推荐算法,采用社交正则化项约束矩阵分解目标函数,来帮助提高推荐系统的预测准确性。实验结果表明,他们的方法非常通用,适用于解决多种类型的信任感知推荐问题。
不仅如此,该论文还会反向思考,意识到:社交关系的存在可能会降低推荐质量。从单一信任出发亦可能产生准确率较低的推荐,比如擅长研究球鞋的朋友不一定擅长电影推荐。因此,作者们又很早就用相似度函数,设计了基于不同推荐任务来识别目标朋友群的算法,以对社交系统进行更真实的建模。
在论文中,他们提出:他们相信,随着在线社交网站的快速发展,基于社交的研究会越来越流行。事实证明,确实如此。
参考链接:
1.https://www.wsdm-conference.org/2022/
2.https://mp.weixin.qq.com/s/FLtWupAxoqAthXYQOa3YrQ?v_p=89&WBAPIAnalysisOriUICodes=10000001&launchid=10000365--x&wm=3333_2001&aid=01A3NNUgUONWBBii_bsE-e7BIuQxBjrg6ihZ9c4RkfEruJoPI.&from=10C2093010

雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/jnpRxJmeJ4tIRZks.html#comments Wed, 23 Feb 2022 10:24:00 +0800
IEEE Fellow杨铮:打破「视觉」垄断,无线信号为 AI 开启「新感官」 //www.xyschoolife.com/category/academic/XcwzE0yF2qHjdqxK.html 2020年年初疫情刚开始时,清华大学的官方号曾祭出一篇题为《清华教师升级「十大神器」,上课力满格》的推文,讲述了软件学院某老师如何居家办公、探索出一套防止学生偷懒帮助学生远程上课的云端设备的故事。

据当时的官方报道,该老师信誓旦旦:「不能说万无一失,但有10大『神器』护法,无论是断电、断网、硬件崩溃、软件崩溃,都不能阻挡我一颗上课的心!」真·学生听者伤心、闻者落泪。

这位老师,就是后来入选2022年IEEE Fellow的最年轻华人学者杨铮,年仅38岁。他也是迄今为止国内为数不多的、入选IEEE Fellow时职称仅为副教授的高校学者。

抛去自带搞笑BGM的行事风格,杨铮对科研探讨的认真与严谨也同样令人印象深刻。

杨铮师从国内物联网先驱刘云浩,看似与人工智能无关,但巧合的是,他所研究的方向正是物联网与人工智能的交叉一支——智能无线感知。2021年他被IEEE选为Fellow的原因,也正是其在智能无线感知上的贡献。

围绕着「智能无线感知」,AI科技评论与杨铮教授进行了深入探讨,发现了该方向的许多有趣的点。

比如,同样是「识别」与「检测」,人工智能中应用最广泛的莫过于计算机视觉,但该方向主要是通过视觉捕捉环境信息而后分析,而杨铮所研究的智能无线感知技术却可以仅靠无线射频信号(如WiFi、5G)就能掌握环境内的信息。后者去掉了对视觉的依赖,也就能很好地消除了当前计算机视觉在落地应用中所面临的隐私、遮挡、弱光等问题。

换言之,无线感知为人工智能带来了视觉以外的新「感官」。

此外,无线感知的许多研究也是当前火热的「元宇宙」的技术基础。比如,杨铮团队近期提出的工作FollowUpAR,就将无线感知技术与混合现实技术进行深度融合,帮助AR应用在移动目标上渲染连续、流畅的立体特效,堪称智能无线感知赋能元宇宙的一个典型案例。

基于射频信号的无线感知究竟是「何方神圣」?下文为你揭晓。

1、「知」与「智」

从古至今,人类对「真理」的追求,都可以概括为从对物理世界的「知」到掌握万物规律的「智」。

然而,基于有限的认知条件,人在实现「智」的过程中常常遇到挑战。在《理想国》一书中,柏拉图就曾用「洞穴寓言」形容人类认识世界的局限性:一束光照进洞穴,将外界的事物投影在洞壁上,洞穴里的人只能通过投影去观察外面的世界。

图注:柏拉图的「洞穴寓言」实验

后来,随着现代文明的推进,尽管人类对物理世界的感知方式有了科技的辅助,得以打破主观认识的局限性,经历了传感器、无线传感器与传感网等多个阶段的演变,但要实现一个万物智联的「泛在智能」时代,也仍有漫漫长路。而这,正是智能无线感知的目标。

「事实上,早在两千多年前,我国思想家荀子就已在《正名篇》中讨论过人类感知与智能之间的关系——『知之在人者谓之知,知有所合者谓之智』。但荀子他老人家肯定没预料到,有一天『知』与『智』会结合起来,并且从『人』延伸到『物』。」杨铮布道。

简单来说,无线感知是一种利用泛在无线信号来实现场景感知的技术。

这些「泛在无线信号」来自于我们身边所部署的各种无线设备,包括Wi-Fi热点、蓝牙、RFID等,不仅可以传输数据、完成本职任务(如通信),还可以「额外」用来感知环境,因为信号发射机产生的无线电波经由直射、反射、散射等多条路径传播,在信号接收机处形成的多径叠加信号携带了反映环境特征的信息。

尽管这些无线射频信号无法被眼睛直接感受到,但却可以被无线通信收发机捕捉,成为视觉之外感知物联世界的「新器官」。

以基于射频信号的跌倒检测为例。人们在跌倒的时候,会引起无线信号传播路径的变化,从而影响到接收的无线信号。无线感知技术通过提取相应的特征,分析无线信号在传播过程中的变化,借助分类算法总结出跌倒与其它活动所导致的无线信号变化的差异,判断环境中是否有跌倒动作发生,从而实现跌倒检测。

图注:Wi-Fi信号可视化

也就是说,无线感知就是现代科学家「隔空打牛」的秘密武器。

「所以大家以后在密谋坏事时,除了关好门、拉好窗帘,检查桌子底下有没有窃听器,也不要忘记把Wi-Fi关掉哈哈。」杨铮笑道。

通过分析接收信号特征,获得信号传播空间的特性,无线感知技术无需部署专用的传感器就可以实现对人与环境的感知,具备感知范围广、维护易、普适性强等优势,已成为过去几年物联网领域的研究热点,涌现出大批研究成果。

但事实上,利用专用的无线射频信号进行环境的探测和探知并不是一个特别新鲜的概念。早在二战之前、雷达出现后,人们就已经开始在军事领域利用声呐、射频信号对待测区域内的目标进行感知。战后数十年来,雷达也逐渐从军用走向民用,出现了气象雷达、测速雷达、地形跟踪雷达等多种不同功能的雷达。

那么,无线感知技术在今天为何仍能吸引国内外的一众科学家投身其中呢?近年来,全球研究者在无线感知领域陆续提出了一系列瞩目的新成果,如UW的WiSee、MIIT的WiTrack、UCL的Phaser等等。包括美国、英国在内的多个发达国家也都将无线感知列为重点支持的方向。

杨铮的观点是,尽管利用无线信号来实现感知的概念并不新鲜,但从「泛在性」与「普适性」这两个维度来看,利用商用通信技术实现泛在智能感知仍处于起步阶段,给许多研究者提供了更多的可能性。

2000年是一个分水岭。彼时,各式各样的无线通信技术蓬勃发展。就拿Wi-Fi来说,从21世纪初开始,Wi-Fi接入点的数量可以称得上是「爆炸式增长」,如今几乎各家各户、各类室内场所都部署了Wi-Fi接入点。

「我认为这是对『泛在无线感知』的最大利好,也是最坚实的研究基础。」杨铮谈道,「特别是随着 802.11n/ac/ax 这一众标准的演进,商用设备的天线数量越来越多,频谱宽度越来越大,这也让我们对泛在无线感知以及通信感知一体化的前景抱有更大的信心。」

在某个意义上,物联网是解决「泛在感知」的问题,而人工智能是解决「普适智能」的问题,2019年风靡一时的概念「AIoT」便是两者的结合。

人们普遍相信,物联网与人工智能技术将共同推动人类社会从「万物互联」走向「万物智联」。只是不同于以往,这一潮流由工业界率先预见并引领,比如,华为提出「构建万物互联的智能世界」,小米将「AIoT」作为核心战略,BAT等互联网公司也列出相似愿景。

作为物联网与人工智能的交叉领域,无线感知正反映了这一趋势,成为当前学术界研究和工业界追寻的热点。

2、智能无线感知的发展

当前,国内无线感知的发展呈现出两大特征与趋势:

1)感知粒度逐渐细化。例如,从人员感知应用来说,从发展初期的人员入侵检测,到人员的被动式定位追踪,再到现在的手势识别,感知的粒度从人员是否存在,到人员的位置,再到各个身体部位的活动,粒度越来越细致。

2)落地化趋势越来越明显,无线感知正从实验室理论研究走向家庭的日常应用。据杨铮观察,近段时间,工业界对非传感器感知也越来越重视,各种基于非传感器感知的应用平台在逐渐开发,呈现出各类相关应用正迈向「千家万户」的特征。

智能无线感知的应用场景非常广泛,覆盖安防、医疗、人机交互甚至元宇宙等领域。其中,医疗监护是杨铮最看好的应用方向,包括非接触性心跳、呼吸监测,以及跌倒检测等。

尤其是跌倒检测(如苹果的Apple Watch 4增加该功能):「随着人口老龄化的现象越来越严重,很多老年人独自生活。日常调查发现,跌倒是导致老年人受伤的主要原因之一,严重时跌倒甚至能够危及生命。所以说,研究一套可靠的跌倒检测机制,对于老年人来说显得非常重要。」

智能感知的学者们如杨铮,对该方向的应用前景都十分乐观。然而,杨铮也明确指出,当前国内智能无线感知的发展仍存在三大挑战,即有效特征湮没、识别模型粗陋、数据集缺失。

图注:非传感器感知的三大挑战

从特征部分来说,由于无线信号包含了信道传播空间的信息,已有的大部分工作提取的信号特征均依赖于系统部署的具体环境。因此,不同的使用环境、不同的用户,甚至同一用户的不同位置和不同朝向等都会降低感知的准确率。针对新的场景,大部分工作需要重新采集数据进行训练,使得无线感知普适性差、学习训练成本高,系统的泛化能力受到较大的影响。

从模型部分来说,已有的大多数模型基于对无线信号传播的以及硬件条件的完美假设,但在实际部署场景中,无线信号的实际传播包含有衍射、散射、非镜面反射等多种情况,商用的网卡通常也包含有大量噪声,不同网卡之间的特性有着较大的差别。对无线信号的传播模式、误差消除等系统性建模的缺失,使得无线感知系统的运行结果与理论预期之间仍存在着一定的差异。

从数据集方面来说,由于无线感知方面的数据集采集费时费力,不同的团队采集的数据存在着采集硬件、场景等多方面的差异,这也阻碍了本领域基础数据集的公开与共享,研究的数据量不足、应用场景较少,影响了本领域的技术分析与进步。

要解决上述问题,任重道远。

3、杨铮的研究之旅

作为国内少数率先研究无线感知结合的青年学者之一,杨铮的研究之旅始于2012。彼时,他刚从香港科技大学取得计算机博士学位不到两年,回到清华大学任教,是一名资历不深的「青椒」。

从博士开始,杨铮就一直从事物联网方面的研究,包括智能感知、工业互联网、边缘计算与区块链等。当时,他的博士导师是国内物联网的先驱学者刘云浩。刘云浩是ACM与IEEE双Fellow、ACM主席奖首位华人获得者,2020年暑假,他曾万字答复清华学子2000个关于人工智能的问题,被清华官方「点名」,走红网络。

图注:2007年博士期间,杨铮(左)与博士导师刘云浩(右)合影

「在我刚开始博士生涯(2006年)时,业界研究的一个热点其实是无线传感网。」杨铮对AI科技评论回忆道。

无线传感网可以被理解为如今物联网的雏形,它通过无线通信技术(如蓝牙、ZigBee等等)来实现传感器节点之间的信息交互,但是感知的任务需要交给各类专用的传感器设备来完成。显然,这必然就限制了无线传感网的灵活性。

「部署无线传感网其实是一个特别费时费力的过程,不仅要保障传感器节点本身的感知功能,还要保障它们点对点之间的通信性能。所以我在博士研究期间,每次做实验,仅仅是部署实验设备就要下很大一番功夫。」

在当时,他就希望探索一种更加泛在、普适的感知方式,降低系统部署的人力成本与设备开销。

大约在2010年前后,他开始关注一些使用无线信号进行定位的工作。这种「非传感器感知」的模式,不依赖任何专用的传感设备,只使用收发机设备,通过解析信号特征,就能进行室内的设备定位。相比无线传感网,部署成本更低、普适性更强,更容易推广,吸引了杨铮继续研究下去。

图注:杨铮刚到清华任教时

从2012年至今,杨铮与团队经过不懈的努力,已经逐步实现了基于无线信号的定位、追踪、导航,再到人员手势识别、心跳呼吸检测等等一系列工作。

针对上述这三大挑战(特征、算法与数据),杨铮团队在Widar系列(尤其是Widar3.0)中提出了自己的解决方案。

据杨铮介绍,Widar是Wi-Fi Radar的缩写,Widar系列工作在保证Wi-Fi原有通信功能的基础上,赋予了商用Wi-Fi设备强大的环境感知能力。从第一代的多设备人员定位,到第二代的单设备人员追踪,再到第三代的手势识别,Widar系列工作对环境的感知粒度也在不断细化,充分探索了通信感知一体化的技术可行性。

对于无线信号特征,杨铮团队的研究思路集中在两点:多维特征融合与提取环境无依赖的信号特征。

「多维特征融合指的是,综合使用信号衰减、到达角度(AoA)、飞行时间(ToF)、多普勒频偏(DFS)等多种信号特性,更加准确地完成无线定位与感知的任务。

环境无依赖的信号特征,就是要建模出一种不依赖于环境特性的,泛化性强、鲁棒性强的特征,比如我们在 WiDar3.0 中提出的人体坐标系下的速度谱(BVP),就能够以人体坐标为基准,更加全面而准确地描述不同环境与朝向下人体的动作特征,从而实现适用于各类场景下的高精度手势识别任务。」

Widar3.0 论文地址:http://tns.thss.tsinghua.edu.cn/~yangzheng/papers/Zheng-Widar3-MobiSys2019.pdf

模型方面,杨铮主要在 Widar3.0 中借鉴了深度神经网络(DNN)模型的方法。

「深度学习浪潮的兴起,给无线感知领域也带来了很大启发。近几年来,不少工作都尝试将无线信号以矩阵或张量的形式,输入到现有的一些分类模型中,来尝试获得更好的结果,但是并没有针对无线信号独有的特性对模型进行更加合理的设计。」

因此,杨铮与团队在Widar3.0中提出了经过一定设计的、能够充分挖掘无线的空间与时间维度特征的卷积与循环结构。

目前,他们团队也在致力于通过结合时频变换与经典的信号采样原理,设计一种适用于无线感知的特征提取与判别网络,能够更加有效地挖掘出无线信号中的隐含信息,从而简化训练与学习的过程,并突破识别精度的瓶颈。这项工作目前正在投稿中。

作为Widar系列的第三代工作,Widar3.0的主要贡献在于实现了环境无依赖的手势识别。

具体来讲,先前的基于无线信号的各种识别系统,只能够在采集训练数据的特定几个环境下保持较高的准确率,而缺乏在其他场景下使用的可能性,这是因为现有的方案采用的特征质量低、模型设计粗陋,从而会导致一定的泛化性问题。杨铮团队结合对人体动作方向性的观察,提出了人体坐标系下的速度谱(BVP),在特征的层面上解决了系统的域适应(domain adaptation)问题。

此外,在Widar3.0中,基于信号时间相关性与时频变换原理设计的网络结构,也有助于提升模型的训练速度与精度。总之,Widar3.0在特征与模型这两个层面上,有效改良了智能无线感知系统的设计。

图注:Widar数据集(手势识别)

最后是数据集。杨铮认为,近年来计算机视觉和深度学习的蓬勃发展离不开 ImageNet 等诸多公开的海量数据集。因此,他们也希望构建一个专门面向智能无线感知的数据集。从2017年提出Widar1.0开始,之后的2.0、3.0中,所有的原始 CSI 数据与信号特征数据都是开源的。这些数据涵盖75个场景下采集的26万组动作,采集总时长144个小时,数据总规模大约是325 GB。目前该数据集在手势识别的基础上扩充了跌倒检测等新数据。

Widar3.0的数据集地址:http://tns.thss.tsinghua.edu.cn/widar3.0

「我们希望能够通过(开源)这种方式,来支持研究者们在无线感知领域做出更多创新性的工作,为无线感知领域的发展贡献一点绵薄之力。」杨铮谈道。

构建数据集是一个大工程。杨铮清醒地认识到,在大数据时代,仅靠自己一个团队人工采集数据,是无法支撑庞大的感知应用的。因此,研究者仍需调动更多的力量,使用更多技术手段来扩充感知数据集。

在这方面,杨铮有「三把斧」:

首先,他们基于统计电磁场模型与射线追踪模型,开发了一个物理层级别的无线信号仿真器,将仿真数据作为真实数据的补充,以期解决训练数据不足、特定环境中数据难采集的问题。

在此基础上,他们也正在尝试采用生成式对抗网络(GAN)的架构,使用已采集的真实数据训练一个鉴别器,并基于上述仿真器开发一个无线信号生成器,通过对抗学习,生成「以假乱真」的感知数据,以有效扩充数据量。

最后,他们还准备参考数据挖掘等领域的采集方式,采用「众包」等策略,鼓励用户们使用家庭中的网络设备,实际采集大量的无线信号数据以供研究使用。在此过程中,用户可以获取一定的资金作为激励。

但个人的力量总是有限的。众人拾柴火焰高,杨铮呼吁大家能够积极参与感知数据集的开源工作,通过开放共享的形式,推动感知数据集的规模扩充。

4、人工智能与感知的「联姻」

在物联网上,杨铮的两大研究方向分别是智能感知与工业互联。他解释:

「智能感知是通过分析视觉、射频、声光等信号的特征,应用人工智能技术来挖掘物理世界的状态或发生的事情,实现泛在感知与泛在智能。而工业互联针对工业生产场景,提出控制即服务的工业网络架构,研发具有确定性、低时延的时间敏感网络,将信息(IT)网络与生产(OT)网络合二为一,实现控制任务的服务化,支撑未来智能柔性生产。」

那么,在智能无线感知中,基于机器学习、深度学习与对抗学习的算法能够扮演什么角色?研究者又是如何将 AI 算法与无线感知结合在一起的?

「这个问题特别好,这也是我们团队近年来一直在思考的问题。首先,无线感知拓展了人工智能的『视野』,增加了多一个维度的感知信息。」杨铮谈道。

在过去的十年里,杨铮与团队尝试了很多机器学习模型来帮助构建更加智能、鲁棒的无线感知系统。

例如,在荣获人机交互顶会 CHI 2017 最佳论文荣誉提名奖的工作 WiDance 中,杨铮就尝试了使用经典的隐马尔可夫模型(HMM);在2019年发布的 WiDar3.0 中,他们又基于卷积神经网络(CNN)和长短时间记忆网络(LSTM)设计了一种高精度的动作识别网络模型;此外,他们也尝试在无线指纹定位的工作中引入了域对抗(domain adversarial)等一系列机制来保证系统在不同环境中的鲁棒性,实现环境无依赖的定位与感知。

WiDance论文链接:http://tns.thss.tsinghua.edu.cn/~yangzheng/papers/Qian-WiDance-CHI2017.pdf

「所以我一直以来的感受就是:感知、智能本来就应该是一体的。包括机器学习在内的各类智能算法,负责分析数据、给出结果,而物联网中的各类传感设备(既包括视觉感知也包括无线感知),则为智能算法提供基础的数据支持,它们从物理世界中实时地获取数据,并将处理后的结果反作用回物理世界之中。」杨铮对AI科技评论评论道。

一方面,无线感知向人工智能在视觉中的应用来「取经」;另一方面,无线感知也对神经网络的设计起到一定的启发作用。比如,杨铮就提到,在无线感知中,一些针对信号处理的经验,也能够指导我们进行更加高效、合理的神经网络设计:

「无线射频信号有着不同于视觉信号的独有的特征,这些特征对于特定感知识别任务来说是非常有益的。如何深入挖掘这些无线射频信号独有的特征,也是设计人工智能模型时应该特别考虑的。」

由于感知与智能的紧密关系,将人工智能(尤其是深度学习)与物联网领域的研究相结合已成为主流的研究方式。近年来,发表在顶级会议的无线感知论文,结合了深度学习技术的工作占据了「半壁江山」。

尽管身处物联网圈,但杨铮时刻关注人工智能(尤其是深度学习)的最近进展,寻找它们和自己工作之间的共性,也多次从中找到了新的科研机会。

杨铮坦言:「挑战当然也是有的。大多数模型一开始被提出都是被用于计算机视觉或自然语言处理领域,因此,将这些方案灵活地迁移应用到自己的研究领域,不仅需要我们对自己的研究领域有深刻的理解,也需要吃透各类神经网络设计哲学,才能避免『生搬硬套』。」

「更大的机会在于,无线感知作为视觉之外的感知方式,目前还没有得到人工智能方向的重视。」

在同一类应用上,与视觉相比,无线感知有时会取得更出色的表现。

就拿跌倒检测来说。目前常见的跌倒检测技术包括计算机视觉、可穿戴传感器以及专用的雷达硬件。杨铮指出,这些技术都存在一定的缺陷:计算机视觉容易涉及用户隐私,并且通常只能在光照条件良好的情况下才能工作;可穿戴的传感器需要佩戴特定的设备,对于老年人来说使用起来十分不方便;而大规模部署特定的硬件又需要较高的成本。

在这类场景中,与计算机视觉等技术相比,基于非传感器的感知就体现出了自己的独特优势:例如,Wi-Fi 感知便不受上述条件的限制,为跌倒检测提供了一个新的思路。目前,几乎家家户户都部署了Wi-Fi设备,无需部署新的硬件设备;基于Wi-Fi的感知不需要用户佩戴特定的设备,在无光照的条件下也可正常工作;它采集的无线信号信息也不会干扰用户的隐私。

而问及未来智能无线感知的技术发展更多取决于人工智能还是4G/5G等通信技术的进步,杨铮的回答是「两类技术都十分重要,它们会在两个不同的方面影响未来智能无线感知技术的发展」。

具体来讲,新一代的无线通信技术对于MIMO和Beamforming等新型技术的支持,在客观上为我们提供了更多的天线、更加细粒度的角度探测方法,同时新的通信技术一般都会通过更宽的频带以支持更高的通信速率,这也为距离分辨率的提升提供了一个最基础支持。

以深度学习为代表的人工智能技术,则充分挖掘了无线信号中更多的隐藏特征,对于系统的感知能力同样有着很大的提升。

所以说,4G/5G等通信技术的演进,提供了更多有效的信息,而人工智能技术的演进,则为信息的挖掘和处理提供了更多更有力的手段,二者的进步,共同推动了智能无线感知领域的繁荣。

5、无线感知的未来在于「泛化」

2021年,基于其在无线感知与定位方面的贡献,杨铮当选2022年IEEE Fellow,是同年入选的华人学者中最年轻的一位,年仅38岁。雷峰网

在智能感知上,杨铮的科研规划集中在两大块,一是基于无线信号的神经网络算法设计,二是推动无线感知商用化。雷峰网

尽管人工智能对无线感知的研究起到了重大的启发作用,但要将面向机器视觉的人工智能模型迁移到无线感知也是极其困难的。

当前的深度学习模型大多是基于图像数据、语言数据而定制的模型,如CNN、RNN。然而,无线感知中的射频信号相比于图像、语言,有自己的特点:其包含有时间、空间、频率等多维度的信息,数据大多为复数类型。

正是由于射频数据与已有的网络模型之间的差异,使得目前深度学习模型在无线感知领域仍然没有发挥出它最大的作用。所以,杨铮的想法是针对无线信号的特点,设计专用于无线信号的深度网络,使无线信号和深度模型实现更深层次的耦合,这样才能充分利用人工智能工具。

此外,目前的无线感知技术大多还停留在实验阶段,真正实现商用化的技术并不多。目前工业界对医疗健康的关注在上升,无线感知应用于跌倒检测的潜力也进入产学研三界的视线。杨铮与团队也希望为此作出贡献,设计出可靠的跌倒检测系统,提高系统的鲁棒性与泛化能力。

「我个人认为智能无线感知进一步发展的关键正是在于其场景泛化能力。更通俗地讲,我们设计的无线感知系统,是否真的能够像设想的一样,可以被直接应用到千家万户中,支持各类的无线设备、适应不同的复杂环境呢?目前看来,我们是面临着一些挑战的。」

杨铮分析,要提高无线感知技术的泛化性,研究者仍需解决以下几个问题:

首先,现有的 CSI 模型假设是否完美地符合实际场景尚未可知。过去很多年间,大多数研究者们都基于射线追踪模型,将墙壁、障碍物等视为一个理想的反射面,电磁波信号会被墙壁完美地镜面反射。这类假设虽然有一定的道理,但是在实际的复杂室内空间,无线信号更趋向于散射而非镜面反射,此外,无线信号的透射、衍射等效应均被不同程度上忽略了。所以,在某种意义上,无线感知的精度限制,正是来自于过于完美的假设。一个更加符合实际的、通用的信号传播模型亟待构建。

另一方面,一部分研究者习惯于借助高灵活度的软件定义无线电(SDR)设备进行研究和实验,然而,当感知系统落地,用户们实际只能使用商用网卡。商用网卡的非线性误差、载波频偏、包检测延迟等实际因素不被解决的话,再好的感知系统设计也将成为「空中楼阁」。此外,不同网卡型号的误差模式、误差系数也有着非常大的差别,因此针对不同类型的无线设备,我们需要制定智能化、自动化的误差校正和消除策略,才能保证智能感知系统的运行结果和我们预期当中一致。

最重要的是,科研人员在进行实验时,往往只能在有限的几类室内环境中采集数据进行训练和测试。然而,实际使用环境的复杂性和多样性,往往大大超出训练环境。这也是为什么杨铮强调研究要从特征、模型、数据等多个层次上增强系统的泛化性:特征层面上可以设计环境无依赖的鲁棒特征;模型层面上可以尝试使用域适应(domain adaptation)策略,借鉴域对抗(domain adversarial)网络的思想,完成多类场景的快速迁移;数据层面上就要想方设法扩充数据集的多样性。

「不过目前已经有很多研究者意识到这些问题了,并提出了不少可行的解决方案,所以我对我们智能无线感知领域的发展仍然是抱有十足的信心,相信在不久的将来,我们就能够亲眼见证智能无线感知系统的落地与应用。」杨铮笑道。雷峰网

最后,杨铮老师正在招收博士后与博士生,对物联网有兴趣的同学可以给杨铮老师发邮件:yangzheng@tsinghua.edu.cn。

参考链接:

1.http://tns.thss.tsinghua.edu.cn/~yangzheng/

2.https://scholar.google.com/citations?user=ExRe-64AAAAJ

3.https://www.nwnu.edu.cn/2020/0708/c3842a145368/page.htm

4.https://cs.bit.edu.cn/xyxw/fc530c4af4c84ef8abb128c59966b6f1.htm

5.https://baijiahao.baidu.com/s?id=1658509271522706294&wfr=spider&for=pc

]]>
人工智能学术 //www.xyschoolife.com/category/academic/XcwzE0yF2qHjdqxK.html#comments Sat, 19 Feb 2022 14:33:00 +0800
DeepMind用深度强化学习研究“人造太阳”!据说这是秘密进行了3年的工作 //www.xyschoolife.com/category/academic/JiQIjLlNmXmgzRud.html
“AI+物理”成功破圈,DeepMind 怕是要上天。

作者 | 王晔

编辑 | 陈彩娴

北京时间凌晨四点,DeepMind在官方推特上发布消息,称其与瑞士洛桑联邦理工学院(EPFL)合作研究出第一个可以在托卡马克(Tokamak)装置内保持核聚变等离子体稳定的深度强化学习系统,为推进核聚变研究开辟了新途径,工作已发表在Nature!

消息一出,立刻引起围观,收获一千多点赞、数百转发:

据该工作的其中一位成员@317070披露,该工作已经秘密进行了三年,并兴冲冲地表示:“它真的成功了!深度强化学习真的很擅长搞定这些人类迫切想实现的科幻想法。”

我们都知道,DeepMind是全球最早将人工智能应用于科学研究(即“AI for Science”)的研究机构之一,在过去的几年也取得了许多令人瞩目的成就,成功地在生物、化学、数学与物理模拟等等领域扎下了AI的影子,并吸引一大批学者投身“AI for Science”方向的研究工作。

此前,在DeepMind兼职担任高级研究科学家的华人学者王梦迪便曾对AI科技评论谈到,DeepMind有强大的信心将人工智能用于推动人类文明的进步,这种自信也感染了许多年轻的科学家:

DeepMind的价值观就是要推动人类文明的进步。我感觉研究人工智能的学者都非常自信,觉得自己有能力解决世界上最难的问题。这种自信非常棒,会给予自己主观能动性,也会感染其他学者,帮助不同学科的人更快、更好地联合在一起,去解决原先以为难于登天的问题。

而近日DeepMind在难度更高的核物理发布突破成果,无疑更加证明、巩固了其在“AI for Science”方向的领头羊地位!

更有意思的是,AI科技评论编辑组还发现,早在五年前(2017年),就有中国网友在知乎上提出将深度强化学习系统用于学习可控核聚变装置建造技术的设想。莫非 DeepMind 的科研是跟着知乎走的……(手动狗头)

言归正传,我们来看看DeepMind这次又搞出了什么花样!



1

什么是托卡马克装置?

首先,为了更好地了解DeepMind此次的突破,以及“AI+核聚变”的奥妙,我们需要知道:什么是托卡马克(Tokamak)装置?

此前,知乎上还有一个关于托卡马克的讨论:“刘慈欣在《三体》中为什么不待见托卡马克装置?(托卡马克装置有什么弊端)”:

链接:https://www.zhihu.com/question/31056640/answer/56816872

当时就有网友@Shigen Chin回答:

首先,超导托卡马克的材料成本相对较高,相比之下激光核聚变只是设备一次性投资高,而超导托卡马克对于装备本身损耗比较严重,对于后续投入是不利因素(尤其是三体成为现实威胁 亟需技术突破的情况下)。

其次,理论瓶颈,智子已经为物理理论研究建立壁垒,而超导托卡马克作为一种相对而言在可控核聚变研究中出现较早的思路,一直到现在没有大进展,很大程度上也是受理论研究所累,在没有取得理论突破的情况下,托卡马克装置投入实用的可能性不大

再次,托卡马克本身的小型化十分困难,因为托卡马克的实用功率和约束时间和装备体积正相关,超低温制冷,磁约束需要较为庞大的设备,而实现设备小型化也需要材料等基础科学的进步,这些方面的进步又依赖于物理理论的进步(比如建立于原子尺度研究和量子力学基础上的电子计算机的发明和量子计算机概念的提出 带动了对于晶体管和光量子材料的工艺研究)。

可能是基于以上的原因,大刘认为托卡马克不适于承担带领人类走入聚变时代的重任(笑)。

言归正传:

托卡马克,又称“环磁机”,俄语原文“Токамак”,是一种利用磁约束来实现磁约束聚变的环形容器,最早由位于苏联莫斯科库尔恰托夫研究所(NRC KI)的物理学家伊戈尔·塔姆、安德烈·萨哈罗夫和列夫·阿齐莫维齐等人在1950年代发明。

根据百度百科的描述,托卡马克的中央是一个环形的真空室,外面缠绕着线圈(如下面动图)。通电时,托卡马克的内部会产生巨大的螺旋型磁场,将其中的等离子体加热到很高的温度,以达到核聚变的目的:

图注:托卡马卡装置
维基百科介绍,托卡马克是当前用于生产受控热核核聚变能中研究最深入的磁约束装置类型。磁场被用于约束是因为等离子体冷却会使反应停止,而超导托卡马克可长时间约束等离子体。世界上第一个超导托卡马克为俄制的T-7(托卡马克7号):
听起来是不是很玄乎?
一个更直白的例子是,2019年,新闻上报道中国耗资千亿的“人造太阳”,就是可控托卡马克装置:

图注:中国“人造太阳”
由此可见,可控托卡马克装置的研发费用极高、实现难度也极高。以中国进行的实验为例,实验中核燃料的最高温度达到了1.3亿℃,压力高达100个大气压,整个宇宙中没有任何一种物质可以承受如此恶劣的条件。
那么,为什么我们要造一个这样的装置呢?原因也很简单:只有发展可控的核聚变技术,才有望解决当前人类社会面临着的严峻能源危机和环保压力。



2

AI+可控核聚变的前世

事实上,早在AlphaGo击败人类世界的围棋冠军李世石后,就有网友在知乎上提问:据说AlphaGo是从零开始自学,运用了深度神经网络与蒙特卡洛树状搜索相结合的技术,那么是否能让AlphaGo从零开始学习可控核聚变装置建造技术呢?
链接:https://www.zhihu.com/question/41295369/answer/142572075
底下有网友@刘亚问回答,高温等离子体高自由能与约束的问题是托卡马克技术的主要难点,深度学习网络可能有助于解决这些问题,但难点在于:
  • 托卡马克装置在目前的约束技术条件下,难以小型化
  • 装置造价,以及氘消耗、等离子体加温等其它方面运行的成本,使实验装置的数量、运行次数均受限,难以支持盲目的反复运行
  • 实验涉及高温等离子体,目前约束技术条件下重复反复运行有安全性问题
  • 缺乏获取大样本的条件
综上所述,深度学习技术不一定适合解决托卡马克可控核聚变装置。相比托卡马克,另一类核聚变装置——反场箍缩装置(Reversedfieldpinch,RFP)更适合用深度学习进行研究,因为:“其内外两套磁场方向相反的磁体合成的特殊磁场,可以稳定等离子体的边缘,体积相对小、运行成本相对低、安全性相对高。”
他还分享了资料,称机器学习的研究者从上世纪90年代末就开始将机器学习方法用于反场箍缩研究稳定等离子体的边缘的反馈控制:
  • Barana O, Manduchi G, Serri A, et al. A neural network approach for the detection of the locking position in RFX[C]// Fusion Engineering, 1999. Symposium on. IEEE, 1999:575-578.
  • Olofsson K E J. Nonaxisymmetric experimental modal analysis and control of resistive wall MHD in RFPs : System identification and feedback control for the reversed-field pinch[J]. Fusion Plasma Physics, 2012.
除了以上研究,从2014年起,谷歌就和核聚变公司TAETechnology进行合作,将机器学习应用于不同类型的聚变反应堆,以加速试验数据的分析;此外英国中部欧洲环面JET联合设施也在利用人工智能来预测等离子体的行为。
随着核聚变反应堆规模的增大,托卡马克设备越来越复杂,对于可靠性和准确性控制的要求也在不断提高,人工智能在其中将起到越来越关键的作用。



3

DeepMind如何做?

2月16日,DeepMind与EPFL合作研究的深度强化学习系统助力可控核聚变的工作在Nature上发布:
链接:https://www.nature.com/articles/s41586-021-04301-9
那么,他们是如何用深度强化学习实现在托卡马克装置内保持核聚变等离子体稳定的呢?
托卡马克装置研究的一个主要方向是将等离子体的分布构建成不同配置的效果,以优化稳定性、封闭性和能量排放,并为第一个燃烧等离子体实验ITER提供通知。
而要在托卡马克内限制每个配置,需要设计一个反馈控制器,通过精确控制几个与等离子体磁耦合的线圈来操纵磁场,以达到理想的等离子体电流、位置和形状。这个问题也就是著名的“托卡马克磁控制问题”。
在传统方法中,要解决这个时变的、非线性的、多变量的控制问题,首先要解决一个反问题,即:预先计算一组前馈线圈电流和电压,然后设计一组独立的、单输入、单输出的PID控制器,使等离子体保持垂直位置,并控制径向位置和等离子体电流,所有这些控制器在设计时也要注意不能相互干扰。
大多数控制结构都会增加对等离子体形状的外部控制回路,这就需要对等离子体平衡进行实时估计,以调制前馈线圈电流。控制器的设计建立在线性化模型动力学的基础之上,需要进行增益调度以跟踪时间变化的控制目标。尽管这些控制器在大多数情况下表现不错,但每当目标等离子体配置发生变化,就需要花费大量的工程努力、设计努力和专业知识,同时还要进行复杂的平衡估计实时计算。
这时,深度强化学习就派上了用场:
强化学习可以作为一种全新的方法,用来设计非线性反馈控制器,可以直观地设置性能目标,将重点转移到“应该实现什么”,而不是“如何实现”。此外,强化学习技术极大简化了控制系统,计算成本低的控制器取代了嵌套的控制结构,而内部化的状态重建消除了对独立平衡重建的要求。
一句话:这些优势可减少控制器的开发周期,加速对替代性等离子体配置的研究。
在这个工作中,他们提出了一个由强化学习设计的磁性控制器,可以自主学习指挥全套的控制线圈,既可以实现高水平控制,也能满足物理和操作的约束条件,在生产等离子体配置时大大减少了设计的工作量。

图注:DeepMind的架构为设计托卡马克磁约束控制器提供了一种变通方法。该方法主要有三个步骤:1)设计者为实验指定控制目标,该目标可能伴随着时间而变化;2)深度强化学习算法与托卡马克模拟器互动,找到一个满足指定目标的近乎最优的控制策略;3)神经网络形式的控制策略(零样本)直接在托卡马克硬件上运行。
经过三年的研发实验,他们在托卡马克 à 的配置变量(TCV)上成功生成并控制了一系列不同的等离子体配置,有形状传统、细长的,也有先进的,如负三角形和 “雪花”配置,深度强化学习系统可以对这些配置的位置、电流和形状进行精确地跟踪。
图注:通过深度强化学习,托卡马克装置中的等离子体电流、垂直稳定性、位置和形状控制情况
此外,他们还介绍了TCV上的可持续“雨滴” (droplets’),其中两个独立的等离子体可同时保持在容器:
图注:在 200 毫秒控制窗口中持续控制 TCV 上的两个独立“雨滴”



4

写在最后
目前为止,在可控核聚变上取得的最好成绩来自欧洲联合环状反应堆(JET),今年的2月9日,JET中的聚变反应在5秒内以中子的形式释放出总共59兆焦耳的能量——这个数值并不高,大概只能烧开几十壶开水而已。
人类早已实现了输出能量小于输入能量的可控核聚变,以JET创下的世界纪录为例,其Q值(聚变能增益系数,输出能量与输入能量之比)约为0.33左右。要实现真正可用的核聚变清洁能源,需要通过新的范式的研究,不断提高核聚变的Q值。
DeepMind 团队坚信:他们的深度强化学习系统为托卡马克装置中的等离子体磁约束提供了一个新的范式。
更重要的是,他们的控制设计表明了基于机器学习的控制方法的优势。
要实现AI+核聚变,需要科学与工程的双管齐下,硬件与算法缺一不可。他们相信,深度强化学习框架有可能塑造未来的核聚变研究与托卡马克装置的研究发展。
大家怎么看?
参考链接:
1.https://www.zhihu.com/question/31056640/answer/56816872
2.https://scitechdaily.com/science-made-simple-what-is-a-tokamak/
3.https://www.zhihu.com/question/41295369/answer/142572075

雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/JiQIjLlNmXmgzRud.html#comments Fri, 18 Feb 2022 10:21:00 +0800
她力量!4位华人女性科学家获得2022年斯隆研究奖,史无前例 //www.xyschoolife.com/category/academic/BYWBVEzbQRCcL2Zd.html
作者 | 西西
编辑丨陈彩娴
今天,2022年斯隆研究奖(Sloan Research Fellowship)名单公布,计算机科学领域 6 名华人学者当选,其中 4 人为女性科学家!
她们分别是:陈丹琦、方飞、李博与宋舒然。
目前四人均在人工智能领域从事科研工作,曾在多个面向青年研究者的奖项与活动中脱颖而出,已经是“老面孔”了。
四人中,陈丹琦与方飞的本科毕业于清华大学,而李博与宋舒然本科则分别就读于同济大学与香港科技大学。
得知斯隆研究奖的最新名单后,AI科技评论在第一时间联系了其中一位获奖者方飞。她对AI科技评论表示:
我觉得非常惊喜,当时我们系主任说要提名我去申请这个奖的时候我真的没想到会获奖,很开心能和这么多厉害的计算机方面的学者一起获奖,其中有好几位是我的同事和朋友,也要恭喜他们!
根据方飞的介绍,斯隆研究奖的选拔方式是:学校提名+学者申请制。方飞所在的卡内基梅隆大学计算机系软件研究所每年仅提名一人,方飞作为唯一的“种子选手”,一选即中,实在厉害。
始设于1955年的斯隆研究奖被称为“诺贝尔奖风向标”,史上许多获得斯隆研究奖的研究员在获奖后在各自的领域继续发光发热,取得更大的研究突破。据统计,47位斯隆奖获得者后来获得诺贝尔奖,17位获得菲尔兹数学奖,69位获得国家科学奖。
此外,斯隆研究奖主要面向青年科学家,每位获奖者可以获得为期两年共计7.5万美元的奖金支持他们的研究工作。正如斯隆研究奖的项目主任 Daniel L. Goroff 所说:“找到最聪明的年轻人并相信他们能做成他们最擅长的事情,这就是斯隆研究基金的目的。”
2022年斯隆研究奖颁给了118名研究者,其中有31位华人科学家(占比约26.2%)。与往年不同的是,今年的斯隆研究奖仅颁给了七个领域:化学、计算机科学、经济学、数学、神经科学、地球系统科学和物理学,计算和进化分子生物学无获奖者。
在计算机科学领域,除了上述4位女性获奖者,还有2名男性科学家获奖,分别是任职于UCLA与哥伦比亚大学的顾全全与Henry Yuen。



1

四位女性获奖者
回顾过去十年斯隆研究奖计算机科学领域的获奖者,我们发现,今年获奖的华人学者数量最多,多达6位。以往获奖的华人科学家一般是1-2位。
过去十年获得斯隆研究奖的华人计算机科学家名单可以参考如下:
  • 2022年:陈丹琦、方飞、宋舒然、李博、顾全全、Henry Yuen
  • 2021年:马腾宇、Kai-Wei Chang
  • 2020年:Yin Tat Lee
  • 2019年:蔡洋、鬲融
  • 2018年:邓嘉
  • 2017年:吴义仁、Xia Zhou
  • 2016年:Daniel Hsu
  • 2015年:Percy Liang
  • 2014年:Shan Lu、Elaine Shi
  • 2013年:沙飞
此外,女性获奖者的数量最多,占了4席。这表明,越来越多的女性研究者勇于选择计算机方向的科研工作,并取得成就。
那么,这四位斯隆研究奖获奖者的来路是什么呢?
陈丹琦,现任普林斯顿大学计算机系助理教授。她的高中就读于湖南长沙雅礼中学,曾代表中国参加第 20 届国际信息学奥林匹克竞赛(IOI 2008),并获得金牌、保送清华姚班,本科毕业后直博斯坦福大学,师从语言学大师 Christopher Manning,2018年取得博士学位。
图注:陈丹琦
在人工智能领域,陈丹琦是一号传奇人物,被外界誉为“AI新星”。她的研究方向为自然语言处理与机器学习(尤其是深度学习),曾取得多项令人瞩目的成就。除了信息学竞赛圈的“CDQ分治算法”是以她的名字命名,她在斯坦福读博期间也取得了多项重大突破:
博士第二年(2014年),她在 EMNLP 2014 上发表的论文“A Fast and Accurate Dependency Parser using Neural Networks”堪称深度学习依存分析方法的“开山之作”,和导师 Christopher Manning 教授提出的方法在保持精度的前提下,将解析速度提高了 60 倍。
2019 年,她的一篇长达156页的、关注解决“如何让机器学会理解人类语言”的博士毕业论文“Neural Reading Comprehension andBeyond”上传仅四天,就获得了上千次的阅读量,获得斯坦福计算机系当年的最佳博士论文,成为斯坦福近十年来最热门的毕业论文之一。
她的导师 Christopher Manning 对她给予了高度的评价,认为她是“使用神经网络方法解决自然语言理解问题方面的先驱”。
同样毕业于清华大学的方飞,现于卡内基梅隆大学计算机科学系软件研究所担任莱昂纳多助理教授(Leonardo Assistant Professor )。2020年年底,她入选了 IEEE System“AI 十大潜力人物”,AI科技评论对其经历与工作进行了独家报道
图注:方飞
方飞于2007年进入清华大学电子工程系攻读学士学位,2011年本科毕业后赴美国南加州大学计算机系攻读博士,主要从事安全博弈研究,师从安全博弈领域的权威专家 Milind Tambe。
她的主要研究内容是将计算博弈理论与机器学习方法结合起来,用于解决实际的社会安全与可持续发展问题,如反动物盗猎、保护渡轮线路、保护森立、减少食品浪费、降低高利贷危害、帮助流浪少年等等。
除了陈丹琦与方飞,另一位本科就读于大陆高校的获奖者李博也是近年来受到大家关注的AI学术新星。她与方飞也是科研上的合作伙伴,曾与方飞一起为 IJCAI 制作了一个关于机器学习与博弈论的学术教程。
图注:李博
据方飞介绍,李博团队也做了许多将博弈论与机器学习结合的工作:“在对抗机器学习中,他们会思考如何把从数据中学习机器学习模型的问题当成一个斯塔克伯格博弈,保护者在设计模型及参数,攻击者想要让这个模型无法输出正确的结果,那么如何求解。这也是另外一个可能的结合方式。”
李博的本科就读于上海同济大学计算机系,后赴美国范德堡大学攻读博士,2016年获得博士学位。之后,她到加州大学伯克利分校进行博士后研究,并于2018年加盟伊利诺伊大学香槟分校(UIUC)计算机系担任助理教授。
她的研究方向广泛,包括机器学习、安全、隐私和博弈论,主要探索机器学习系统对各种对抗性攻击的脆弱性,旨在开发出鲁棒、保护隐私、高效与可解释的机器学习算法。
2017年,她针对自动驾驶安全问题所发表的论文“Robust Physical-World Attacks on Machine Learning Models”(CVPR 2018)曾引起广泛关注,目前单篇引用量已超过1500次。2020年,她成功入选“MIT TR35”榜单。
链接:https://arxiv.org/pdf/1707.08945.pdf
另一位获奖者宋舒然是土生土长的北京女孩。她的本科就读于香港科技大学,后赴普林斯顿大学计算机系攻读博士,目前在哥伦比亚大学计算机系担任助理教授。
图注:宋舒然
她的研究重点是计算机视觉和机器人技术的交叉领域,志在开发能使智能系统在与物理世界的交互中学习、并自主获得执行复杂任务和协助人们的感知和操纵技能的算法。此前,她曾获得多个奖项,包括 T-RO 2020 最佳论文奖、RSS 2019 最佳系统论文奖、2018年亚马逊最佳操作系统论文奖,并获得 ICRA 2020、CVPR 2019、RSS 2019 与 IROS 2018 等会议的最佳论文提名。
2021年,她的团队工作“FlingBot: The Unreasonable Effectiveness of Dynamic Manipulation for Cloth Unfolding”获得机器人顶会CoRL 最佳系统论文奖。对于这项工作,CoRL评委给出的评论是“对我来说,这篇论文是迄今为止对模拟和现实世界布料操作方面的最了不起的工作。”



2

计算机领域的性别差距正在缩小?
在计算机科学领域,男女研究员数量的差距一直是常见的讨论话题。在美国等西方国家,女性研究员一直是被视为与少数族裔相近的“Underrepresented Group”(代表性不足群体)。
此前,AI 科技评论就曾从三位谷歌博士生研究奖女性获得者出发,探讨了90后女性计算机博士生对从事科研的看法与感受
近几年来,我们看到越来越多的女性进入计算机科学等传统上认为男性主导的理工科领域做研究。我们看到时代在变化,国人的观念也在进步,但女性在计算机领域所扮演的角色是否也在与时俱进,仍是一个未知。
据inkstone报道,2016年,中国女博士的占比仅为39%,而同年美国女博士的占比则达到52%。
陈丹琦也曾在清华叉院的一次访谈中对如何缩小计算机领域的男女数量差距发声:
首先我是真的非常希望有更多的女生参与(计算机领域的)这些比赛或者科研中,包括我现在也很想招女学生。这个事情没有特别大的提高,是让我一直比较担忧的事情。
她谈到,在斯坦福读博时,她那一届的CS博士生只有4个女生,比例极小。“Admission committee 现在在做一些努力去提高这个比例,但是依然很低。”
对于女性如何打破刻板印象,陈丹琦结合自己的经历,分享了个人的看法:
我希望女生的心目中认为这(性别)不是一个问题,你不需要去想这个事情。
一个局面的改变往往需要多方因素。除了个人的主观意念加持,外界的嘉奖与肯定也是女性前进的力量源泉。2022年斯隆研究奖的结果出炉,4位华人女性科学家当选,但愿也能让更多正在拼搏的女性研究员对未来充满信心!
参考链接:
1.https://sloan.org/fellowships/2022-Fellows
2.http://www.360doc.com/content/17/0928/06/11698101_690745367.shtml
3.https://mp.weixin.qq.com/s/V_nYWgWVcgGZlm561Ko9IA

雷峰网雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/BYWBVEzbQRCcL2Zd.html#comments Thu, 17 Feb 2022 15:29:00 +0800
突发!TensorFlow技术主管皮特·沃登离职,重返斯坦福读博:我在谷歌“太难了”! //www.xyschoolife.com/category/academic/X4OIxASFWpT4gmLS.html
作者丨维克多

编辑丨岑峰

又一技术大咖离开业界,前往高校攻关科研! 

据Pete Warden(皮特沃登)本人推特消息,他将离开谷歌公司,重返斯坦福大学攻读计算机博士学位。

皮特沃登是谷歌公司Tensorflow面向移动和嵌入式设备部分的技术主管,也是 Tensorflow团队的创始成员之一。著有《TinyML》一书,希望让机器学习不再囿于云端超级计算机,而是可以被隐藏于众多小到可以被忽视的电子零件中。

至于离开谷歌的原因,皮特沃登说:在谷歌推出新的硬件设备“太难了”,因为一旦失败会对大公司声誉造成非常大的影响。

“it’s very costly and time-consuming to launch new hardware devices at Google, because the downsides of a failed or buggy launch to any large company’s reputation are so high. ”

据悉,皮特沃登已经离开校园二十年了,此次重返校园虽然有些冒险,但对“自己能够构建一些东西”有帮助。

皮特沃登还在个人博客写了一篇文章,表达了离开谷歌的前因后果:

我在谷歌工作了7年,这段时间里,很幸运也很自豪能够和一些了不起的人一起研究TensorFlow等项目。在过去几年里,我一直在说“你可以用TensorFlow Lite Micro实现所有美好的TinyML项目”,现在我自己终于也可以随心所欲的尝试构建自己的东西了。

在谷歌我也尝试过,但在谷歌推出新的硬件设备是非常昂贵和耗时的,因为一旦失败会对其声誉造成非常大的影响。因此,时隔二十多年,我决定重返校园,去斯坦福大学攻读计算机科学博士学位。

过去几年,我在斯坦福大学教授EE292D课程,在这过程中,我从学生对新技术渴望的热情中收获了很多,而且也从Zain Asgar、Sachin Katti、 Boris Murmann等教师身上学到了很多。现在我很高兴能够有更多的时间从校园中度过。

TensorFlow Lite Micro在Advait Jain和团队其他成员的带领下非常出色,使用量和人数在过去几年持续增长,所以我对它的未来非常乐观。过段时间,我会公布更多细节,但我现在能够使用将框架部署到”我从项目一开始就梦想的设备“上了。

离开谷歌,重返校园是一次有趣的新冒险,感谢支持我走到这一步的所有人。



1

皮特沃登和他的TinyML梦想

正如前面提到,皮特沃登是人工智能领域的专家。2003年他创建了一组包含45 个图像的处理过滤器(processing filters ),这些过滤器能够在 2003 年的笔记本电脑上以 30 fps 的速度检测视频内容中的特征。当时Apple 购买了该技术并聘请他将其集成到 Apple 的成像相关产品中。

2011年,皮特沃登联合创办Jetpac,担任CTO。当时他开发了一款独特的产品,能够分析了 Instagram 上超过1.4亿张照片的像素数据,并将其转化为全球 5,000多个城市的深度指南。2014年,谷歌收购该公司。

加入谷歌之后,皮特沃登专注于在成本和功率受限的系统中部署机器学习。在谷歌,Pete 领导开发用于移动和嵌入式应用程序的 TensorFlow Lite 机器学习框架。

这种在一些“不起眼的硬件”中构建机器学习被行业称为TinyML(Tiny Machine Learning)。TinyML 的目标是以尽可能低的功耗执行 ML 推理。具体而言,正如皮特沃登在其著作提到的那样:TinyML 的目标是在低于 1 mW 的功耗下运行。1 mW是标准纽扣电池运行功率。

TML示意图

因此,TinyML 是机器学习和嵌入式 IoT 设备的交叉领域,是一门新兴的工程学科,具有革新许多行业的潜力。显然,TinyML 的主要受益者,是边缘计算节能计算领域。

2019年3月,TensorFlow Lite嵌入式平台发布了第一个实验原型。这是由SparkFun构建的开发板的原型,它有一个Cortex M4处理器,具有384KB的RAM和1MB的闪存存储。该处理器功率极低,在许多情况下功耗不到1毫瓦,因此它可以仅凭小型纽扣电池运行很多天。

目前,TinyML还处在发展阶段,正如皮特沃登在一次演讲中所提到:

“未来的世界有更多的可能性,现在人工智能对于我们,就像八十年代的电脑一样。我们不知道它会发展成什么样子,但是我们可以想象一下我们目前面对的各种问题和挑战,在工作中面临的困难。如何用小小的芯片进行机器学习?这方面我们可以有新的角度去探索,也有新的研究成果去发挥作用。”



2

反映了怎样的趋势?

皮特沃登在业界已经探索了二十年了,今日他选择离开企业,选择重返校园,无疑是对当前AI研究人员纷纷重返学界这一趋势的印证。

这一趋势最早从吴恩达开始,随后李飞飞、张潼、张亚勤、贾佳亚等科学家也不断重返学校。

而在几年前,对应的正是AI基础研究者纷纷离开学术界,加盟工业界:代表性的标志事件是在2011年的NIPS大会上,Hinton接受了Google的邀请,正式加盟Google;此后Facebook、Amazon、Uber以及国内百度、阿里、腾讯、滴滴等巨头也纷纷跟进,而另一方面,产业界所能提供的海量数据以及资源投入对于AI研究者也具有莫大的吸引力,长期从事理论研究的他们也需要一个平台验证他们的想法,这也正是当时AI人才从学术界流向产业界的原因。

现在这些AI大牛从产业界重返学术界,有人将其视为AI科学家的“水土不服”,并进而得出“AI热度正在放缓”的结论。但从另一个角度上,我们也可以看到这些科学家们在产业界检验了自己之前的研究之后,带着新的问题回到学术界开展新的研究。

例如,原腾讯AI Lab主任张潼在被问及为什么回归学术界时,他回答:“我最关心的是10年以后, AI能够在技术理论等方面实现重大的突破,并且自己能够在整个学术研究上有更多的贡献。” 而对于加入创新工场,张潼则表示:“我在进行学术研究的同时,也希望这些学识成果能够跟产业相结合。”另一位AI大牛贾佳亚,在离开腾讯优图之后并未远离产业界,而是成立了一家创业公司思谋科技,以另一种方式做到连接学术与产业。 

拿AI届的黄埔“微软亚洲研究院”来说吧,他几任历任院长中,李开复创办了创新工场,以孵化器模式推动中国本土的科技与AI公司的发展;张亚勤牵头筹建“清华大学智能产业研究院(AIR)”,回归学术界并得到了马维英的襄助,“出走半生归来仍是少年”;沈向洋在担任清华大学兼职教授的同时,也还投资并担任News Break董事长;而进入投资界的张宏江,更是在以资本投票的方式践行着对AI的认知。这些顶尖人才的流动,无论是从学术界到产业界,还是从产业界到学术界,最终都是AI的进步。

参考链接:
https://mp.weixin.qq.com/s/xx1-ZV4Bg8vu79EXdoGMJQ
https://mp.weixin.qq.com/s/03-tOTic57bsAV2SFxgemg
https://embeddedvisionsummit.com/2019summit/2019/speaker/pete-warden/

雷峰网雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/X4OIxASFWpT4gmLS.html#comments Wed, 16 Feb 2022 09:53:00 +0800
第二轮「双一流」建设高校及建设学科名单发布,复旦拿下唯一一个集成电路 //www.xyschoolife.com/category/academic/TTpIS2N2kRc2GayY.html

作者 | 西西

编辑 | 陈彩娴

今天,第二轮「双一流」建设高校及建设学科名单发布!

除了清华大学与北京大学在第二轮「双一流」建设中自主确定建设学科并自行公布,其余入选高校均披露了具体的学科名单。

那么,在这一轮「双一流」名单中,有哪些亮点呢?



1

部分学科名单整理

根据教育部等三部委发布的名单,第二轮「双一流」建设学科中,入选「计算机科学与技术/工程」的高校有12所,「电子科学与技术」有5所,「信息与通信工程」有6所,「控制科学与工程」有9所,「软件工程」有3所。

具体如下:

  • 计算机科学与技术/工程:北京航空航天大学,北京邮电大学,哈尔滨工业大学,上海交通大学,南京大学,东南大学,浙江大学,中国科学技术大学,华中科技大学,西安电子科技大学,新疆大学,国防科技大学

  • 电子科学与技术:上海交通大学,东南大学,南京邮电大学,中山大学,电子科技大学

  • 信息与通信工程:北京邮电大学,上海交通大学,东南大学,电子科技大学,西安电子科技大学,国防科技大学

  • 控制科学与工程:北京航空航天大学,北京理工大学,东北大学,哈尔滨工业大学,上海交通大学,东南大学,浙江大学,西安交通大学,南京航空航天大学

  • 软件工程:北京航空航天大学,浙江大学,国防科技大学

值得注意的是,随同第二轮「双一流」名单发布的还有给予公开警示(含撤销)的首轮建设学科名单,其中,新疆大学的计算机科学与技术入选。

两个被撤销的学科为东北师范大学的数学(调整为「教育学」)与上海财经大学的统计学(调整为「应用经济学」)。



2

复旦拿下唯一集成电路

此外,根据名单,复旦大学是唯一一所在第二轮「双一流」中拿下「集成电路科学与工程」专业的高校。(不过,笔者猜测这也可能是清华、北大自主确定建设学科、尚未公布结果的原因。)

复旦是我国发展集成电路专业最积极的高校之一。

中国的集成电路产业在1965年第一块硅基数字集成电路的成功研制中拉开新篇章,而这离不开20世纪50年代我国半导体产业的技术研究与人才培养。再往回溯,这一切都归功于知名的「中国半导体之母」谢希德,同时她也是中国半导体物理学科奠基人、复旦大学史上唯一女校长。

图注:谢希德

谢希德于1952年从美国麻省理工学院毕业后,便回国加入复旦大学,1958年创办半导体物理专业,1984年设立博士点,1988年「微电子学与固体电子学」被评为国家重点学科,推动复旦成为中国最早研究半导体技术、培养半导体人才的高校之一,这也为复旦后来的集成电路打下了基础。

1992年,复旦获批建设专用集成电路与系统国家重点实验室,是国内唯一一个集成电路领域的国家重点实验室。聚焦高能效系统芯片及其核心IP设计,开展数字、射频与数模混合信号集成电路设计创新研究,同时进行新器件新工艺和纳米尺度集成电路设计方法学的研究,既培养了最早一批的中国集成电路人才,也为我国集成电路产业的发展做出了重要贡献。

在中国集成电路卡脖子的大环境中,上世纪90年代,复旦押注集成电路,是最早开展集成电路技术研发的高校之一,最早开设相关学院,以及在学科还没有成立时就试点招生。后来,集成电路在国际竞争的激烈环境中重要性突显,复旦也成为集成电路人才与成果的珍贵输出地。

2013年,复旦大学微电子学院成立,学院的前身便是1958年由谢希德教授创办的半导体物理专业。2015年5月,学院成为首批获批建设的国家示范性微电子学院,2019年在全国率先试点“集成电路科学与工程”一级学科。

2021年,集成电路科学与工程博士授权点名单发布,一共18所大学入选,复旦大学不在其中。这或许是因为复旦做试点先行已经开设了博士点,有自主审核博士点的权利。

注:2021年国务院发布的集成电路科学与工程一级学科博士授权点包括的18所高校分别是北京大学、清华大学、北京航空航天大学、北京理工大学、北京邮电大学、上海交通大学、南京大学、东南大学、南京邮电大学、浙江大学、杭州电子科技大学、厦门大学、华中科技大学、华南理工大学、电子科技大学、西北工业大学、西安电子科技大学与中国科学院大学。

这些年来,从复旦大学走出来的集成电路企业与人才也逐渐崭露头角,在中国解决「卡脖子」问题的整体目标中发挥着重要的作用。比如,2019年,复旦大学获批建设国家集成电路产教融合创新平台,项目建设总经费4.7亿元,其平台便是依托复旦大学微电子学院。

此外,从复旦大学微电子学院走出来的人才也不计其数,比如华大九天的董事长刘伟平。

第二轮「上一流」建设高校及建设学科名单如下:

参考链接
1.https://mp.weixin.qq.com/s/fg8tmC3O87kyu_DAfmhVlw
2.https://www.zhihu.com/question/516475589?utm_source=wechat_session&utm_medium=social&utm_oi=988075320968314880&utm_content=group3_supplementQuestions&utm_campaign=shareopn
3.https://www.sohu.com/a/313798067_407278
4.https://xk.nuist.edu.cn/info/1100/1601.htm

雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/TTpIS2N2kRc2GayY.html#comments Wed, 16 Feb 2022 09:51:00 +0800
完美的优化目标,人工智能的盲点 //www.xyschoolife.com/category/academic/PU3aCHS5NwbQids6.html
译者丨辛西娅

编辑丨维克多

人工智能(AI)系统的脆弱性一直被行业人员所诟病,稍微的数据错误就会使系统发生故障。例如在图像识别中,图片微小的像素改变,不会干扰人类视觉,但机器可能会发生紊乱。正如CVPR 2017论文中所论述的那样“修改一个像素,就能让神经网络识别图像出错”。

至于原因,研究人员有过很多探究:数据不够好,算法设计不精妙....近日,在科技媒体wired上,计算机科学家Erik J. Larson撰文表示:优化思维是AI脆弱性的根源。(译者注:这里的优化思维,也可以翻译成“追求足够好”、追求完美AI)

“We then must step toward heresy by acknowledging that the root source of AI’s current fragility is the very thing that AI design now venerates as its high ideal: optimization.”

优化是推动AI尽可能准确的动力,在抽象的逻辑世界中,这种推动无疑是好的,但在AI运行的现实世界中,每一个好处都是有代价的。例如需要更多数据来提高机器学习计算精度,需要更好的数据来确保计算的真实性。

“这种更好”必须保证不断的进行数据收集,因此当AI开始逐渐形成完整的画面时,新数据的出现可能改变现有状况,从而导致系统崩溃。这也是大众眼中近乎完美的AI经常“犯精神病”的原因之一:将狗狗当成菠萝,把无辜的人看成通缉犯。



1

优化的脆弱性

人类不是一个优化者,过去几万年大脑本身也并没有进化出完美优化的功能。大脑是轻量级的,从不追求100%的准确性,并能够从小数据中得出假设。

换句话说,大脑满足于在“门槛”上混日子,如果1%的准确率就能让它生存,那么这就是大脑所需要的准确率。但这种最小生存策略也会导致认知偏见,让人们思维封闭、鲁莽、宿命论、恐慌。

AI严格的数据驱动训练方法能有效避免这种认知偏见,却也让其陷入“过度纠正”。确实,对人类而言,好的心态能够抵御完美主义带来的破坏性影响,一个不那么神经质的大脑已经帮助我们在“生活的冲撞和摇摆”中茁壮成长。

将这种“反脆弱”引入AI,那么也意味着:与其追求压缩越来越大的数据堆,不如专注于提高AI对不良信息、用户差异和环境动荡的容忍度。这种AI将消耗更少的能量,产生更少的随机失误,带来更少的负担。如何做?目前来看,有三种方式。



2

构建AI直面不确定性

五百年前,实用主义大师尼科勒·马基雅维利指出,世俗的成功需要一种反直觉的勇气。对于聪明人来说,大部分不存在的知识将是不必要的;生活往往不会符合我们的预期。因此,人类可以改变对模糊性的处理方式。

例如当AI遇到单词suit时,它会通过分析更多的信息来确定该单词是表示衣服,还是法律名词。分析更多信息通常意味着利用大数据缩小答案范围,这在99.9%的情况下有效,剩下的0.1%,AI仍然会“自信”的将suit表示为法律名词,但实际上它是衣服。

因此,AI应该有足够大的答案范围。研究人员在设计AI时候,应该允许“模棱两可”,并将模糊选项代入后续任务中,就像人类能够读懂一首诗歌的多个潜在含义一样。如果下游任务不允许“模棱两可”的存在,这时设计的AI应该能请求人类的帮助,让人类代替它进行决策。



3

用数据作为灵感来源

目前的AI希望通过大数据的发散性思维实现创造。但众多科学研究显示,生物的创造力往往涉及无数据和非逻辑过程。因此,依靠大数据或许能够批量创造出许多“新”作品,但这些作品仅限于历史数据的混合和匹配。换句话说,大规模的发散性思维的产生必然伴随着低质量。

数据驱动的创造所产生的局限性可以从GPT-3以及Artbreeder等文本和图像生成器中看到。通过“观察”历史场景,然后添加专家意见,试图产生下一个梵高。但结果往往是这位“梵高”只能复制以前画家的作品。这种AI设计文化,显然误解了创新的含义。这种情况从大家对FaceNet的盛誉中可见一斑,因为有一些面部识别的创新,仍然是蛮力优化。可以类比为调整汽车的扭矩带增加汽车性能,并称其为汽车交通革命。

因此,是时候将数据看成灵感来源,而不是伪造来源了。90年前,《科学发现的逻辑》一书的作者卡尔·波普尔就指出:用事实推翻想法比证明想法更合乎逻辑。将这种思维引入到AI产物中,我们可以将数据的功能从小想法的大量产生者转变成大规模的毁灭者(a mass destroyer of anything except),当然一些前所未有的想法除外。(译者注:这里的大规模毁灭者是指将“重复作品”筛选出来)

因此,与其无休止的产生“重复作品”,不如让计算机搜索有价值的作品,从而找到未被赏识的“梵高”。



4

人机结合

将人脑融入AI听起来很科幻,短期内很难有大的进展,但我们可以另辟蹊径,设计友好的人机关系。当前人与机器的合作关系并没有发挥它应有的作用,人类要么充当机器的保姆,要么充当AI系统更新的附属品。前者意味着乏味、枯燥,后者意味着被动。如何解决?当前的工作重点已经关注三个方面:

1.攻关科研,让AI有能力“知道”它何时缺少训练数据。换句话说,追求正确的AI,不如追求让AI知道自己何时不正确,赋予AI认知自己的智慧。人类的大脑无法拥有计算机的数据处理速度,所以当无知的算法认为自己无所不能的时候,人类的干预总是太晚。因此,应该通过编程让“傻瓜”发现自己是“傻瓜”。

2. 完善人机交互界面。因追求优化而造成的不透明设计,即黑盒算法。交互设计应该消除黑盒性质,例如将刚性按钮(只有一个选项)替换成包含概率的选项,标明第一个选项的可能性为70%,第二个选项的可能性为20%,第三个选项的可能性为5%,以此类推。如果没有满意的选项,那么就要求AI重新定向,或者进行手动操作,以最大的限度提高计算机的逻辑和人类的主动性。

3. 仿照大脑建立去中心化的AI模型。大脑包含去中心化的认知机制,例如逻辑、叙述、情感,它们之间相互制约、相互平衡。因此,AI系统也可以设计包含不同推理架构,例如如果深度学习不能访问它所需要的数据,系统就可以过渡到if-then的控制程序。更重要的是,人工智能可以向外看,从人类学的线索中学习,而不是狂热地集中在自己的内部优化策略上。

以上技术建议并不是未来虚幻的想象,它是现在就可以实现的设计创新。需要研究者抛弃大数据以及完美智能的假设,在这个不断变化的世界中,创造性要求比最准确要求来的更加明智。

雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/PU3aCHS5NwbQids6.html#comments Tue, 15 Feb 2022 10:52:00 +0800
Sci-Hub博主更新数据:过去30天,中国大陆在Sci-Hub上的论文下载量排名全球第一 //www.xyschoolife.com/category/academic/31kWht0gScPVW3YJ.html

作者 | 西西

昨天,Sci-Hub 创始人 Alexandra Elbakyan 更新了 Sci-Hub ,用户可以查看论文的实时下载统计信息。
数据显示,在过去的30天里,中国大陆在Sci-Hub上的论文下载数量排名全球第一,超过3亿次下载(337,184,513),遥遥领先,几乎是排名第二的美国的三倍。
其余排名前20的地区分别是(按先后顺序):法国、巴西(第4)、印度、香港(第6)、印度尼西亚、德国、墨西哥、伊朗、土耳其、台湾(第12)、波兰、日本(第14)、韩国、加拿大(第16)、新加坡(第17)、俄罗斯、荷兰与哥伦比亚。

图注:2022年2月12日前30天 Sci-Hub 论文下载量排名前20的地区

 

对于巴西排名第4的统计结果,网友们纷纷表示惊讶:
「巴西居然排第4,尽管(巴西的)许多研究人员与一些私立教授都有政府授权的多个期刊访问期限。看来Sci-Hub覆盖了更多期刊内容、且访问更容易。」 

 

此外,大家也注意到,在排名前20的国家与地区中,英国并未上榜。Alexandra Elbakyan 本人也已解释,是因为「Sci-Hub 在英国是被封禁的,用户需要使用 VPN 才能访问,所以有时候可能会以『美国用户』的身份出现在 Sci-Hub 上。」
新版 Sci-Hub 可以通过 sci-hub.se 或 sci-hub.ru 访问。
参考链接:
https://sci-hub.se/stats

雷峰网雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/31kWht0gScPVW3YJ.html#comments Tue, 15 Feb 2022 10:40:00 +0800
吴恩达:告别,大数据 //www.xyschoolife.com/category/academic/nBqceCfNFr78divd.html

编译丨维克多、王晔

吴恩达是人工智能(AI)和机器学习领域国际最权威的学者之一,最近一年里,他一直在提“以数据为中心的AI”,希望将大家的目光从以模型为中心转向以数据为中心。

最近,在接受IEEE Spectrum的采访中,他谈到了对基础模型、大数据、小数据以及数据工程的一些感悟,并给出了发起“以数据为中心的AI”运动的原因。

“过去十年,代码—神经网络的架构已经非常成熟。保持神经网络架构固定,寻找改进数据的方法,才会更有效率。”

吴恩达表示,他这种以数据为中心的思想受到了很多的批评,就和当年他发起Google brain项目,支持构建大型神经网络行动,时候受到的批评时一样:想法不新鲜,方向错误。据吴教授介绍,批评者中不乏行业资深人士。

关于小数据,吴教授认为,它同样能够有威力:“只要拥有50个好数据(examples),就足以向神经网络解释你想让它学习什么。”

以下是采访原文,AI科技评论做了不改变原意的编译。

IEEE:过去十年,深度学习的成功来源于大数据和大模型,但有人认为这是一条不可持续的路径,您同意这个观点么?

吴恩达: 好问题。

我们已经在自然语言处理(NLP)领域看到了基础模型(foundation models)的威力。说实话,我对更大的NLP模型,以及在计算机视觉(CV)中构建基础模型感到兴奋。视频数据中有很多信息可以利用,但由于计算性能以及视频数据处理成本的限制,还无法建立相关的基础模型。

大数据与大模型作为深度学习引擎已经成功运行了15年,它仍然具有活力。话虽如此,但在某些场景下,我们也看到,大数据并不适用,“小数据”才是更好的解决方案。

IEEE:您提到的CV基础模型是什么意思?

吴恩达: 是指规模非常大,并在大数据上训练的模型,使用的时候可以为特定的应用进行微调。是我和斯坦福的朋友创建的术语,例如GPT-3就是NLP领域的基础模型。基础模型为开发机器学习应用提供了新的范式,有很大的前景,但同时也面临挑战:如何确保合理、公平、无偏?这些挑战随着越来越多的人在基础模型上构建应用,会越来越明显。

IEEE:为CV创建基础模型的契机在哪?

吴恩达:目前还是存在可扩展性难题。相比NLP,CV需要的计算能力更强大。如果能生产出比现在高10倍性能的处理器,就能够非常轻松建立包含10倍视频数据的基础视觉模型。目前,已经出现了在CV中开发基础模型的迹象。

说到这,我提一嘴:过去十年,深度学习的成功更多的发生在面向消费的公司,这些公司特点是拥有庞大的用户数据。因此,在其他行业,深度学习的“规模范式”并不适用。

IEEE:您这么一说我想起来了,您早期是在一家面向消费者的公司,拥有数百万用户。

吴恩达:十年前,当我发起 Google Brain 项目,并使用 Google的计算基础设施构建“大”神经网络的时候,引起了很多争议。当时有位行业资深人士,“悄悄”告诉我:启动Google Brain 项目不利于我的职业生涯,我不应该只关注大规模,而应该专注于架构创新。

到现在我还记着,我和我的学生发表的第一篇NeurIPS  workshop论文,提倡使用CUDA。但另一位行业资深人劝我:CUDA 编程太复杂了,将它作为一种编程范式,工作量太大了。我想办法说服他,但我失败了。

IEEE:我想现在他们都被说服了。

吴恩达:我想是的。

在过去一年,我一直在讨论以数据为中心的AI,我遇到了和10年前一样的评价:“没有新意”,“这是个错误的方向”。

IEEE:您如何定义“以数据为中心的AI”,为什么会称它为一场运动?

吴恩达:“以数据为中心的AI”是一个系统的学科,旨在将关注点放在构建AI系统所需的数据上。对于AI系统,用代码实现算法,然后在数据集上训练是非常必要的。过去十年,人们一直在遵循“下载数据集,改进代码”这一范式,多亏了这种范式,深度学习获得了巨大的成功。

但对许多应用程序来说,代码—神经网络架构,已经基本解决,不会成为大的难点。因此保持神经网络架构固定,寻找改进数据的方法,才会更有效率。

当我最开始提这件事的时候,也有许多人举手赞成:我们已经按照“套路”做了20年,一直在凭直觉做事情,是时候把它变成一门系统的工程学科了。

“以数据为中心的AI”远比一家公司或一群研究人员要大得多。当我和朋友在NeurIPS上组织了一个“以数据为中心的AI”研讨会时候,我对出席的作者和演讲者的数量感到非常高兴。

IEEE:大多数公司只要少量数据,那么“以数据为中心的AI”如何帮助他们?

吴恩达:我曾用3.5亿张图像构建了一个人脸识别系统,你或许也经常听到用数百万张图像构建视觉系统的故事。但这些规模产物下的架构,是无法只用50张图片构建系统的。事实证明。如果你只有50张高质量的图片,仍然可以产生非常有价值的东西,例如缺陷系统检测。在许多行业,大数据集并不存在,因此,我认为目前必须将重点“从大数据转移到高质量数据”。其实,只要拥有50个好数据(examples),就足以向神经网络解释你想让它学习什么。

吴恩达:使用50张图片训练什么样的模型?是微调大模型,还是全新的模型?

吴恩达:让我讲一下Landing AI的工作。在为制造商做视觉检查时,我们经常使用训练模型,RetinaNet,而预训练只是其中的一小部分。其中更难的问题是提供工具,使制造商能够挑选并以相同的方式标记出正确的用于微调的图像集。这是一个非常实际的问题,无论是在视觉、NLP,还是语音领域,甚至连标记人员也不愿意手动标记。在使用大数据时,如果数据参差不齐,常见的处理方式是获取大量的数据,然后用算法进行平均处理。但是,如果能够开发出一些工具标记数据的不同之处,并提供非常具有针对性的方法改善数据的一致性,这将是一个获得高性能系统的更有效的方法。

例如,如果你有10,000张图片,其中每30张图片一组,这30张图片的标记是不一致的。我们所要做的事情之一就是建立工具,能够让你关注到这些不一致的地方。然后,你就可以非常迅速地重新标记这些图像,使其更加一致,这样就可以使性能得到提高。

IEEE:您认为如果能够在训练前更好地设计数据,那这种对高质量数据的关注是否能帮助解决数据集的偏差问题?

吴恩达:很有可能。有很多研究人员已经指出,有偏差的数据是导致系统出现偏差的众多因素之一。其实,在设计数据方面也已经有了很多努力。NeurIPS研讨会上,Olga Russakovsky就这个问题做了一个很棒的演讲。我也非常喜欢Mary Gray在会上的演讲,其中提到了“以数据为中心的AI”是解决方案的一部分,但并不是解决方案的全部。像Datasheets for Datasets这样的新工具似乎也是其中的重要部分。

“以数据为中心的AI”赋予我们的强大工具之一是:对数据的单个子集进行工程化的能力。想象一下,一个经过训练的机器学习系统在大部分数据集上的表现还不错,却只在数据的一个子集上产生了偏差。这时候,如果要为了提高该子集的性能,而改变整个神经网络架构,这是相当困难的。但是,如果能仅对数据的一个子集进行设计,那么就可以更有针对性的解决这个问题。

IEEE:您说的数据工程具体来讲是什么意思?

吴恩达:在人工智能领域,数据清洗很重要,但数据清洗的方式往往需要人工手动解决。在计算机视觉中,有人可能会通过Jupyter notebook将图像可视化,来发现并修复问题。

但我对那些可以处理很大数据集的工具感兴趣。即使在标记很嘈杂的情况下,这些工具也能快速有效地将你的注意力吸引到数据的单个子集上,或者快速将你的注意力引向100个分组中的一个组中,在那里收集更多数据会更有帮助。收集更多的数据往往是有帮助的,但如果所有工作都要收集大量数据,可能会非常昂贵。

例如,我有次发现,当背景中有汽车噪音时,有一个语音识别系统的表现会很差。了解了这一点,我就可以在汽车噪音的背景下收集更多的数据。而不是所有的工作都要收集更多的数据,那样处理起来会非常昂贵且费时。

IEEE:那使用合成数据会是一个好的解决方案吗?

吴恩达:我认为合成数据是“以数据为中心的AI”工具箱中的一个重要工具。在NeurIPS研讨会上,Anima Anandkumar做了一个关于合成数据的精彩演讲。我认为合成数据的重要用途,不仅仅表现在预处理中增加学习算法数据集。我希望看到更多的工具,让开发者使用合成数据生成成为机器学习迭代开发闭环中的一部分。

IEEE:您的意思是合成数据可以让你在更多的数据集上尝试模型吗?

吴恩达:并非如此。比方说,智能手机上有许多不同类型的缺陷,如果要检测智能手机外壳的缺陷,那可能会是划痕、凹痕、坑痕、材料变色或者其它类型的瑕疵。若你训练了模型,然后通过误差分析发现总体上它的表现很好,但在坑痕上表现得很差,那么合成数据的生成就可以让你以更有针对性地解决这个问题。你可以只为坑痕类别生成更多的数据。

IEEE:您可以举例具体说明吗?若一家公司找到Landing AI,并说他们在视觉检查方面有问题时,您将如何说服他们?您又将给出怎样的解决方案呢?

吴恩达:合成数据生成是一个非常强大的工具,但我通常会先尝试许多更简单的工具。比如说用数据增强来改善标签的一致性,或者只是要求厂家收集更多的数据。

当客户找到我们时,我们通常会先就他们的检测问题进行交谈,并查看一些图像,以验证该问题在计算机视觉方面是否可行。假若可行,我们会要求他们将数据上传到LandingLens平台。我们通常根据“以数据为中心的AI”方法向他们提供建议,并帮助他们对数据进行标记。

Landing AI关注的重点之一是让制造企业自己做机器学习的工作。我们的很多工作都是为了软件的便捷使用。通过对机器学习的开发迭代,我们为客户提供了如何在平台上训练模型,以及如何改进数据标记问题来提高模型的性能等很多建议。我们的训练和软件在此过程中会一直发挥作用,直到将训练好的模型部署到工厂的边缘设备上。

IEEE:那您如何应对不断变化的需求?如果产品发生变化或是工厂的照明条件发生变化,在这样的情况下,模型能适应吗?

吴恩达:这要因制造商而异。在很多情况下都有数据偏移,但也有一些制造商已经在同一生产线上运行了20年,几乎没有什么变化,所以在未来5年内他们也不期望发生变化,环境稳定事情就变得更容易了。对于其他制造商,在出现很大的数据偏移问题时我们也会提供工具进行标记。我发现使制造业的客户能够自主纠正数据、重新训练和更新模型真的很重要。比如现在是美国的凌晨3点,一旦出现变化,我希望他们能够自行立即调整学习算法,以维持运营。

在消费类软件互联网中,我们可以训练少数机器学习模型来为10亿用户服务。而在制造业,你可能有10,000 制造商定制10,000 个人工智能模型。所面临的挑战是,Landing AI 在不雇用10,000名机器学习专家的情况下,如何做到这一点?

IEEE:所以为了提高质量,必须授权用户自己进行模型训练?

吴恩达:是的,完全正确!这是一个全行业的AI问题,不仅仅是在制造业。例如在医疗领域,每家医院电子病历的格式略有不同,如何训练定制自己的AI模型?期望每家医院的IT人员重新发明神经网络架构是不现实的。因此,必须构建工具,通过为用户提供工具来设计数据和表达他们的领域知识,从而使他们能够构建自己的模型。

IEEE:您还有什么需要读者了解的么?

吴恩达:过去十年,人工智能最大的转变是深度学习,而接下来的十年,我认为会转向以数据为中心。随着神经网络架构的成熟,对于许多实际应用来说,瓶颈将会存在于“如何获取、开发所需要的数据”。以数据为中心的AI在社区拥有巨大的能量和潜力,我希望能有更多的研究人员加入!

雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/nBqceCfNFr78divd.html#comments Mon, 14 Feb 2022 10:13:00 +0800
本科学历马斯克当选美国工程院院士!张宏江、萨蒂亚:“我们都有美好的未来” //www.xyschoolife.com/category/academic/1oI5BRTUnqKqm8wQ.html
 AI科技评论
当地时间2月9日,美国国家工程院官网公布2021新入选的院士名单。共有111名院士和22名海外院士在名单中。
此份名单体现出了极大的“包容性”,入选者有:仅是本科学历的SpaceX创始人马斯克,也有智源研究院理事长张宏江博士,也有大公司(微软)董事长萨蒂亚•纳德拉等。
张宏江,在多媒体计算领域有杰出技术贡献与领导力
马斯克,可重复使用运载火箭,可持续能源系统的设计、制造、工程等方面取得了突破
萨蒂亚,将企业计算基础设施作为一种云服务推进,并在社会技术系统和实践方面发挥国际领先地位。
此外,西北大学Cao, Jian(曹简) 教授;北京理工大学方岱宁;新加坡国立大学Liu, Bin(刘斌);特拉华大学Yan, Yushan(严玉山);吉利德科学公司Yang, Taiyin(杨台莹);美国波音公司Chao-hsin Lin(林钊信);国立台湾大学蔡克铨等华人学者也入选。
美国国家工程学院是美国工程学界的最高学术团体,入选美国国家工程院院士是工程师的最高专业荣誉之一,以表彰那些在“工程研究、实践或教育方面做出杰出贡献的个人”。新晋院士将于2022年10月2日的年会上正式加入,届时其院士总人数将达到2388人,国际院士成员数量为310人。
以下是部分新入选院士和国际院士名单:

华人学者

张宏江(外籍院士)
入选理由:在多媒体计算领域有杰出技术贡献与领导力
人物简介:北京智源人工智能研究院理事长,原微软亚太研发集团首席技术官,北京源码资本投资合伙人。在郑州大学获电子工程学士学位 ,在丹麦科技大学获电子工程博士学位。曾任金山软件 CEO,微软亚太研发集团 CTO,微软亚洲工程院院长,微软亚洲研究院副院长,并成为微软第一批「杰出科学家」。国际计算机协会(ACM)和电气电子工程协会(IEEE)双院士,曾荣获 2010 年 IEEE 计算机学会技术成就奖和 2012 年 ACM 多媒体杰出技术成就奖,并获评 2008 年度美国杰出亚裔工程师奖。
曹简
入选理由:在开创和制造柔性板材成型系统方面发挥了领导作用
人物简介:美国西北大学副校长 、机械工程系教授、研究生教育主任,上海交通大学塑性成形工程系教授。 主要从事力学分析和宏观/微观设计、板料/复合板料成形工艺、固体力学的制造技术以及与其相结合的智能控制方面的研究。
林钊信
入选理由:为开发航空航天环境控制系统,确保乘客和机组人员安全作出贡献
人物简介:美国机械工程师学会(ASME)、美国采暖、制冷和空调工程师学会(ASHRAE)会员,国际室内空气质量和气候学会(ISIAQ)院士,台湾特许环境工程师,美国密歇根和华盛顿特许机械工程师,现任美国华盛顿西雅图波音公司技术研究员。他的工作主要与计算流体动力学、飞机机舱环境、多相流和火/烟的特性和抑制有关。
严玉山
入选理由:表彰其在分离膜和电化学反应工程、催化和材料方面的创造力、创新和创业精神
人物简介:特拉华大学化学和生物分子工程Henry B. du Pont主席,曾担任特拉华大学研究和创业的创始副院长、加州大学河滨分校的系主任和AlliedSignal公司高级职员工程师/项目负责人。他于中国科技大学获得学士学位,加州理工学院获得硕士学位和博士学位。他曾获美国化学工程师协会颁发的纳米科学和工程论坛奖,电化学学会颁发的能源技术部门研究奖等。同时,他还是美国科学促进会的研究员、美国国家发明家学院院士。
杨台莹
 
入选理由:用于治疗 HIV 的单片剂方案的发明、生产和全球分销
人物简介:中国台湾人,现为美国吉利德药品开发及制造部门执行副总裁。1993年加入美国吉利德以前,杨台莹在Syntex Corp.从事化学分析工作。她自台湾大学化学系毕业,并取得台大化学博士学位及美国南加州大学有机化学博士学位。
方岱宁(外籍院士)
入选理由:对极端条件下铁电 / 铁磁材料的力学和轻型多功能结构的贡献。
人物简介:北京理工大学先进结构技术研究院名誉院长兼首席科学家。中国科学院院士,美国机械工程师学会会士 ,材料与结构力学领域专家。 主要从事先进材料与结构力学理论、计算与实验方法研究。拓展了铁电/ 铁磁材料宏微观变形与断裂理论,在有限元分析与器件设计中获得应用。发展了先进材料与结构力电磁热多场多尺度计算力学方法与设计制备方法,研究成果在国际首颗增材制造卫星、国内首例轨道交通装备主承力异型复合材料悬浮架结构等高端装备结构中获得应用。
刘斌(外籍院士)
入选理由:开辟了生物医学、环境监测、传感器和电子设备的新方向。
人物简介:新加坡国立大学教授,化学与生物分子工程学院系主任,新加坡工程院院士,亚太材料科学院院士,英国皇家化学会会士。同时也是ACS Materials Letters, Advanced Materials and Advanced Functional Materials 等多个杂志的副主编及编委。致力于共轭聚合物发光材料、聚集诱导发光材料等在生物医学及能源中的应用研究,其成果多次发表在国际一流期刊,h-因子高达82,连续多年荣获科睿唯安“高被引科学家”称号。其多项研究成果实现产业化并创立了LuminiCell公司。
蔡克铨(外籍院士)
入选理由:在地震工程研究和钢结构设计方面的国际领导地位和贡献。
人物简介:国立台湾大学土木工程系杰出教授,国震中心的顾问,美国伯克莱加州大学博士。他学术专长领域为钢结构、钢与钢筋混凝土组合型结构、地震工程、结构实验等。从事研究以来曾获东元奖、三次科技部杰出研究奖、侯金堆荣誉奖、中技社科技奖、五次国研院杰出科技贡献奖、美国钢构造协会(AISC)特殊成就奖等。

计算机、人工智能领域

马斯克

入选理由:在可重复使用运载火箭,可持续能源系统的设计、制造、工程等方面取得了突破
人物简介:本科毕业于宾夕法尼亚大学,获经济学和物理学双学位。曾被斯坦福大学材料科学博士项目录取,但他仅入学两天就选择退学,投身硅谷创业。目前任太空探索技术公司(SpaceX)CEO兼CTO、特斯拉(TESLA)公司CEO  、太阳城公司(SolarCity)董事会主席。
关于太空,他两个代表性的工作分别是:
2012年5月,马斯克旗下公司SpaceX的“龙”太空舱成功与国际空间站对接后返回地球,开启了太空运载的私人运营时代;
2018年SpaceX公司 的 “重型猎鹰”运载火箭 在 美国肯尼迪航天中心 首次成功发射,并成功完成两枚一级助推火箭的完整回收。
Nadella, Satya
入选理由:将企业计算基础设施作为一种云服务推进,并在社会技术系统和实践方面发挥国际领先地位。
人物简介:微软首席执行官,在微软近40年的历史中,他是继比尔·盖茨(Bill Gates) 和史蒂夫·鲍尔默 (Steve Ballmer)之后的第三任首席执行官。2018年4月,入选《时代周刊》2018全球最具影响力人物榜单。纳德拉还帮助微软推出了云计算版Office软件,即Office 365, 这是微软有史以来增长最快的产品之一。他是微软多项重要技术的开发者之一,这些技术包括数据库、Windows服务器和开发者工具。此外,他所负责的微软Azure云服务在业内很受推崇。
Baraniuk, Richard G.
入选理由:对开放教育资源的发展和广泛传播,以及对压缩传感的基础性贡献。
人物简介:莱斯大学电气与计算机工程系教授,开放教育运动的创始人之一,提倡使用免费和开源许可的开放教育资源。此外还是 OpenStax(前身为 Connexions)的创始人兼董事。此外,他一直积极参与数字信号处理、图像处理和机器学习系统的开发,对小波理论、压缩感知和深度学习做出了许多贡献。
Davies, John
入选理由:其在计算机技术方面的贡献改善了教育和医疗保健,并刺激了经济,丰富了欠发达国家人民的生活。
人物简介:伦敦大学帝国理工学院化学学士和固体物理学博士。自 1978 年以来,与英特尔合作,深度参与该公司的高级工程、制造、销售和营销, 拉丁贸易年度技术领袖 Bravo 奖获得者。
Karlin, Anna
入选理由:对随机算法的设计和分析及其对计算机系统和互联网有突出贡献。
人物简介:华盛顿大学计算机科学与工程教授,于斯坦福大学获得博士学位。1997年担任IEEE计算机科学基础专题讨论会的程序主席,2016年入选美国艺术与科学院院士(AAAS)。主要研究领域为在线算法和随机算法的设计分析,在算法博弈论、分布式计算、数据发掘等领域得到应用。
Kezunovic, Mladen
入选理由:为电力系统故障的自动分析做出贡献,并在继电保护教育方面发挥领导作用。
人物简介:德克萨斯 A&M 大学电气与计算机工程系的教授和 Eugene E. Webb 教授。也是XpertPowerAssociates的负责人,该公司在过去30年中专门进行电力系统数据分析的咨询工作。他的领域包括继电保护、自动化电力系统干扰分析、计算智能、数据分析和智能电网等。
Levoy, Marc
入选理由:对计算机图形学和数字摄影技术做出了贡献。
人物简介:斯坦福大学荣誉退休教授, Adobe 的副总裁兼研究员,从 2011 年到 2020 年,在 Google全职 工作,最近大部分时间是 Google Research 的杰出工程师。在斯坦福大学,他教授计算机图形学、数码摄影和艺术科学。在谷歌,他与同事共同设计了图书馆图书扫描仪,并领导团队为 Pixel 智能手机创建了 HDR+、人像模式和夜视。
Sapiro, Guillermo
入选理由:对成像理论和实践作出突出贡献。
人物简介:杜克大学教授,曾在 Hewlett Packard Labs ( HP Laboratories ) 研究图像处理,并开发了用于无损图像压缩的LOCO-I 压缩算法,他还对Adobe After Effects中的rotobrush工具的开发做出了重大贡献。Sapiro通过Coursera教授了一门关于图像和视频处理的课程,课程的主题是 "Image and video processing: From Mars to Hollywood with a stop at the hospital."
Veloso, Manuela M.
入选理由:对机器学习及其在机器人和金融服务行业应用的贡献。
人物简介:卡内基梅隆大学计算机科学学院教授,纽约市摩根大通公司人工智能研究部主管,RoboCup联合会的联合创始人和前任主席,AAAI、电气和电子工程师协会(IEEE)、美国科学促进会(AAAS)和计算机械协会(ACM)研究员。她将研究目标是将认知、感知和行动结合起来,有效构建自主代理,以解决计划、执行和学习任务。Veloso和她的学生研究和开发了各种机器人,包括足球机器人团队和移动服务机器人。
Willcox, Karen E.
入选理由:为表彰其对具有不确定性的高维系统的设计和优化控制的计算工程方法的贡献。
人物简介:德克萨斯大学奥斯汀分校Oden计算工程和科学研究所主任。她目前是AIAA董事会和美国国家科学院数学科学和分析委员会成员,工业与应用数学学会(SIAM)会员,美国航空航天学会(AIAA)会员,并在2017年入选为新西兰功绩勋章(MNZM)成员。
Kwon, Wook Hyun(外籍院士)
入选理由:对模型预测和稳健控制及其商业化的贡献。
人物简介:韩国首尔国立大学电气和计算机工程系教授(已退休)。目前的主要研究兴趣是多变量稳健和预测控制、统计信号处理、离散事件系统和工业网络。

雷峰网雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/1oI5BRTUnqKqm8wQ.html#comments Fri, 11 Feb 2022 10:09:00 +0800
用机器学习算法解决密度泛函问题?若成功,药物发现、超导研究有望更上一层楼 //www.xyschoolife.com/category/academic/QXV66aL1lk5qlKsB.html

如果科学家们能够了解电子在分子中的活动,那么他们就能够预测一切事物的行为,包括实验药物与高温超导体。
作者 | 吴彤

编辑 | 陈彩娴

「AI+X」愈发如火如荼。
最近,权威学术媒介 QuantaMagazine 发表了一篇文章,介绍了 DeepMind 在内的许多研究团队正使用机器学习算法攻破物理领域的一个著名难题——密度泛函理论。
他们企图通过机器学习算法来寻找第三级密度泛函的方程式,找出人类无法用数学描述的电子行为,从而突破电子在分子中的活动细节。这对药物发现、超导研究与奇异材料的研究意义重大。
在科学家们看来,这是一项重要的、振奋人心的研究,因为密度泛函理论是一个经典的量子力学理论,而从密度泛函出发,他们有望在分子与化学等相关领域取得重大突破,实现人工智能跨界共舞的又一传说。
那么,机器学习算法与物理如何能共舞呢?我们来看看 QuantaMagazine 的要点介绍。



1

密度泛函理论是什么?
密度泛函理论的英文名为「Density Functional Theory」,简称「DFT」,始于1960年代,是一种研究多电子体系下电子结构的方法,在物理与化学上有广泛的应用,尤其用来研究分子和凝聚态性质,是凝聚态物理计算材料学和计算化学领域最常用的方法之一。
这样说似乎还有点抽象。举一些形象的例子:
众所周知,近年来超算出奇迹。而2018年美国超级计算机集群的三大应用,排名第一的便是密度泛函,其次才是夸克和其他亚原子粒子的研究,气候模拟也只能排第三。
更往前一点,2014年10月,Nature整理出100篇有史以来引用数量最高的研究论文,其中有12篇论文都与密度泛函理论有关。这是 Nature 当时的描述是:
「我们地球世界中的一切事物都取决于电子的运动——因此,DFT 就是一切的基础。」
图注:密度泛函理论揭示了电子在分子(如2,3-(S,S)-二甲基环氧乙烷)中的活动
几十年来,研究人员利用 DFT 对事物进行预测:2014年,化学家 Christopher  H Hendon 等人用 DFT 理论量化物种常见的咖啡酸、咖啡因与代表性风味成分丁香酚的热力学结合能,由此掌握了咖啡味道形成的奥妙;2017年,天文学家又用 DFT 理论预测木星核心的稠度,相关论文发表在了顶刊《Geophysical Research Letters》上。
英国牛津大学的材料物理学家 Feliciano Giustino 评价:「本质上,DFT 是一种使不可能的数学变得简单的近似。」
要通过考虑每个电子和每个原子核如何与每个电子和原子核相互作用来研究硅晶体中的电子行为,研究人员需要分析 16 万亿 (1021) TB 的数据,这远远超出了任何人的处理能力。而计算机将 DFT 的数据需求减少到只有几百 KB,完全在标准笔记本电脑的容量范围内。这昭示了计算机科学与DFT的合作基础。
另一方面,DFT 为科学家们提供了一条捷径,可以预测电子的去向,进而预测原子、分子和其他披着电子的物体将如何行动。长期以来,物理学家和化学家一直利用深厚的物理专业知识来使他们的方程式更好地反映所有电子共有的复杂活动。
了解电子就是了解它们构成的原子、分子和材料。自 1920 年代欧文·薛定谔发表他的同名方程(「薛定谔波动方程」)以来,物理学家已经彻底理解了电子。
图注:薛定谔波动方程
但在分析大量电子时,薛定谔方程几乎毫无用处,原因就在于电子比粒子更多团。它们在空间中扩散,以多种方式与其他电子重叠并相互挤压。随着电子数量的增加,使用薛定谔波动方程来解释所有电子之间的不断接触的难度也呈指数级增长。
来自加州大学伯克利分校的凝聚态物理学家杰弗里·尼顿 (Jeffrey Neaton) 便提出这样的观点:「即使是只有几个粒子,你也需要用更多的磁盘空间才能把波函数写入硬盘。」



2

从DFT到通用密度泛函
多年来,密度泛函理论的强大吸引着无数研究者躬身其中。在他们当中,我们不得不提到1998年获得诺贝尔化学奖的物理学家 Walter Kohn。
图注:Walter Kohn
Walter Kohn 出生于奥地利维也纳,1945年获数学和物理学学士学位,1946年于多伦多大学获应用数学硕士学位,1948年在哈佛大学获博士学位。曾任哈佛大学物理系教员,卡内基-梅隆大学(CMU)助教和教授,加利大学圣地亚哥分校物理系教授、系主任,1979年到加利大学圣巴巴拉分校先后任理论物理所所长和物理系教授。
1964 年,他与另一位物理学家 Pierre Hohenberg 找到了一种方法,证明通过将分子的电子粘在一起,形成一些点更厚、一些点更薄的液体,就可以完美地捕捉到分子的每一个方面。这种电子液体(electron soup)的密度包含分子复杂波函数的所有信息,使物理学家实现了对电子进行单独的、原先以为绝无可能完成的任务。非常了不起。
图注:研究人员使用基于密度泛函理论的工具来预测 DNA 碱基对周围的电子在被激光脉冲击中时如何反应。
Hohenberg 和 Kohn 证明了存在一个强大的主方程,即「通用密度泛函」。该方程将以「电子液体」为例计算其能量,引导物理学家采用能量最低且最自然的电子排列。从这个角度看,通用密度泛函具有很强的普遍性,原则上可以描述从硅砖到水分子的所有系统。
唯一的问题是没有人知道这个方程式是什么样的。
很快,1965年,Kohn和另一位物理学家 Lu Jeu Sham 首次写出了可用的密度泛函方程式。在这个过程中,他们知道,想要写出捕捉电子行为所有微妙表现的精确函数难度极高,因此他们将难题一分为二:一半是已知部分,它提供了一组只能平均感知彼此的电子的能量;一半是未知部分,比如拜占庭量子效应和非局部相互作用产生的多余能量,统一放进一个被称为交换和相关函数的容差系数中。
论文链接:https://journals.aps.org/pr/abstract/10.1103/PhysRev.140.A1133
目前,Kohn对DFT的两篇研究论文分别在Nature的这100篇论文中排名第34位和第39位。Kohn意识到,他可以通过假设每个电子对所有其他(不是单个的)电子的反应,以模糊的平均值来计算系统的属性,比如它的最低能态。原则上,数学是简单明了的;系统的行为就像一个连续的流体,其密度随点而变化。这一理论也因此得名。
这个方法将我们对通用泛函的未知降到了最低。在接下来的几十年里,科学家们基于 Kohn 和Sham 的工作,采用越来越聪明的方法来估计容差系数,从而使得密度泛函成为理解电子的实用方法。
在实际应用中,研究人员使用这个方法来预测原子捕获或释放电子、分子振动的方式(比如好奇号探测器用来寻找火星上的生命迹象)、晶格中原子的排列、 声音在材料中等等。1998年,Kohn还凭借该理论的广泛应用赢得了诺贝尔化学奖。



3

用AI寻找通用泛函的近似值
研究人员要求更高的 DFT 精确度,就必须考虑到泛函交换和相关项的无关性,打磨函数的细节,使它更符合通用密度泛函。
寻找更通用的泛函方程,尤其是泛函方程的近似值,成为「DFT 狂热者」的新目标。
天普大学的物理学家约翰·珀杜(John Perdew)是这方面的先驱者。他将通向通用泛函的道路描述为「在梯子上攀爬」。在每个梯级上,物理学家都在函数中添加新成分。最简单的成分就是每个位置的「电子炖菜」(electron stew)的厚度。在下一个梯级上,泛函还考虑了从一个地方到另一个地方的厚度变化速度,从而使这项研究更加精确。
图注:John Perdew
Perdew 的策略核心是使用了物理推理,从而保证通用泛函的近似值一定会遵守某些数学属性,即所谓的「精确约束」。越高的阶梯要满足越多的约束条件,因此研究人员就必须更努力地寻找满足所有这些约束条件的方程。
Perdew 的团队于 1999 年开始处理混合六种成分的第三级泛函。2015年,他们年发布了当时最先进的名为「SCAN 」的泛函。这是他的第八次尝试,也是泛函第一次符合与第三级相关的所有 17 条已知约束。SCAN 适用于分子和固体领域,已证明是迄今为止发现的通用泛函最强大的近似之一。
论文链接:https://arxiv.org/abs/1511.01089
「第三级函数的可能性非常大。弄清楚什么是重要的,什么是有效的,需要时间。」Perdew谈道。
这时,机器学习就派上了用场。



4

机器学习入场
当 Perdew 基于物理直觉改进密度泛函时,一场革命正在酝酿:算法能否找出人类无法用数学描述的电子行为的模式?
2012 年,来自美国UC Irvine大学的 Kieron Burke 及团队首次尝试将机器学习应用于一组简化的电子。他所提出的一维原型驱使了他和其他研究者思考能够采用机器学习算法来寻找密度函数。
论文链接:https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.108.253002
2021年初,Burke团队又取得了突破:他与合作者为一个玩具问题建立了一个神经网络,采用了一个此前大多数工作都会忽略的方法来跟踪密度误差和能量误差。相关工作发表在了《Physical Review Letters》上。
论文链接:https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.126.036401
卢森堡大学的理论化学家 Alexandre Tkatchenko 说:“要获得既能提供密度又能提供能量的泛函,需要一个非常灵活的架构,单纯依靠人脑写出一个函数式是很难的。”
石溪大学的 Fernández-Serra 也是研究将机器学习算法用于寻找泛函的学者之一。她使用类似的策略设计了一个神经网络,研究一系列分子和能量,并寻找服从大多数已知约束的第三级函数,本质上就是使用一台机器来追溯 Perdew 的足迹。
正如她和Sebastian Dick在 2021年秋季《Physical Review B》中报道的一样,由此产生的交换和相关函数在预测不熟悉分子的能量方面比SCAN高出了大约10%,但这轻微的增益表明Perdew的研究已经接近于第三级泛函的天花板。
https://journals.aps.org/prb/abstract/10.1103/PhysRevB.104.L161109
「物理直觉几乎耗尽了人类所能达到的所有智慧。在不使用机器学习的情况下,Perdew的泛函研究真的是尽善尽美。」Fernández-Serra 评论。



5

DeepMind「盯上」DFT
但是想要爬得更高,就需要更复杂的输入,以及能够理解这些输入的算法。
DeepMind 的理论化学家阿隆·科恩 (Aron Cohen) 也对寻找更通用的泛函方程十分感兴趣。为了深入理论量子化学的抽象观点,他随身带着一个3d打印的蓝色玩具,形似幸运饼干,弯曲描绘出了一个泛函函数的确切形状。它仅适用于最简单的系统描述,比如任意两个原子间共享的两个电子的信息,但也时刻提醒着 Cohen:这个世界上可能存在一种能够处理任意数量电子和原子的通用泛函。
图注:这个玩具函数描述了任意两个原子之间共享的两个电子。球轴承表示能量最低的排列、倾斜模型则会改变原子。
DFT 研究的主要目标之一是找到该通用泛函的更准确的近似值。
众所周知,DeepMind在研究出围棋系统Go之后,便一直在寻找新的挑战,尤其将目光集中在了「科学机器学习」的问题上。于是,Cohen便提议研究 DFT,此前他也花了数年时间研究简单系统的精确泛函,但这些系统并不足以反映现实的世界。
回顾科恩的研究历程,DFT 的一个核心弱点大大阻碍Cohen:电流密度泛函通常会过多地涂抹电子。这个问题在不平衡的系统中尤其明显。电子应该主要聚集在一个分子上,但 DFT 偏偏将电子汁均匀地分布在两个分子上。当这种连带问题出现在化学反应中时,DFT 就无法为粒子合并和分离提供正确的能量,即使是像氢原子这种简单的情况也是如此。
为了设计下一代函数,Cohen和DeepMind团队选择不再纠结于满足一长串的物理原则。相反,他们依赖大量的数据,首先从数据库中搜索出数千个已知能量的分子(使用薛定谔方程或类似方法以高成本计算),然后再使用超级计算机来处理数百个额外分子的能量(其中许多分子需要几天的时间来计算)。
当研究小组收集了详尽的分子样本时,Cohen和其他化学家再决定如何构造这些泛函。
他们找到了一种万能的方法:当以一种方式计算某一函数的80%的能量,再以另一种方式计算剩下的20%的能量时,就会出现一个最佳点。这一方法是研究人员经过多年的反复试验找到的,用来估计部分交换和相关函数。
长期以来,研究人员一直犹豫下一步是不是让分子周围的点按照80/20的比例随点变化,但目前还没有人能完全成功做到这一点。
1998年 Burke 在其发表于 ACS 期刊的“Exchange-Correlation Energy Density from Viral Theorem” 中介绍了这种类型的函数。但是,他说:“人们可能已经在100篇论文中尝试应用这种形式的函数,但他们还没有创造出每个人都能用的东西。也许这对一个人来说太难了。”
论文链接:https://pubs.acs.org/doi/10.1021/jp980950v
凭借大量的样本分子和DeepMind团队的机器学习专业知识,该团队所提出的神经网络能够训练出一种灵活的第四级函数——DM21 ,可以比SCAN和其他顶级竞争对手更好地估计各种分子的能量,因为它能更准确地定位电子,更好地描述它们的自旋。据介绍,他们所提出的泛函是第一个能够处理化学键断裂和形成的通用泛函。去年12月9日,该工作发表在了《Science》上。
论文链接:https://www.science.org/doi/10.1126/science.abj6511
但不可否认,DM21 也有一个明显的缺点,就是只训练了元素周期表的前三行分子,尽管数据更丰富,但也意味着它学到的电子行为可能无法转移到金属原子或固体材料上,而这两者却对于分析铜基高温超导体系列至关重要。目前,这两个领域的通用泛函细节还在用 SCAN 和其他泛函做逼近。



6

结语
目前,机器学习在科学领域的「辅助」才刚刚崭露头角。AI 算法能为科学研究带来多大的突破,仍是一个未知数。
但正如 QuantaMagazine所评价,Fernández-Serra 和 DeepMind 等团队对新泛函的研究已经表明,机器学习可以成为探索通用密度泛函新领域的强大工具,尤其是分子和化学的相关领域。
Tkatchenko评价,机器学习有助于调整化学空间,使泛函尽可能高效。
不过,改进后的化学泛函是否能有效揭示从原子到材料等事物的通用特征,还有待观察。
Perdew 便表示,他会继续寻找新的直观特性,以进一步完善传统研究路径。但他可能不会在机器学习方面投入大量时间,「因为尽管机器可以学习,但它们还不能向我们解释它们学到了什么。」
但 Cohen 认为已经可以从 DM21 中看到可能成为未来近似值的持久元素的通用特征,无论这些特征是由人类大脑生成的、还是由神经网络生成的。
「函数是十分复杂的,所以对它进行任何尝试都是好的。理想情况下,我们希望将它们都统一起来。」Cohen说。

参考链接:

1.https://www.quantamagazine.org/quantum-complexity-tamed-by-machine-learning-20220207/

2.https://pubmed.ncbi.nlm.nih.gov/24802110/

3.https://agupubs.onlinelibrary.wiley.com/doi/full/10.1002/2017GL073160

4.https://www.nature.com/news/the-top-100-papers-1.16224

雷峰网雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/QXV66aL1lk5qlKsB.html#comments Thu, 10 Feb 2022 11:37:00 +0800
清华博士后用10分钟讲解AlphaCode背后的技术原理,原来程序员不是那么容易被取代的! //www.xyschoolife.com/category/academic/qzSXz3cQVhBa4fq0.html

AI科技评论报道
不久前,DeepMind 的团队发布了一个可以自动生成竞赛级代码的人工智能系统——AlphaCode,号称「媲美普通程序员」,一经发表就在国内外的AI圈里引起了巨大轰动。 

-论文地址:https://storage.googleapis.com/deepmind-media/AlphaCode/competition_level_code_generation_with_alphacode.pdf

-数据集:https://github.com/deepmind/code_contests

根据DeepMind的博客介绍,AlphaCode 在号称「全球最强算法平台」Codeforces 上的 5,000 名用户解决的 10 项挑战中进行了测试。AlphaCode能够以与人类完全相同的格式在这10项挑战中自动输入代码,生成大量可能的答案,然后像人类程序员一样通过运行代码和检查筛选出可行答案,最终在人类程序员中取得了排名前 54%的好成绩。

也就是说,AlphaCode的代码能力媲美在Codeforces上参加过测试的几乎一半程序员(2300名)。按照一个初级程序员月薪2万的算法,AlphaCode有望每年替全球人类资本家省下5.52亿的人力成本,使一半程序员失业…… 

不过,DeepMind团队当时也明确指出了:AlphaCode目前只适用于竞争类编程比赛。 

不可否认,这也是继DeepMind发布Alpha Go、AlphaZero与AlphaFold之后的又一研究突破,极大地增加了其Alpha系列的传奇色彩。但与该系列的其他工作(如AlphaGo打败世界围棋冠军)相比,AlphaCode的性能似乎并不突出,

目前正在清华大学朱军门下担任博士后研究员的Tea Pearce对AlphaCode的技术原理十分感兴趣,对DeepMind的这篇31页论文进行仔细阅读后,制作了一个短视频发表在油管上,从系统概述、测试阶段、数据集的预训练与微调、Transformer模型的训练过程与Transformer架构等维度对AlphaCode的细节进行了较为详细的讲解。 

视频地址:https://www.youtube.com/watch?v=YjsoN5aJChA

与OpenAI之前开发的GPT-3一样,AlphaCode也是基于Transformer模型,只不过前者侧重于言生成,后者则强调对顺序文本(如代码)的解析。

下面AI科技评论对该短视频进行了简单整理:


1

AlphaCode的代码问题 

当前,AlphaCode的目标编码问题集中为特定的竞赛类型,在诸如Codeforces的网站上参加编码挑战,其中,这些挑战包含对一个问题的简短描述与带有测试案例的示例,为挑战者提供了能与正确预期输出相匹配的输入。

简而言之,这些挑战的目标就是编写一些代码,为示例的测试案例与一组隐藏测试案例提供符合预期的输出。如果你的代码通过了所有测试,那么你就解决了这个问题。

根据DeepMind的介绍,AlphaCode在Codeforces网站所举办的编码挑战中取得了与普通用户相媲美的成功率。


2

AlphaCode系统概述

那么,AlphaCode的工作原理究竟是怎样的呢?

在DeepMind团队所发表的“Competition-Level Code Generation with AlphaCode”一文中,他们给出了一个高级的概要图(如下)。如图所示,AlphaCode的核心组件仍然是Transformer语言模型,其余单独组件也是旧的。 

图注:AlphaCode的系统图

 


3

使用的协议 

我们先看看AlphaCode在测试时是如何工作的。

首先要知道的一点是,在解决写代码的问题时,AlphaCode使用了一个非常具体的协议(protocol),且该协议决定了该系统的管道。根据论文显示,DeepMind团队获得了使用尽可能多的示例测试案例的权限,因为这些测试案例也包含在该问题内。

不过,他们确实将自己的测试限制在了10个提交的隐藏测试发送案例内。

 


4

测试阶段的AlphaCode

AlphaCode的测试时间分为三个独立的阶段。

他们首先使用了一个大规模的Transformer模型,将问题描述示例测试和问题的一些元数据作为输入,然后从模型中取样,生成大量潜在的解决方案。之所以先生成大量的潜在解决方案,是因为大多数脚本无法为某些人、甚至编译器所编译。

因此,在第二与第三阶段,他们就主要针对这100万个潜在代码脚本作「减法」,选出他们认为在给定协议的前提下可能有用的10个方案。而他们的做法也很简单,就是在示例测试案例中测试完这100万个代码脚本,然后将无法通过测试的大约99%个脚本排除掉,这就将脚本的数量减少到了千位数。 

不过,协议要求其还要继续缩减到10个解决方案。于是,他们又采取了一个非常聪明的方法:

他们使用了第二个Transformer模型将问题描述作为输入,但不是尝试生成代码来解决问题,而是用Transformer生成测试案例输入,并为每个问题抽样50个测试案例输入。现在,他们不尝试生成输入与输出对,而只是试图产生一些与问题相关的现实输入。所以,AlphaCode可能必须根据问题所在,生成字符串、二进制数或数字列表等。  

图注:Tim Pearce对AlphaCode在测试时的三个阶段进行讲解

 

为什么这是个好主意?因为他们认为如果两个脚本对所有 50 个生成的测试所返回的答案是相同的,那么它们就可能使用相同的算法,并且可能不想浪费两个提交来尝试这两个脚本。 

所以,他们在这 50 个生成的输入上编译并运行大约 1000 个脚本。然后,他们根据这 50 个虚构输入的输出对脚本进行聚类。接着,他们会从每个聚类中选择一个示例脚本。如果十个脚本中的任何一个通过了所有隐藏测试,那么这些脚本就是最终的10个脚本,他们也就成功地解决了编码问题,否则就是失败。这就是 AlphaCode 在测试时的工作方式。 

这其中涉及到对Transformer模型的训练,可以看下文。


5

对数据集进行预训练与微调

AlphaCode 使用的是当今深度学习中相当标准的预训练微调过程。

这里有两个数据集:第一个数据集是由各种编程语言组成的公共 Github 存储库,包含 715 GB 海量代码,用于预训练阶段,目的是让Transformer学习一些非常通用的知识,比如代码结构和语法。

第二个数据集要小得多,只服务于 AlphaCode 的目标,用于微调。该数据集是从一些编码挑战网站上抓取的,包括Codeforces。他们稍后会在数据集上进行测试,包含问题描述测试用例和人工编写的解决方案。这些是数据集。现在,我们该怎么处理它们?

 


6

Transformer模型的训练过程

首先说一下预训练阶段。

他们抓取了一些 github 代码,并随机选择所谓的枢轴点(pivot point)。

 

枢轴点之前的所有内容都会被输入编码器,而解码器的目标是重建枢轴点以下的代码。 

 

编码器仅输出代码的向量表示,可用于整个解码过程。

解码器以自回归方式运行:首先预测代码的第一个标记。然后,损失函数只是预测的 softmax 输出和真实令牌(token)之间的交叉熵。第一个真正的令牌会成为解码器的输入,然后预测第二个令牌,并且当要求解码器预测代码令牌的意外结束时,重复此过程直到代码结束。

现在,这些损失通过解码器和编码器反向传播,尽管事实证明:只为编码器添加第二个损失很重要。

这被称为掩码语言,可以高效地建模损失。将输入到编码器中的一些令牌清空。作为一种辅助任务,编码器尝试预测哪个令牌被屏蔽。一旦预训练任务完成,我们就进入微调任务。

在这里,我们将问题描述的元数据和示例输入投喂到编码器中,并尝试使用解码器生成人工编写的代码。这时,你可以看到这与编码器-解码器架构强制执行的结构非常自然地吻合,损失与预训练任务完全相同。 

还有一个生成测试输入的Transformer。这也是从同一个 github 预训练任务初始化而来的,但它是经过微调来生成测试输入,而不是生成代码。

 


7

Transformer架构

DeepMind 团队对各种大小的模型进行了实验。经实验,较大规模的模型往往表现更好。编码器和解码器本身由多头注意力层组成,且这些层非常标准。 

 


8

其他技巧

该论文有许多进步之处。在这里,我不打算全部介绍,只想强调一个我认为很酷炫的点,就是标签和评级增强,以及问题描述。 

我们总是将元数据作为Transformer的输入。这包括问题的编程语言难度等级。一些问题的标签与解决方案在训练时是否正确?他们显然知道这些字段的值是什么,但是在测试时他们并不知道什么是酷炫的,那就是他们实际上可以在测试时将不同的内容输入到这些字段中以影响生成的代码。例如,你可以控制系统将生成的编程语言,甚至影响这种解决方案。

它尝试生成比如是否尝试动态编程方法或进行详尽搜索的答案。他们在测试时发现有帮助的是,当他们对 100 万个解决方案的初始池进行抽样时,是将其中的许多字段随机化。通过在这个初始池中拥有更多的多样性,其中一个代码脚本更有可能是正确的。 


9

结语
以上就是 Tea Pearce 对 AlphaCode 工作原理的讲解。
从AlphaCode的工作出发,他谈到自己的思考:为什么DeepMind团队在这些编码问题上实现的性能水平比在围棋(AlphaGo)或星际争霸(AlphaZero)游戏中的超人水平系统要低得多呢? 
Tea Pearce的分析是,从自然语言描述中编写代码本质上就比玩游戏要困难得多,但这也可能是因为游戏中可用的数据少得多。你可以根据需要模拟尽可能多的数据,而编码问题的数量是有限的。
最后,Tea Pearce抛出问题:AI写代码之所以难的原因可能是什么?在未来,AI的代码水平要怎样才能超越人类最优水平? 
欢迎在评论区留言讨论。 

参考链接:

1. https://www.youtube.com/watch?v=YjsoN5aJChA

2. https://www.reddit.com/r/MachineLearning/comments/slwh69/p_alphacode_explained/

3. https://storage.googleapis.com/deepmind-media/AlphaCode/competition_level_code_generation_with_alphacode.pdf

4. https://www.deepmind.com/blog/article/Competitive-programming-with-AlphaCode


雷峰网雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/qzSXz3cQVhBa4fq0.html#comments Thu, 10 Feb 2022 11:35:00 +0800
学 AI 也能进编制了?「人工智能安全研究中心」公开招聘,计算机技术岗有51个坑位! //www.xyschoolife.com/category/academic/2CTOrkCabRzjqRw4.html

作者 | 西西

谁能想到,学人工智能也能进编制?(妈妈再也不用担心我要去大厂卷了!)

不久前,X市X局发布了一则独特的招聘公告:「人工智能安全研究中心」与「关键信息基础设施保护中心」2022年公开招聘工作人员,拟面向社会公开招聘60名工作人员。

根据公告附件中的岗位需求表,我们看到,单是面向计算机相关技术岗的「坑位」就有51个,其中「科研岗」招聘23人,「技术检测岗」17人,「数据分析岗」也有4人。其余岗位为「综合管理岗」、「出纳岗」、「财务会计岗」、「行政管理岗」、「申报运行岗」等等,多只招聘1人。

而「科研岗」中又分为主要面向计算机视觉与自然语言处理专业的科研岗,拟招16人,以及面向数据挖掘与建模的科研岗,拟招7人。

不过,总的来说,信息技术岗也均毫无例外地要求学历为硕士及以上,35周岁以下……所以想进编制的「AIer」要抓紧机会了!

除了基本的岗位需求介绍,公告还贴出「综合评价」一栏所需的材料需求。其中,「学术成果」一项分为四类:

1、论文(所属期刊被2021年Web of Science中《Journal Citation Reports》或2021年《中国科技期刊引证报告(核心版)》收录,时间为2010年1月至今,限第一作者、通讯作者或导师一作学生二作)

2、专利(相关专业领域的发明专利、实用新型专利)

3、专著(公开出版专著、计算机软件著作权,限第一至三作者)

4、标准(行业标准、国家标准及以上,限第一至三作者)

荣誉奖励也分为四类,大致如下:

1、荣誉表彰(包括中央、国家级,省部级,厅局级,不包括学校颁发的荣誉表彰)

2、学术竞赛〔国际(四个及以上国家参赛)、国内(省部级及以上)学术科技、技能大赛等与计算机、数学相关竞赛前三名、一等奖(金奖)及以上〕

3、奖学金〔国家奖学金;校级一等及以上奖学金,或同等次奖学金(需提供校级学生工作部门出具的说明),限应届毕业生提供〕

4、科研项目获奖情况(国家自然科学奖、技术发明奖、科学技术进步奖,省部级自然科学奖、技术发明奖、科学技术进步奖)

报名截止时间为2月15日18:00,每人限报一个岗位。祝有意向的朋友好运!

雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/2CTOrkCabRzjqRw4.html#comments Thu, 10 Feb 2022 11:35:00 +0800
吴恩达:我感染了新冠,已接种疫苗,症状轻微 //www.xyschoolife.com/category/academic/bwvKODnuSjCeZlsK.html

整理丨维克多

刚刚,著名人工智能(AI)学者吴恩达(Andrew Ng)感染了新冠。

消息来源于吴恩达认证的推特账户,在推特消息中,吴教授说:

“I just tested positive for Covid.”

不过,庆幸接种了三针疫苗,吴恩达目前的新冠症状与轻度流感差不多。他也非常感激疫苗工作者在对抗这场大流行病种所做出的的努力。

吴恩达是谷歌大脑的联合创始人和主管,曾担任过百度首席科学家。他目前是美国斯坦福大学计算机科学系和电子工程系教授。而在美国,新冠患者现有确诊接近三千万,累计死亡人数超过九十万。

据约翰斯·霍普金斯大学的数据显示,过去一周美国日均新增确诊病例达29万,较三周前80万的水平大幅下降,但仍高于此前的几波疫情高峰。日均新增死亡病例仍在上升,过去一周,美国日均新增2462例死亡病例,较再早一周上升3%。

AI学者吴恩达

吴恩达是人工智能和机器学习领域国际上最权威的学者之一。早些年网友将其与Hinton、Lecun、Bengio放在一起,戏称过深度学习四巨头。

2010年,他受邀加入谷歌开发团队XLab团队,开启了他的产业发展之路。在谷歌期间,吴恩达主导并参与了两个知名项目——无人驾驶汽车和谷歌眼镜。更重要的是,他与谷歌顶级工程师合作建立了全球最大的“神经网络”。正是凭此,吴恩达奠定了其在谷歌人工智能领域的位置。 

2014年,吴恩达加入百度并担任百度首席科学家。2017年,吴恩达离职百度,同时凭借多年的行业经验,开启了自己的创业之旅。

近年来,他一直致力于深度学习的研究与普及教育。在不同的场合,他一再表示:深度学习还有很大的潜力,是一项被证明有效的技术,我们需要继续加大投入。

为此他做了很多努力:其与达芙妮·科勒一起创建的在线教育平台Coursera影响了数百万的AI学习者。

2021年3月31日,Coursera正式在纽交所上市,股票代码为“COUR”。上市之初,吴恩达在招股书中写道:

“我们相信,学习是人类进步的源泉,它有能力改变我们的世界。从疾病到健康,从贫穷到繁荣,从冲突到和平,它有能力为我们自己,我们的家庭和我们的社区,改变我们的生活。无论我们是谁,无论身在何处,学习都使我们能够改变、成长,并重新定义一切可能性,这就是为什么,获得最佳学习是一种权利,而不是特权。这,就是Coursera存在的原因。”

此,让我们祝福这位AI信徒早日康复,也祝愿新冠疫情早日结束。
参考来源:
https://baijiahao.baidu.com/s?id=1724155732208762356&wfr=spider&for=pc

雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/bwvKODnuSjCeZlsK.html#comments Wed, 09 Feb 2022 14:27:00 +0800
西工大张伟伟教授:智能流体力学研究的进展 //www.xyschoolife.com/category/academic/4M1siLoFTmdbBcn6.html
作者丨张伟伟
整理 | 杏花

编辑 | 青暮

作为科学发现的第四范式的代表,人工智能已取得令人瞩目的进展,在蛋白质结构预测和博弈等诸多任务中表现出色。当前,大规模科学与工程计算朝着更高精度,以及与人工智能深度融合的方向发展,这可能带来加速科学发现的全新计算范式。

2021年12月16日,西北工业大学航空学院副院长,教育部长江学者特聘教授,流体力学智能化国际联合研究所中方负责人张伟伟在 CNCC 2021 “人工智能在超大规模科学计算领域的应用探索”专题论坛上做了《智能流体力学研究的若干进展》的报告。

张伟伟教授在报告中提到,湍流模型机器学习方法和湍流数据同化方法,将摆脱对传统湍流模型的依赖,实现飞行器高雷诺数湍流场的高精度求解。

针对飞行器大攻角动态失速特性预示,试飞风险大、仿真模拟算不准的困境,张教授及其团队提出风洞动态数据和非定常流动模拟的智能融合方法,将解决飞行器机动飞行的高精度仿真与控制律设计难题。他们建立了基于大数据的复杂流动控制方程识别方法,为燃烧、多相流、多场耦合等复杂工程问题的数学表征提供新的解决方案。

最后,张伟伟教授总结道,通过机器学习方法,利用数值模拟和实验产生的流动大数据,发展智能流体力学,将成为流体力学发展的新范式。

以下是演讲全文,AI科技评论做了不改变原意的删改:

今天给大家汇报的题目是《智能流体力学研究的若干进展》,相关工作也是在刘溢浪、王旭、朱林阳、曹文博、高传强、寇家庆等成员的共同努力下完成的。

汇报分为四个部分:首先是研究背景,以流体力学为例,人类对自然科学的研究手段可以划分为理论分析、数值方法和实验技术。

理论分析依赖于人脑,包括解析解、理论模型和标注律等,数值方法则包括高精度的数值格式和高效的求解方法。

实验技术对流体力学来说就是先进的流场测试和诊断技术。

由于理论解析方法的一些局限性,对复杂的问题,人们很难通过理论方法求解。所以,从上世纪七八十年代开始,计算机水平的提升和实验技术的发展,比如计算流体力学和实验流体力学的发展,推动了我们对流体力学相关问题的认知。

在新时代到来之际,不管是数值计算还是实验研究,都产生了海量数据。利用人工智能技术,通过机器学习方法来缓解人脑在理论和方法方面的一些局限性,已经形成了流体力学研究的新方向。

在这方面,我们团队在近几年做了一些工作,主要包含以下三个部分。

其中第一部分可以归结为流体力学理论与方法的智能化,包括流体力学方程推导的机械化,即智能化推导方程。也包括流体力学里最经典的物理问题——湍流建模的机器学习方法,这应该是流体力学领域现阶段最热的研究方向之一。此外,这一部分还包括流体物理量纲分析,标度的智能化,以及数值模拟过程中的智能化。

第二部分包括流动信息特征提取与融合的智能化。流动本身就是一个大数据问题,包括流动的特征表征,如旋涡、间断、附面层等,以及海量流场信息的数据挖掘。还包括面对设计过程中不同阶段、不同来源的数据,如何综合利用这些数据,发展智能融合的方法。

第三部分涉及到与其它学科的耦合与应用,可以归结为多学科和多场耦合问题模型的智能化,包括多场耦合和分析的模型化,多学科的智能优化设计,气动优化设计可以说是最早进入智能化时代的一个研究方向。还包括近年比较热的流动控制的智能化和自适应化。



1

数据驱动的复杂系统微分方程识别

下面我给大家汇报前面所提工作中的三个点。第一个是数据驱动的复杂系统的偏微分方程的识别,主要涉及方程推导的智能化。

偏微分方程识别是解决复杂动力学系统物理方程匮乏的一个潜在突破口,因为过去推导偏微分方程就是基于第一性原理,包括流体力学的N-S方程、电磁学的麦克斯韦方程等等,都是基于守恒定律和物理原理来推导的。

但对于有些系统来说,很难实现这种推导,比如神经科学、生命科学、社会学等等。而现在传感器、计算能力、数据存储等都得到了迅速发展,基于数据的方法得以大显身手。如何利用这些数据以及基本规律和量纲,在此基础上构建复杂系统的偏微分方程,成了一个新的研究方向。

近年,应用数学领域,基于时域识别方法,利用稀疏回归,发展出了偏微分方程的识别方法。因为偏微分方程的形式相对来说比较固定,尽管包括导数项的非线性组合项,但本身仍然是这些核心项组成的线性组合。通过预设一个候选函数库,然后可以从候选函数库里通过稀疏回归方法来识别偏微分方程里到底有哪些非线性项。

但是这种数据识别方法的局限性在于对噪声不鲁棒,另外,候选函数库过于冗余。

我们可以利用物理函数库构造的一些原则,构造简约的候选函数库。实际上,就是把时域方程转化到频域,在频域里,可以认为这种噪声项是一种高频成分,我们主要利用它的低频部分来进行频域识别,识别后,再把它转化到时域,这就完成了偏微分方程的识别。

我们给出了三种方法,第一种是时域识别方法,它的误差会随着噪声项的增加而变大。

第二种是滤波方法。如果我们使用滤波方法,然后再进行识别,也会产生比较大的误差。因为使用滤波方法以后会带来一个低频项的信息偏差。所以,频域识别方法有效解决了存在噪声的识别问题。

另外,我们也对N-S方程进行了初步尝试,通过求解量纲方程,利用物理量纲的方向以及候选函数库的对称性,成功识别出N-S方程的有效项。



2

高雷诺数湍流机器学习初探

第二部分,介绍团队在湍流机器学习方面的初步工作。可以说湍流问题是流体力学普遍的形态,也是流体力学的一个核心问题,因为它具有三维、非定常、多尺度以及非线性等复杂特征。

所以,诺贝尔奖获得者费曼也指出,湍流是经典物理中的最后一个重要的未解决问题,庄逢甘院士也曾指出,湍流是我国航空航天的“卡脖子”难题,它对飞行器气动力的准确评估、飞行器减阻、增升、降噪以及大攻角机动飞行姿态控制都具有非常重要的意义。

湍流的研究手段,包括理论分析和实验技术。理论分析主要依赖于人脑,实验技术则主要是先进的测试手段。

现有的数值方法大致可以分为两类,一类是基于目前湍流模型下的RANS数值模拟。这种模拟相对来说在工业界使用比较广泛,计算量还可接受。而大涡模拟和DNS方法,它们的计算量目前远超工程应用的接受程度。

最近发展的数据驱动的建模方法,是基于海量的流场以及机器学习技术,我们团队也在这方面做了一些尝试性工作。关于湍流的机器学习,大概有如下几类:第一类是传统湍流模型的修正,比如对经典湍流模型的源项进行修正,或者补充一些非线性的涡粘项,也有基于高精度的模拟方法,比如DNS对RANS雷诺应力的差量进行建模。

这些研究,目前主要还是集中于较低低雷诺数的问题,离工程运用还存在一定差距。我们主要想针对高雷诺数的工程湍流进行机器学习建模。

由于高雷诺数湍流存在薄的边界层,流动特性差异比较大,另外高精度的数值模拟结果难以获取,计算量本身也比较大。此外,传统的偏微分方程模式对大攻角分离流动的模拟精度也比较差。

所以,我们给自己定的研究目标是——针对高雷诺数复杂工程流动问题,发展能够替代经典偏微分方程形式的数据驱动湍流模式,并且能够提升分离湍流场的模拟精度。

该研究的关键问题大概可以总结为以下三点:第一是高置信度样本的获取;第二是缓解薄边界层的尺度效应;第三是湍流模型能够和N-S方程顺利耦合计算。如何在求解过程中保证耦合求解的收敛性和稳定性是一个非常具有挑战性的问题。

在我们的前期工作中,主要分为两部分。第一部分,探索能不能利用经典湍流模型生成的数据,构建机器学习模型,并以此替代经典湍流模型。

第二部分,由于经典模型的计算精度不够,我们探索可以通过什么方法来提升机器学习模型的精度?我们利用实验结果,结合数据同化方法来解决这个问题。

下面主要介绍第一部分的工作。我们初步尝试了机器学习湍流模型如何替代经典的偏微分方程,利用了SA模型生成学习数据,SA模型也是现在使用最广泛的一种湍流模型之一。

我们通过CFD求解器生成流场数据,对数据进行特征选择,然后进行训练。通过构建神经网络型的黑箱模型,实现局部平均流场参数映射湍流涡粘项,再和N-S方程耦合,它就可以完成湍流场的求解。

在这个过程中我们采用了分区建模、数据归一化以及涡粘场变换等手段。学习完以后,看一下测试状态下翼型壁面法向涡粘的对比结果。可以看到,SA模型和机器学习模型所预测的结果,大部分都吻合的非常好。

再看一下摩擦阻力的分布,在状态泛化下,湍流学习模型和SA模型的预测结果相当吻合。另外我们也对其他状态的摩擦阻力分布做了一个对比。对外形泛化,机器学习湍流模型与SA计算的也非常吻合。

这是我们第一部分的工作,但这部分工作有一些局限性:包括分区策略不便于实施,比如对于复杂三维机翼这种构型的湍流预测,工程中不便使用。此外,对神经网络模型参数优化时容易出现一些矩阵病态,而无法获得最优值。神经网络的单层架构也限制了复杂度的提升。

在后面的工作中,我们采用了深度神经网络,也借助了标度分析,来构建一个统一模型,另外还对输入特征进行了优化,以及构建了新的损失函数架构。

特别值得一提的是,我们在现有的架构里融入了一个物理模型,把湍流模型里的混合长公式嵌入到这个模型里,不直接映射涡粘,而是对混合速度进行建模,这个方法很好地实现了对流动雷诺数的泛化。

通过这些研究,我们对三维机翼的湍流建模开展了相关测试工作,基于马赫数、攻角、雷诺数、外形泛化等因素来构建训练集、验证集和测试集。

测试结果表明,在对于截面摩擦阻力系数分布的预测中,相对误差小于3%。

2021年,我们成功把这项工作成功嫁接到风雷软件中,这也成了我们国家数字风洞工程中基础研究课题的一个亮点工作。



3

基于数据融合模型的翼型动态失速气动力预测

最后,介绍一下我们基于数据融合模型的翼形动态失速的载荷预测工作。动态失速与飞机设计研制密切相关,例如,飞机的机动飞行是在很大攻角下的机动过程,而这个机动过程的实现以及控制是非常有挑战性的工作。

目前,在动态失速的研究中,有基于物理假设的经验-半经验模型,另外还有一些经验模型,这些经验模型也是通过实验来拟合,对于新的状态和外形的泛化性是比较低的。不同的模拟方法,差距还非常大。

在上世纪九十年代,人们发展了一种数据驱动的黑箱统计数据模型,而统计模型主要依赖于神经网络。就是给出一些有限的实验样本后,对样本进行建模,然后再对想做的预测状态进行载荷预测。这种方法对样本数据的拟合非常好,但遗憾的是,对其他状态的预测,也就是泛化性相对来说比较低。这主要是因为实验样本量比较少,而这个问题本身的维度比较高,非线性比较强,使得我们面临一个小样本的机器学习难题。

此外,不同来源的数据的精度和成本也不一样。数值模拟要往高精度的方向走,成本是非常高的。飞行实验本身非常昂贵,状态点也很少。所以,我们面临着怎么综合利用各种不同来源数据的问题。同时,也希望在较少的数据获取成本下,能够得到一个更高精度的气动力模型,从而加速这种重大型号的研制。

在这个工作中,我们发展了CFD在回路的集成神经网络模型解决动态失速建模中的小样本建模难题。

具体来说,我们提出了一种多源气动数据融合架构。这里面涉及到通过一个神经网络建立从迎角到气动力之间的映射关系,其中面临着小样本机器学习难题。

我们又通过神经网络构建了一个CFD在回路的常规修正模型,通过流场求解,得到了数值模拟的载荷响应,但载荷响应和实验数据之间存在偏差。然后,我们再通过一个神经网络进行修正。

但这两个方法显然都具有局限性,但通过我们把这两个模型进行集成,测试结果表明,这种集成模型架构有效解决了小样本学习的泛化性难题。

我们对这个模型架构进行了验证。实验表明,模型的泛化能力很好,并且随着样本数增加,预测精度也会增加。这种融合方法可以将升力系数预测误差降低3倍、力矩系数误差降低5倍



4

总结

人工智能为流体力学的发展提供了一种新的研究范式,而流体力学反过来也为人工智能的发展提供了一个足够复杂的研究对象,可以说这是传统学科和新兴学科的交叉融合,相得益彰。

在研究过程中我也总结出几点心得。第一是要充分利用经典流体力学方法和成果的基础,再结合人工智能技术,不能脱离学科的特点和背景。

另外,流体力学是一个“大数据、小样本”客观环境下的机器学习和建模问题。

最后,在未来发展方向上,我们可以探索智能流体力学的可解释性,也包括探索流体力学新的物理内涵和科学认知。

最后,简要总结一下科学研究的四个范式。第一范式,观测和实验,比如说开普勒定律的发现中扮演重要的角色。第二范式,理论科学范式依然很重要,这在流体力学中包括流动定律、流体力学的N-S方程等等。第三范式,计算科学,也包括理论模型、分子动力学,流体力学的CFD就是一个典型的第三范式研究。本报告涉及的主要是第四范式的研究。但我们也要看到,流体力学问题不光是一个大数据驱动的科学,还需要将四个范式进行一个有机的融合。

我们现在做的很多工作,特别是效果比较好的一些模型,恰恰是各种手段的有机结合。

比如对于载荷的一些稀疏重构,就是从计算中提取特征,以利用实验观测值对实验数据进行精细化重构。

驱动力的变精度模型也是在神经网络架构下,对计算结果和实验结果进行有机的融合。

近年流体力学研究中的数值同化也是从第三范式和第一范式即实验观测值的一个结合。

动态失速预测使用的集成模型融合了实验数据、理论模型以及神经网络的架构,也是在这三种范式有机结合下开展的工作。

而最近计算物理领域比较火热的物理约束神经网络,它就是神经网络架构下把数值方法和控制方程紧密地耦合到一起。

如果再融入实验数据的话,就是四个范式的有机结合。我们最近开展的工作是基于实验数据同化的湍流机器学习手段,正好是四个范式的有机结合。这个方法有实验数据,也有N-S方程,还包括数值求解,此外又是在神经网络架构下对湍流模型的优化。是四个研究范式融合研究的典范。

参考文献

1.张伟伟,寇家庆,刘溢浪.智能赋能流体力学展望[J].航空学报,2021,42(04):26-71.

2.Zhu L, Zhang W, Kou J, et al. Machine learning methods for turbulence modeling in subsonic flows around airfoils[J]. Physics of Fluids, 2019, 31(1): 015105.

3.Kou J, Zhang W, Data-driven modeling for unsteady aerodynamics and aeroelasticity, Progress in Aerospace Sciences, 2021, 125: 100725

4.Zhu L, Zhang W, Sun X, et al. Turbulence closure for high Reynolds number airfoil flows by deep neural networks[J]. Aerospace Science and Technology, 2021, 110: 106452.

5.Wang X, Kou J, and Zhang W, A new dynamic stall prediction framework based on symbiosis of experimental and simulation data, Physics of Fluids, 2021, 33, 127119.

雷峰网雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/4M1siLoFTmdbBcn6.html#comments Tue, 08 Feb 2022 15:28:00 +0800
中科大何力新教授:当量子力学遇见AI——深度学习在超算平台上模拟量子多体问题 //www.xyschoolife.com/category/academic/VGM7aPQjN32jlS97.html
AI for Science领域存在大量未解NP-hard问题,其中就包括量子多体问题。
作者丨何力新
整理 | Don

编辑 | 青暮

人工智能的下一个目标是从模仿认知学习,转向解决一直存在的大规模科学计算问题,UC伯克利教授Michael Jordan曾经强调。而李国杰院士也曾在与雷峰网的交流中进一步指出,人工智能应该突破约翰·麦肯锡和艾伦·图灵定下来的框框,去研究NP-hard级别的大难题,让基础科研走向大工程化。也就是说,要用数据、算力和算法合力去寻找这类难题的具体解,并落地应用,而不仅仅追求理论边界的证明。

这些具有组合爆炸性特点的难题很早就已存在,并且有非常显式的定义,但依然由于计算难题被卡住。而人工智能特别是深度学习在层级特征建模、压缩表征等方面的优势,为解决这类问题带来了新的曙光。AlphaFold是其中的绝佳范例,再往上一层看,在整个AI for Science领域中,比如物理、化学、生物等都存在大量的未解决NP-hard问题,其中就包括了物理学中的量子多体问题。

比如,确定量子混合态是否存在纠缠就是一个NP-hard问题k-Local Hamiltonian 问题(k-LH)至少是NP-hard问题。它们都涉及量子多体系统。

k-LH问题是指:给定k,在n个量子比特的系统中,存在一组约束,每个约束最多涉及k个量子比特,希望确定系统的基态能量是高于某个阈值或低于某个阈值。它属于一种量子多体问题,并且k不小于2时,至少是NP-hard的。当k=3或以上时,甚至出现了更高阶的复杂性类——QMA完全

QMA类似于经典复杂性类中的NP,也就是说,如果一个问题的答案可以在量子计算机上以多项式时间验证(并且至少有2/3的概率是正确的),但无法以多项式时间给出答案,则该问题的复杂性类为QMA。同样,QMA完全也类似于NP完全。

多年以来,量子多体物理领域是凝聚态物理中最核心和最优挑战性的话题之一。比如物理世界中我们能够观测到的一些奇特物理现象和物质中,最具代表性的便是超导、超固量子Hall效应、超流、玻色-爱因斯坦凝聚和量子自旋液体等,都是基于大量粒子相互作用的量子现象。

著名的物理学家Phlips Anderson曾说,“More is Different”,这是指我们的世界并非各个物质的简单叠加,当系统中的粒子数以及元素种类增多的时候,会导致1+1>2的效果。从理论上来说就是量子多体之间的相互作用所致的结果。

由于希尔伯特空间随着粒子数增加而指数增长(组合爆炸),量子多体问题的高精度模拟是对于经典计算机极富挑战性的问题。近几年发展起来的深度学习算法为模拟量子多体提供了新的有效的计算工具。

2021年12月16日,中国科技大学物理系教授何力新在CNCC 2021“人工智能在超大规模科学计算领域的应用探索”专题论坛上做了题为《深度学习算法在新一代神威超算平台的应用:量子多体问题模拟》的学术报告,分享了深度学习算法在量子多体模拟问题上的研究工作和领域进展。

在报告中,何力新表示,他们团队设计了基于卷积神经网络的新算法,对强阻挫的强关联自旋系统实现了高精度的基态模拟。他们还在新一代神威超级计算机上移植并优化了该算法,并计算了著名的方格J1-J2模型,将计算的系统规模及计算精度提高到了新的高度。在移植、优化程序的过程中,通过物理学-并行优化-超算系统三方面交叉团队,成功在新一代神威超算上实现高性能的量子多体问题模拟,为构建国产AI-HPC生态提供一个优秀的模板示例。

何力新教授是中国科技大学物理系教授,1997年毕业于中国科技大学,2003年在美国罗格斯大学攻读博士,2003~2006年在美国国家再生能源实验室从事量子点的理论研究工作,并于2006年回国到中科大中科院量子信息中心进行研究工作,2011年获得杰青称号,2012年入选IOP Fellow,曾任科技部量子调控量子通信网络和量子仿真关键器件物理实现之首席科学家。

以下是演讲全文,AI科技评论进行了不改变原意的整理:



1

量子多体问题及其模型

研究量子多体问题具有极强的科学意义,可以从两个方面进行概括。首先在基础研究的角度上来看,量子多体问题的一个主要目标是发现和研究新的物质形态。我们可能对生活中常见的固体、液体和气体形式十分熟悉,但其实自然界中有很多其他物质形态,比如我们之前所说的超导和量子自旋液体等,这些新型的物理形态都具有各自的存在意义以及研究价值。

因此通过对新型物质形态的研究,我们便可以洞悉和总结物理世界的深层规律和法则。

另一项具有意义的方向是研究其应用价值。例如高温超导已经在能源、交通、精密测量和信息等领域有了广泛的应用。托克马克装置需要非常强的磁场进行物理约束,因此可以利用超导体产生超强的磁场。此外,拓扑序也可以进行拓扑量子计算。

在量子多体物理的模型中,有两个经典模型,即海森堡自旋模型,以及哈伯德电子模型。其中海森堡模型其本质是一个自旋模型,它描述了格点上两个自旋量子的相互作用。比如图中描述了两个最近邻的两个量子发生的交换作用J,如果J>0,则两个粒子倾向于自旋反平行。但是当J<0时,粒子倾向于自旋平行。

另一个经典模型是哈伯德模型,它描述了电子运动的模型。该模型描述了量子在格点上的运动,其中第一项表示的是电子从一个格点跳跃到另一个格点的过程。第二项,描述的是同一格点上电子的库仑排斥作用。

从局部的角度来看,这两种模型很容易理解。但是当粒子数逐渐增加的时候,系统将变得十分复杂,对其求解将会变得十分困难,算力需求也难以满足。



2

多体模型计算的困难性

计算困难的根本原因在于量子态的希尔伯特空间会随着粒子数量的增加而呈现指数级的增长。比如有N个1/2的自旋粒子,每个自旋有上下两个状态,那么态空间将达到2^N级别。因此如果我们需要对其进行严格求解,会遇到“指数墙”的问题,也就是算力需求巨大。目前我们只能实现大约40个格点的自旋系统的严格求解。

此外,我们也有一些其它近似方法,例如量子蒙特卡洛方法。但是它在计算费米系统(电子系统)和阻挫系统时会出现符号问题,即负几率问题。而动力学平均场方法,会对一维和二维等低维度的模型有计算问题。最后是密度矩阵重整化方法,只能计算一维和准一维的问题。

在过去的十几年间,国际上发展了一些新的算法,例如张量网络态方法(PEPS算法)。这些算法将量子态表示为格点上的张量乘积形式。原则上这种方法可以在一定程度上克服已有方法的不足,它可以应用于二维系统,也不存在对阻挫系统和费米系统中的符号问题。

但是另一方面,它的计算复杂度很高,尤其是对周期性边界条件的问题。因此我们目前无法对具有周期性边界条件的系统进行有效的模拟。

在2018年,我们曾经在神威机器上进行了PEPS算法的实现和模拟。当时可以将算法的并行度做到1000万核。我们可以看到之前工作的算法精度仅能达到10-3,但是神威机上的PEPS算法则将精度是提高了2个量级。但是这个算法仍旧仅适用于开放边界条件的问题。



3

量子力学遇见人工智能

我们知道在AlphaGo在击败人类围棋玩家之后,深度学习大热,引起了很多领域的改革。实际上,深度学习在凝聚态物理学中也掀起了一番热烈讨论和尝试。它可以做实验数据的处理,可以进行机器学习势场模型的模拟和求解,也有工作研究了用AI进行分子和晶体结构的分类和预测,进行电子密度的学习等。近些年DeepMind的最新工作就是在这些方面进行研究和发现,比如使用神经网络估计电荷的密度,并且超越了人类的估计结果。

大家也在尝试将深度学习和机器学习用在量子多体问题中。上图是2017年的一篇Science工作,它使用受限玻尔兹曼机模型研究海森堡自旋模型,将系统的粒子波函数利用玻尔兹曼机进行表示和学习,通过优化系统的能量,得到神经网络的最佳参数。

在量子多体系统中,算法的好坏判断标准是计算的能量是否最优。从结果中我们看到,该计算能量的精度已经到达10-3量级,甚至超过了(我们神威工作)之前PEPS的算法效果。

但是该神经网络也面临一些问题,它只能描述简单的物理模型,无法模拟具有竞争相互作用的物理系统。



4

人工智能的多体问题挑战

那么什么是相互竞争作用呢?我们结合这里的模型进行解释。J1-J2模型是一个典型的具有竞争相互作用的自旋模型。我们看到图中每个格点上有一个自旋,它们与近邻的自旋有相互作用,其中J1描述两个最近临的格点上的自旋相互作用,J2则描述了两个次近邻格点上自旋的相互作用,也就是对角线上的相互作用。如果相互作用的J大于0,则意味着这两个格点的自旋都倾向反平行。当J1, J2 都大于0时就会出现问题,即如果近邻格点是反平行,那么次近邻格点就一定是平行的,这就和J2相互作用的要求矛盾。该种带有竞争相互作用的系统被称为阻挫系统。

打个比方,一个员工可能有两个老板,其中一个老板要求你向东走,另一个要求向西走。则此时会产生矛盾(Frustrated Interaction)。当然,如果其中一个老板很强势,我们跟着强势的走。但是如果两个老板势均力敌,你就会很迷茫。

对J1-J2模型也是如此,如果J1较为强势,那么系统中的自旋会倾向于做出棋盘形状的持续排列。如果J2更强势,自旋则会沿对角线进行反平行排列。当两者相互作用效果相近时,则会产生更多丰富的物理现象。

J1-J2模型十分经典,人们对其基态进行了长期的研究。目前针对J1较强,以及J2较强的情况研究已经较为清晰的结论,但是对于J1-J2共同作用的中间区域,一直存在争议。

对于该区域的基态,人们有几种不同的看法。比如,有人认为格点可以形成Plaguette态,Plaguette态是一个规则有序的态;此外,也可能会形成Columnar态;也有人提出,可能其中就是一种混乱无序的状态,即自旋液体态。自旋液体态十分复杂,有着非常复杂的量子纠缠和奇异量子行为。Philip Anderson认为量子自旋液体是研究高温超导的关键问题之一。



5

深度学习和量子多体

之前的玻尔兹曼机模型是无法很好地模拟该场景的。在该方法中,它将波函数视作所有可能自旋结构的叠加,其中W(S)就是自旋构型的权重,该权重在海森堡模型中都是>0的,但是在有竞争的模型中正负都有可能。因此在玻尔兹曼机模型中,就无法处理此类同时具有正负情况的波函数。

为此,我们提出使用深度卷积神经网络来描述波函数。我们的网络包括了很多Building Block,每个Block又分为多种算子,包括卷积、Max pooling和反卷积等。

当我们输入一个自旋构型,该网络可以给出有正有负的构型权重,此时的参数量是随格点数量线性增长,而非灾难的指数形增长,这就意味着我们的神经网络可以使用有限扩增的参数量来模拟出系统中指数增长的Hilbert空间。当然这个空间也是仅在基态附近的部分。

当我们确定了神经网络的结构来模拟波函数后,重要的是需要获得系统的基态,所谓基态是指系统的能量最低态。也就是我们需要通过神经网络求解系统能量最低态的参数。

这里的能量可以表示成所有自旋构型加权求和的形式,因此可以使用马尔可夫抽样的方式进行求解。这是一个典型的强化学习场景,我们可以通过优化系统能量来得到网络参数。

但是这个模型和一般的机器学习算法有所差异。第一,它需要极高的精度,我们需要比其他方法要求高至少2个量级的精度。其原因是量子态的求解精度需求极高,微小的误差将对基态解产生巨大影响。此外,系统中可能存在多个局部最优点,若我们用普通方法进行优化,则可能陷入局域极值中。

为了解决这个问题,我们使用SR方法进行解决。在机器学习中我们常称之为自然梯度法。为了更新网络参数,我们需要求解能量对参数的多个梯度,为了计算梯度相,我们需要进行求导,并求解关联矩阵的预处理,加速收敛。

这里的计算热点包括马尔可夫采样。因为我们需要计算关联矩阵,需要50万sweep的自旋样本,每个sweep都需要对所有网格进行翻转。但是在sweep之间是不需要进行求导和反向传播的,我们只需要正向执行,并在全部sweep做完后进行反向传播,以此降低通讯时间占比,以及计算量。

另一个计算热点是SR优化方法。在SR算法中一个重要步骤是计算大的关联矩阵,然后求解线性方程组。具体哪部分的耗时是最严重的,其实是由模型参数大小所决定的。如果系统越大,采样越耗时,参数越多,SR方法的耗时越大。



6

实际效果

我们分别在自己的机器以及新一代的神威机上进行了验证和部署。神威机具有异构的结构,其NPI处于核组之间,因此有64个组合。在核组级别上的并行本质是线程并行。神威机的异构结构很适合此类应用,因此为了最大化利用神威机的能力,我们针对神威机的特点和应用特点设计了双层并行方案。首先在核组之间的并行被用作自旋采样,即每个自旋部署在不同的核组之上进行独立采样。在求解线性方程组的时候,会使用ScaLAPACK进行计算划分。在并行内部,我们使用卷积算子从核加速,并利用网络输出时采用批次>1的计算,将从核的计算性能妥善利用。

这是我们的程序在新的神威机上的移植和优化的示意图全览。可以看到在不同的核组之间我们进行了单独独立的采样;采样后将其收集并计算关联矩阵,并求导更新参数。这项工作最大利用了10万核组测试。

在性能表现方面,我们对比各个主机的用时结果。从上图中我们可以看到,我们分别比较了16000个参数,和10万个参数的场景。不论参数量如何,其主要的计算时间还是集中在前向计算部分,SR优化的占比只有1/4左右。

本工作的另一个优点在于其可迁移性极高。我们首先可以在较小的神经网络中进行学习,而后将其扩展到体积大的网络中。在实践中,迁移后通常只需要几百步便可以使大网络收敛,这无疑加速了模型的训练和应用。

这里我们对比了性能。绿色和棕色线都是直接学习的结果,蓝色和红色是迁移的结果。通过图中结果我们知道,如果使用直接学习,则网络很难收敛到最佳结果,而迁移则极大加快了这个最优化的过程。

我们也分析了基态能量部分的外推结果,经过计算发现,能量在网格达到24×24后便逐渐收敛,我们也对多种磁序进行外推,比如Dimer序和反铁磁序。结果发现,系统在中间区域的基态是自旋液体相。

与之前的最佳结果对比,我们的优势在于,网络的扩展性更高,也就是可以处理的系统尺寸更大,具有极好的迁移学习特征。

在下一步工作中,我们将继续进行相关研究,主要优化卷积算子的性能,提高神经网络的计算速度;优化ScaLAPACK库,提升优化算法的速度;增加网络参数,得到精度更高的基态。

该模型可以进一步拓展到其他种类模型上,比如三角格子、六角格子和kagome格子等场景。我们还可以在近邻、次近邻作用的基础上添加次次近邻的相互作用。这些物理模型都有其特殊物理现象。

该模型还能用在费米子(电子)模型比如t-J模型上,我们初步的测试目前来看效果很好。

但是当前我们的研究还是限于系统的基态,即T=0K的场景。而真正有限温度下的系统,可能存在更丰富的物理系统属性,可以计算更多的物理量和实验进行对比。

有限温度的研究是个极大挑战。因为绝对零度场景下系统处于基态,因此可以使用波函数进行描述。但是当温度不等于零时,系统处于混态,就必须使用密度矩阵进行描述。此时样本空间将会成倍的增加,因此需要更多的网络参数,甚至到达100万左右的级别。

雷峰网雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/VGM7aPQjN32jlS97.html#comments Tue, 08 Feb 2022 15:25:00 +0800
北大邹月娴:视觉-语言预训练模型演进及应用 //www.xyschoolife.com/category/academic/ckQrMhvAjLwDE2r6.html

作者丨邹月娴

整理 | 维克多

编辑 | 青暮

预训练模型在自然语言处理和计算机视觉领域引起了学术界和工业界的广泛关注。利用大规模无监督数据进行训练的预训练模型有着非常好的泛化性,只需在小规模标注数据上进行微调,就可以在相应任务上有所提高。但相关研究的进展如何?还有哪些问题需要进一步探索?

2021年12月16日,北京大学深圳研究生院党委副书记、教授、博士生导师、北京大学现代信号与数据处理实验室主任邹月娴在中国计算机大会(CNCC 2021)“产业共话:大型预训练模型的商业应用及技术发展方向”论坛上,做了《视觉-语言预训练模型演进及应用》的报告,讨论了围绕大规模预训练模型的争议、最新进展以及研究思路,并给出了未来展望。

例如她提到:

“‘视觉-语言’的子任务非常多,有各自的数据集,这使得解决NLP任务的进展非常快,但预训练模型方法在视觉领域却遇到了非常大的问题:数据标记成本很高。MSCOCO数据集只标记了12万张图片,每张图片给出5个标记,总共花费了10.8W美金。”

“当前的几个主流VL-PTMs的技术路线很相似,都采用单一 Transformer架构建模视觉和文本输入;视觉输入为 Region-of- Interests (Rols) 或者 Patches,缺失全局或者其他高级视觉语义信息……”

而后者表明,主流视觉-语言预训练模型存在很多局限,导致在迁移至下游任务时,只适用于分类任务,而不适用生成任务。

以下是演讲全文,AI科技评论做了不改变原意的整理。

今天演讲的题目是《视觉-语言预训练模型演进及应用》,主要结合团队工作以及本人感悟探讨人工智能发展目前展现的趋势。本次演讲分为4个部分:背景介绍、视觉-语言预训练模型、视觉-语言预训练模型及应用研究以及未来展望。

人工智能已经有六十多年的发展历程,自2017年以来,Transformer和BERT(2018年)相继提出,开启了大数据、预训练与迁移学习新篇章,将其定义为新时代也毫不夸张。目前,不同于前几十年的工作已成定论,该领域尚待进一步深入探索。

以自然语言处理(NLP)为例,其演化过程如上图所示,OpenAI在2018年发布第一代GPT模型,短短几年时间“大模型”已经初具规模。这里的“大”有两层含义:模型训练使用的数据量大,模型蕴含的参数规模大。中国在这方面也有出色的工作,2021年的悟道2.0更是达到了万亿参数规模。

目前关于大规模预训练模型还有一些争议,主要的争论点在于:

1.超大模型学到了什么?如何验证?

2.如何从超大模型迁移“知识”,提升下游任务的性能?

3.更好的预训练任务设计、模型架构设计和训练方法?

4.选择单模态预训练模型还是多模态训练模型?

虽然有争议,但不得不承认 “暴力美学”确实有独到之处,例如百度ERNIE3.0曾经刷新了50多个NLP任务基准。要知道,在业界,无数学生、学者为一个SOTA就绞尽脑汁了,但大规模预训练模型却能批量“生产”SOTA。另一方面,50多个SOTA也说明,这不是偶然。

目前学界已经公认AI的发展离不开借鉴人类大脑的研究成果,因此多模态预训练模型这条集成类脑机制和机器学习的路径,自然也成为关注的焦点。

但仍然有许多脑科学发现的机理未能弄清楚,例如多层抽象、注意力机制、多模态聚合机制、多模态代偿机制、多线索机制、协同机制等等。

人类约有70%的信息依靠视觉获得,剩余约20%~30%的信息依靠听觉和触觉。关于人类智能,语言具备真正高阶的语义。例如,当说到“苹果”一词的时候,脑子 “浮现”的是一张“可以吃”的苹果图片;当说到 “苹果手机”的时候,大脑则会出现苹果牌手机的概念。

因此,大脑这种“视觉参与听觉感知”的机制、“视觉概念与语言概念一致性”的认知机制是我们机器学习采取多模态预训练模型的可靠性依据之一。

“视觉-语言模型”开发是否可行?中国人民大学的一项研究表明,互联网提供了90%的图文大数据,而文本数据只占了10%。在大量数据源的加持下,视觉-语言预训练模型也成了2021年的研究热点。

视觉-语言,英文名称是“Vision and Language,VL”。VL预训练模型旨在让机器处理涉及到“理解视觉内容和文本内容”的任务。VL任务可以分成VL生成任务和VL分类任务。

这两类任务解决的问题不一样,难度也不一样。对于VL生成任务,不仅需要对视觉信息进行理解,还需要生成相应的语言描述,既涉及编码,又涉及解码;而VL分类任务只需要理解信息。显然,生成任务的难度较大。

VL生成任务的技术难点在于需要理解视觉的高阶语义,建立视觉-文本的语义关联。例如,视频描述(Video Captioning)任务需要“概括”视频内容,图像描述(Image Captioning)任务需要对每一帧图像生成描述。

目前,视觉问答(VQA)是热门的VL分类任务之一,可以理解为:给定一张图像,让模型回答任何形式的基于自然语言的问题。

如上(左)图所示,如果你询问机器“What is she eating?”,VL分类器就会理解图片信息,然后给出正确的回答“hamburger”。

当前“视觉-语言”的子任务非常多,各有数据集,例如VQA、VCR、NLVR2等等。我们注意到,由于NLP任务有大数据集支持,其预训练模型技术发展迅猛。但对于视觉-语言任务,由于标注大规模数据集需要极高的成本,导致VL模型的性能提升缓慢。

以图像描述任务为例,MSCOCO数据集只标记了12万张图片,每张图片给出5个标记,总共花费了10.8W美金。因此,不同的VL任务依赖于不同的模型框架+不同的标注数据集,标注代价昂贵,性能尚未满足应用需求。

因此,探索新的VL预训练代理任务,减少对数标注的依赖,是一个很有意义的研究方向。2019年学术界开启了VL-PTMs的研究工作。



1

视觉-语言预训练模型的演进

关于VL预训练模型,从2019年开始就出现了非常多的出色工作,例如“开山”的ViLBERT,2020年的UNITER以及2021年的CLIP。随着时间的推移,模型包含的数据量也越来越大,能力越来越“出众”。整体的技术路线可以分为两大类:单塔模型和双塔模型。

UNITER是2020年由微软提出的,它用了4个代理任务训练模型,在4个下游任务进行了测试,获得了性能提升。上述研究都是采用预训练模型加 “微调”的研究范式。

2021年OpenAI用双流框架开发了CLIP,CLIP的出现就技惊四座。其原理非常简单,分为编码和解码两个部分,编码器选用典型的Transformer。CLIP模型的惊艳之处在于,CLIP预训练模型直接能够拥有零样本学习(Zero-Shot Learning)能力, OpenAI在20多个不同粒度的分类任务中测试发现,CLIP预训练模型具有良好的零样本迁移性能,能学到更通用的视觉表征。



2

视觉-语言预训练模型及应用研究

我们对上述主流VL预训练模型,从基础网络结构、视觉输入、文本输入、主流数据集、训练策略以及下游任务六个方面进行了分析。

分析发现,主流VL-PTMs的技术路线很相似:

1. 采用单一Transformer架构建模视觉和文本输入;

2. 视觉输入为 Region-of- Interests(Rols)或者 Patches,缺失全局或者其他高级视觉语义信息;

3.大多采用的代理任务是BLM(双向语言模型)、S2SLM(单向语言模型)、ISPR(图文匹配)、MOP(掩蔽物体预测)等等。

因此,已提出的视觉-语言预训练模型更适合迁移到下游分类任务,例如VQA。对于下游生成任务,例如图像描述,视觉-语言预训练模型并不适合。

我们团队也开展了探索性研究,研究思路是堆叠Transformer+自注意力机制,其中创新地提出自注意力模型区别地处理视觉模态和文本模态,即采用不同的QKV变换参数,分别对视觉和文本模态建模。

同时,引入视觉概念信息,缓解视觉语义鸿沟。经过验证发现,我们提出的基于注意力模态解耦的VL-PTM: DIMBERT(2020),可以同时适用于分类任务和生成任务。

相比当年(2020年)的最新SOTA, DIMBERT模型更小(隐形双塔),仅仅在 Conceptual Captions任务上进行预训练,具有数据量需求优势,在测试的下游任务都达到SOTA,在没有decoder的架构下,可以迁移至下游生成任务。

这项工作也给我们两点启示

1.从信息表征视角来看,视觉信息和文本信息需要不同的表达方法,毕竟文本拥有相对更加高阶的语义信息。

2.尽量引入人类高阶语义信息,人类对物体有非常明确的定义,苹果就是苹果,梨就是梨,因此定义物体属性,用语言信息缓解语义鸿沟非常有必要。

2021年10月份,Facebook发布了Video CLIP相关工作,属于视频VL预训练模型。从这个模型可以看出,Video CLIP颇具野心,期待对于下游任务不需要任务相关训练数据集,不需要进行微调,直接基于Video CLIP进行零样本迁移。

具体而言,它基于对比学习结合Transformer框架,试图搭建视觉-文本联合预训练模型,期望能够关注更细粒度的结构。

Video CLIP的核心工作聚焦于对比学习框架结合训练数据样本的构造,其正样本的构造是视频段-匹配文本描述对。此外,通过对正样本进行近邻搜索,获得困难负样本,从而构建出视频-非匹配文本对。

更为具体,该模型采用对比损失,学习匹配视频-文本对之间的细粒度相似性;通过对比学习方式拉近具有相似语义的视频-文本表征。这个工作从研究的创新性来看并不突出,但模型性能令人惊讶。

我们认为,借鉴Video CLIP的研究思路,可以在更细粒度层面进行提升,我们提出了一个帧级别文本细粒度匹配方法。

实验结果表明,细粒度匹配能获得更加准确、具有完整的空间建模能力。我们在 ActivityNet数据集上进行了视频检索的召回率测试,发现在所有 epoch下,我们提出的基于细粒度匹配策略的预训练模型性能都优于基于全局匹配策略的预训练模型;此外,我们发现,当获得同一性能,我们提出的基于细粒度匹配的模型其训练速度是基于全局匹配方法的四倍

综上,预训练模型、跨模态预训练模型方面的研究是非常值得探索的,无论是模型结构、训练策略还是预训练任务的设计都尚有非常大的潜力。

未来,AI社区或许会探索更多的模态,例如多语言、运动、音频以及文字;更多的下游任务,例如视频描述、视频摘要;更多的迁移学习机制,例如参数迁移、提示学习、知识迁移等等。

雷峰网雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/ckQrMhvAjLwDE2r6.html#comments Tue, 08 Feb 2022 15:22:00 +0800
连续4年华人获奖!陈怡然获 IEEE Edward J. McCluskey技术成就奖 //www.xyschoolife.com/category/academic/miEaJECOj0ZDVUia.html

AI科技评论消息,2022年度的IEEE Edward J. McCluskey技术成就(Technical Achievement Award)奖,将颁给杜克大学陈怡然教授,表彰他“在计算机和信息科学与工程或计算机技术领域做出的杰出创新贡献”。杜克大学官方网站证实了这一消息。

陈怡然现任职于美国杜克大学,是电子与计算机工程系的终身正教授,杜克大学计算进化智能中心主任、也是美国NSF新型可持续智能计算中心主任,专注于研究新型存储系统、机器学习和神经形态计算,以及移动计算系统的研究。他也是继继2015年Krishnendu Chakrabarty和2008年Kishor Trivedi之后,第三位获得该奖项的杜克大学ECE教员。

这也是从2019年以来,连续4年有华人科学家获得此奖项。前几年的华人获奖者分别是:周志华(2019)、郭宗杰(2019)、谢源(2020)和陶大程(2021)。

Edward J. McCluskey技术成就奖从1985年开始颁发,奖项的名字来自学会第一任主席Edward McCluskey。该奖项是为了奖励过去10-15年间在计算机信息科学和工程领域做出突出创新贡献的人,每年获奖人数不等,一般在1-3位。目前已有90余位科学家获得该奖项。

陈怡然教授1998年获得清华大学理学学士学位,2001年获清华硕士学位,2005年获普度大学博士学位。在工业界工作五年后,他于2010年加入匹兹堡大学担任助理教授,后于2014年晋升为终身副教授,并获双世纪校友讲席。他同时也是 NSF CAREER奖、ACM SIGDA杰出新教师奖、德国洪堡资深学者研究奖和IEEE SYSC/CEDA TCCPS职业中期奖的获得者,并被列入HPCA名人堂。由于对非易失性内存技术的贡献,陈怡然当选了2020年ACM Fellow。(此外值得一提的是,陈怡然教授的夫人李海教授因“对神经形态计算和深度学习加速的贡献”当选为2021年ACM Fellow)

陈怡然教授出版过一本专著并发表过400多篇技术论文。他获得过96项美国专利,担任或曾担任十多个国际学术论文/期刊的副主编,并曾在60多个国际会议的技术和组织委员会任职。他现在是IEEE电路和系统( IEEE Circuits and Systems )杂志的主编。他获得过七次最佳论文奖,一次最佳 poster奖,以及十四次最佳论文提名。

雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/miEaJECOj0ZDVUia.html#comments Tue, 08 Feb 2022 15:16:00 +0800
2021 AAAS Fellow名单出炉!图灵奖得主Yan LeCun、联想芮勇等多位人士入选 //www.xyschoolife.com/category/academic/DP6Mubpmh3gxLzp2.html

作者 | 梧桐、王晔

编辑 | 陈彩娴

不久前,2021届 AAAS Fellow 名单出炉!
此次入选名单包括564名科学家、工程师或各科学学科的创新者,以表彰他们在科学事业中取得的科学和社会方面的杰出成就。
新一届AAAS Fellow包含来自学术机构、实验室、医院或医疗中心、博物馆、全球企业、非营利组织、研究所和政府机构等各个科学学科的杰出人士。
入选Fellow来自21个学科领域,包括农业、粮食与可再生资源、人类学、天文学、大气与水圈科学、生物科学、化学、教育、工程、地质与地理学、历史与哲学科学、产业科技、信息计算与通信、语言学与语言科学、医药科学、神经科学、药物科学、物理学、心理学、社会经济与政治科学、统计学等学科。
AI科技评论摘选出工程、科技和工程、信息计算与通信、神经科学、统计学等领域入选的14位华人Fellow 信息,其中有来自联想集团首席技术官、高级副总裁芮勇,宾夕法尼亚大学神经科学系教授宋洪军,麻省理工学院McGovern大脑研究所Poitras教授冯国平 
此外值得一提的是, “卷积神经网络之父”、图灵奖得主Yann LeCun也入选信息、计算与通信学科领域AAAS Fellow。 
美国科学促进会(American Association for the Advancement of Science,简称AAAS)成立于1848年,是世界上最大的综合性科学和工程学协会,也是最大的非盈利性国际科技组织。现有265个分支机构和1000万成员。“世界发明大王”爱迪生、“DNA之父”沃森及多位诺贝尔奖获得者,均为AAAS Fellow。AAAS Fellow是该学会给予会员的最高荣誉。
图注:从左到右分别为Irwin M. Jacobs, Ellen Ochoa, Steven Chu, Maria Mitchell, W.E.B. DuBois, Thomas Edison
美国科学促进会也是国际著名期刊《科学》的主办和出版方。该杂志于1880年由爱迪生投资1万美元创办,是全世界最权威的学术期刊之一。
美国科学院首席执行官兼《科学》系列期刊执行出版人Sudip S. Parikh博士表示:“美国科学院很自豪地向这些人致敬,他们代表了科学事业所需要的前瞻性思维,同时也激发了人们对实现未来目标的期望。”

1

工程领域名单

程佳瑞,普渡大学

程佳瑞,普渡大学工业工程学院和材料工程学院教授,领导可扩展微纳米制造实验室 (SMNML),于2002年获得哥伦比亚大学机械工程博士学位。
他的研究方向包括先进材料合成与加工,特别是0D-3D微/纳米结构的可扩展制造、激光物质相互作用和材料的机械/物理性能增强。应用领域包括能量传输、转换和存储、承载、生物医学、电气和光学设备。
程佳瑞还是IEEE高级会员、美国机械工程学会 (ASME) 研究员 ,Journal of Manufacturing Science and Engineering、Journal of Manufacturing Process副主编,以及Journal of Materials Processing and Technology学科主编等。

Xiaoping Hu,加利福尼亚大学河滨分校河滨分校

Xiaoping Hu,加利福尼亚大学河滨分校生物工程教授兼主席以及高级神经成像中心主任于1988年获得芝加哥大学医学物理学博士学位。他曾是明尼苏达大学教授、佐治亚理工学院和埃默里大学Wallace H. Coulter生物医学工程联合系的教授、佐治亚研究联盟杰出成像学者。
Xiaoping Hu从事磁共振成像的开发和生物医学应用已有40年,曾撰写或合著了275篇同行评审的期刊文章,论文被引用次数超过20000次。他在功能MRI(fMRI)方面进行了广泛和开创性的工作。
Xiaoping Hu于2005年至2013年担任《医学磁共振》副主编,并于1994年至2004年担任IEEE Transactions on Medical Imaging的副主编。他目前是Brain Connectivity的编辑,Magnetic Resonance in Medicine的副主编,以及IEEE Transactions on Biomedical Engineering的编辑委员会成员。他还是国际磁共振学会的会员,IEEE的会员和美国医学与生物工程研究所的会员。

Xiuling Li,德克萨斯大学奥斯汀分校

Xiuling Li,德克萨斯大学奥斯汀分校电气与计算机工程系教授。她于北京大学获得学士学位,加州大学洛杉矶分校获得博士学位,在加州理工学院和伊利诺伊大学担任博士后。
她的研究领域包括电子、光子学和量子系统 (EPQS)、电磁与声学 (EA),研究重点是纳米结构半导体材料和器件Xiuling Li曾发表160多篇期刊论文,拥有超过20项专利,在全球范围内发表了超过120场受邀讲座。
她通过使用创新的外延生长和纳米加工方法为一些研究开辟了新的途径,包括 III-N 和 Ga2O3 的金属有机化学气相沉积 (MOCVD)、金属辅助化学气相沉积 (MacEtch) 和应变诱导自卷膜 (S -RuM),以解决一直存在的减少微电子设备以及其他应用的尺寸、重量、功率和成本 (SWAP-C) 的需求。
Xiuling Li曾获得NSF CAREER 奖、DARPA 青年教师奖和 ONR 青年研究员奖。她还是 IEEE、美国物理学会 (APS)、光学学会 (OSA) 和美国国家发明家学院 (NAI) 的会士。

孟颖,加利福尼亚大学圣地亚哥分校

孟颖,加州大学圣地亚哥分校纳米工程和材料科学教授、Zable Endowed 能源技术讲座教授。她于2005年获得新加坡-麻省理工联盟的微纳米系统先进材料专业博士学位,之后她担任博士后研究员并成为麻省理工学院的研究科学家。
她与能量存储和转换实验室 (LESC)小组成员共同专注于用于能量存储和转换的功能性纳米和微米级材料的研究,包括设计、合成、处理、先进可充电电池中储能材料的操作表征、钠离子电池新型插层材料以及用于电网大规模存储的先进液流电池。
孟颖曾撰写或合著了160 篇同行评议的期刊文章。她是电化学学会电池部门执行委员会的成员,也是《电源杂志》的技术编辑。她还曾获得美国国家科学基金会 (NSF) CAREER 奖(2011年)、UCSD 校长跨学科合作奖(2013年)、巴斯夫和大众汽车公司电化学科学奖(2014年)、电化学学会 CW Tobias Young Investigator 奖 (2016年)、IUMRS-Singapore Young科学家研究奖(2017年)、国际储能与创新联盟(ICESI)首届青年职业奖(2018年)、美国化学学会 ACS 应用材料与界面青年研究员奖(2018 年)和 Blavatnik 国家奖决赛入围者(2018 年)。

Evelyn Ning-Yi Wang,麻省理工学院

Evelyn Ning-Yi Wang,麻省理工学院机械工程系教授。她在麻省理工学院获得学士学位,在斯坦福大学获得机械工程系硕士和博士学位。
Evelyn Ning-Yi Wang在微/纳米尺度传热和传质领域从事教学和研究工作。她的研究项目结合了对微/纳米级热量和质量传输过程的基础研究和新型工程结构的开发,以创造热管理、能源和其他领域的创新解决方案。
她曾在权威期刊上发表了180多篇档案期刊论文。她的工作被认为是2016年《技术》杂志最大的清洁能源进展工作,也是2017年《技术评论》中的10项突破性技术,并获得2019年能源前沿研究中心十佳奖。她还获得2011年空军科学研究办公室青年研究员奖、2011年中国科学院院士奖、2012年海军研究办公室青年研究员奖、2012年Bergles-Rohsenow青年研究员奖、2017年ASME Gustus L. Larson纪念奖、第八届Prince Sultan bin Abdulaziz国际奖等。

Huili Grace Xing,康奈尔大学

Huili Grace Xing,现任美国康奈尔大学特聘教授,工程学院副院长,电子和计算机工程系和材料科学与工程系特聘教授,fellow of APS, AAAS and IEEE。
从2004年到2014年,她就职于圣母大学。此前,她分别取得了北京大学物理学学士学位(1996年) 理海大学材料科学硕士学位(1998年)和加利福尼亚大学圣巴巴拉分校的电机工程博士学位(2003年)。
她的研究重点是下一代电子材料和设备的基础工作,研究重点是III-V型氮化物,2-D晶体,氧化物半导体。最近研究多铁性材料,磁性和超导材料的开发:生长,电子和光电器件,尤其是材料性能与器件开发以及高性能器件之间的相互作用,包括RF / THz器件,隧道场效应晶体管,功率电子器件,DUV发射器和存储器。
她曾获得AFOSR青年研究者奖,NSF职业奖和ISCS青年科学家奖。她是APS的会士。H因子70,期刊文章280+,会议文章120+,包括《自然》杂志,《物理评论快报》,《应用物理快报》,《电子设备快报》和IEDM等。

2

科学和工程领域名单

张晓明,香港浸会大学

张晓明教授,现任香港浸会大学计算和理论科学研究所副所长、博士生导师、教授。研究领域包括机器学习、数据科学、计算机视觉、模式识别和优化等,凭藉崭新且具启发性的研究享负盛名,并获授予多个专业名衔,包括国际电机电子工程师学会(IEEE)院士、国际工程技术学会(IET)会士和英国电脑学会(BCS)会士,列入2021年史丹福大学所发表的人工智能与图像处理专业领域世界顶尖科学家排名前1%。
截至目前,张晓明教授已在多份权威学术期刊及会议上发表逾250篇论文,并积极参与多家著名学术机构如国际电机电子工程师学会计算机协会的工作。

3

信息计算与通信领域名单

芮勇

芮勇现任联想集团首席技术官、高级副总裁,是联想集团最高决策机构(LEC)成员,负责联想集团技术战略和研发方向的规划和制定,并领导联想研究院的工作。在加入联想之前,芮勇博士曾在微软工作 18 年,任微软亚洲研究院常务副院长。
芮勇是欧洲科学院 (Academia Europaea) 外籍院士,国际计算机协会会士 (ACM Fellow),国际电气电子工程学会会士 (IEEE Fellow),国际模式识别学会会士 (IAPR Fellow),国际光学工程学会会士 (SPIE Fellow), 中国计算机学会会士 (CCF Fellow) 和中国人工智能学会会士 (CAAI Fellow)。
他曾获得了 2018 ACM SIGMM 技术成就奖,2017 ACM Trans. on Multimedia Computing, Communication and Applications (TOMM) Nicolas Georganas 最佳论文奖,2017 IEEE SMC Andrew P. Sage 最佳论文奖,2016 IEEE 计算机学会技术成就奖,2016 IEEE Signal Processing Society 最佳论文奖,2015 IEEE Trans. on Multimedia 和 2007 ACM Multimedia 最佳论文奖。被高引机构 Clarivate 科睿唯安评为 2018 年度 “高被引科学家 ",且连续三年入选 Elsevier 中国高被引学者 (Most Cited Chinese Researchers) 计算机学科的前三名。

4

神经科学领域名单

冯国平, 麻省理工学院

冯国平,现任麻省理工学院大脑与认知科学系McGovern大脑研究所Poitras教授, 美国国家人文和科学院院士。作为国际著名脑科学专家,致力于大脑神经突触、神经环路功能及精神疾病发病机制的研究,在自闭症,强迫症及注意力缺陷多动症等的研究大大促进了人类对精神疾病的了解,并发现了新药开发的分子靶点。
1982年毕业于浙江医科大学。1986年在上海第二医科大学取得硕士学位。1989-1995年在纽约州立大学水牛城分校攻读博士学位。1995-2000年在华盛顿大学师从著名生物学家Josh Sanes,从事博士后研究。2000 年受聘于杜克大学,曾任美国杜克大学神经生物学系助理教授,终身副教授。
目前,,冯国平教授担任多项政府科研机构和科研基金会的科学顾问, 包括美国国立卫生研究院 (NIH), 美国神经学会以及John Merck基金会,并获得过多项科学荣誉奖,包括McKnight大脑神经疾病研究奖, 脑研究基金会的科学创新奖及Hartwell个人生物医学奖。

宋洪军,宾夕法尼亚大学

宋洪军,现任宾夕法尼亚大学佩雷尔曼医学院神经科学系教授,致力于进行变革性发现以揭示神经元表观基因组的意外动态和可塑性,以及其在生理和病理条件下的功能。为了应对紧急的全球健康问题,他的团队及时发现了寨卡病毒感染的发病机理,机制和治疗方法。
1992年,宋洪军本科毕业于北京大学生物系,1995年硕士毕业于哥伦比亚大学,师从蒲慕明教授。之后随导师蒲慕明一同转入圣地亚哥加州大学完成博士工作。1998年宋洪军在美国加州的萨克生物研究所跟随两位霍华德研究员做博士后研究,2002年与妻子明国莉一同进入霍普金斯大学医学院细胞工程研究所,同任神经病学与神经科学助理教授。
目前,两人联合署名发表在Cell、PNAS、Nat Neurosci等国际权威学术期刊上的研究论文目前已有超过100篇(pubmed 检索数据)。

许华曦,重庆医科大学

许华曦,现任重庆医科大学杰出教授、博士生导师、脑科学与脑疾病研究院院长,AAAS Fellow。研究方向围绕阿尔茨海默病等脑疾病相关的神经分子及细胞生物学、神经信号转导、神经突触毒性、神经免疫功能等。
1993年,获爱因斯坦医学院博士学位、1994-1998年在诺贝尔奖得主Greengard教授指导下从事博士后研究,1998-2003年任洛克菲勒大学助理教授,2003-2019年任Sanford Burnham Prebys医学研究所教授、神经科学部/计划主任、Jeanne & Gary Herberger讲席教授。
目前,许华曦为国际阿尔兹海默病研究的权威专家之一,在国际学术杂志(SCI)发表论文180多篇,担任独立PI二十三年多,主持过数千万美元的科研经费项目;近两年来获得国家自然科学基金委重大研究计划集成项目、重点项目的支持,科技创新2030-"脑科学与类脑研究"重大项目(脑衰老机制及调控研究)首席科学家。

叶冰,密歇根大学

叶冰,现任美国密歇根大学生命科学学院博顿贝克生命科学讲座教授和终身教授,主要从事神经发育生物学的研究工作,在神经元轴突及树突发育的基因调控方面取得了突出的成就。曾获得美国约翰-霍普金斯大学医学院博士学位,并于于加州大学旧金山分校(UCSF)作博士后研究。
多年来,叶冰主持、参与美国NIH课题等二十余项,在国际一类学术期刊Cell、Neuron等发表研究论文三十余篇。曾被授予美国生物医学界的 Pew Scholar、美国国立健康研究院的Pathway to Independence 等奖项。兼任中国国家自然科学基金、美国国立健康研究院、美国自然科学基金等基金项目评委;兼任Nature、Neuron、PNAS、Current Biology、Cell Reports、PLOS Biology、eLife 等国际知名学术期刊审稿人。

5

统计学领域名单

Mingyao Li,宾夕法尼亚大学

Mingyao Li ,现任宾夕法尼亚大学基因治疗项目的生物统计学主任,主要研究领域为统计遗传学和基因组学、生物信息学和计算生物学。她目前研究的中心主题是使用统计和计算方法来理解人类疾病相关组织中的细胞异质性,以表征不同细胞类型的基因表达多样性,利用单细胞转录组学研究产生的数据,研究细胞状态转换的模式和各种细胞的串话,并将这些发现转化为临床应用。合作研究包括心脏代谢疾病和眼疾的遗传学研究。
2005年,获得密歇根大学生物统计学博士学位,2006年加入生物统计学学院。
她也是基因组学和计算生物学(GCB)研究生项目的教员,并在沃顿商学院统计系担任二级职位。

Annie Qu加利福尼亚大学尔湾分校

Annie Qu,现任加州大学尔湾分校统计学系Chancellor’s Professor,宾夕法尼亚州立大学统计学博士,IMS和ASA Fellow。主要研究方向是解决与非结构化大规模数据有关的基本问题,开发机器学习的前沿统计方法和理论文本sentiment analysis、自动标记和摘要、推荐系统、张量成像数据和复杂的异构网络数据分析,从大量高维数据中提取基本信息的算法。
她的研究工作对生物医学研究、基因组研究、公共卫生研究以及社会和政治科学等诸多领域产生了深远影响。在加入加州大学尔湾分校之前,她是数据科学统计学的创始人教授,也是伊利诺伊大学香槟分校伊利诺伊统计办公室主任。她曾获美国伊利诺伊大学香槟分校LAS学院授予的Brad and Karen Smith Professorial Scholar, 2004-2009年荣获美国国家科学基金会Career Award。
最后,祝贺所有AAAS会士入选!

完整名单链接:

https://www.aaas.org/page/2021-fellows

由于微信公众号试行乱序推送,您可能不再能准时收到AI科技评论的推送。为了第一时间收到AI科技评论的报道, 请将“AI科技评论”设为星标账号,以及常点文末右下角的“在看”。

雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/DP6Mubpmh3gxLzp2.html#comments Fri, 28 Jan 2022 11:08:00 +0800
百度研究院发布2022年十大科技趋势!以AI为灯、为桨,扬帆起航! //www.xyschoolife.com/category/academic/hu913iRFqjyBmyaN.html
作者 | 王晔
编辑 | 陈彩娴

“核心技术快速演进、跨领域联结力増强、产业底座愈发坚实的人工智能技术,成为引领创新和发展的重要力量。希望在不确定的时代中,以 AI 为灯,照亮创新之路;以 AI 为桨,划起发展之舟。”百度 CTO 、百度研究院院长王海峰这样期盼道。

1月25日,百度研究院发布了2022年十大科技趋势,涵盖了AI 核心技术交叉学科与跨领域研究AI 的产业及社会价值三个层面。

同时,此次上榜的十大科技趋势涉及了预训练大模型、AI for Science(人工智能应用于科学研究)、基于 AI 的生物计算、隐私计算、量子软硬一体化、自动驾驶、深空探测、人机共生、绿色 AI 和普惠 AI 等领域。

具体趋势如下:


1

AI 核心技术突破

目前,像BERT、GPT-3等大规模预训练模型已然在自然语言处理领域取得了巨大的成功,并被看做是“暴力美学”的一次胜利,验证了“模型越大,性能越好”的逻辑,业界也普遍形成了一种炼大模型的竞赛趋势。

然而,百度研究院认为这种盲目增加参数规模的“军备竞赛”的模式未来将会被破除,超大规模预训练模型将逐渐朝着实用化方向发展,呈现知识增强、跨模态统一建模、多学习方式共同演进的趋势。

随着超大规模预训练模型在科研、产业、社会、经济等领域的作用日益凸显,科学家们也对此越发关注,并对超大规模智能模型发展和影响展开了系统研究。

百度研究院指出,大模型研发方向在 2022 年预计将转向“实用化”,大模型的效果、通用性、泛化性、可解释性和运行效率将持续提升,应用门槛不断降低,在多场景广泛落地。


2

AI为交叉学科与跨领域研究赋能

而在交叉学科与跨领域研究方面,AI 正成为影响科研方法论与生命科学、数据安全、量子科学等各领域的通用变量,为不同科研领域赋能。

人工智能应用于科学研究,即 AI for Science 新兴研究领域出现,有望带来科研范式的改变。

机器学习帮助数学家发现两大猜想,让业界看到 AI 在处理数据、设计新型实验、创建更高效计算模型等方面拥有巨大潜力。数据驱动与理论推演两大科研范式,有望在 AI for Science 影响下不断融合,催生新范式。

同时,基于 AI 的生物计算仍将高速发展,基础研究和应用场景协同创新实现新突破。未来,基于AI的生物计算将取得更多成果:如基于蛋白质的药物设计、合成、筛选;基于 mRNA 技术的抗癌药物、单克隆抗体、免疫疗法等。基于 AI 的生物计算还有望显著压缩药品研发的周期与成本,促进精准医学和个性化诊疗。

自疫情以来,全球数字经济迎来爆发式增长机遇,但也带来了平衡隐私安全监管和数据产业发展之间的问题。在该背景下,隐私计算正被政策界、产业界、投资界寄予厚望。

百度研究院预测,随着数据安全议题凸显,以可信机密计算、联邦计算等为代表的隐私计算技术备受关注,将成为数据价值释放的突破口和构建信任的基础设施。长远来看,隐私计算技术或将推动基于密态形式的数据流通和计算成为默认选项。

在量子科学领域,量子软硬一体化方案成为主流趋势,现实需求加速量子计算与各行业融合创新。

近年来,量子计算发展不断提速,预计 2022 年,量子芯片的设计、制备及测控技术将持续发展,量子比特数量实现规模增长,并沿着降低噪声或适应噪声两个思路寻求突破。


3

AI促进产业发展,不断创造社会价值

AI 正在推动自动驾驶、航天航空、人机交互等领域的发展。自动驾驶技术进入无人化落地新阶段,多元“汽车机器人”不断涌现,连接技术与场景。

2022 年,在政策法规与技术进步的双重推动下,自动驾驶将在无人化上高歌猛进,多元“汽车机器人”为代表的汽车形态迅猛发展。通过乘用车、公交车、干线物流、仓储配送、矿山港口特殊作业、零售、环卫等丰富的场景应用,多元“汽车机器人”将进而逐步实现稳健的商业收益。

另外,深空探测是科技竞争的制高点,极具挑战性。未来,AI 技术还将与航天科技融合创新,推动深空探测迈向智能化的新阶段。

随着深空探测任务规模化、科学任务复杂化,可自主完成任务的智能探测解决方案,成为一个核心技术方向。

据百度研究院预计,未来 24 小时连续无人作业等机械自动化技术将应用在深空探测设备上,比如挖掘标本、搭建临时建筑、故障检测修复等均可由 AI 操作完成。

如今,人们依旧笼罩在疫情之下,“社交距离”受限正加速了人机共生,支撑虚实结合与智能交互技术快速融入生产生活。数字人、机器人带来惊艳交互体验,“人机共生”时代悄然到来。

百度研究研究指出,预计未来,更多虚实结合与智能交互平台将涌现。

不仅如此,AI 还在达成“双碳”、科技普惠等目标方面创造重要价值。绿色低碳更多纳入 AI 蓝图,助力实现碳达峰碳中和目标。

随着 AI 技术产业化加速,数据中心和大规模AI计算的能耗问题不断凸显。预计未来几年,从芯片到模型,从架构到策略,全面进行环保考量,发展“绿色 AI”。

同时,AI 还将更加包容普惠,价值创造导向使中小企业、弱势群体的需求得到更多关注。开源平台、公共数据集等不断发展,降低 AI 技术门槛,助力中小企业降本增效。AI 服务商将关注老人、儿童等弱势群体需求,开发普惠AI服务和产品。


4

百度研究院&阿里达摩院

前有阿里达摩院,后有百度研究院。2021年接近尾声之时,阿里巴巴达摩院发布了2022十大科技趋势,AI科技评论也对相关内容进行了评论。2022年刚开始,百度研究院紧跟其后,这是百度研究院连续第三次发布前沿科技趋势。

两项科技趋势展望对比如下:

  • 百度:预训练大模型

  • 阿里:大小模型协同进化

  • 百度:AI for Science

  • 阿里:AI for Science

  • 百度:基于 AI 的生物计算

  • 阿里:高精度医疗导航

  • 百度:隐私计算

  • 阿里:全域隐私计算

  • 百度:量子软硬一体化

  • 阿里:硅光芯片

  • 百度:自动驾驶

  • 阿里:柔性感知机器人

  • 百度:AI技术与航天科技融合创新

  • 阿里:星地计算

  • 百度:人机共生

  • 阿里:XR 互联网

  • 百度:绿色 AI

  • 阿里:绿色能源AI

  • 百度:普惠 AI

  • 阿里:云网端融合

由此可见,AI for Science、绿色AI、隐私计算、精准医疗等领域未来发展势头均被看好。

不同的是,百度研究院着重强调了大模型的演进趋势、量子计算、深空探测等。同样是机器人的发展,阿里达摩院强调机器人将兼具柔性和类人感知的能力,百度研究院则具体到多元“汽车机器人”的未来发展。关于“人机共生”的发展,百度研究院指出虚实结合与智能交互平台的发展,阿里达摩院则具体到XR 眼镜的发展。

并且,百度研究院还认为未来AI的价值将惠及到更多群体,AI未来将更加包容普惠。而阿里达摩院提出的发展趋势是云网端融合将会形成新计算体系,催生云上新物种。

此前,百度研究院关于数字人、虚拟人将大批量出现、“数字交通运营”将成为关键推动力等趋势预测均已逐步实现。今年,AI又将如何发展呢? 

参考链接:
https://mp.weixin.qq.com/s/-cUvCe4I7U5scMv_ccSE1g
https://mp.weixin.qq.com/s/jo5uC9NpWNY0OYXM1xCtYw

雷峰网

]]>
人工智能学术 //www.xyschoolife.com/category/academic/hu913iRFqjyBmyaN.html#comments Thu, 27 Jan 2022 16:32:00 +0800
胡守仁、张景中获2021年「CCF终身成就奖」!他们为中国计算机事业的发展做出了卓越贡献 //www.xyschoolife.com/category/academic/O2yZHIsz8J1mEXKg.html

作者 | 西西
编辑 | 陈彩娴
昨日,中国计算机学会(CCF)发布2021年「CCF终身成就奖」评选结果公告,国防科技大学胡守仁教授、广州大学张景中教授入选!
「CCF终身成就奖」始设于2010年,授予70岁以上的在计算机科学、技术和工程领域取得重大突破,有卓著成就与巨大贡献的资深中国计算机科技工作者,由CCF理事长会议推荐候选人,每年评选一次,每次不超过2人。
从2010年至今,「CCF终身成就奖」的获得者均是推动中国计算机事业发展的著名科学家,他们的名单如下:
  • 2010年:张效祥院士,上世纪50年代末主持研制成功我国第一台大型通用电子计算机——104机;夏培肃院士,1960年支持研制成功我国第一台自行设计的通用电子数字计算机——107机;
  • 2011年:徐家福教授,我国最早的两位计算机软件博士生导师之一,在国内自行研制的J-501机上研制出中国第一个ALGOL编译系统;杨芙清院士,中国软件领域奠基人之一,支持研制了中国第一台百万次集成电路计算机150机操作系统;
  • 2012年:金怡濂院士,上世纪70年代主持研制了国内首台双处理器架构的大型计算机,80年代中期领导开展我国第一台10亿次巨型机的研制;汪成为院士,我国863计划与国防973计划的重要成员与杰出贡献者;
  • 2013年:陈俊亮院士,有线600/1200波特及无线600波特数据传输设备的主要研制者之一,研制出我国第一台「DS-2000程控数字市话交换机」;董韫美院士,上世纪60年代中期主持研制出国内最早的实用高级程序语言BCY;
  • 2014年:陆汝钤院士,我国知识工程和基于知识的软件工程领域奠基性者,设计并主持研制了知识工程语言TUILI和大型专家系统开发环境「天马」,首次把异构型DAI和机器辩论引进人工智能领域,发表了国际上第一篇异构型分布式人工智能文章;张钹院士,将数学方法引入人工智能,提出基于统计推断的启发式搜索、基于拓扑的空间规划、基于关系矩阵的时间规划,以及基于规划的神经网络学习等新方法;
  • 2015年:倪光南院士,参与研制我国自行设计的第一台电子管计算机(119机),提出并实现在汉字输入中应用联想功能,主持开发的联想式汉字系统较好地解决了汉字处理中许多技术问题;周兴铭院士,主持研制了我国第一台全数字实时仿真计算机“银河-仿1”和我国第一台面向科学/工程计算的10亿次级“银河-II”并行巨型计算机系统;
  • 2016年:沈绪榜院士,中国芯片计算机的开拓者和倡导者,上世纪70年代成功研制出大规模集成电路16位微计算机,实现了中国芯片计算机的历史性突破;唐唐泽圣教授,中国计算机图形学及相关领域的开创者、引领者,上世纪80年代率先在国内开展计算机图形学及CAD技术和科学计算可视化的研究;
  • 2017年:胡启恒院士,中国在模式识别与人工智能领域最早的探索者之一,中国互联网早期发展的重要推手;李伯虎院士,我国计算机仿真技术和制造业信息化的开拓者之一,参与研制了我国首台航天用M2大型模拟机、领导研制了M6混合机的自动寻优机;
  • 2018年:何新贵院士,上世纪70年代在国产计算机上成功研制出多个FORTRAN编译系统,在编译、数据库、模糊逻辑、最优化处理和军用软件等领域做出了突出贡献;周巢尘院士,我国分布式程序设计理论研究的先驱者和开拓者之一,上世纪90年代提出的时段演算理论开创了实时系统形式设计的新途径;
  • 2019年:沈昌祥院士,为发展我国的信息安全和可信计算技术做出了系统性和创造性的重大贡献;魏道政教授,我国计算机电路测试和容错计算领域的开拓者之一,他提出的主路径敏化法是70年代电子测试技术领域具有里程碑意义的成果,在计算机电路测试领域做出了系统性和创造性的重大贡献;
  • 2020年:陈国良院士,在并行计算的理论研究、工程应用和教学等方面做出了卓越贡献,创建了中国第一个国家高性能计算中心;孙永强教授,我国第一代计算机软件科研工作者,20世纪60年代领导实现了国内首批高级程序语言编译器——911编译程序系统
由此可见,2021年「CCF终身成就奖」的获奖者也是人中龙凤。

1

胡守仁
1926年出生,浙江江山人,1949年毕业于浙江大学电机系,1952年到哈尔滨军事工程学院工作,历任助教、教研室主任、系副主任,1958年开始涉足计算机领域,40年来一直从事计算机的教学与研究,主持了多台计算机系统的研究与开发。
后来,他又担任国防科技大学教授、计算机研究所副所长,中国计算机学会理事。共获国家级奖励3项,部委级奖励10 多项,出版专著4 部,编有《计算机概论》,合编有《巨型计算机系统结构》等,发表学术论文百篇以上。
他获得「CCF终身成就奖」的理由是:
胡守仁教授是我国第一代计算机体系结构的科技工作者,长期从事高性能计算机系统的研究工作,作为负责人之一完成了151—Ⅳ百万次大型计算机和我国首台亿次巨型计算机「银河Ⅰ」的研制,为我国高性能计算机事业做出了卓越贡献。

1984年,银河机获国防科技成果奖特等奖。

关于胡守仁教授的研究经历,百度百科有一段动人的描述:
胡教授的时间从来是以分秒计算的。40 多年来,他焚舟破釜,殚诚毕虑,在我国计算机科研领域奋勇开拓并取得卓越成就。1951 年,这位浙江大学电机系毕业的高材生,在西子湖畔被老师和同学送上了隆隆北去的火车,一个星期后抵达吉林通化,从此穿上军装,开始了在国防科研领域的艰难跋涉。
1958 年是胡守仁人生的一次转折。他到海上实习, 目睹了我国海军装备的落后状况。那时,人民海军处在创建阶段,我们从苏联引进的鱼雷快艇,仅靠一个机械式的三角杆作计算器,这种古老陈旧的计算方法根本无法适应实战、夜战、近战的需要。部队的同志说,鱼雷快艇高速行驶,颠簸厉害,指挥员用拉杆计算目标参数很不准确,在夜间几乎不能指挥作战。胡守仁的心被强烈地震撼了, 他暗暗地萌发了自己研制鱼雷快艇指挥仪的念头。
此时, 中央军委决定研制我国自己的计算机,并把这一任务交给了胡守仁所在的「哈军工」。学校成立了电子数字计算机研制组,胡守仁被任命为该项目的主要负责人。胡守仁说,当时他连计算机的一般概念都不知道,起步十分艰难。为了实现零的突破,他和战友们边学习,边讨论,边研究,边实践。怀着对祖国的赤子之心,他们像打仗的战士安营扎寨,吃住都在实验室,工作不分昼夜,实在累了就睡一下,爬起来又接着干。经过半年多的日夜奋战, 中国第一台计算机终于问世了!
砥兵砺伍,众志成城。此后,胡守仁在计算机领域一发不可收: 1959 年他负责筹办我国高等院校第一个计算机专业,开始了我国最早的计算机教学;1962 年,他主持研制出了我国第一台教学计算机;1968 年他主持研制出了我国第一台车载靶场———数据录取和处理计算机;1970 年他参加了我国第一台百万次———“远望一号”测量船中心计算机的攻关,并作为计算机系副主任兼任“718”研究室主任和该任务的技术总体组组长,第一次提出了变结构的思想,大大提高了计算机的运算速度和可靠性;1976 年以后,他相继参加了我国第一台亿次巨型计算机“银河Ⅰ”、第一台数字仿真机“银河仿真Ⅰ”的研制,两次担任技术总体组组长……这一个个“中国第一”,像串珠一般,写照着胡守仁为使我国计算机事业能在世界上占有一席之地而奋斗不息的壮丽人生。

2

张景中
1936年出生于河南汝南县,本科毕业于北京大学数学力学系,历任中国科学技术大学数学系讲师与副教授、中国科学院研究员,1993年担任博士生导师,1995年当选中国科学院院士,1996年初创办了广州大学(原广州师范学院)计算机教育软件研究所并担任所长、教授,主要从事机器证明、教育数学、距离几何及动力系统研究。
他获得「CCF终身成就奖」的理由是:
张景中教授提出了定理机器证明的数值并行方法,解决了初等图形在欧氏空间嵌入等问题,创建了几何定理可读证明自动生成的原理和方法,推动了机器定理证明智能化技术的发展。长期致力于科普工作并做出了突出贡献。

他在几何定理可读机器证明、教育数学、距离几何及动力系统、学科教育信息技术学科领域以及数学科普做出了突出的贡献。主要成果包括:

  • 计算机自动推理:(1)提出以面积方法为基础的消点法,实现了几何定理可读证明的自动生成,使计算能够给出容易理解和检验的推理演算或证明过程,被国际同行誉为「是自动推理领域三十年来最重要的进展,是计算机处理几何问题道路上的里程碑」;(2)提出用近似计算获取准确值的理论和基本方法;(3)建立了复系数多项式的完全判别系统;(4)提出了几何定理可读证明自动生成的点几何方法。
  • 度量几何与几何不等式:(1)给出初等图形在欧氏空间实现的充要条件;(2)发现并证明了有限质点组的基本的不等式;(3)证明了高维单形上Bernstein多项式凸性定理的逆定理;(4)解决了古典的单位圆规基本作图问题。
  • 动力系统与迭代:(1)给出逐段单调连续函数迭代根存在充要条件;(2)给出单调连续函数生成的迭代半群的唯一性准则;(3)给出费根堡函数方程连续解构造方法。
  • 教育数学:提出教育数学的基本观点和理论,致力于通过把数学变得更容易而改革数学教育。建立有章可循的几何解题方法和相应的公理体系、提出不用极限概念的微积分学基本理论与方法。
  • 教育信息技术:提出学科智能教育平台的概念和基本理论方法,并将数学机械化的思想方法和成果用于教育软件研发,创作了《Z+Z智能教育平台》,获香港国际发明博览会金奖。
张景中教授坚持产学研结合的发展道路。2002年,他在广州大学的支持下创立了广州景中教育软件有限公司并担任公司董事长。
消息链接:

https://mp.weixin.qq.com/s/9TtRNoY-HIg1EJzcUyUqEA



雷峰网


]]>
人工智能学术 //www.xyschoolife.com/category/academic/O2yZHIsz8J1mEXKg.html#comments Thu, 27 Jan 2022 16:29:00 +0800
十年AI谁“最能打”?AI 2000榜单:何恺明最佳论文“刷”状元,谷歌机构排名第一 //www.xyschoolife.com/category/academic/5tDGiOIwtD97c0qv.html

作者 | 维克多

编辑 | 岑峰

过去十年,哪些学者为人工智能(AI)领域作出了突出贡献?

今日,清华大学联合智谱AI发布“2022年人工智能全球最具影响力学者榜单AI 2000”,通过梳理2012-2021年间的论文、期刊等学术数据,挖掘在近10年里的具有影响力的一作(年轻)学者。

据悉,2022年度AI 2000人工智能全球最具影响力学者(200人次)和提名学者(1800人次)分布于全球不同机构。由于存在同一学者入选不同领域的现象,经过去重处理后,AI 2000人工智能全球最具影响力(提名)学者共计1896位

在这1896人的名单中,综合成绩排名前10名的学者荣膺该领域当年“AI 2000最具影响力学者奖”。其中,排名第一的学者是何恺明,任职于Meta(原Facebook);排名第十的学者是任少卿,任职于NIO。

另外值得注意的是,前十名的学者,仅有一位来自于高校,一位来自于研究机构,其余8位都任职于公司。这也反映了AI过去十年发展快速,从学术研究走向商业化的趋势。



1

AI领域最能“打”的10位

何恺明作为年轻领域最能打的一位,技能树已经点满(如上图(右)所示)。别人的荣誉都是在某某大厂工作,拿过什么大奖,而何恺明的荣誉是best,best,best。

例如2016 CVPR 最佳论文“Deep Residual Learning for Image Recognition”已经拿下了接近9W的引用数;2017ICCV 最佳论文“Mask R-CNN”也有1w4的引用数。

其他代表性论文包括:
  • Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
    被引用:24629
  • Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification
    被引数:13029
  • 2017 ICCV 最佳学生论文:Focal Loss for Dense Object Detection
    被引数:10036
  • 2020 CVPR 最佳论文提名:Momentum Contrast for Unsupervised Visual Representation Learning

    被引数:2034

排名第二的是谷歌大脑研究科学家Diederik P. Kingma,其提出了Adam优化算法的原始论文。另一篇发表在ICLR 2013上的代表性论文“Auto-Encoding Variational Bayes”也获得了16786的引用。

Alex Krizhevsky是Geoff Hinton的高徒,2012年成功训练出了深度卷积神经网络AlexNet。

Christian Szegedy是谷歌的研究科学家。同时也是Inception-v4、Batch normalization的作者。

Karen Simonyan是DeepMind的研究员。代表性工作是ICLR 2015论文“Very Deep Convolutional Networks for Large-Scale Image Recognition ”,目前已经获得了6w5的引用数。

Tomáš Mikolov是捷克理工大学的学者,引用数最高的一篇文章是NeurIPS 2013的论文“Distributed Representations of Words and Phrases and their Compositionality ”。

Ian J. Goodfellow和Yoshua Bengio 、Aaron Courville合著《深度学习》一书,目前是苹果研究员。提出了人工智能领域著名的左右互搏术“GAN”。

Ross B. Girshick是Meta的科学家,2017年与何恺明合著“Faster R-CNN ”,这项工作也是至今为止获得最高引用的一项。

Ilya Sutskever创立并领导 OpenAI。2015 年,麻省理工学院技术评论将 Sutskever 评为 Visionaries 类别的“35 岁以下创新者”。

任少卿,蔚来汽车公司科学家,毕业于中国科学技术大学与微软亚洲研究院联合培养博士班,主攻图像处理和机器视觉方向的研究。和何恺明、孙剑等人提出适用于物体检测的高效框架 Faster RCNN 和图像识别算法 ResNet。

 

而在最具影响力机构前十名的排名中(见下图)也出现了科技公司占据上风的情况。由此可见,科技公司已经成为AI技术进步上的重要推进者,打破了以往理论与实践之间的隔阂。



2

各领域榜首学者

AI 2000 榜单涵盖21个子领域,主要聚集于美国,以及中国、新加坡、加拿大、德国等国家。

 

美国依旧在人工智能人才上占有强势领先位置,囊括13个领域的榜首学者。中国收入两个榜首学者,分别是信息检索与推荐和多媒体两个领域;德国收入两个榜首,分别是机器人和可视化两个领域;另外还有意大利取得物联网领域榜首;日本取得计算机图形领域榜首。

值得注意的是,相较于去年美国人才占据了16个人工智能子领域的榜首,今年出现了更多的上榜国家,这间接表明其他国家在逐渐强化自己的优势领域,壮大自己的技术力量。



3

1896名学者来自哪些国家?

从学者国家分布来看,美国入选AI 2000学者及提名学者的数量最多,有1146人次,占比57.3%,超过总人数的一半以上。中国排在美国之后,位列第二,有232人次,占比11.6%。英国位列第三,有115人次,占比5.75%。德国位列第四,人次未超过100,但依旧是欧盟学者数量最多的国家。整个欧洲学者数量表现较上年有所流失。

图:A1 2000 学者及提名学者的国家分布

图:A1 2000 学者及提名学者的国家分布图



4

入选学者的机构分布

从AI 2000最具影响力学者入选数量来看,谷歌、Meta(原Facebook)及微软三大科技公司占据优势地位,公司拥有的顶级AI学者数量,无论是top 10还是top 100数量,均远多于高校。其中位居首位的谷歌公司,共181人次入选榜单,也是唯一一家学者数过百的机构。

从机构所在的国家分布来看,清华大学相较于去年,遗憾离开前十名的位置。前十名均为美国机构,且美国机构学者总体人数遥遥领先。阿里巴巴位列第二十位,相较于去年有所提升。

 图:A1 2000 学者及提名学者机构分布

图:A1 2000 学者及提名学者的机构分布图



5

多领域上榜学者

本届AI 2000上榜学者及提名学者中,有95位学者的研究方向涉及了多个领域并且取得杰出成果而上榜,占比5%

其中,谷歌的Christian Szegedy在3个领域上榜(经典AI排名第1、计算机视觉排名第2及机器学习排名第13)并且排名都较为靠前。Christian Szegedy的h-index值为24,入选论文67篇,引用量128707。虽然论文数量不多,但是引用量极高。

在3个子领域上榜的还有2018年图灵奖得主、加拿大蒙特利尔大学教授Yoshua Bengio。此外还包括两位华人学者,即来自密歇根州立大学的Jiliang Tang教授及来自德克萨斯农工大学的Xia Hu教授

此外还有86位学者在2个领域有杰出表现而上榜。

图:三个领域上榜学者名单



6

女性学者

在学者性别分布方面,AI 2000上榜学者整体呈现男多女少特征。具体而言,男性学者在人工智能各领域中均占多数,女性学者占少数。在人机交互领域女性学者比例高达37.4%,其榜首学者也为女性学者,知识工程和可视化两个领域,女性学者占比超过了15%,而其他剩余领域占比均为10%以下。

 

图:AI 2000学者及提名学者全领域性别分布

值得关注的是,来自美国麻省理工学院的女性学者Munmun De Choudhury 在人机交互以及新增的虚拟现实双排名第1,其h-index指数53、入选论文为 184篇、总被引用值9894次,成功当选本年度人机交互领域“最具影响力学者”,也是唯一摘取AI 2000领域榜首桂冠的女性学者。



7

华人学者

图:AI 2000华人学者工作的国家分布

在 AI 2000 全球最具影响力学者榜单中,华人学者的力量是不可忽视的。在去重后的1898位学者中,华人学者有595人,占到了总数的近三分之一。其中,在中国工作的学者一共219人,占所有上榜华人学者的36.8%

而在21个子领域中,有两位中国学者占据榜首。他们分别是中国科学技术大学大数据学院的何向南教授(信息检索与推荐领域)和阿里的贾扬清(多媒体领域)。

图:信息检索与推荐领域榜首学者何向南

图:多媒体领域榜首学者贾扬清

此外,根据大数据显示的AI 2000华人学者流动图可以看出,中国的华人学者流动呈现出一个积极的正向流入状态;而美国的华人学者流动,呈现出一定的负向流出状态。

图:AI 2000 华人学者流动图



8

总结

整体而言,全球入选AI 2000学者之中,美国共有1146人次,中国有232人次,分布位于第一、第二名。与上届相比,没有出现较大的数据波动。由此可见,美国在人工智能整体人才资源、高水平科研成果上仍然占有绝对优势,这为美国人工智能的发展奠定了坚实的人才基础。

此外数据显示,几大科技巨头在人工智能领域贡献了极大的力量,打破了其他专业上理论和实践之间的壁垒。这使得技术的研发可以依据实际需求进行推进,从而形成一个相辅相成的良性循环,因而可以促使人工智能领域的快速发展。

中国依旧是目前人工智能发展研究热度最高的国家。虽然中国在学者规模上位列第二,与美国相比还存在很大差距,相应的人工智能领域人才队伍建设亟待加强。但是我们不能忽视华人学者在人工智能领域做出的贡献,华人学者上榜人数已占据全榜单的近三分之一。

同时在人才流向上,中国呈现出令人欣喜的正向流入状态。这表示,中国释放出诚招人才的极大诚意得到了反馈,相信未来会有更多优秀的人才加入中国的队伍。

榜单中,女性学者的数量也呈现了逐年上升的趋势,并首次出现了女性学者获得两个榜单榜首。榜单中可以看到很多熟悉的面孔,但同时也出现了很多年轻的学者。这说明人工智能领域是欣欣向荣,正在不断注入新鲜的血液,保证了其快速发展的活力。

最新完整AI2000榜单已在AMiner 平台官网发布,专题页面地址:www.aminer.cn/ai2000


相关阅读

2021年人工智能全球最具影响力学者榜单AI 2000发布

2021-04-08

雷峰网


]]>
人工智能学术 //www.xyschoolife.com/category/academic/5tDGiOIwtD97c0qv.html#comments Thu, 27 Jan 2022 16:25:00 +0800
神仙打架!H-index作者手撕金属氢作者,《Nature》常温超导被指作假? //www.xyschoolife.com/category/academic/w8RqfipAPQEOlbk9.html

作者 | 维克多

编辑 | 岑峰

真·神仙打架!

近日,一篇Arxiv论文在物理圈引起了不小的轰动。

有多轰动呢?知乎上有人说,老板正在开着组会都没心思了。

“这个文献”的名字叫Comment on Nature 586,373(2020)by E. Sinder et al,名字简单粗暴。很明显,这是对一篇2020年的Nature旧论文有“不同看法”的文章。

Nature 586,373(2020)是什么样的一篇论文,为什么对这篇论文的质疑会引起业内的轰动?

这篇论文正是被作为2020年10月15日《Nature》的封面故事推荐,推荐的标题叫“Turning up the heat”,这是一句双关语,一个意思是“调高温度”,另一个意思是“施加压力”。

“施加压力”是原因,“调高温度”是后果。加在一起就是副标题的意思——“室温超导终于实现了!”

美国罗切斯特大学物理系助理教授Ranga Dias的研究团队,创造出了一种碳质硫氢化合物固体分子,这种材料在约15摄氏度(288K)和约267Gpa的压强下表现出超导性。

虽然还没有达到业内追求的300K(27摄氏度)的室温超导目标,但15摄氏度对超导研究的意义在于不仅极大的提高了SOTA的门槛,还其他研究者看到了胜利的曙光。

(做个不恰当的类比:2012年AlexNet并没有真正超越人类,但在将性能提升了十多个百分点的同时,还掀起了一波深度学习的研究浪潮。

这还不是Ranga Dias最出名的研究。从Google Scholar看,他最出名的研究是发表于2017年的“金属氢”(Metallic Hydrogen)。

氢,它在常温是气体,在低温下变为液体,温度降到零下259℃时即为固体。“金属氢”的提法源于1925年英国物理学家John Bernal“任何元素加压都会具有金属导电特质”的猜想,并在1935年被美国物理学家Eugene Winger(1963年诺贝尔物理学奖得主)理论证明。

多年以来科学家们一直在努力尝试再造这种状态的氢,但均未能成功。

直到2017年1月26日, 《科学》杂志报道哈佛大学实验室成功制造出金属氢。金属氢论文的通讯作者,正是这位Ranga Dias。

向Ranga Dias发起挑战的Jorge E Hirsch也绝非泛泛之辈,他是UCSD物理系教授,被引用3万5千次,H-index 67的大牛。他被引用数最高的文章是2005年提出的“一种衡量个人科学研究成果的指标”。

对了,这项指标以他的名字命名——“H-Index”

在Arxiv发表的新文章中,Hirsch质疑Dias在Nature 杂志发表的室温超导文章涉嫌数据操纵。

两大神仙的碰撞、对轰动业界研究成果的挑战,结果究竟如何?



1

质疑点在哪?

Ranga Dias在《Nature》论文中设计出了一种新型氢化物,这种由氢-硫-碳组成的材料,在巨大的压力下,室温时就能转变成超导体。

当时论文一经发表,学界惊呼(主要是凝聚态物质理论):人类首次真正发现室温超导!

支撑文章观点的主要论点是:在175万个大气压下,样品冷却至-93°C就会发生超导转变。如果继续增加压力,超导转变的临界温度会不断提高。

当到达到267万个大气压时,只需把样品降低至15°C,就能看到电阻消失。

嗯,换句话说,Dias在在常温条件下发现了“零电阻和完全抗磁性”,这一超导现象的特征。

相对于原文的“长篇大幅”,Hirsch的质疑文章只有两页,主要攻击室温超导文章中磁化率数据的问题。

Ranga Dias的《Nature》论文说,在T=170K左右,磁化率发生突变,随着温度上升而陡然升高,这显然是超导相变。

Hirsch看到论文中某些区域的数据非常不连续,而且曲线斜率和变化方向相反。实验有误差很正常,但有规律的误差就不正常了。

于是, Hirsch把数据进行了差分,相当于去除了数据“杂质”,然后得到了一条平滑、可导的曲线。

结果显示:T=170K处的数据并没有发生剧变,并不存在超导特征。

此外,论文中有些数据看起来和2009年发表在《Physical Review Letters 》工作中使用的数据极其“相似”。而当年那些数据作者已经承认已经有问题。

因此,Hirsch得出结论:How these data have come about is unknown to us。言外之意:你操纵数据了。

目前,网友对于此问题分为三个阵营,其一认为“可以理解”:有时候有实验误差的数据确实和被操纵了一样。

其二认为Hirsch实锤:原文章并没有如实处理原始数据,而是做了一些不可思议的变换。

其三认为Hirsch的锤是锤了,但只锤了一点点:原数据可能是信号变太快了没锁住导致的。

无论哪方阵营,都需要 Dias出来正面回应,不过目前看来辩方选手有点落了下风。



2

神仙斗法,都有什么法宝?

能够在接近室温的条件下实现超导性,这无疑是一项振奋人心的突破性发现。

但据《Science》的报道,但当其他科学家试图复制这一发现,或者试图在其基础上进行拓展研究时,他们都失败了。

之前,Hirsch提出查看基本数据的要求也被一直拒绝。

有意思的是,论文的原始数据表格,居然是PDF里的一个截图......

 

知乎也有答主指出,Dias对数据遮遮掩掩的做法在生化环材领域很正常,“基操勿6”。

这也为Hirsch的“打假”制造了障碍。

但Dias回应Hirsch的指控表达颇有意味:Hirsch不是高压物理学家,他的指控带有偏见。

事实上,Hirsch在量子多体研究方面有很大的贡献,他完善了费米子行列式的蒙特卡洛 (determinant quantum Monte Carlo, DQMC) 算法。且这几年一直不屑于凝聚态物理学当下那些一地鸡毛般的杂碎问题,一直在攻击攻击各种高压超导实验和BCS理论。

例如这篇标题为“皇帝的新衣”Arixiv文章,直指BCS 超导理论中有“漏洞”,大量学者在该领域灌水,拿基金。

对于Hirsch质疑这篇《Nature》论文抛出的观点,《Nature》说:“编辑已收到与本文背后数据相关的未声明访问限制的警告。我们正在与作者合作更正数据可用性声明 ”

声明发表于2021年8月份,目前尚无更新。而Hirsch这篇Arxiv论文提交于2022年的1月19日。

旧事重提,想必是催促多方尽快给出答复吧:该公布数据的公布数据,该撤稿的撤稿。

值得一提的是,Dias确实有点前科。2017 年,Dias在哈佛当博士后时参与了导师 Isaac Silvera 的金属氢实验,发布了震惊世界的首块金属氢。

当年多方要求想看看金属氢长什么样子的时候,研究团队却说,由于操作失误,金属氢样本“消失”了。

时隔多年,至今无法见到金属氢的样貌。

不过,一码归一码,事情还没到最后一步,室温超导究竟啥样,还是让子弹飞一会儿。



3

室温超导体,凝聚态物理研究的梦想

超导材料具有零电阻和完全抗磁性,在传统电磁学领域和现代量子器件方面都有巨大的应用价值。

自1911年发现第一个超导体以来, 人们探索超导材料的脚步就从未停止过。

诸如金属合金、轻元素化合物、重费米子、有机化合物、铜氧化物、铁砷化物、铁硒化物等各类超 导体系不断被发现, 超导临界温度的记录也一再被刷新。

如何获得更高临界温度的超导体?学界常用方法是使用“高压”,即加大压力。

高压下, 原材料之间互相接触紧密, 化学反应速度要远远大于常压情况, 能提高材料合成效率, 有希望制备常压下不稳定的新材料。

室温超导之路可以追溯到20 世纪60 年代的一个预言,即氢原子团如果被充分压缩,可能会转变成一种在高温下超导的金属。

图注:各种超导材料发现的年代和临界温度记录, 插图为典型的超导体结构,图片来自《中国科学》

2004年,物理学家 Ashcroft进一步指出富氢的材料体系可能在较低的外加压力下实现高温超导。

2014年,吉林大学的马琰铭和崔田两个团队基于对BSC理论的计算,也论证了富氢的材料体系实现超导的可能性。

2015年,德国马普化学研究所的Eremets研究组,首次实验发现高压条件下,硫化氢材料T=203K发生超导转变。

2019年美国华盛顿大学Hemley研究组也有相关论文产出。

而Dias小组的工作就是在Eremets硫化氢材料基础上额外添加了碳元素实现的。

但正如中科院谢心澄和北大王楠林两位教授在《中国科学基金》上点评的那样:目前所形成的室温超导体结构尚不清楚,实验结果也还需要其他研究组的重复和验证。

换句话说,将Dias室温超导的工作提升至“人类首次”还为时尚早。毕竟在高温超导35 年的发展历程中只诞生了一个。

如果提及原始创新,把范围扩展到整个超导领域110 年的历史,也只有1911年发现超导、1957年提出BCS理论、1962年发现约瑟夫森效应、1986 年发现高温超导等寥寥数次。

参考链接:
谢心澄,王楠林.首个室温超导体面世[J].中国科学基金,2021,35(02):233-234.DOI:10.16262/j.cnki.1000-8217.2021.02.016.
顾超.科学史视域下的原始创新:以高温超导研究为例[J/OL].科学学研究:1-17[2022-01-25].DOI:10.16192/j.cnki.1003-2053.20210810.002.
罗会仟.高压室温超导电性的新进展[J].中国科学:物理学 力学 天文学,2021,51(11):130-133.
https://www.163.com/dy/article/G7PSEGR90516DOTJ.html
https://www.zhihu.com/question/512731387/answer/2320382528
相关阅读

2021年量子计算的研发现状与未来展望

2022-01-19

一言不合又拉黑!美国精准打击量子计算半导体,国科微、国盾量子等12家中国企业躺枪

2021-11-25

2021戈登贝尔奖揭晓!中国超算应用一举夺冠,打破谷歌所谓“量子霸权”!

2021-11-19

雷峰网雷峰网


]]>
人工智能学术 //www.xyschoolife.com/category/academic/w8RqfipAPQEOlbk9.html#comments Thu, 27 Jan 2022 16:24:00 +0800