6位产学专家共话NLG：从大模型竞赛到多模态应用 | CNCC 2021技术论坛

本文作者：贝爽

2021-09-20 14:43

专题：CNCC2021 计算赋能加速数字化转型

导语：多模态能否破解大模型的“阿喀琉斯之踵”？

大规模预训练语言模型能否实现认知智能？

自GPT-3问世以来，关于这个问题的讨论从来没有停止，也一直没有定论。作为NLG领域的标杆模型，GPT-3在X-to-Text系列任务中表现极佳，文章写作、图表分析、聊天对话都能轻松实现。

NLG（Natural Language Generation）是自然语言处理领域的一个分支，区别于NLU，更侧重自然自然语言的表述过程，主要用于将文本、表格、图片或结构化数据，输出为一段准确且易于理解的文本描述。

近几年，NLG已经从幕后走向台前，成为了NLP领域的新宠。

GPT-3被看做是“暴力美学”的一次胜利，验证了”模型越大，性能越好“的逻辑，业界也普遍形成了一种炼大模型的竞赛趋势。虽然大规模预训练模型的NLG能力已经接近人类，但它仍存在一个“阿喀琉斯之踵”——缺乏常识。

如何解决这一问题，业界似乎也达成了共识：引入多模态。今年OpenAI和智源研究院相继推出的CLIP和悟道2.0，称得上是多模态在大规模预训模型中的应用典范，从图像-文本的生成能力突破了一个新高度。目前，阿里、百度、微软亚洲研究院等大型企业和科研机构早已开启多模态的研究。

毫无疑问，大模型+多模态+先验知识成为了NLG前沿探索的新方向。其实，从产业的角度来看，GPT-3等大模型性能虽佳，但仍“不识人间烟火”，因为计算资源过大，终端设备难部署，目前几乎没有重大的落地项目。

不过，这也并不影响NLG在产业方向如火如荼的落地趋势。从RNN、CNN到Tranformer，NLG已经基本解决了“语义不顺、语义不通、关联度不高”等问题，并在金融、媒体、电商等行业获得了大范围的应用。

Gartner预测，在未来20％的业务内容将通过使用自然语言生成的机器编写，其中法律文件、股东报告、新闻稿或案例研究将不再需要人类创建。当然，号称“最难落地”的NLG，现阶段仍在可控性、评价机制、结构化数据等方面存在不足，这也在一定程度上影响了它的应用场景。结合以上问题和现象，这几个问题非常值得探讨：

大规模预训练语言模型能否实现认知智能？
业界的大模型竞赛现象反映了什么问题？
多模态在NLG研究中究竟有多大潜力？
NLG模型的可控性与可解释性问题如何解决？
NLG产业应用所面临的主要难点是什么？

10月28-30日，计算机领域年度盛会CNCC 2021将在深圳召开，本届大会共开设了111个技术论坛，涉及32个研究方向，其中在NLP领域，大会开设了“自然语言生成前沿与产业应用”分论坛。

该论坛由北京大学王选计算机研究所教授万小军担任主席（作报告），中国人民大学高瓴人工智能学院长聘副教授宋睿华担任共同主席。

届时，清华大学计算机科学与技术系长聘副教授黄民烈，百度主任架构师肖欣延，字节跳动AI Lab高级研究员周浩以及微软亚洲研究院高级研究员/研究经理段楠等产学专家将发表主旨演讲，深入解读当前NLG技术前沿与产业发展。

在论坛开始之前，AI科技评论有幸采访了万小军教授以及产业界的三位分享嘉宾，与他们聊了聊关于本次论坛的情况和NLG的产学现状。

6位产学专家共话NLG：从大模型竞赛到多模态应用 | CNCC 2021技术论坛

万小军，北京大学王选计算机研究所博士生导师，语言计算与互联网挖掘研究室负责人，在北京大学获得学士、硕士与博士学位。主攻自然语言处理研究，侧重自动文摘与文本生成、情感分析与语义计算、多语言与多模态NLP等方向。

2017年荣获ACL Outstanding Paper Award、吴文俊人工智能技术发明奖、CCF NLPCC青年新锐奖等；2018年荣获 IJCAI Distinguished Paper Award。此前，与字节跳动、南都、三菱综研、科学网等单位合作推出多款AI写作机器人。

目前担任TACL、ARR执行编辑、NLE、JCST编委；CCF自然语言处理专委会秘书长、CIPSC自然语言生成与智能写作专委会副主任；曾担任国际期刊Computational Linguistics编委与国际会议EMNLP 2019程序委员会主席，10多次担任相关领域重要国际会议高级领域主席或领域主席，包括ACL、NAACL、EMNLP、EACL、AACL等。

第三届NLG论坛，有哪些独到之处?

Q：为什么在CNCC大会开设自然语言生成（NLG）技术论坛？

万：不同于10年前、20年前，NLG已经不是一个冷门的小众研究方向。我们可以明显的感觉到，越来越多的现实场景需要NLG的技术落地，尤其是媒体、教育、电商等行业已经有了相当多的应用案例。产业需求的激增是近几年NLG发展的一个核心驱动力，它推动了技术发展，同时又反哺学术研究，吸引了更多的科研人才，这样一种良性循环，使其成为了自然语言处理领域最热门的分支之一。

在CNCC开设NLG论坛既迎合了主流研究趋势，也体现了CNCC年度盛会的专业性，我们希望通过这场论坛，为学术界和产业界的专家和从业者提供一个相互切磋和学习的机会。

Q：今年的NLG技术论坛与往年有哪些不同？在邀请嘉宾和报告主题方面有哪些规划？

万：CNCC大会首次开设NLG论坛是在2008年，不同于往年，今年论坛反映了当前NLG发展的两大主流趋势：一是多模态研究；二是产业应用。我们邀请了三位产业界嘉宾做主题分享，就像刚才提到的，在市场需求的推动下，互联网巨头以及大大小小的企业都在做NLG研究。NLG模型在实际应用中会遇到哪些问题？有哪些解决思路或针对性的解决方案，这些内容都会在论坛中呈现。另外，当下大热的多模态研究也将成为本次论坛讨论的重点。

在演讲嘉宾方面，我们优先选择了来自百度、字节跳动、微软三家大厂的资深研究员肖欣延、周浩和段楠，一是他们的研究有特色，二是成果比较突出，既发表了不少论文，也有具体的落地案例。从这个角度来讲，其实企业界的研究要比高校或科研机构更实用更全面，因为它们兼顾了学术和应用。

同时，我们邀请了清华大学计算机科学与技术系长聘副教授黄民烈博士，他的分享主题为故事理解与生成，以及我自己也会做关于问题自动生成的学术报告，这些方向都是NLG领域最前沿、热门的研究方向，这也是区别于往年论坛的一大亮点。嘉宾报告之后，来自中国人民大学高瓴人工智能学院的宋睿华长聘副教授将主持圆桌讨论环节，与现场观众互动。

Q：预计有多少参会者？他们能够收获什么？

万：通过CNCC论坛，我们希望参会者能够了解NLG最前沿的技术趋势，最新的落地成果，与各位分享嘉宾碰撞出更多不一样的火花。这也是为什么我们集结了学术界与产业界两拨同仁，既可以把握前沿动态，也可以深入落地场景，探讨更细节更具体的问题，这对于他们而言，是一个行业探底的好机会。

去年，CNCC论坛的报名人数超过7000人。如果不受疫情影响，组委会预计参会者会超过1万人。CNCC以及NLG论坛每年的嘉宾阵容都很强大，报告主题也紧跟前沿趋势，相信今年也如往年一样座无虚席。

基于多模态前沿探索，潜力有大？

Q：如何看待GPT-3的性能神话? 这种“简单粗暴”的模式为NLG任务带来了哪些局限性和可能性？

万：GPT-3确实明显提升了文本生成任务的性能指标，但它的生成结果仍具有不可控性，甚至在实际应用中会带来风险。我们无法预判GPT-3生成的文本是好还是坏，也就无法确定它是否可以使用。大多数场景下的文本生成任务对文本质量、容错率要求很高，这在一定程度上限制了模型的使用范围。

Q：GPT-3之后，智源出品的悟道2.0将模型参数提升到了1.75万亿，在其影响下，“炼大模型”逐渐成为业内主流，您是如何看待这种竞赛趋势的？

万：我们说GPT-3相当于一个公共基础设施，通过它，下游任务只需微调就可以提升性能，也可以减少对标注数据的依赖。但从实验室到真正的产业落地，大规模预训练模型仍面临以下应用部署中的难点：一是模型存储空间过大，二是计算资源开销大，手机等终端设备难以离线支持。大模型的训练成本非常高，这也是为什么研究大模型的机构多出自产业界，普通科研机构和高校往往难承其重。

从1750亿到1.75万亿，虽然“炼大模型”成为了业界的主流研究趋势，但并不能说它是唯一的走向认知智能的研究模式，也不一定是最优的模式。以GPT-3为代表的大规模预训练模型仍有进一步探索的潜力，但它不应该是突破NLG研究瓶颈的唯一路径。

Q：大规模预训练是否实现认知智能？就目前的技术发展来看，我们距离认知智能还有多远？

万：回答这个问题之前，我们首先要清晰地定义什么叫认知智能？换言之，要实现认知智能，机器需要掌握哪几种能力，如何评价这些能力？到目前为止，大家对这一基本概念的界定并没有达成一致，以至于是否会实现认知智能也有不同的看法。

当前有一种观点认为，大规模预训练模型本质是一种泛化的记忆能力，而不是人类所具有的主动思考和理解的能力，它的生成能力取决于预训练数据的规模和质量。从这一点来看，现有预训练模型距离理想的认知智能还有很远的一段距离。

Q：如何看待多模态在NLP领域的发展前景？它要核心解决的问题以及兴起的原因是什么？

万：多模态是计算机视觉与自然语言处理之间的交叉研究领域，它最典型的任务包括跨模态生成，即给定一张图像或者一段视频生成对应的文本，或者反之。我们本身就生活在一个多模态交互环境中，融合图像、视频、语音、文字等不同的模态信息进行学习，所以多模态更接近人类的认知方式，是一个非常有潜力的发展方向。

在应用层面上，多模态的落地场景非常丰富，常见的有多模态导航、多模态对话等。例如，顾客发了一张存在质量问题的产品图，并配文鞋子破了，机器人客服能够结合文字说明和上传的图片进行验证，并给出有效的回复。类似的应用场景还有很大的想象空间，如我们日常的视频会议、在线云课堂，这些场景会涉及视频、图像、语音、文本等多种模态，利用这些多模态信息能够实现更加准确的内容理解、生成、检索与推荐。

Q：当前多模态模型的普遍现状如何，存在哪些局限性？

万：多模态模型在视频或图像上的理解能力还比较简单，比如给定一张风景照，它能够识别图中的狗、草坪或者天空等物体或场景，但不具备更抽象的理解能力，无法准确理解这张图中发生的事件或者表达的观点。这个问题可能与数据集有关，比如ImageNet等数据集多为一些特定类型的自然场景，无法反映现实生活中丰富多彩的场景，基于这类数据集训练出来的多模态模型也难以理解真实场景。

此外，多模态信息的融合方式目前还比较简单和直接，某些场景下所得到的多模态模型性能不一定优于对应的单模态模型。

Q：如何看待NLG可控性差的问题，它会在哪些行业在多大程度上影响技术的应用？

万：关于可控性差的问题目前没有一个特别完美的解决思路。以摘要生成为例，模型生成的摘要文本中包含的事实信息可能与输入文本中的信息不一致，比如输入文本中小张的工作是科学家，但摘要生成的结果中可能小张的工作是医生。信息的不一致性必然会影响模型的使用场景，如何去解决或者控制这个问题，学术界和产业界已经有不少的研究，但都存在一定的局限性。例如常见的文本纠错法，如果模型纠错能力不够，也只能修正一部分错误。

当然，可控性问题会影响模型的使用，但并不代表完全不可用，它取决于应用场景对模型生成结果的容错率。例如媒体行业的一些专业报道容错率很低，要求文字严谨、逻辑缜密，如果使用机器生成文本则需要人工进行检查和校对，考虑到质量和成本的问题，模型可能很难广泛的应用，但这并不妨碍它做一些基础工作或者在相对宽松的场景下使用，例如体育快讯、摘要生成，资料收集和整理等任务，所以在应用层面要具体场景具体分析。

Q：从技术角度来讲，模型可控性差的原因在哪，现阶段是否有一些好的解决思路？

万：生成模型的训练目标一般基于最大似然估计，让生成文本与参考文本重叠度尽可能大，这个目标并不能全面反映与控制文本生成的质量，比如连贯性、信息一致性等。如果我们能设计更加精巧更加全面的训练目标，则有可能进一步提升生成文本的质量，但是并不能完全避免错误。

另一方面，我们目前仍未有一套客观、精准的文本质量评估机制。如果不能准确评估生成结果，也就无从谈起如何控制。所以我们需要设计一种全面评估文本质量的方法，有了这样一把尺子，可以用这把尺子作为训练的目标，对模型进行矫正进而达到更好的效果。

NLG应用将进入黄金期

与学术届相比，产业界在计算资源、落地数据、算法评估方面有着天然的优势。

三位产业界分享嘉宾一致认为，通过多样化化现实场景和面向用户的算法应用，企业能够掌握更丰富、更真实的业务数据，对NLG生成结果的评估也更严格、更细致。当前各行各业对NLG技术的落地需求非常庞大，现有技术也取得了很多不错的应用案例。

NLG在可控性、评估机制、准确性方面仍然需要深入探索，但并不影响其在学术与产业界的快速发展趋势，未来3-5年内NLG技术与应用将迈入黄金发展期。

肖欣延：百度主任架构师

A：在具体的应用场景中，通常会遇到领域训练语料不足，模型效果与应用需求存在差距、预测速度较慢，影响用户体验等问题。以百度输入法为例，在上线AI助聊、AI创作等NLG功能时，我们采取了以下解决方案：（1）使用文学作品作为替代语料；（2）依据结果中存在的问题调整模型设计，同时采用后处理策略提升质量；（3）采用预测加速技术，设计多层缓存机制，降低对线上实时预测的需求。

现阶段各类NLG算法都取得了不同程度的落地成果，例如：智能创作算法提升了媒体、金融、能源、办公等行业的内容生产力；自动摘要算法加快了搜索、信息流等场景的信息获取效率；对话技术在机器人闲聊中增强了交互体验；机器翻译、同声传译算法成为了日常工具。不过，它仍面临可控性不足、可靠性不足以及通用性不足等方面的挑战。

我认为未来3-5年，随着生成结果可用性的不断提升，NLG技术将在艺术创作、开放域对话以及人机交互等方向有更广阔的应用前景。

周浩，字节跳动AI Lab高级研究员

6位产学专家共话NLG：从大模型竞赛到多模态应用 | CNCC 2021技术论坛

A：在NLG应用方面，我分享两个常见的问题；一是生成结果的领域适应性；二是结果的可信性。前者表示由大规模预训练生成结果的文本风格与场景需求往往不一致，现有模型的文本输出多偏正式、呆板，而现实场景的的文本需求应该是多样化的，更多时候需要口语化、轻松的文案。针对这个问题,我们目前提出了一种蒙特卡洛方法,该方法通过模型的概率密度剪裁,不用微调就能得到适用于目标领域的预训练模型。相关研究成果已发表了在了ACL2020上。

后者代表输出结果的准确性和稳定性。任何模型的生成结果都不可能避免地会出现错误，实际应用中需要不断人工质检，一旦发现模型在在线服务中错误率过高就需要重新对模型进行训练，这在大范围产业应用中会带来很高的成本。因此，如何优化算法和提高准确率是应用过程中需要解决的关键问题。

我认为，未来3-5年小数据、短文本的生成算法会变得越来越成熟，目前尚不成熟的篇章内在逻辑性强的长文本生成可能也会有新的技术新突破。在应用方面，NLG应用场景广泛，一般在人机交互中机器输出内容的场景下都会有NLG的应用空间，同时文本生成技术本身在蛋白质设计、小分子生成等前沿科学研究领域也展现了极大的应用前景。

段楠，微软亚洲研究院高级研究员/研究经理

6位产学专家共话NLG：从大模型竞赛到多模态应用 | CNCC 2021技术论坛

A：如何平衡生成质量和生成效率是所有NLG模型都要解决的常见问题。例如，传统NLG模型在推断过程中使用的非自回归解码，虽然改善了自回归解码速度慢的问题，却影响了生成质量。以此问题为例，我们提出一种新型预训练模型BANG。该方法在预训练中通过考虑遮盖任意长度的前文来沟通自回归和非自回归生成，并提出跨流可见的多流注意力机制来实现高效预训练。

除此之外，NLG模型在多样性、上下文一致性、知识覆盖性以及自动评价等问题上都需要进一步的深入探索和研究。从场景角度看，基于预训练的文本生成技术已经在很多新领域中展示出强大的迁移能力，例如多语言场景下的跨语言文本生成任务、软件工程领域的代码生成任务和计算机视觉领域的图片和视频生成任务等。可以预见，未来的3-5年将是NLG研究在多语言、多模态、高性能、基于知识和精准评测等场景下继续高速发展的黄金时期。