多模态和多语言视觉研究走到哪里了？专访王威廉组王鑫

本文作者：杨晓凡

2019-11-21 11:19

专题：ICCV 2019

导语：视觉可以成为连接语言的桥梁

雷锋网 AI 科技评论按：CMU 博士、UC Santa Barbara 计算机科学系助理教授王威廉（William Wang）是一位非常活跃、非常出名的华人学者，他是该校 NLP 小组的负责人，研究领域涵盖信息提取、社交媒体、语言和视觉、口语处理、机器学习理论和知识图谱等。他是社交媒体红人，他的科研团队也连续有大批论文被近几年的 AI/ML/NLP 会议接收，以及获得最佳论文奖或奖项提名。

多模态和多语言视觉研究走到哪里了？专访王威廉组王鑫

王威廉组的王鑫就以第一作者的身份获得了 CVPR 2019 的最佳学生论文奖。近期的 ICCV 2019 上，王鑫也有一篇第一作者论文被收录。从论文主题来看，王鑫对多模态、多语言学习有不少心得，雷锋网 AI 科技评论记者在 ICCV 2019 现场对王鑫进行了采访，请他介绍介绍相关话题。

雷锋网 AI 科技评论：首先请您简单介绍一下您的 ICCV 论文《VaTeX: A Large-Scale, High-Quality Multilingual Dataset for Video-and-Language Research》（arxiv.org/abs/1904.03493）

王鑫：我们这次 ICCV 的论文主要创建了一个新的多语言数据集。之前的视频的数据集都只是基于英文的，但是其实地球上大概有几千种不同的语言，仅仅在中国就有将近一百种语言，所以训练一个多语言的模型去为这些非英语母语的人服务是非常有必要的。基于这个出发点，我们收集了英文和中文数据，然后提供一个对下游任务可以起到很大帮助的数据集，方便其他人做更多后续研究，以及推动基于实证的多语言自然语言的研究。

多模态和多语言视觉研究走到哪里了？专访王威廉组王鑫

雷锋网 AI 科技评论：今年在 CVPR 上您获得了最佳学生论文奖，获奖论文《Reinforced Cross-Modal Matching & Self-Supervised Imitation Learning for Vision-Language Navigation》（arxiv.org/abs/1811.10092）也是做视觉和语言。

多模态和多语言视觉研究走到哪里了？专访王威廉组王鑫

王鑫：对，那篇论文是主要是解决视觉与语言结合去进行导航的问题。相较于其他的传统问题来说，导航问题中感知到的视觉信息是动态的，因为每次接收到语言的指令之后，机器人每次产生的动作可以向左转、向右转、以及往前走；产生动作之后，所看到的就发生了变化，所以它是一个动态的处理过程。而且它还是一个连续的处理过程，是经过一系列的动作，最后你才能判断这个机器人到底成功了没有。

雷锋网 AI 科技评论：这两篇论文之间有什么联系吗？

王鑫：我觉得还是很有联系的。因为视觉语言的这些任务，大家都是只关注英文，没有考虑、或者很少考虑其它语言。但是根据我们之前做视频描述（video-captioning）的经验，就发现这是一个很严重的问题；所以我们去扩充了他的数据，扩充了中文。然后我们 CVPR 做的那篇论文是导航，也是基于自然语言的，输入指令也是全都是英文，所以考虑怎样让它能拓展到更多的语言是非常有必要的。其实我们最近也有一个最新的工作，我们也刚刚把 tech report 放到 arXiv 上（《Cross-Lingual Vision-Language Navigation》，arxiv.org/abs/1910.11301）。这个工作是做跨语言视觉导航，所以那里我们就把导航数据集相应的中文部分也给收集了。

我们去年主要研究了两个主要问题，一个是，虽然多语言的学习很有必要，但是也不可能针对每一种语言都去收集大量的数据来训练模型，这样做可能非常的耗时、耗力、耗金钱。所以我们研究的第一个问题就是怎么利用已有的数据集，比如用已有的英文的数据集，训练一个模型，然后可以执行中文或者韩文的指令。所以我们结合了机器翻译的模型，然后看我们怎样利用原有的英文指令和机器翻译过来的中文指令，把它们结合在一起，想出这样一种方法，可以得到和完全在中文指令上训练的模型相同的表现或者相近的表现。

另外一个问题是，如果我们有了一部分中文标的数据，要怎么更好地提升跨语言学习的模型的表现。这些中文数据的数量相比于英文数据可能是 0%，这就对应着零样本学习（zero-shot learning）；也可能是 10%、20% 甚至 100%；100% 就是说所有的英文数据都有对应的中文数据，收集齐了。

雷锋网 AI 科技评论：在 CVPR 这篇论文中，使用了很多组件来增强跨模态学习的效果，看论文标题都觉得有一些复杂。您是否觉得这么做很复杂？以及未来是否能用更简单的跨模态学习方法达到类似的效果？

王鑫：我觉得那篇论文的思路还是很清晰的。因为对于导航这个任务，在那篇论文之前大家使用的评价指标只是简单的「是否成功了」，你只有到了终点才是「成功」。然而有时候机器人根本没有按照指令行动也到了终点，这样也算为了一个成功，就可能背离了任务设置的本质。我们之所以选用了细粒度的指令，就是因为我们想去研究语言与视觉的结合、它们之间的实证连接（grouding）；我们想要智能体按照指令行动，所以我们的第一个出发点就是增强这两者之间的一致性，就设计了这样的一个跨模态匹配的方法。而同时，如果有了这样一致性，我们还可以利用它去探索没有见到过的新环境，因为模型见过的和没见过的环境之间存在表现的区别，我们可以利用这些信息让它预探索这些没见过的环境，它就可以更好地适应现有的环境，做得更好。

雷锋网 AI 科技评论：这几年多模态学习热度很高，可不可以说多模态学习是CV原有的那些任务遇到瓶颈之后的一个新的出口？其它还有哪些从原来的CV任务衍生出的新任务？

王鑫：首先，我可能不太赞同 CV 的研究已经遇到了瓶颈。可能很多人，包括一些其他领域的人说 ImageNet 已经刷分刷得很高，超过了人类的分数，但如果你去问研究 CV 问题的，即使只是研究物体识别问题的人聊的话，你会发现其实还有很多在实际生活没有解决的方面。ImageNet 虽然很大，但它和整个世界中各种图像数据相比的话，只代表了非常小的一部分数据，图像识别也还有很多的不常见案例没有解决。所以 CV 的研究人员都在极力地解决那些问题，不要再局限于 ImageNet，解决更实际的问题。

然后，其实视觉和语言结合领域也不是这几年才比较火，它其实存在了很多年，在深度学习时代之前也有人在研究。但是在深度学习出现之后，就大概 2014、15年，大家开始在这方面着力。因为我们是生活在一个多模态的世界，作为人类我们不是只用眼去看的，从视觉捕捉，到认知，然后还通过语言进行交流表达，甚至去记录一些东西；而且语言本身也是基于我们所看到的才发展起来。所以我觉得归根结底，把两件事分开研究是一种选择，但是最终我们要做的科研是肯定是要把 CV 和 NLP、甚至其他的模态都结合在一起的。而且我不认为我们需要等到一个完全发展好，再去发展另一个或去发展它们的结合，因为你会发现你永远不可能达到一个顶峰。

雷锋网 AI 科技评论：找到对多种模态的信息的连贯一致（coherent）的表征，可以说是多模态学习的圣杯。目前这个领域的前沿进展如何？有哪些突出的论文？我们离圣杯还有多远？

王鑫：其实在视觉-语言领域里，相对比较传统的像图像描述、视觉问答这种任务，大家都已经在探索更多的可能性，一个是从任务角度，比如说我们做的导航任务，是从静态的信息升级到动态的环境；还有实体机器人学习（embodied agent learning）这种，与人做交互、与这个世界做交互，这是一个很有趣的方向。

现在还有人在研究模型预训练，就像 BERT 一样，BERT 的预训练模型在 NLP 领域取得了很大的贡献。然后其实视觉和语言的联合训练也是很有意义的，所以有很多人，尤其是最近这几个月，有很多人在研究视觉和语言相结合的预训练，然后用这样的预训练策略去提高下游的视觉-语言任务中的表现。

另外还有，研究语言并不等于研究英文，所以我觉得多语言的科研是非常有必要的，尤其是与视觉结合的多语言研究。因为我们不可能一直去收集不同语言之间的平行语料，而视觉信息，包括一些其他的模态的信息，在不同的语言之间是共通的，就像来自不同国家不同语言不同背景的人，看到前面的一座塔，都会知道它是什么，这甚至不需要语言的翻译 —— 也就是说，视觉信息可以作为桥梁，连接不同的语言，所以这也是一个很有很有趣的一个方向。还有，怎样把知识结合到视觉和语言里面去，更好地学一些结构的信息。

雷锋网 AI 科技评论：这些方向近期有哪些论文是你们比较关注的？

王鑫：刚才提到的我们多语言，我们最近有 ICCV 的这篇论文（arxiv.org/abs/1904.03493），以及我们做了一个跨语言视觉-语言导航的论文（arxiv.org/abs/1910.11301）；预训练视频-语言模型目前有很多论文，我之前在推特上发过一个列表总结了一下（搬运见这里）。最近，微软的人有篇 ICLR 投稿，是一个统一模型，通过预训练在 7 到 13 个任务上都达到了最好的效果；导航方面，人与世界与环境结合，像之前的导航，以及包括最近的一些与对话相关的，UW 华盛顿大学有研究者也出了一个视觉与对话导航，就是将导航用对话的形式去做，机器人不仅可以遵照指令行动，如果机器人有不明白的地方还可以反过来提问。

雷锋网 AI 科技评论：你们组还有哪些计划的科研方向？

王鑫：除了刚才我说的多语言研究之外，我们还是希望能做机器人与外界环境的交互，尤其在语言的指导下交互。所以我们对于导航，不管是室内室外的导航也好，或者执行任务也好，这种方向都是非常感兴趣，我们也会继续做新的成果出来。另外，自监督学习这种从没有标签的数据里学习到更好的表征，我们也有在做这方面的研究。除此之外，我们组对 NLP 的很多其他领域都有深入研究，包括知识图谱、知识推理、自然语言生成、社会科学、机器学习的公平性、责任性和可解释性研究等等。

雷锋网 AI 科技评论：大家根据以往的经验总结出了一个现象，顶会上的获奖论文一般都不是那些有很大长期影响的论文（用时间检验奖 Test of Time Award 来衡量）。您对这个现象有什么看法？

王鑫：首先，有长期影响力，可能不同的人有不同的定义，大家一般通常会从被引数量上来看，这样的话，比较火的领域的论文可能会得到更多的被引。

但是正如你所说的，很长期的影响力的那些奖项，获奖论文一般并不是当时的最佳论文，是因为大家很难意识一篇论文到底未来会产生多大的影响。但是当前的视角来说，我认为所有得奖的论文都是有独到的过人之处的，都提出了一些新的洞见，至少会给当前的学术研究带来很多思考；或者他的论文做得非常扎实完善。

雷锋网 AI 科技评论：您是 Closing the Loop Between Vision and Language Workshop 的组织者之一，28 号我们去看的时候非常火爆。为什么要举办这个workshop？今年第三届 workshop 相比前两届有哪些变化？

王鑫：对，这个 workshop 今年已经是第三届了，已经是非常有影响力了；它每一届也会有不同的侧重点，这一届我们同时举行了两个比赛竞赛，一个是我们的 VaTeX 竞赛，另外一个是视频描述的一个长语言生成的竞赛（LSMDC）。因为我们觉得从过去的相关领域的科研都主要关注图像角度，但是其实你想想，视频才能够更好地捕捉到这个世界中事物的动态关系，因为它有更复杂的信息，包括物体本身的视觉信息、物体的动作、物体之间的空间关系、物体的时空关系，而且它还可能含有听觉的、语音的信息，所以从图像到视频这样一个转变是非常有必要的，我觉得也是值得更多的人投入精力学习研究的。

当然，我们 workshop 也不只局限于视频描述。你可以看到，我们邀请的演讲者其实是来自不同的研究背景，有做纯做视觉的，有做视觉和语言的结合的，甚至有 NLP 的教授过来讲，讲常识、知识这样的东西。总而言之，我们希望通过促进不同学科之间的交互，真正地推动视觉和语言的结合领域的发展。

雷锋网 AI 科技评论：更详细介绍一下 VaTeX 竞赛吧

王鑫：用于视觉和语言实证的多语言研究，这个领域是非常有必要去研究的，这是一个很大的原因，促使我们去推动这样一件事情，让大家意识到它的重要性；而且视频也是很重要。所以我们举办了这样的一个比赛，让大家去参与，去更好的去研究它。

我认为这次竞赛也非常成功，一共有 57 支队伍来自于世界各地，冠军是由中科院的自动化所的队伍取得的。其实当你推动这样一件事情的时候，大家是很有兴趣、很有意愿参与，以及往更深的研究层次发掘的，比如有一个评价指标是 CIDEr score，冠军的成绩比我们在论文里提出的基线模型提高了几十个点，这是非常惊人的成绩。

我们的比赛包括英语赛道和中文赛道，取得亚军的一个是来自澳大利亚阿德莱德大学和人大合作的团队，另外一个是自动化研究所的另外一支团队，他们也取得了很好的表现，以及他们的方法也都很有意义。总结一下你会发现，所有的团队都会去都去探索视频中的不同模态的信息，包括图像级别的、动作级别的视觉信息，还有时序级别的、甚至音频的，他们结合了各种信息建立了这样的模型。

但是，还有一些方向是很少人关注的，比如说从语言本身的角度。可能大家主要都来自做 CV 的科研团队，所以更多的精力放在视频上面；但是语言这边、描述这边做探索的人就比较少，目前还没有人用 BERT 模型去做。其实要做的话，可以利用预训练模型，甚至自己提出一个模型然后做它的预训练，达到更好的多模态对齐效果，以及更好的描述生成。

雷锋网 AI 科技评论：今年参加 ICCV 有什么感受？

王鑫：现在每年大家对 C V的研究都越来越感兴趣，参会的人越来越多，今年 CVPR 和 ICCV 都是有七千人甚至一万人参加，所以人数增多，可能大家交流的也就会更多。对我来说，我看到越来越多的生面孔来参会，这是一件很好的事情，大家一起来推动这个科研领域更好的发展；而且工业界也对我们 CV 和 NLP 的研究非常感兴趣，在展区可以看到来自全世界各地的很多不同的公司，然后他们可能对于如何把科研成果更好地运用到产品中更感兴趣，我觉得这都是很好的。

雷锋网 AI 科技评论：你认为 CVPR 和 ICCV 两个会之间有什么不同？

王鑫：其实这是我第一次参加 ICCV 的，但是我 CVPR 参加了很多届。我也很难讲两个会之间的区别，但我觉得在讨论的问题上没有太大区别，只不过 ICCV 可能因为在美国之外举办，CVPR 是大多数在美国，所以 ICCV 参会的人会来自国际上的、美国之外国家的研究者更多一点。美国因为它的签证比较严，可能其它国家的研究者就相应的会少一点。

雷锋网 AI 科技评论：再问一个问题，华人在近年的顶会上表现都很好，但是这次在 ICCV 的奖项上也有一些遗憾。您怎样评价这届 ICCV 中华人的整体表现？

王鑫：我不觉得这是一个遗憾，因为我觉得华人，尤其是在 CV 领域，华人的表现越来越突出，有时候你甚至会看到至少有一半的论文里都有华人作者。而论文没被选中最佳论文、或者最佳论文候选，这并不意味着他们的工作不好，其实，所有的口头报告论文或者海报展示论文，所有的接收论文都有他的亮点。

其实，本来评奖里也带有主观的看法，我认为大家更应该关注自己的研究内容，期望能够做出有影响力的工作，以及把自己的工作做完善。要有一些学术前瞻性，去看看到底科研方向应该往哪里走，而不是通过堆一堆技巧、提高一两个点的分数。如果你持续地做好的工作，我觉得论文奖是会找到你的 —— 不是把得奖作为目标、迎合奖项的评选方式来做科研，而是为了做更好的科研而做科研。

雷锋网 AI 科技评论报道。更多学术报道、顶会观察请继续关注。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

1人收藏

专题

ICCV 2019

本专题其他文章

杨晓凡

读论文为生

日常笑点滴，学术死脑筋

发私信

当月热门文章