如何在MSR-VTT竞赛蝉联冠军？人民大学金琴老师分享夺冠经验 | ACMMM 2017

本文作者：岑大师

2017-11-03 15:11

导语：MSR video to language（MSR-VTT）赛题自2016年来已连续举办两届，其任务为自动地为短视频生成自然语言视频内容描述。

雷锋网消息：上周在加州山景城举办的ACMMM 2017大会上，来自中国的研究者表现出色，不仅拿到了今年ACMMM的最佳论文，还在MSR Video to Language Challenge（MSR-VTT）、Social Media Prediction (SMP)等多项竞赛中取得第一。值得一提的是，来自人民大学的卫冕冠军金琴团队是在去年举行的第一届MSR-VTT夺得冠军后，今年再度取得了主观人工评测和客观性能评测的双冠军。

关于竞赛

MSR Video to Language Challenge （MSR-VTT）是由微软主办的视频标注竞赛。自2016年来已连续举办两届，其任务为自动地为短视频生成自然语言视频内容描述，今年共有全球57支队伍注册参加。

今年的MSR-VTT挑战赛要求参赛者根据所提供的MSR-VTT数据集和利用其它数据，识别广泛的对象、场景和事件，并开发从视频到自然语言的系统。比赛要求系统为每个测试视频生成至少一个句子，评测阶段则分为两部分，在客观评测部分将会通过BLEU@4, METEOR, ROUGE-L及CIDEr等多个常用标准来进行计算评估，在主观评测部分将与预先由人类生成的“答案”进行比较，从语法、正确性、相关性、对盲人的帮助（额外加分项）等四方面进行评分。

如何在MSR-VTT竞赛蝉联冠军？人民大学金琴老师分享夺冠经验 | ACMMM 2017

这对于人类来说是小事一桩的任务，但在计算机视觉领域，视频标注需要在视频信息和文本信息两种不同形式的信息之间进行“翻译”，对计算机来说算是不小的挑战。在团队发表的论文“Knowing yourself: improving video caption via in-depth recap”中，金琴老师对VTT任务的现状进行了完整的回顾和分析，并创新地提出了基于隐含主题指导的视频内容描述生成模型，并根据视频的不同分类，通过融合（Ensemble）和排序（Reranking）等方法综合描述模型，在MSR-VTT数据集上取得了优秀的效果，并对模型的通用泛化能力和“距离人类水准的距离”进行了分析，为今后该任务的发展和需要解决的重点问题提供了方向，该论文也获得了Best Grand Challenge Paper Award。

如何在MSR-VTT竞赛蝉联冠军？人民大学金琴老师分享夺冠经验 | ACMMM 2017

在大会结束后，雷锋网也联系了金琴老师就本次夺冠的经验进行了分享。

雷锋网（以下用Q代表）：恭喜你们蝉联ACMMM MSR Video to Language Grand Challenge的冠军，有什么感想可以分享一下呢？

金琴（以下用A代表）：谢谢！感谢ACM Multimedia和MSR组织这样的公共挑战赛，为促进Video to Language的研究提供了很好的数据和评测平台。很开心我们蝉联该项Grand Challenge的冠军，一份耕耘一份收获，这是对我们团队扎实做研究的奖励。我希望大家继续保持对研究的激情和严谨，持续做出更好的研究发现。

Q：可以介绍夺冠团队中的几位成员以及大家的工作情况吗？

A: 这次参赛队伍主要成员包括陈师哲和陈佳。陈师哲是我的博士生，现在刚进入博士三年级。陈佳目前在卡内基梅隆大学Alex Hauptmann教授课题组做博士后，我们有多年的合作。

Q：今年的比赛任务和去年相比有什么不同，存在哪些难点？

A: 今年延用了去年的训练数据集，但是测试数据集是重新采集的，比去年的测试集更大。在去年的任务中，训练集和测试集中有些视频片段是节选自同一个长视频，而今年新的测试集和训练集完全没有任何交集，类似于跨数据集去验证caption系统了，因此对模型generalization的要求更高。

Q：针对上述不同，您的团队今年做了哪些针对性的调整？解决问题的具体步骤是什么样的呢？

A: 我们主要从三个方面提高模型的泛化能力：第一个是训练数据的扩充。模型见过的训练数据越多，性能也会随之提升。但由于video caption数据的标注代价很高，现在并没有很大规模的video caption数据集，我们只补充了msvd和trecvid两个数据集，视频数量大约是原有训练数据的三分之一。第二个是新模型的提出（topic-guided caption model）。互联网上视频涵盖了各种各样不同的主题内容，这种主题的多样性会影响视频内容描述的生成。一方面不同主题下视频中不同模态的贡献度不一样，例如音乐类视频中音频信号比较关键而在运动类视频中视觉动作更为重要，另一方面在不同主题下使用的词汇和表达方式会不一样，因此不能用同一模型刻画出句子的多样性。因此，我们提出了基于隐含主题指导的caption模型，隐含主题是因为数据集中并没有视频的主题信息，需要自动地去挖掘视频主题，这个模型可以生成主题相关的更加准确更加细节的视频描述，同时泛化性能也大大提高。最后一个改进是对不同模型的融合，我们发现并没有一个one king to rule them all的模型，不同模型在不同视频上还是有互补性的，因此我们利用wisdom of the crowd，提出了主题敏感的ensembling和reranking方法来融合不同模型，提高整体系统的稳定性和效果。

Q：在参赛中你们还遇到了什么问题，如何解决的？

A: 在现有的caption相关论文中大家往往使用的不是同一个数据集或者相同特征，因此没有在同样的一个大数据集上，不同caption模型以及不同特征的公平比较。对于caption而言，到底是更强的特征还是更强的模型更重要，没有答案。所以我们尝试了现有的很多模型，在一个公平的比较方式上衡量不同模型性能，然后我们发现很多模型在特征变强了以后提升就小了，甚至有些没有提升。这也对现有研究提出了一个挑战，就是要在一个更强的baseline上去改进模型，像模型和特征的一个互相博弈过程。

Q：目前该领域中最厉害的方法与人类有多大的差距？下一步的有哪些研究重点？

A:在msrvtt数据集上我们试着回答了一下这个问题。我们用人工的描述ground truth估计了人类的caption平均性能。在caption任务的几个客观评价指标上，我们的系统和人类平均水平基本持平，有些指标上高于人类，有些指标上与人类相差不多。但这并不意味着我们攻克这个任务了。一方面，现有的评价指标还不能很好衡量句子的质量，说一句general但没有太多信息量的话评测会高，另一个重要方面就是模型的泛化性能和人的差距较大。因此，下一步会针对提高caption模型的泛化能力、表达能力（生成更细节更生动的描述）等方面进行研究突破。

Q：你们团队在大会第一天的Audio/Visual Emotion Challenge and Workshop（AVEC 2017）中也夺得了Affect Sub-Challenge的冠军，你们在这两个比赛中使用了哪些相同的方法和技巧吗？

A: 这是两个很不同的任务，每个任务要做到好的performance都必须针对任务提出好的解决方法。但有一些基本的模型还是可以通用的，例如时序模型LSTM在两个任务中都很重要，另外有些思路两个任务都可以互相借鉴，比如多任务学习等。

雷峰网原创文章，未经授权禁止转载。详情见转载须知。

0人收藏

岑大师

发私信

当月热门文章