专访纽约城市大学田英利教授：用多通道、多模态的方法「看懂」手语

本文作者：任平

2024-03-06 09:48

专题：AI for Science

导语：手语识别技术新篇章，基于RGBD图像的美国手语语法识别系统。

与聋哑人交流，是一件成本很高的事情。

首先要看得懂手语，其次是会打手语。在全球任何一个国家，手语都被归属为一门“小语种”。

但全球手语并非一套通用语言，美国手语（ASL）、泰国手语（ThSL）、英国手语（BSL）、中国手语（CSL）......虽然在某些情况下它们可以互相理解，但这并不等同于手语语言的普遍性。

全球约4.5亿的聋哑人士，长期困在狭小社交圈。在过去三年的全球防疫中，这种社交限制被进一步强化。

口罩会影响每一位聋哑人——依赖手语的他们还需要面部表情来充分理解交流内容，佩戴助听器或人工耳蜗的人也依赖唇读来更好地理解听到的内容，即便只是听说功能受损的人也更难听到蒙住的声音。

因此，手语在高等教育中的重要性日益凸显。从2006年到2009年，美国手语在大学的学习人数显著增加了16.4%，在最受欢迎的外语学习中排名第四。然而，对于更广泛的社会群体而言，仍然无法受益于一种灵活的方法培养手语技能。

众所周知，2023年，ChatGPT的出现为沟通方式带来了革命性的变革。

ChatGPT通过多轮对话的形式，实现了与人类的协同交互，这是与以往现象级AI产品完全不一样的地方。比如，通过简单的插件安装，用户便能与ChatGPT展开近乎真实的对话模拟。ChatGPT不仅能够理解用户的意图，还能提供即时的反馈和纠错。在缺乏外语母语交流伙伴的情况下，ChatGPT是一个理想的替代者，被广泛用于模拟日常对话、商务会议、求职面试等场景。

实际上，ChatGPT所引领的学习和交流方式的变革并非突如其来。在手语交流辅助工具的开发上，学术界早已取得了显著成就。

2014年开始，纽约城市大学（CCNY）田英利教授，联合国际知名手语计算专家--罗切斯特理工大学的Matt Huenerfauth教授，着手开发一个能够实时识别美国手语中语法错误的视觉系统。相关研究成果和手语数据集在2020年亮相计算机视觉领域顶级会议ICPR（模式识别国际会议）。

专访纽约城市大学田英利教授：用多通道、多模态的方法「看懂」手语

田英利，纽约城市大学教授，IEEE / IAPR / AAIA Fellow

据悉，他们开发的这套是美国手语语法识别系统，旨在实时识别手语并为学习者提供即时反馈。应用价值不仅体现在辅助手语学习上，更在于其能够无缝集成到计算平台中--通过检测手语动作并翻译成文字或语音，为听障人士与非听障人士之间的沟通搭建桥梁，有效消除交流障碍。

近期，相关论文之一《Multi-Modal Multi-Channel American Sign Language Recognition》，作为首期特邀论文上线初创期刊《人工智能与机器人研究国际期刊》（IJAIRR）。借此契机，田英利教授向雷峰网介绍了该系统的开发过程，并详细介绍了背后的数据集收集工作。

论文链接：

https://gairdao.com/doi/10.1142/S2972335324500017

手语识别的难题

相比于类型繁多的口语语言，手语的特别之处在于，这是一种充满表现力的视觉语言，它通过手势、面部表情和身体动作的组合来传达信息。

自20世纪80年代以来，学者们就开始探索手势识别，而手语识别的研究则稍晚起步，1988年，日本学者Tamura和Kawasaki首次尝试识别日语手语。

随着多功能感知、智能人机接口和虚拟现实技术的发展，手语识别研究逐渐受到国际关注。目前，手语识别系统主要分为基于传感设备（如数据手套和位置跟踪器）和基于视觉的系统。

相比而言，虽然传感设备提高了手势识别的准确度和稳定性，但限制了手势的自然表达。因此，基于视觉的手势识别逐渐成为研究的主流。

基于视觉的手语识别通常包括三个步骤：

首先，通过摄像头或传感器捕捉手语动作，建立训练数据集；

其次，利用计算机视觉技术分析和识别手语动作；

最后，通过机器学习算法将识别结果转化为文字或语音输出。

然而，第一步中的遮挡、投影和光线变化等因素，使得基于视觉的方法难以精确捕捉手指动作。直到近年来，成本效益高的RGBD相机，如微软Kinect V2（2013年发布）、英特尔Realsense（2014年发布）和ORBBEC Astra Stereo S（2019年发布）的出现，为捕捉高分辨率RGB视频、深度图和实时跟踪骨骼关节提供了可能，推动了基于RGBD视频的手语识别研究。

尽管如此，现有的手语识别系统仍存在诸多缺陷。

一些系统仅关注手势，忽视了面部表情和身体姿势，限制了其适应性、泛化性和鲁棒性；

另一些系统虽然分析了多种姿态，但缺乏深度信息，导致识别率不高；

还有的系统虽然基于RGBD视频，但只识别有限的手语词汇。

纽约城市大学的田英利教授指出了两个原因：现代机器学习方法主要依赖数据驱动，但公开发布的手语数据集规模远小于其他应用的数据集。其次，手语动作的多样性和复杂性，也增加了动作捕捉和算法设计的难度。

例如，手部动作的微小变化可能导致完全不同手语的符号表达；即使手势相同，面部表情的差异也能改变含义；重复的手势可能增加额外的含义；而照明、背景和相机距离等环境因素也增加了识别的难度。

理想的手语识别系统应能处理所有手语词汇，满足使用者的实际需求，并能在复杂环境下实时、准确、可靠地工作，同时面向非特定用户。尽管手语识别技术尚未成熟，但随着研究的深入，这一目标正逐步接近现实。

美国手语研究新篇章：数据集与识别技术的协同进步

美国手语（ASL）在全球范围内具有重要地位，不仅在美国、加拿大等国家广泛使用，而且与泰国手语、法国手语等有着较高的互通性。在美国，美国手语是一种标准化的手语，不同州之间的差异通常很小。因此，ASL成为了众多研究团队的首选研究对象。

田英利教授指出，ASL的表达不仅依赖手势，还涉及面部表情、头部和身体动作等非手部信号，这些元素共同构成了ASL的丰富表达。

具体来说，大多数手语手势都是由手在空间中移动、停顿和改变方向组成的，面部表情在美国手语中最常用于传达整个句子或短语的情绪信息。例如通过眉毛、眼睛张大的表情来表示疑问；身体动作和手势的指向也可以用来表达“左边”或“右边”这类概念；具有消极语义极性的符号，如NONE或NEVER，往往伴随着轻微摇头和鼻子皱纹的消极面部表情出现。

专访纽约城市大学田英利教授：用多通道、多模态的方法「看懂」手语

2014年以来，田英利教授与罗切斯特理工学院的Matt Huenerfauth教授合作，基于RGBD视频技术开发了一套创新系统，旨在提高ASL语法元素和语法错误的识别准确性。这一系统能够处理连续ASL视频中手部手势与非手部信号之间的复杂关系。

经过数年筹备，他们所开发的这套ASL系统已有突破性进展。据田英利教授介绍，ASL-100-RGBD数据集、ASL-Homework-RGBD数据集、实时手语语法错误识别系统，是实现这一进步的关键。

ASL-100-RGBD数据集：研究的基石

ASL-100-RGBD数据集由罗切斯特理工学院和纽约市立大学的研究人员共同创建，它包含了100个ASL手势的彩色和深度视频（RGBD视频）。这些视频由流利的ASL使用者在Kinect V2传感器前表演，为手语识别算法的开发提供了宝贵的基础资源。

田英利教授强调，在收集数据时，团队确保了参与者的多样性，招募了不同性别、年龄和背景的流利ASL使用者。而且所选择的100个ASL常用手势，其中大多数与美国手语语法有关（例如时间、问题、条件等语法元素），而且通常在大学一年级的ASL课程中学习。每个手势都被详细地标注，包括开始和结束的时间，以及相关的面部表情和头部动作。

ASL-Homework-RGBD数据集：教育与研究的桥梁

ASL-Homework-RGBD数据集进一步扩展了研究范围，它不仅包含了流利手语者的视频，还涵盖了正在学习ASL的非流利使用者的表现。

这种多样性使得研究者能够对比分析流利与非流利手语者的差异，从而更好地理解学习过程中的变化，改进教学方法，并开发出更精确的手语识别系统。此外，数据集还可以作为CV研究人员设计算法的基准，以检测视频中的手语错误或评估连续手语识别算法性能。

实时手语语法错误识别系统：技术的应用

实时手语语法错误识别系统，将ASL-100-RGBD和ASL-Homework-RGBD数据集的研究成果应用于实际教学中。这个系统能够处理连续的手语视频，自动识别语法错误，并为ASL学习者提供即时反馈。

它利用3D-ResNet网络独立识别手语的语法元素，并采用滑动窗口方法检测不同模态的语法元素的时间边界，有效识别ASL语法错误。

田英利教授提到，使用滑动窗口技术来处理长句子，这是一种在视觉和图像处理中常见的方法。他们的研究创新之处在于结合了多个模态和多通道的信息，即，手部动作、表情、身体语言以及颜色和深度信息（RGBD信息）来识别语法错误，而不是识别每一个字。

也就是说，无需逐字翻译，而是专注于语法错误，包括时间、问题、条件等语法元素。（更多细节可阅读论文原文，在文章底部参考资料）

测试显示，这一系统能够在2分钟内，为时长1分钟的ASL视频生成反馈，这对于手语学习者来说极其宝贵。

更重要的是，ASL-100-RGBD和ASL-Homework-RGBD两大数据集，均已在Databrary平台上向授权用户开放，将为未来更多从事手语研究者提供了必要的训练和测试数据，推动整个研究领域的发展。

The ASL-100-RGBD database : https://nyu.databrary.org/volume/1062

The ASL-Homework-RGBD dataset ： https://nyu.databrary.org/volume/1249

专访纽约城市大学田英利教授：用多通道、多模态的方法「看懂」手语

多模态3DCNN框架的概述图

尽管如此，田英利教授仍然指出了目前数据集和系统的局限。

ASL-100-RGBD数据集所选择的100个手势，主要集中在有关手语语法；参与者的人口统计信息可能无法完全代表ASL使用者的多样性，因为参与者主要是年轻人，他们属于能流利使用美国手语的一类群体并且都有六年以上使用手语的经验。对手语使用者来说，主要差别包括“听力损失程度”、“教育背景”、“美国手语流利程度”。

此外，目前这一系统在ASL-100-RGBD数据集上手语的识别率达到93%的准确率。在不用识别每个单独手势前提下，对多个连续手语句子，ASL语法错误识别率超过60%，包括识别词汇错误（如缺少适当的面部表情或头部动作）和时间错误（如非手部信号发生的时间与句子结构的开始或结束太远）。

无论如何，这些研究成果已经为ASL研究和教育技术的进步奠定了坚实的基础，未来或将出现更多元的解决方案，并推动手语商业化时代到来。

团队介绍

在美国手语（ASL）研究课题中，跨学科团队合作发挥着至关重要的作用。

纽约城市大学的田英利教授带领的研究团队，包括她的学生 Elahe Vahdani 和 Longlong Jing 、罗切斯特理工大学的 Matt Huenerfauth 教授，以及亨特学院的Elaine Gale教授，共同致力于手语语法系统和算法的研究和开发，以及数据集的设计和收集工作。

Matt Huenerfauth博士，毕业于宾夕法尼亚大学计算机系，专攻计算语言学。自2006年博士毕业以来，他一直专注于手语计算研究，不曾变换研究方向，如今已成为该领域的国际知名专家。

据悉，他曾在纽约城市大学皇后学院任教期间掌握了美国手语，并取得了手语翻译员证书。目前他在罗切斯特理工学院(RIT) 任教，担任Golisano计算机与信息科学学院的教授和院长，围绕聋哑人无障碍技术和手语展开研究。

专访纽约城市大学田英利教授：用多通道、多模态的方法「看懂」手语

田英利教授、Elahe Vahdani 、Longlong Jing、Matt Huenerfauth 教授、Elaine Gale 教授

田英利教授则拥有扎实的计算机视觉技术背景。她于1990年从天津大学光电工程专业毕业后，加入了马颂德教授创立和领导的中科院自动化所模式识别国家重点实验室。在获得香港中文大学博士学位后，她前往美国卡内基梅隆大学进行博士后研究，师从计算机视觉领域的领军人物金出武雄。

（有关田英利和金出武雄的故事请点击：金出武雄和他的中国学生们，计算机视觉五十载风云）

那段时间，她专注于人脸表情自动分析和数据库开发。2000年前后，人脸表情识别成为美国计算机视觉领域的热点，田英利的工作为她在IBM T. J. Watson研究中心领导视频分析团队奠定了基础。

2008年，田英利教授回归学术界，加入纽约城市大学电气工程系，成为该系十多年来的第一位女性教授。她在那里开创了辅助技术研究方向，致力于利用计算机视觉技术服务于视障、听障、聋哑和老年人等特殊群体。

田教授表示，她首先关注了盲人，很自然地将研究重点延伸到了手语识别，因为手语包含了表情、行为和手势，这些都与她之前的研究紧密相关。

此外，田教授还表示，近年来她参与的跨学科研究不断增加，与同校计算机系的朱志刚教授、同系肖继忠教授（机器人专家）、亨特学院的Elaine Gale教授等合作。Elaine教授是本次手语课题的关键参与者，她是一位后天失聪者，精通唇语，并在手语教育方面有着丰富的经验。她将这套系统应用于自己的课程中，确保了系统在实际教学中的有效性。

值得一提的是，近两年OpenAI发布的ChatGPT和Sora，将「大模型」技术推到制高点，不乏有人呼吁推出“手语语法识别通用大模型”。

对此，田教授分析，未来手语领域的研究方向可能会涉及大规模数据集的构建。也就是说，未来的系统开发不仅仅针对一种手语，而是考虑将不同国家的手语数据集整合起来，提取手语的通用特征，然后在特定的手语上进行微调，以提高系统识别的精度和适应性。

但至于实际走向如何，田教授指出有两大挑战：

“手语领域缺乏像ChatGPT那样的大规模数据集，这限制了手语识别模型的通用性和准确性；手语不像某些语言模型，可以通过大规模数据训练后就能通用，手语在不同国家有着特定的词汇和表达方式，这使得创建一个通用的手语识别模型变得更加复杂。”

目前田英利教授和团队所开发的这套系统，并非基于大模型，因为所使用的数据量相对较小，而且他们的手语识别系统是在大模型概念出现之前就开始的。他们正在探索使用自监督学习来利用现有数据学习特征，并将其应用于小数据集上，以提高系统的性能，同时也计划收集更多的数据来改进手语识别系统。

在手语辅助系统的领域内，仍有许多技术挑战亟待克服。在这一背景下，田教授团队开放数据集的做法显得尤为关键。这将促进学术界与工业界的交流合作，也为整个领域的发展注入了新动力。

线上圆桌预告

手语识别技术，作为一种桥梁，连接了听障人士与社会的沟通，其在医疗辅助和社交互动中展现出巨大的应用潜力。

尽管全球众多学术和工业团队长期致力于破解手语识别的复杂挑战，这一领域仍面临着一系列未解之题。

手语识别的关键难题有哪些？

如何从零开始构建并部署一套高效的手语识别系统？

如今 ChatGPT ，Sora 等大模型对手语识别研究的启示？

除了计算机视觉（CV）技术，还有哪些技术路径可以探索？

在国内外，哪些学术团队和工业团队在手语识别领域取得了显著成就？

为了深入探讨这些问题，雷峰网(公众号：雷峰网)将在3月举办一场专题研讨会，届时将邀请田英利教授以及手语研究领域的专家学者，共同分享他们的见解和研究成果。这次会议将为手语识别技术的未来发展提供宝贵的交流平台。

本文作者吴彤长期关注科人工智能、生命科学和科技一线工作者，习惯系统完整记录科技的每一次进步，欢迎同道微信交流：icedaguniang

参考资料

1，Elahe Vahdani、Longlong Jing、Matt Huenerfauth and Y. Tian, Multi-Modal Multi-Channel American Sign Language Recognition, International Journal of Artificial Intelligence and Robotics Research (IJAIRR), 2023.

2，E. Vahdani, L. Jing, M. Huenerfauth, and Y. Tian, Recognizing American Sign Language Nonmanual Signal Grammar Errors in Continuous Videos, International Conference on Pattern Recognition (ICPR), 2020.

3，S. Hassan, L. Berke, E. Vahdani, L. Jing, Y. Tian, and M. Huenerfauth, An Isolated-Signing RGBD Dataset of 100 American Sign Language Signs Produced by Fluent ASL Signers, In proceedings of the 9th Workshop on the Representation and Processing of Sign Languages: Sign Language Resources in the Service of the Language Community, Technological Challenges and Application Perspectives, May 2020.

4，Saad Hassan, Matthew Seita, Larwan Berke, Yingli Tian, Elaine Gale, Sooyeon Lee, and Matt Huenerfauth, ASL-Homework-RGBD Dataset: An Annotated Dataset of 45 fluent and non-fluent Signers Performing American Sign Language Homeworks, In proceedings of the 10th Workshop on the Representation and Processing of Sign Languages: Multilingual Sign Language Resources, June 2022.

雷峰网原创文章，未经授权禁止转载。详情见转载须知。