Facebook将反馈融入AI系统，视觉障碍者现在也能“读懂”照片啦

本文作者：陈鸣鸠

2017-03-01 10:00

导语：Automatic Alt-Text的发布让视觉障碍用户更好地读懂FaceBook新闻推送 (News Feeds) 里的照片。

雷锋网按：Automatic Alt-Text (AAT) 的发布让盲人（或使用屏幕阅读器的用户）更好地读懂新闻推送 (News Feeds) 里的照片的内容。以访谈，可用性测试以及调查为手段的用户研究给工具的发明提供了帮助。我们将在本文简要介绍这项工作的一些亮点，雷锋网独家编译，未经许可不得转载。

这项工作的主要作者、数据科学家Shaomei Wu将会出席本周在波特兰举办的CSCW 2017，届时她将在会上详细介绍该工具的功能以及所进行的研究。如果您想面对面探讨，请在会上和我们联系。

背景

众所周知，Facebook的新闻推送大多都带有图像和视频，随着配备高画质相机的手机上越来越普及，大家分享的图像和视频会越来越多。通过视觉媒体让大家观看和讨论所发生的事，是Facebook提供的一项关键功能。事实上，人们每天在Facebook、Instagram、Messenger和WhatsApp上分享的照片超过20亿张。听起来不错吧？有人欢喜有人愁，对盲人等有视觉障碍的人来说，他们注定很难参与围绕图片展开的交流。

Facebook的目标是于创造一个更加开放、互联的世界，和赋予人们分享的能力。超过3900万的盲人和2.46亿有严重视力障碍的人分布在全球，他们都曾经有过因为不能全程参与以照片和视频为中心的交流而感到被排斥或被孤立的沮丧经历。为了让更多的人参与图片社交，Facebook推出了AAT技术，希望屏幕阅读器用户也能够理解新闻推送中大部分图像的内容（有望很快覆盖所有图像！）。

Facebook将反馈融入AI系统，视觉障碍者现在也能“读懂”照片啦

前世今生

该从哪里开始克服这个挑战？关于如何创建AAT和构建计算机视觉模型的Lumos技术，详情请参考Face-book数据科学家Shaomei Wu以前的技术帖子。在这里，我们聚焦如何和盲人合作从而给他们创造绝佳的用户体验。

从以前的研究中可知，一些服务会使用定制化的服务（或叫好友帮忙）来描述照片，这种服务一张照片对应一个请求。不幸的是，这种方法存在一些缺点：

•耗时很长
•需要一个愿意执行任务的人在场
•浏览新闻推送被中途打断
•最重要的是很难进行扩展

然而积极的一面是，朋友或被委托人针对照片给出的翻译可以达到很高的精准度。考虑到你们的关系，朋友还可能提供额外的图片信息（例如绘声绘色地进行描述或讲一个隐藏其中的玩笑）。但是如何取其精华去其糟粕地扩展这个方案？为此我们的目标是革新这种定制服务，以此构建一个新的Facebook功能。

AAT项目通过寻求更佳的算法，针对照片得出有用和准确的描述，这种方法不会受限于用户的知识面，可以在更大范围进行扩展。由于alt-text具有HTML属性的这个设计，可作为图像的替换文本，网页的图像内容管理员可以轻松把图像更换为alt-text，并且采用W3C可访问性标准，当用户把屏幕阅读器软件的光标移动到任一图像上，软件都能对图像进行识别和朗读。

研究

在构建可扩展的稳定人工智能系统的10个月里，我们完成了两类研究。我们对Shaomei Wu设计的原型进行了质性研究和可用性测试，从中找出了系统的关键性缺陷，并对原型系统进行了改善。系统发布后，以前感到沮丧和困惑的人们现在惊喜又感谢。对研究结果进行三角测量的另一种方法是进行这样一个实验：告知并获得测试者（实验组）的同意为他们启用一项实验功能，与没有启用该功能的组（控制组）进行同样的实验。两组成员都是VoiceOver Facebook iOS用户。

访谈和可用性测试

在这个过程中我们遇到的最大挑战，是平衡人类想获得更多图片信息的欲望和图片蕴含信息的质量以及不同智力之间的平衡。解读视觉文本是非常主观和依赖背景，例如，即使人们主要关心谁在照片里以及他们在做什么，有时候背景才是使照片有趣或重要的关键。这个关键的发现最终决定了我们呈现给用户的句子是如何构成的。

此外，对人类来说轻挑选出照片最有趣的部分易举就能，这事对即使最聪明的人工智也是难如登天。社会知识和大量有效的反馈是这项服务提供绝佳用户体验的关键，我们希望最终能实现这点！通过访谈我们意识到，相较于遗漏大家不确定的事物，给出错误的信息往往更糟糕，例如，系统不小心把照片里一位娇小女性误认为一个小孩。我们同样吸取其他公司的AI系统把事情变得糟糕的教训，例如把人类描述成动物，这会使各方处于苦恼境地。如果用户知道朋友并没有孩子，系统给出这样的评论会导致用户难堪和引起社交尴尬。牢记我们与开发团队要创建这样的一个系统：

•可以大规模识别内容

•可以挑选照片中有趣的概念或事物

•可以向用户提供有意义的反馈

•可以无缝互动

在定性研究过程中我们学到最后一个大教训是，不要谈论AI从照片中得出哪些概念的确定性有多大，这非常重要。否则据我们所知，谈论这点会使参与者觉得这个系统不吉利或者非常不智能，并对系统逐渐产生不信任感。我们的补救措施是，（高于AI一定精度阈值的前提下）极度肯定从照片中得出的概念，并把复述评价AI系统所得概念有多正确的功能删除。尽管准确度提高了，系统初始版本能识别出至少一个概念的照片比例，占到了上传到Facebook所有图片的50％以上，随着时间的推移，这个数字将随着更好的技术问世而上升。

开展试验以来，和这些乐于助人的参与者一起工作，让我们在如何面试盲人这方面受益良多，我们希望把一些实用的建议分享给做盲人定性研究的同行。

一个小小的经验是，即使他们根据自己的需要预设了辅助功能，也要让盲人参与者自带设备，因为这让他们在研究中更舒适自然（对任何参与者来说都是一个好建议）。

另一个提示是要求使用屏幕阅读器的用户将语音速率稍微降低，这样参与者才能既跟得上读音又能出声思考。出声思考在很多方面都是关于参与者究竟如何解读屏幕阅读器所读出的话。如果思维跟不上这两个声音（即参与者和阅读器的声音），即表示您错过了一半的信息。在开始这阶段之前，学习使用屏幕阅读器将使您成为一个更有效率的主持人。

最后，一些研究人员说，招聘屏幕阅读器用户极具挑战性，因为许多用户体验招聘者不熟悉这类人群，与倡导团体（例如Lighthouse，感谢您的支持）合作，或者联系专业招聘人员寻找参与者更加高效。

调查

未知的定性理解还太多，为此我们把研究转向更全面、被更广泛理解地描述AAT的使用感受的方向，调查了大约550名确定有一种（或以上）视力障碍或失明参与者。如上所述，总样本大约9,000份，我们收到来自控制组（使用普通版本Facebook）和实验组（使用ATT版Facebook）的综合反馈。参与者都填写了几乎相同的问题，唯一的区别是实验组会问一些关于AAT的问题。参与者都能选择参与抽奖活动，十名幸运儿获得了亚马逊的100美元礼品券。

与其他调查一样，为目标受访者设计一个简洁、通俗易懂的调查很重要，为盲人用户创建调查，我们发现了一些实用技巧：

•避免使用水平单选按钮和拖放问题。前者比垂直选项更难分页，而后者则不可能应用到屏幕阅读器上。
•避免使用矩阵和星级评分问题。前者有时在HTML侧不会被正确地标记，也就不可能分辨矩阵中的应答者在哪，而后者应该被替换为非图形HTML元素，使不同的屏幕阅读器能通用地访问。
•避免给屏幕阅读器提供返回功能，否则误触导致的错误会频频发生。
•相比调查使用鼠标操作系统的视力正常用户，在屏幕阅读器上进行调查所花的时间更长。如果屏幕阅读器用户响应调查对您来说很重要，那么首先引导用户阅读简介很重要。
•与传统的优秀调查设计一样，尽量减少每页的问题，避免认知复杂性和导航问题。
•使用间距来确保单选按钮和复选框与其标签关联清楚，能避免出现模糊与混乱。

•缩略语在调查中很常见。然而并非所有受访者都对它们熟悉或记得住，屏幕阅读器可能会混淆字母缩写和缩略语的发音。“首字母缩写”和“缩略语”提示标签可以用于缓解这一点，并且“标题”属性在需要的时候可以提供更多的信息。

调查/实验结果：亮点

相比于没有打开AAT功能的控制组，测试组中的人员认为AAT作用很大，他们的答案也反映出了这一点。更广泛地，测试组的参与者更有可能这样做：