阿里 FashionAI 数据集：用知识重建构造「时尚+AI」的巴别塔

本文作者：奕欣

2018-07-07 20:41

导语：如何用机器能理解的逻辑语言，清楚地定义、规范和传递一个行业、尤其是时尚行业的 benchmark?

阿里巴巴图像和美团队

AI影响因子

开发

企业：阿里巴巴

操作：发布数据集

内容：阿里巴巴发布FashionAI数据集

雷锋网 AI 科技评论按：《圣经 ·旧约·创世记》第 11 章记载，人类希望能联手共建通往天堂的巴别塔，但因为各种族语言不通，计划因此失败。而在时尚领域，人工智能同样面临巴别塔难题，专业人士、机器智能和普通消费者之间存在信息阻滞和沟通不畅。

客观科学和主观时尚，这两个概念看似互相矛盾，实际上从某种程度上也反映着传统行业与全新技术的鸿沟。如何用机器能理解的逻辑语言，清楚地定义、规范和传递一个行业、尤其是时尚行业的 benchmark? 在阿里巴巴「图像和美」团队和香港理工大学纺织及服装学系的这次深度合作中，我们或许能找到答案。

阿里 FashionAI 数据集：用知识重建构造「时尚+AI」的巴别塔

7 月 4 日至 6 日，由阿里巴巴「图像和美」团队联合香港理工大学纺织及服装学系、英国纺织协会联合举办的「人工智能与时尚纺织大会」学术会议在香港理工大学举行，同期包括学术主题演讲、2018 FashionAI 全球挑战赛决赛答辩会及线下 FashionAI 概念店体验活动等多项内容。这一事件在雷锋网学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中有相应加分。

2018 FashionAI 全球挑战赛自今年 3 月发起，共吸引全球 42 个国家和地区的 5272 支队伍共 6594 名选手参与，争夺 134 万的人民币奖金池。

7 月 5 日答辩会当天，来自西安交通大学、马里兰大学、北京邮电大学、中科院深圳先进技术研究院、唯品会等高校及企业的 10 支队伍进行了现场展示及答辩环节。

阿里 FashionAI 数据集：用知识重建构造「时尚+AI」的巴别塔

FashionAI 全球挑战赛英雄榜

最终，早稻田大学博士研究生李玮特的单人团队 bilibili 摘得关键点赛道的冠军奖项；来自西安交通大学的禾思众成团队在服饰属性赛道获得冠军。

阿里 FashionAI 数据集：用知识重建构造「时尚+AI」的巴别塔

服饰关键点定位赛道冠军——bilibili

阿里 FashionAI 数据集：用知识重建构造「时尚+AI」的巴别塔

服饰标签属性识别赛道冠军——禾思众成

针对本次比赛，中科院计算所研究员、中科院智能信息处理实验室常务副主任山世光博士作为 FashionAI 全球挑战赛的决赛评委代表向雷锋网 AI 科技评论表示，本次 FashionAI 受到众多高校及研究机构的关注，除了阿里天池平台本身的影响力以及诱人的奖金激励外，AI 对于时尚行业的渗透，本身也是一个在学术界逐步受到重视的问题。「随着人工智能特别是计算机视觉的进步，AI 未来会在零售、电商等应用中得到更多的体现。」

根据赛制介绍 [1]，FashionAI 全球挑战赛的两大赛道分别为服饰关键点赛道及服饰属性赛道，前者专注于女装的服饰关键点定位。基于服装设计知识，赛事组委会定义了一套服饰的关键点，并梳理了在女装 6 大专业类别（上衣、外套、裤子、半身裙、连身裙、连身裤）下的具体定义，要求参赛者设计算法进行定位预测；而后者基于数据集所构建的女装标签知识体系，要求选手在属性维度和属性值两个层面对单主体（单人模特或单件平铺）服饰商品进行局部属性识别。

这两大赛道的设置，反映的是认知时尚的两大基础问题。据阿里巴巴副总裁、淘宝事业部技术总经理兼阿里巴巴大文娱优酷高级副总裁兼 CTO 庄卓然的介绍，阿里巴巴于今年年初和香港理工大学一起开始投入到该领域的建设，一同梳理服饰领域的知识和规则，并将成果制作成这个严谨、实用、符合商业场景的服饰数据集，与 FashionAI 全球挑战赛同期发布。

这个业界首个同时满足服饰专业性和机器学习要求的大规模高质量数据集 [2]，包括服饰关键点定位、服饰基础属性识别等任务。据介绍，前者的关键点定义源自服装设计原理，目前覆盖女装 5 大类部件，共 41 个细分类目，24 种关键点，总计 10 万张标注图片；后者通过对基础属性的专业整理，构建了一个层次化的标签分类体系，目前覆盖女装 5 大类部件，41 个细分类目，8 个维度 54 个标签，总计 25.7 万标注图片。数据集中使用的所有图像数据全部来源于电商真实场景，从各个季节、类目等维度的上亿的服装数据中采样得到，从而保证了数据的多样性。

阿里 FashionAI 数据集：用知识重建构造「时尚+AI」的巴别塔

服饰，特别是女装，是淘宝上最大的商品类目。2017 年双十一当天，服饰领域的成交占比超过 30%，阿里巴巴深知用户在服饰时尚领域巨大的消费能力，也密切关注互联网和技术在其中能创造的商业价值。

阿里巴巴资深算法专家雷音（贾梦雷）所带领的阿里巴巴「图像和美」团队从 10 年前就开始在淘宝做图像的检测和搜索，彼时主要针对的是商家图片版权保护、虚假广告宣传等。

正如庄卓然所言，「识别」只是计算机视觉的一部分。如果要进一步做到感知和交互，进一步拉通消费和生产，只靠技术是远远不够的。雷音也深刻地意识到淘宝今天所面临的困境，是消费者和平台、和商家无法用达成共识的语言沟通商品需求的问题。「单单连衣裙类目就有 2000 万件商品，产品数量非常庞大，但还是有很多用户抱怨找不到自己想要的商品，」雷音介绍道，阿里巴巴在时尚角度的数据重组依然有很大的提升空间，这样才能让消费者很好地表达自己的需求，并通过这些表达接触到对应的数据。

数据重组是 FashionAI 的重要组成部分。只有让机器能理解人类所表达的内容，把数据进行有效的分类，才能让消费者熟悉穿搭行业的认知，进行更有效的需求表达。

在一个主观的世界里去做客观的事情并不容易，而首当其冲的便是要让机器懂得时尚界的语言。

「让机器理解衣服，核心是制作服饰图像数据集。[3] 」雷音认为，将从业者的知识转化为机器可以理解的逻辑语言，首先要从数据集入手，用足够的数据让机器明白各种服饰的区别和特性。

而要构建一个时尚与人工智能结合的数据集，让机器拥有「时尚之心」，便涉及到 FashionAI 要做的核心内容：知识重建。原有的时尚知识体系仅停留于专业人士之间的沟通和交流，往往存在不完备和二义性两大问题。也就是说，同一层次的概念可能存在不少模糊地带，而且不一定能覆盖实用场景的各种情况，这是追求逻辑的机器绝对不能「理解」和「容忍」的问题。更棘手的是，专业人士与非专业人士的认知并不统一，存在工业设计知识、平台运营知识及大众营销知识标准不统一的问题。

在整个知识体系的重建中，雷音总结了三条重要的经验，这不仅对于时尚行业，对于任何一个传统行业用 AI 赋能的过程都具有借鉴意义。

首先是，知识要实现人和人的沟通，既要符合行业常识，也要符合消费者的认知。「图像和美」团队希望能够将这套知识体系做到「通用」，做到可沟通可理解，因此与香港理工大学及其它专业院校进行了密切合作，力求在消费者和专业人士的沟通中寻求知识体系的统一和平衡。以「波西米亚风」为例，虽然行业的风格体系中存在这个类目，但由于消费者缺乏相应的概念和认知，团队最终并没有将这一风格纳入分类定义中。

其次，知识要方便机器与人的沟通，尽量实现逻辑上的互斥和完备。机器是 0 和 1 的世界，因此要尽可能地消除中间的模糊地带，并且能涵盖所有可能的情况。比如，半身裙的定义是「下半身穿着服饰，最上不超过下胸线，裆部以下中线无收紧缝合」，而裤子的定义是「下半身穿着服饰，最上不超过下胸线，裆部以下中线有收紧缝合」，这就能满足逻辑完备和互斥的情况。

第三点是理解「视觉可分」和「感官可分」的区别。一种体系如果没有足够多的合适样本进行学习，那么团队也需要做出取舍。以「西装领」为例，从专业人士的角度可划分为 9 种领子，但「图像和美」团队与香港理工大学团队考虑到，对于普通消费者而言，肉眼看不出这 9 款领子的区别，且无法找到这么多细粒度过高的数据，因此在分类上也做出了取舍。另外，女性服饰的视觉刺激点非常多，可以在西装领的分类上适当精简，但男士服饰视觉刺激点较少，领子的分类需要更加细化，这也是「图像和美」团队与专业人士进行反复协调和沟通所达成的共识。

此外雷音也提及了非常重要的一点是，这个过程中要避免结构化噪声的情况。比如在夏天搜索「圆领」的衣服，结果可能会大量呈现「T 恤」，这便是结构化噪声的问题，为了将「圆领」与冬天的「毛衣」数据也能相关联，需要保证「圆领」在各种类别的服饰中均得到采样。在这个过程中，团队需要借助知识和模型校验检查是否引入不合理的相关性，并借助共性部分与标签相关性的强弱来判定是否为噪声。

为了更好地理解时尚行业，原本只穿运动服的典型程序员雷音飞到上海定制了几万元的高定西装，第一次懂得了什么叫「适合自己的衣服」；跑遍了杭州银泰城的每一家服装店，和店员们聊穿衣搭配的经验体会……由于深入了解了时尚行业对于材质和面料的垄断「潜规则」，这几年来雷音再也没买过打折的衣服。对于时尚的理解一天天加深，雷音也感慨，「机器能学到的是规则，学不到的是创意，我们希望能在这个过程中让消费者能逐渐从熟悉规则到欣赏创意。如果机器能更好地用机器语言理解 Fashion，实际上也是帮助更多的消费者提升审美水平，增进对时尚行业的理解。」而 FashionAI 全球挑战赛的应运而生，也是希望能让更多的人关注到这个将改变行业的数据集，一同携手关注机器认知时尚的基础问题，共同推动AI 技术在时尚产业的落地。

但在雷音看来，如果把整个时尚 AI 行业理解为一场球赛，挑战赛就相当于「踢点球」，在主办方给予的有限条件内完成规定的任务；但这离学会真正的「踢足球」还很远，即从科研的角度来思考整个行业知识的重构问题。对于行业来说，他们要做的还有很多。

因为沟通的问题，《圣经》中的巴别塔尽管得到了多种族的人类协作，依然无法通天。但阿里巴巴「图像和美」团队的 FashionAI 数据集，正是希望能从知识重建做起，构建 Fashion 和 AI 结合起来的知识体系，构建一个「人工智能+时尚」的巴别塔。

参考资料：

[1] FashionAI 全球挑战赛, http://fashionai.alibaba.com/

[2] FashionAI 数据集，http://fashionai.alibaba.com/datasets/

[3] 如何做一个“实用”的图像数据集，https://mp.weixin.qq.com/s?__biz=MzI3MTM5ODA0Nw==&mid=2247484084&idx=1&sn=a1e6a1637991c24066fdc0c3297c9b7c&chksm=eac32744ddb4ae5225360d8477ca105d5b30d73eaf71aa083653d2563fba848722497c050de1&scene=38#wechat_redirect

雷峰网原创文章，未经授权禁止转载。详情见转载须知。