您正在使用IE低版浏览器,为了您的雷锋网账号安全和更好的产品体验,强烈建议使用更快更安全的浏览器
AI开发 正文
发私信给思颖
发送

0

图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读

本文作者:思颖 2018-06-21 09:40
导语:在 CVPR 2018 机器学习图像压缩挑战赛上,图鸭科技压缩团队获得压缩算法 MOS 和 MS-SSIM 值第一名的成绩,本文是对优胜方案的详细解读。
比赛
比赛名称:CLIC 图像压缩挑战赛
年份:2018
企业:图鸭科技
操作:竞赛
名次:1

雷锋网(公众号:雷锋网) AI 研习社按,在 CVPR 2018 机器学习图像压缩挑战赛(CLIC)上,图鸭科技压缩团队获得压缩算法 MOS 和 MS-SSIM 值第一名的成绩,这是中国企业在该赛事上取得的最高名次。(图鸭科技凭借在 CLIC 中 MOS 和 MS-SSIM 指标第一,在雷锋网学术频道 AI 科技评论旗下数据库项目「AI 影响因子」中增加 10 分。)

CVPR 作为计算机视觉领域的全球顶级会议,其一直关注计算机视觉领域的发展,为了促进计算机视觉领域图片压缩的发展,Google 联合 twitter、Netflix 等联合赞助了机器学习图像压缩挑战赛(CLIC)。本次挑战赛中有来自全球各地的图片压缩团队,主要从 PSNR、MOS、MS-SSIM 这三个业界通用的图像质量评估(Image Quality Assessment,IQA)标准和解码速度(评分较高的队伍里解码速度最快)四个方面进行评比。

赛后,图鸭科技图片压缩团队提交了自己关于深度学习图片压缩方向的论文,他们为雷锋网 AI 研习社撰写了关于这篇论文的独家解读。

摘要:

最近机器学习的方法被广泛应用到有损图像压缩设计中,基于自编码网络的算法取得了非常好的算法性能。一个典型的基于神经网络的图像压缩框架包括:自编码网络结构、量化、先验概率模型、码率估计和率-失真优化等几个模块。本文中我们提出了一种可用于低码率图像压缩,并可进行端到端优化的图像压缩框架。在验证集和测试集上的实验结果均表明,当使用主观测评标准作为损失函数,在 MS-SSIM 和 MOS 等主观性能指标上能取得最优的性能。

问题建模:

自编码网络的作用是将数据从图像空间图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读 x 转换到数据编码空间 y,它包含一个编码器 图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读f和解码器 图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读fd。编码器的作用是将图像像素值 x 图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读转换为压缩变量 图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读。然后通过量化函数图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读,生成离散向量。然后使用算术编码等熵编码技术将量化后的离散数据进行无损压缩,然后压缩后的比特流被用于传输。在接收端,接收到比特流后,然后使用解码器从量化后的变量中重建出原图图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读,码率可用熵的结构进行建模图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读。我们可使用先验分布图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读进行估计。可以使用带参数的方式对先验分布进行拟合,然后用数据驱动的方式对先验概率模型进行学习。在压缩模型中,失真 D 能用均方误差 图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读进行表示,或使用如 MS-SSIM 之类的主观失真进行计算。对码率和失真进行加权的损失函数图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读用以对自编码压缩算法进行端到端的优化。在整个系统中,对先验模型图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读和量化的联合优化是设计高效压缩算法最需要考虑的技术。

方法介绍:

(1)  编码器和解码器

我们的压缩自编码网络使用了如图 1 所示的非对称结构,它包括卷积和非线性单元等模块。

图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读

图 1:编码器和解码器结构示意图

(2)  量化:

在训练过程中,使用加性均匀噪声设计量化器,表示方式为图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读,其中图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读是随机噪声。其中变量图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读

的熵能用变量图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读的熵进行估计,因此在测量过程中,我们能使用图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读 作为量化操作。这样一种方式下,也能对码率进行准确的估计。

(3)  先验概率和码率估计

自然图像的数据分布一般被认为是符合高斯分布,所以我们用零均值,方差表示为图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读的拉普拉斯分布图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读

,对特征图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读的概率分布进行建模,概率的公式如下所示:图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读

其中设计了一个自编码网络对方差进行学习,自编码网络的结构如图 2 所示

图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读

图 2:用于方差超参数学习的自编码网络

压缩表示图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读作为超参数自编码网络的输入,对标准差分布进行学习。在超参自编码网络中,变量 Z 的学习公式表示为图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读,然后使用如上介绍的方式进行量化,量化公式为图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读,然后被量化后的表示可作为附加变量进行传输。

图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读

图 3:后处理算法结构示意图

(4)  后处理

低码率压缩算法重建图最显著的缺点是存在伪影,并且很多纹理细节会丢失。为了改进在低码率条件下重建图的质量,我们设计一个有效的后处理模块,后处理模块的具体细节如图 3 所示。

(5)  优化码率控制

率-失真优化是很多算法,如 HEVC 算法或 JPEG2000 算法中经常使用的策略。考虑到码字约束,我们构建了一个进行码率有效分配的优化算法,目的是在码率约束的条件下,为每张图选择最优的模型。每张图的最优配置,通过优化以下的优化问题进行选择。

图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读

(6)  实验结果

我们的方法参加了 CVPR 2018 CLIC 图像压缩挑战赛,在相应的验证集和测试集上的结果如表 1 所示。我们的算法 tucodecTNGcnn4p 取得了 MS-SSIM 和 MOS 两项指标排名第一,算法 tucodecTNG 取得了 PSNR 指标排名第二的成绩。在验证集和测试集上的实验结果如表 1 所示。

图鸭科技 CVPR 2018 图像压缩挑战赛夺冠,获奖论文全解读

表 1:在验证集和测试集上的实验结果

论文地址:http://openaccess.thecvf.com/content_cvpr_2018_workshops/papers/w50/Zhou_Variational_Autoencoder_for_CVPR_2018_paper.pdf

雷锋网原创文章,未经授权禁止转载。详情见转载须知

分享:
相关文章

文章点评:

表情
最新文章
为了您的账户安全,请验证邮箱
您的邮箱还未验证,完成可获20积分哟!
请验证您的邮箱
立即验证
完善账号信息
您的账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介