数据不够，是模型表现不佳的“借口”，还是真正的问题所在？

本文作者：张大倩

2020-06-22 10:26

导语：数据量真的是项目的限制因素吗？

“如果我能获得更多的训练数据，我的模型精度就会大大提高”，“我们应该通过API获得更多的数据”，“源数据质量太差，我们无法使用”。

这是很多工程师在模型表现不力时给出的一些解释或者理由。

数据作为机器学习或分析项目的基础，虽然现在拥有的可用数据比之前要多，但是数据不足或者数据类型不匹配等问题并不少见。

然而如何知道这些问题是真正的问题点还是仅仅是借口呢？换句话说，如何发现数据是否是项目的限制因素？

那就需要，查找数据瓶颈！

一般来说，主要可以从以下三个方面来调整数据：

深度：增加数据点的数量
广度：增加数据源的多样性
高质量：整合混乱的数据！

数据不够，是模型表现不佳的“借口”，还是真正的问题所在？

一：从数据深度上下功夫

这种方式不需要改变数据结构，而是新增数据点。

你不能一直控制数据点（例如：你不能轻易地新增用户），但是至少可以在某些方面一直控制这个点。

在下面这几个不同的情况下，增加数据量是很有用的。

1、A/B测试或实验

如果你正在运行一个实验，需要足够的数据点来实现结果统计的意义，而需要多少个数据点，还受到其他因素的影响，例如：误差范围、置信区间和分布的方差。对于要进行的每一个实验，都有一个最小数据量阈值：如果已经达到这个阈值，则可以继续进行下一步，因为再增加数据点已经起不到任何作用了。否则，数据将会成为实验的瓶颈。下面这篇博文对此进行了很好的概述：

https://towardsdatascience.com/how-do-you-know-you-have-enough-training-data-ad9b1fd679ee

2、机器学习中的预测精度

如果你正在运行的是一个预测模型，预测精度会随着数据量的增加而提高，但是这个精度会达到某个“饱和”点，如何去发现是否已经达到这样的一个点呢？你可以用不同数量的训练数据点来重新训练模型，然后根据数据量绘制预测精度。如果曲线没有变平，则模型可能从额外增加的数据进一步受益。

数据不够，是模型表现不佳的“借口”，还是真正的问题所在？

来源：Kim 和 Park 在 researchgate 上发表的文章

https://www.researchgate.net/publication/228784109_A_Survey_of_Applications_of_Artificial_Intelligence_Algorithms_in_Eco-environmental_Modelling）

3、赋能深度学习

虽然传统的机器学习模型可以在较小的数据量下运行，但是模型越复杂，它需要的数据量就越多，到最后，如果没有大量的数据作为支撑，深度学习模型就无法运行。对机器学习模型来说，大数据是一种需求，而不是提高性能的好方法。

4、分析和思路

即使你没有将数据用于预测，但是想要丰富报告或者进行一次分析来证实你的决策，数据量仍然有可能会成为预测的瓶颈。不过如果你的数据具备许多异构性，并且你还能够从不同的粒度层级上对其进行分析，增加数据量便是正确的做法。例如你有一个庞大的销售队伍，销售的产品范围非常宽泛，每一个销售人员可能只销售产品中的一个子集。如果你想比较他们在销售某一特定产品方面的能力，可能就无从比较了。