使用 Scikit-learn 理解随机森林

本文作者：AI研习社-译站

2018-08-03 11:01

导语：对随机森林预测值的理解其实是很简单的，与理解线性模型的难度相同。

雷锋网按：本文为 AI 研习社编译的技术博客，原标题 Random forest interpretation with scikit-learn，作者 ando。

翻译 | 汪鹏校对 | 余杭整理 | 余杭

在我以前的一篇文章中，我讨论了随机森林如何变成一个「白箱子」，这样每次预测就能被分解为各项特征的贡献和，即预测=偏差+特征 1 贡献+ ... +特征 n 贡献。

我的一些代码包正在做相关工作，然而，大多数随机森林算法包（包括 scikit-learn）并没有给出预测过程的树路径。因此 sklearn 的应用需要一个补丁来展现这些路径。幸运的是，从 0.17 版本的 scikit-learn 开始，在 api 中有两个新增功能，这使得这个过程相对而言比较容易理解：获取用于预测的所有叶子节点的 id ，并存储所有决策树的所有节点中间值，而不仅仅只存叶子节点的。通过这些，我们可以提取每个单独预测的树路径，并通过检查路径来分解这些预测过程。

闲话少说，代码托管在 github ，你也可以通过pip install treeinterpreter来获取。

注意：这需要 0.17 版本的 scikit-learn ，你可以通过访问 http://scikit-learn.org/stable/install.html#install-bleeding-edge 这个网址来进行安装。

使用 treeinterpreter 分解随机森林

首先我们将使用一个简单的数据集，来训练随机森林模型。在对测试集的进行预测的同时我们将对预测值进行分解。

使用 Scikit-learn 理解随机森林