如何解决机器学习树集成模型的解释性问题

01 机器学习模型不可解释的原因

几天前，在同行交流小组中，有一个话题在小组中被热烈讨论，那就是如何解释机器学习模型。因为在风力控制领域，除非得到很好的解释，否则模型不会被通过，这在银行中尤其常见，所以大多数同行将使用LR来建模。然而，有这么多机器学习的模型算法，不使用它们难道不是浪费吗？有些算法也非常有用，至少在效果方面是如此，比如XGBoost、GBDT、阿达波斯。

然后，一些学生会问为什么这些算法没有解释。事实上，是这样的。刚才提到的模型都是集成模型，都是由复杂的树结构组成的。对人类来说，我们很难直观地解释为什么这个顾客是腐烂的，以及什么特征导致他腐烂。

02 特征重要度方法盘点

事实上，像XGBoost这样的模型仍然是解释性的。我们经常看到人们使用信息增益和节点分裂数来衡量特性的重要性，但这真的合理吗？

在解释它是否合理之前，有两个概念需要推广:

1）一致性

是指模型的特征重要性，它不会因为我们改变特征而改变其重要性。例如，模型a中特征X1的重要性是10。如果我们对模型中的特征X2增加一些权重来增加其重要性，那么在重新计算重要性之后，特征X1的重要性仍然是10。不一致可能导致重要性更高的特征不如重要性较低的特征重要。

2）个体化

表示重要性的计算可以单独进行，而不需要一起计算整个数据集。

好吧，有了以上的理解，让我们看看当前计算特征重要性的常用方法:

1）Tree SHAP: shapley加法解释。基于博弈论和局部解释的统一思想，采用树集成和加法方法激活特征属性的形状值。

2）Saabas：个性化启发式属性归属方法。

3）mean(| Tree SHAP |)：基于个性化启发式SHAP平均的全局属性方法。

4）Gain: gain，一种由Breiman等人提出的全局特征重要性计算方法，可以在XGBoost、scikit learn等包中调用。它是在分离过程中由给定特征引起的杂质减少，通常用于特征选择。

5）Split Count：指的是给定特征用于拆分的次数(因为它越重要，引用就越容易，这与引用的论文大致相同)。

6）Permutation：是排序排列，指随机排列某个特征。看看模型效果误差的变化。如果特征很重要，模型误差将发生很大变化。

其中，只有1-2和3-6属于个性化属于全局统计，也就是说，需要计算整个数据集。

为了一致性，我们有一个例子来证明:

有两个模型，模型A和模型B，其中模型A和模型B是完全一致的，但是当我们计算预测值时，我们强制将10个点添加到模型B的特征咳嗽中。如下图所示(单击查看大图):

从实验结果中，我们可以看到以上六种方法的区别:

1）Saabas、Gain、Split Count均不满足一致性的要求，在改变了某个特征的权重之后，原先的特征重要度发生了改变，也直接导致重要度排序的改变。

2）而满足一致性要求的方法只有 Tree SHAP 和 Permutation了，而Permutation又是全局的方法，因此就只剩下了 Tree SHAP了。

03 SHAP可能是出路，SHAP到底是什么

以上是官方定义。乍一看，我不知道该说些什么，但我可能得结合报纸来看。

definition 2.1 .输入特征的数量是

m，I ‘是特征的贡献。0是常数(指所有样本的预测平均值)。SHAP值有一个独特的解决方案和三个特征:局部精度、缺失、一致性。

1）Local Accuracy:局部精度，意味着每个特征的重要性之和等于整个函数的重要性

2）Missingness: missing，意味着缺少的值不会增加特征的重要性。

3）Consistency:一致性，这意味着改变模型不会改变特征的重要性。

简而言之，SHAP值可能是唯一能满足我们要求的方法，而XGBoost、GBDT等。上面提到的都是树模型，所以这里将使用树SHAP。

04 SHAP的案例展示

0401 SHAP的安装

的安装仍然非常简单。您可以通过终端的pip安装或conda安装来安装

pipinstall shapoorcondanstall-cconda-forgeshap

0402 对树集成模型进行解释性展示

output:

importXGBoostimportshap # LoadjsvisualizationcodetonOteBookshap . initjs()’ ‘训练xboost模型，相关数据集在SHAP”’ x，y=shap . dataset . Boston()模型=xbost . train(‘ learning _ rate ‘ 33600.01)，xbost . dmatrix(x，label=y)，100 ‘ ‘ ‘中提供’解释预测值树解释器(模型)SHAP值=解释器。SHAP _值(十)#视觉解释性(USEMATPLOTLIB=TREATO Operativascript)形状强制绘图(解释器.预期_值，形状_值[0，]，[0，])