刚刚看完西瓜书的决策树,正好之前看完的一个模型是小蓝书的k-NN;确实觉得两种在思想上非常相似,所以...
与二叉树相比,KD-TREE也采用类似的划分方式,只不过树中的各节点均是高维向量,因此划分的方式,采用随机或指定的方式选取一个维度,在该指定维度上进行划分;整体的思想就是采用多个超平面对数据集空间进行两两切分,这一点,有点类似于数据挖掘中的决策树。 一个运用KD-TREE分割二维平面的DEMO如下: KD-Tree build的代...
Kd-树是K-dimension tree的缩写,是对数据点在k维空间(如二维(x,y),三维(x,y,z),k维(x1,y,z..))中划分的一种数据结构,主要应用于多维空间关键数据的搜索(如:范围搜索和最近邻搜索)。本质上说,Kd-树就是一种平衡二叉树。 首先必须搞清楚的是,k-d树是一种空间划分树,说白了,就是把整个空间划分为...
CatBoost 也使用一种不同的决策树,称为盲树。在这种树中,相同的分裂标准用于树的整个层级。这种树是平衡的,且不容易过拟合。 在盲树中,每个叶子索引可以编码为长度等于树深度的二进制向量。这个事实在 CatBoost 模型评估器中被广泛使用:它首先将所有浮点特征和所有独热编码特征二值化,然后使用这些二进制特征来计算...
大多数机器学习模型,如决策树和逻辑回归,天生是可解释的。我们可以分析权重系数,可视化树形结构或计算熵,以预测对最终预测的主要贡献(详细信息请见这里)。虽然过去大多数商业问题依赖于简单的可解释模型,但“黑箱”模型,如神经网络,已经开始变得非常流行。这是因为神经网络在处理复杂决策边界的问题(例如图像和语音识别)...
步骤5:微调(Python)sklearn中的决策树回归模型 为了使我们的模型更精确,可以尝试使用超参数。...在该模型中,可以通过使用DecisionTreeRegressor构造函数中的关键字参数来指定超参数。 可以对每个超参数使用不同的输入,看看哪些组合可以提高模型的分数。 2.3K10 ...
决策树分类器 随机森林分类器 朴素贝叶斯 c) 无监督学习 K 均值聚类算法 机器学习的 Python 工具:Scikit-learn、Pytorch、TensorFlow。 8. 时间序列分析基础 用于预测模型的时间依赖性场景,例如预测股票价格。分析时间序列数据有 3 种基本方法: 指数平滑 ARIMA(自回归积分滑动平均),是指数平滑的推广 GARCH(...
这意味着它不是一个从头到尾纯粹的‘玻璃箱’透明模型(如决策树)。 这种方法的主要优势之一是它对模型无关。可以应用于任何模型,以产生对其预测的解释。 这种方法的关键概念是扰动输入,并观察这样做如何影响模型的输出。这使我们能够建立起模型关注和利用哪些输入以进行预测的图像。 例如,假设一种用于图像分类的 ...
上述代码示例是典型的,因为它不仅仅是一个 NLP 管道——NLP 用于生成特征,然后用这些特征训练决策树。这在问答任务中很常见。一个更复杂的例子还会应用命名实体识别,按 POS 标签和共指解析过滤;训练随机森林,考虑 NLP 基于的特征和其他来源的结构化特征;并使用网格搜索进行超参数优化。能够使用统一的 API 在需要...
最后,决策树算法在非常大的特征空间中可能表现不佳,因此重要性值可能不可靠。 过滤方法难以解释,并且在实践中不常用;包裹方法计算开销大且常常无法实施;嵌入方法并不适用于每种场景或每个机器学习模型。那么我们该怎么做呢?我们还能如何选择预测特征? 幸运的是,还有更多方法可以选择监督学习的特征。我将在这篇博客文章...