当前位置:首页 >娱乐 >机器学习:谈谈决策树 这个算法就是谈谈决策树

机器学习:谈谈决策树 这个算法就是谈谈决策树

2024-06-01 04:18:06 [百科] 来源:避面尹邢网

机器学习:谈谈决策树

作者:佚名 人工智能 机器学习 大数据 前面谈了逻辑回归的机器决策基本原理及梯度下降推导过程,编码实现了逻辑回归的学习梯度下降算法,这是谈谈分类算法。今天,机器决策我们继续开启分类算法之旅,学习它是谈谈一种高效简介的分类算法,后面有一个集成算法正是机器决策基于它之上,它是学习一个可视化效果很好的算法,这个算法就是谈谈决策树。

前面谈了逻辑回归的机器决策基本原理及梯度下降推导过程,编码实现了逻辑回归的学习梯度下降算法,这是谈谈分类算法。今天,机器决策我们继续开启分类算法之旅,学习它是谈谈一种高效简介的分类算法,后面有一个集成算法正是基于它之上,它是一个可视化效果很好的算法,这个算法就是决策树。

[[210752]]

机器学习:谈谈决策树 这个算法就是谈谈决策树

1 一个例子

机器学习:谈谈决策树 这个算法就是谈谈决策树

有一堆水果,其中有香蕉,苹果,杏这三类,现在要对它们分类,可以选择的特征有两个:形状和大小,其中形状的取值有个:圆形和不规则形,大小的取值有:相对大和相对小。现在要对其做分类,我们可以这样做:

机器学习:谈谈决策树 这个算法就是谈谈决策树

首先根据特征:形状,如果不是圆形,那么一定是香蕉,这个就是叶子节点;

如果是圆形,

再进一步根据大小这个特征判断,如果是相对大的,则是苹果,如果否,则是杏子,至此我们又得到两个叶子节点,并且到此分类位置,都得到了正确划分三种水果的方法。

 

机器学习:谈谈决策树

大家可以体会刚才这个过程,这就是一个决策分类,构建树的一个过程,说成是树,显得有点高大上,再仔细想想就是一些列 if 和 else 的嵌套,说是树只不过是逻辑上的一种神似罢了。

刚才举的这个例子,有两个特征:形状和大小,并且选择了第一个特征:形状作为第一个分裂点,大小作为第二个分裂点,那么不能选择第二个特征作为第一分裂点吗? 这样选择有没有公式依据呢?

2 分裂点选择依据

在上个例子中,有三类水果,现在假设杏都被我们家的宝宝吃完了,现在手里只有香蕉和苹果这两类水果了,并且这个时候要对它们做分类,此时机灵的你,一定会根据特征:形状对它们分类了,因为这样一下就会把它们分开了,此时我们说这类集合的纯度更高,与之前的那三类水果在形状这个特征上。

纯度这个概念是很好的理解的,种类越少纯度越高,自然两类纯度更高。 此时有人提出了一个和它相反的但是不那么容易理解的概念:熵。它们是敌对双方:熵越大,纯度越低;熵越小,纯度越高。

这是一种概念,那么如何用公式量化熵呢:

机器学习:谈谈决策树

其中 i 等于苹果,香蕉,杏,P(i)是集合中取得某一个水果的概率。

试想一下,如果我们想更好地对某个集合完成分类,会怎么做呢?我们一定会优先选择一个特征,使得以这个特征做分类时,它们能最大程度的降低熵,提高分类的纯度,极限的情况是集合中100个元素(集合中只有两类水果),根据某个最优特征,直接将分为两类,一类都是苹果,一类都是杏,这样熵直接等于0。

这个特点就是所谓的信息增益,熵降低的越多,信息增益的就越多。很多时候都不会发生上述说的这个极限情况,就像文章一开始举的例子,根据形状划分后,熵变小了,但是未等于0,比如刚开始三类水果的熵等于0.69,现在根据形状分裂后,熵等于了0.4,所以信息增益为0.69 – 0.4 = 0.29 。如果根据大小划分,信息增益为0.1,那么我们回考虑第一个分裂特征:形状。

这种方法有问题吗?

3 信息增益越大,分类效果越好?

这是只根据信息增益选择分裂特征点的bug,请看下面举例。

如果某个特征是水果的唯一标示属性:编号,那么此时如果选择这个特征,共得到100个叶子节点(假设这堆水果一共有100个),每个叶子节点只含有1个样本,并且此时的信息增益最大为 0.69 – 0 = 0.69 。

但是,这是好的分类吗? 每一个样本作为单独的叶子节点,当来了101号水果,都不知道划分到哪一个叶子节点,也就不知道它属于哪一类了!

因此,这个问题感觉需要除以某个变量,来消除这种情况的存在。

它就是信息增益率,它不光考虑选择了某个分裂点后能获得的信息增益,同时还要除以分裂出来的这些节点的熵值,什么意思呢? 刚才不是分裂出来100个节点吗,那么这些节点自身熵一共等于多少呢:

机器学习:谈谈决策树

再除以上面这个数后,往往信息增益率就不会那么大了。这就是传说中的从ID3 到 C4.5 的改进。

4 与熵的概念类似的基尼系数

只需要知道基尼系数和熵差不多的概念就行了,只不过量化的公式不同而已,这就说明理解了,至于公式长什么样子,用的时候去查就行了。

让我们看一下远边的大海,和海边优美的风景,放松一下吧!

5 展望

以上介绍了决策树的一些概念和分裂点选取的基本方法。明天打算借助sklearn库的API,可视化出建立决策树的过程,以及分析决策树中不可或缺的最重要的部分:剪枝策略。

责任编辑:未丽燕 来源: 36大数据 机器学习决策树可视化

(责任编辑:时尚)

    推荐文章
    • 众安小贷有人用过吗 众安小贷产品授信额度范围一般是多少?

      众安小贷有人用过吗 众安小贷产品授信额度范围一般是多少?大家都知道,在申请贷款时,需要先查看一下网贷平台的放款资质,避免申请到不正规贷款,造成高利率,无法还款。很多借款人在众多贷款软件中,下载了众安小贷。众安小贷有人用过吗?众安小贷全面分析来了,一起来跟希 ...[详细]
    • Pretty Easy Privacy如何保护网上通信隐私?

      Pretty Easy Privacy如何保护网上通信隐私?Pretty Easy Privacy如何保护网上通信隐私?作者:作者:Michael Cobb 翻译:刘 2015-04-20 15:14:51安全 数据安全 开源Pretty Easy Priva ...[详细]
    • 美图秀秀app怎么P图

      美图秀秀app怎么P图美图秀秀还一款很多的用户都在使用的P图软件,不过还是有用户比较好奇美图秀秀app怎么P图呢?现在就来看一下小编给大家带来的美图秀秀appP图的方法吧。1、首先打开美图秀秀软件进入到首页之后点击【图片美 ...[详细]
    • 桌面虚拟化对企业IT的 四大贡献

      桌面虚拟化对企业IT的 四大贡献桌面虚拟化对企业IT的 四大贡献作者:佚名 2013-10-14 09:42:11云计算 虚拟化 自从Google提出云计算的概念,云计算在中国掀起一场“云”的革命。虚拟化技术是云计算系统的核心组成部 ...[详细]
    • 拼多多先用后付最多能拖几天 若超过15天还能拖几天?

      拼多多先用后付最多能拖几天 若超过15天还能拖几天?拼多多先用后付,顾名思义,就是购买的商品可以先使用,满意再付款,那么先用后付这个过程肯定存在一定的时间周期,不然就没多少意义了,反正顾客提前付款了也可以退货,是一样的道理。那么,拼多多先用后付最多能拖 ...[详细]
    • JVM & MySQL时区配置问题

      JVM & MySQL时区配置问题JVM & MySQL时区配置问题-两行代码让我们一帮子人熬了一个通宵作者:大禹的足迹 2022-10-18 07:30:06数据库 其他数据库 通过异常数据中订单ID可以去系统中捞出这个订单 ...[详细]
    • Dialect:Linux 下的开源翻译应用

      Dialect:Linux 下的开源翻译应用Dialect:Linux 下的开源翻译应用作者:Ankush 2021-10-10 13:37:36开源 系统 Dialect 是一个简单明了的应用,可以让你使用 Web 服务进行语言间的翻译。想要 ...[详细]
    • 2023年中国LED面板行业产业链图谱研究分析(附产业链全景图)

      2023年中国LED面板行业产业链图谱研究分析(附产业链全景图)中商情报网讯:发光二极管简称LED,是一种半导体化合物组成的固体发光器件,其节能效果和实用性得到人们的关注,已经广泛应用于照明、液晶显示背光、显示屏等领域。目前,LED技术仍在不断向前发展,我国LED ...[详细]
    • 信用购怎么变回花呗 操作流程来啦

      信用购怎么变回花呗 操作流程来啦有不少支付宝用户同意花呗服务升级后,发现花呗页面变成了“花呗|信用购”,在原来花呗的基础上还多了一个信用购消费贷款产品,虽说可以和花呗单独使用,可也有的人认为用不着,想知道信用 ...[详细]
    • Longhorn 企业级云原生容器存储解决方案

      Longhorn 企业级云原生容器存储解决方案Longhorn 企业级云原生容器存储解决方案-部署篇作者: 为少 2021-08-18 14:33:53存储 存储软件 云原生 从 v1.0.2 开始,Longhorn 附带了默认的 Pod 安 ...[详细]
    热点阅读