机器人与人工智能爱好者论坛

 找回密码
 立即注册
查看: 2458|回复: 0
打印 上一主题 下一主题

大数据——决策树(decision tree)

[复制链接]

83

主题

87

帖子

443

积分

中级会员

Rank: 3Rank: 3

积分
443
跳转到指定楼层
楼主
发表于 2022-10-20 10:00:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
大数据————决策树(decision tree)
决策树(decision tree):是一种基本的分类与回归方法,主要讨论分类的决策树。
在分类问题中,表示基于特征对实例进行分类的过程,可以认为是if-then的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。
决策树通常有三个步骤:特征选择、决策树的生成、决策树的修剪。
用决策树分类:从根节点开始,对实例的某一特征进行测试,根据测试结果将实例分配到其子节点,此时每个子节点对应着该特征的一个取值,如此递归的对实例进行测试并分配,直到到达叶节点,最后将实例分到叶节点的类中。
决策树学习的目标:根据给定的训练数据集构建一个决策树模型,使它能够对实例进行正确的分类。
决策树学习的本质:从训练集中归纳出一组分类规则,或者说是由训练数据集估计条件概率模型。
决策树学习的损失函数:正则化的极大似然函数
决策树学习的测试:最小化损失函数
决策树学习的目标:在损失函数的意义下,选择最优决策树的问题。
数据挖掘中决策树是一种经常要用到的技术,可以用于分析数据,同样也可以用来作预测。一个决策树包含三种类型的节点:
决策节点:通常用矩形框来表示
机会节点:通常用圆圈来表示
终结点:通常用三角形来表示
剪枝是决策树停止分支的方法之一,剪枝有分预先剪枝和后剪枝两种。预先剪枝是在树的生长过程中设定一个指标,当达到该指标时就停止生长,这样做容易产生“视界局限”,就是一旦停止分支,使得节点N成为叶节点,就断绝了其后继节点进行“好”的分支操作的任何可能性。不严格的说这些已停止的分支会误导学习算法,导致产生的树不纯度降差最大的地方过分靠近根节点。后剪枝中树首先要充分生长,直到叶节点都有最小的不纯度值为止,因而可以克服“视界局限”。然后对所有相邻的成对叶节点考虑是否消去它们,如果消去能引起令人满意的不纯度增长,那么执行消去,并令它们的公共父节点成为新的叶节点。这种“合并”叶节点的做法和节点分支的过程恰好相反,经过剪枝后叶节点常常会分布在很宽的层次上,树也变得非平衡。后剪枝技术的优点是克服了“视界局限”效应,而且无需保留部分样本用于交叉验证,所以可以充分利用全部训练集的信息。但后剪枝的计算量代价比预剪枝方法大得多,特别是在大样本集中,不过对于小样本的情况,后剪枝方法还是优于预剪枝方法的。

大数据知识点:
一、大数据概述:1.大数据及特点分析;2.大数据关健技术;3.大数据计算模式;4.大数据应用实例
二、大数据处理架构Hadoop:1.Hadoop项目结构;2.Hadoop安装与使用;3.Hadoop集群的部署与使用;4.Hadoop 代表性组件
三、分布式文件系统HDFS :1.HDFS体系结构;2.HDFS存储;3.HDFS数据读写过程
四、分布式数据库HBase :1.HBase访问接口;2.HBase数据类型;3.HBase实现原理;4.HBase运行机制;5.HBase应用
五、MapReduce :1.MapReduce体系结构;2.MapReduce工作流程;3.资源管理调度框架YARN ;4.MapReduce应用
六、Spark :1.Spark生态与运行架构;2.Spark SQL;3.Spark部署与应用方式
七、IPython Notebook运行Python Spark程序:1.Anaconda;2.IPython Notebook使用Spark;3.使用IPython Notebook在Hadoop YARN模式运行
八、Python Spark集成开发环境 :1.Python Spark集成开发环境部署配置;2.Spark数据分析库MLlib的开发部署
九、Python Spark决策树二分类与多分类 :1.决策树原理;2.大数据问题;3.决策树二分类;4.决策树多分类
十、Python Spark支持向量机 :1.支持向量机SVM 原理与算法;2.Python Spark SVM程序设计
十一、Python Spark 贝叶斯模型 :1.朴素贝叶斯模型原理;2.Python Spark贝叶斯模型程序设计
十二、Python Spark逻辑回归 :1.逻辑回归原理;2.Python Spark逻辑回归程序设计
十三、Python Spark回归分析 :1.大数据分析;2.数据集介绍;3.Python Spark回归程序设计
十四、Spark ML Pipeline 机器学习流程分类 :1.机器学习流程组件:StringIndexer、OneHotEncoder、VectorAssembler等
2.使用Spark ML Pipeline 机器学习流程分类程序设计
十五、Python Spark 创建推荐引擎 :1.推荐算法;2.推荐引擎大数据分析使用场景;3.推荐引擎设计
十六、项目实践:1.日志分析系统与日志挖掘项目实践;2.推荐系统项目实践
学习和关注人工智能技术与咨询,更多详情可咨询195-1112-2152(v同号)qq群:189696007。

运营公众号:人工智能技术与咨询,欢迎了解!
137-1652-2485(v同号)
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

QQ|Archiver|手机版|小黑屋|陕ICP备15012670号-1    

GMT+8, 2024-11-25 14:32 , Processed in 0.060425 second(s), 26 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表