运用决策树案例解决对案例进行决策分析

www.91gupiao.net 2019-04-23 标签：决策树算法例题

兵者国之大事也。死生之地存亡之道，不可不察也故经之以五事，效之以计而索其情。一曰道,二曰天三曰地，四曰将五曰法。夫未战而庙算胜者得算多者；未战而庙算不胜者，得算少也多算胜，少算不胜而况於无算乎？兵法：一曰度二曰量，三曰数四曰称，五曰胜地生度，度生量量生数，数生称称生胜。;4.1 决策分析案例背景匹兹堡开发公司(PDC)已购得一块地用于建造一个高档的沿河综合商业楼其位置对繁华的匹茲堡和金三角有很好的景观，所谓金三角是指两条小河汇流成俄亥俄(Ohio)河的地段每一个建筑物单元的价格是?30万～120万，取决于单元所处楼層面积以及备选的设施。 ? 公司对这套楼房的设计已制定三个方案：? d1——小型楼，有6层30个单元；? d2——中型楼，有12层60个单元；? d3——大型楼，有18层90个单元。? 决策问题是要从这三个方案中选择其中之一并提出决策分析的书面报告，包括分析计算书建议，以忣风险提示?;为了进行决策分析，必须做好以下两项工作：? (1)市场调研综合楼被市场接受的程度如何?亦即市场的需求如何?? 对此问题，公司管理者通过调研认为只有两种市场接受状态，称为决策者无法控制的自然状态：? S1——高的市场接受程度对楼房有显著需求；? S2——低的市场接受程度，对楼房需求有限? (2)要根据工程设计与造价核算以及销售价格计算出不同方案，不同自然状态时楼房的盈亏(益损)表。对该问题经计算得到如下益损矩阵Vij：?; 其中i——表示方案，j——表示状态比如：V32?=-900万，表示大型楼方案 d3在低的市场接受S2时樓房不能正常销售，估计可能带来亏损900万 4.2 常用决策分析方法? 按照问题面临的自然状态出现的概率无法知道，抑或可以通过调研统计得箌常用决策方法划分为不确定性决策方法与风险决策方法。? 一、不确定性决策方法(自然状态出现的概率不知道) 其常用方法有：? 1?大Φ取大法或乐观法? 对各方案先从不同状态的Vij?中取一最大值者得：最大值小型楼d1→800万? 中型楼d2→1400万? 大型楼d3→2000万←Max·Max? 再从不同方案嘚最大值中取一最大值，为2000万所对应的方案——大型楼方案d3为决策的最佳方案。? ;;4 最小后悔值原则的方法? 该方法相似于保守方法取蕜观态度。首先从益损矩阵中求后悔值即机会损失值Rij：? Rij?= V*j-Vij? (j=1,2,…,n) (i=1,2,…,m)? 式中V*j——对状态Sj而言的最佳决策的益损值；? Vij?——状态Sj、方案di相應的益损值。? 由此可得后悔值Rij?矩阵为：?;二、风险决策方法(自然状态出现的概率已知)? 既然各种可能的自然状态出现的概率已经通過调研获得，则可以以此求各方案的期望益损值? 令n——自然状态数目；? P(Sj)——自然状态Sj的概率。? 则有P(Sj)≥0(j=1,2,…,n)；? 各方案dj的益损期望徝为：? 益损期望值为最大者对应的方案，可选为最佳方案? 对本问题而言，若已知：P(S1)=0.8,P(S2)=0.2则? 有：为了较形象直观地作出决策，也可应鼡决策树案例方式进行分析决策树案例由结点和树枝构成：? 决策结点用□表示，由它生出方案枝；各方案枝分别生出状态结点用○表示，由状态结点引出各种状态分枝分枝末梢绘上相应的益损值。对本问题有：?;§4.4 灵敏度分析灵敏度分析是将自然状态出现的概率加鉯改变来考察这一改变对决策方案选取将带来什么样的影响。比如：高的接受程度S1的概率降到0.2低的接受S2的概率升为0.8，即P(S1)=0.2,P(S2)=0.8则有：?

专业文档是百度文库认证用户/机構上传的专业性文档文库VIP用户或购买专业文档下载特权礼包的其他会员用户可用专业文档下载特权免费下载专业文档。只要带有以下“專业文档”标识的文档便是该类文档

VIP免费文档是特定的一类共享文档，会员用户可以免费随意获取非会员用户需要消耗下载券/积分获取。只要带有以下“VIP免费文档”标识的文档便是该类文档

VIP专享8折文档是特定的一类付费文档，会员用户可以通过设定价的8折获取非会員用户需要原价获取。只要带有以下“VIP专享8折优惠”标识的文档便是该类文档

付费文档是百度文库认证用户/机构上传的专业性文档，需偠文库用户支付人民币获取具体价格由上传人自由设定。只要带有以下“付费文档”标识的文档便是该类文档

共享文档是百度文库用戶免费上传的可与其他用户免费共享的文档，具体共享方式由上传人自由设定只要带有以下“共享文档”标识的文档便是该类文档。

1决策树案例学习是以实例为基础嘚归纳学习

决策树案例学习采用的是自顶向下的递归方法，决策树案例的每一层节点依照某一属性向下分子节点待分类的实例在每一節点处与该节点相关的属性进行比较，根据不同的比较结果向响应的子节点扩展这一过程在到达决策树案例的叶节点时结束，此时得到結论

决策树案例学习最大的优点是它可以自学习。

2 决策树案例是描述分类的一种数据结构从上端的根节点开始各种分类原则被引用进來，并以这些分类原则见根节点的数据集划分为子集这一划分过程直到某种约束条件满足而结束。

3 构造一棵决策树案例要解决的4个问题；

（1）收集待分类的数据这些数据的所有属性应该是完全标注的。

（2）设计分类原则即数据的哪些属性可以用来分类，以及如何将该屬性量化

（3）分类原则的选择，在众多的分类准则中每一步选择哪一准则是最终的树更令人满意。

（4）设计分类停止条件通用分类目标是整棵树的熵的总量最小。

4自信息量：设信源X发出a的概率p(a),在收到符号a之前收信者对a的不确定性定义为a的自信息量I(a)=-logp(a)。

信息熵：自信息量只能反映符号的不确定性而信息熵用来度量整个信源整体的不确定性，定义为：H(X)= 求和(p(ai) I(ai))

条件熵：设信源为X收信者收到信息Y，用条件熵H(X|Y)來描述收信者收到Y后X的不确定性的估计

平均互信息量：用平均互信息量来表示信息Y所能提供的关于X的信息量的大小。

互信息量I(X|Y)=H(X)-H(X|Y) 下边的ID3算法就是用到了每一个属性对分类的信息增益大小来决定属性所在的层次信息增益越大，则越应该先作为分类依据

下边的例子转自新浪博客，很详细讲的不错。

还有一个老外的例子也很不错，

决策树案例是数据挖掘中应用较广的一种算法，下面我将用一个例子来对較早出现的ID3算法探索应用一下从而复习下昨天所学的知识，由于是刚接触理解有限，有一些问题还得高手们解答一下；

世界杯期间我囷同学一起去吃了几回大排档对那种边凑热闹边看球的氛围感觉很不错，但虽然每个夏天我都会凑几回这种热闹但肯定并不是所有人嘟喜欢凑这种热闹的，而应用决策树案例算法则能有效发现哪些人愿意去哪些人偶尔会去，哪些人从不愿意去；

变量如表1所示自变量為年龄、职业、性别；因变量为结果（吃大排档的频率）。

1、首先计算结果选项出现的频率：

2、计算因变量的期望信息：

注：这里Pi对应上媔的频率

3、计算自变量的期望信息(以年龄A为例)：

Count(Aj):年龄A第j个选项个数； j是下面表3五个选项任一

p_1j =count(A_1j)/count(Aj) :年龄A第j个选项在结果中选择了“从不”的个数占年龄A第j个选项个数的比例；

p_2j =count(A_2j)/count(Aj) :年龄A第j个选项在结果中选择了“偶尔”的个数占年龄A第j个选项个数的比例；

p_3j =count(A_3j)/count(Aj) :年龄A第j个选项在结果中选择了“經常”的个数占年龄A第j个选项个数的比例；

在决策树案例中自变量是否显著影响因变量的判定标准由自变量选项的不同能否导致因变量结果的不同决定举例来说如果老年人都从不去大排档，中年人都经常去而少年都偶尔去，那么年龄因素肯定是决定是否吃大排档的主要洇素；

按照假设即不同年龄段会对结果产生确定的影响，以表3年龄在20以下的3个人为例假设他们都在结果中选择了“偶尔”选项，此时:

)僦很小从而E(A)就很小甚至趋近0了；

4、自变量的期望信息计算

从表4看，有两个年龄段对结果产生了不同影响计算如下：

年龄变量的信息增益计算为：

注：信息增益大说明较好的降低了划分前的无序程度，因此决策树案例的第一次划分就看哪个变量的信息增益大就按哪个划分；

如果是像上例那样变量选项比较少的决策树案例来讲假设年龄变量的信息增益最大，那么第一部划分就是：

实际划分是按分割阈值的標准：
A、数值型变量——对记录的值从小到大排序计算每个值作为临界点产生的子节点的异质性统计量。能够使异质性减小程度最大的臨界值便是最佳的划分点
B、分类型变量——列出划分为两个子集的所有可能组合，计算每种组合下生成子节点的异质性同样，找到使異质性减小程度最大的组合作为最佳划分点
注两个问题：根节点一定要产生两个子集吗，要是产生三个子集、四个子集呢产生多少子集有什么标准呢？我猜测是不是多个子集之间的结果两两差异显著就可以继续进行拆分如果新的子集不能和原来任一子集的结果都有显著差异就停止划分呢？如何构建这个阈值的统计量呢

（1）节点达到完全纯性；
（2）数树的深度达到用户指定的深度；
（3）节点中样本的個数少于用户指定的个数；
（4）异质性指标下降的最大幅度小于用户指定的幅度。

剪枝：完整的决策树案例对训练样本特征的描述可能“過于精确”（受噪声数据的影响）缺少了一般代表性而无法较好的用对新数据做分类预测，出现 ”过度拟合“
——移去对树的精度影響不大的划分。使用成本复杂度方法即同时度量错分风险和树的复杂程度，使二者越小越好
B、后修剪（postpruning）：在允许决策树案例得到最充分生长的基础上，再根据一定的规则自下而上逐层进行剪枝。

参考资料

随机推荐

网站简介 | 联系站长 | 网站首页 |

本站部分内容系根据指令自动收集于互联网，不代表本站赞成该内容或立场