R中用离散型条件期望计算公式估计P(X+Y>4)以Y为条件的算法?

11、定性数据的各类别数据之间没有大小之分。

12、毛色和产量都属于数量性状资料。

14、通常以样本数据中的最小值作为第一组的下限值。

15、条形图和直方图其实是一种图形。

16、众数和中位数都不受到极端数值的影响。

17、使用加权的公式计算均值时,Xi是各组的组中值。

18、计算样本方差应使用数据的离差平方和除以数据个数n。

19、实际分析数据的离散程度时更多使用标准差。

20、比较株高和千粒重的数据变异程度,可以使用两组数据的样本标准差。

21、统计数据分为定性数据和( )。

22、定量数据分为离散型数据和( )。

23、对定性数据进行可视化,最常见的是( )。

24、组距=( )除以组数。

25、一般用( )图来展示定性数据的频数分布情况。

26、数据的集中趋势反映了数据的( )水平。

27、一组数据中出现次数最多的变量值称为( )。

28、方差的平方根称为( )。

29、数据的分散程度称为数据的( )。

30、计算总体方差应使用数据的离差平方和除以总个数N,而计算样本方差应除以( )。

6、在一块试验田中种植某品种水稻得到的产量即为该品种水稻的总体产量。

7、无限总体的所包含的个体数通常是不可数的。

8、统计学是一门分析数据的科学。

9、统计意义上的总体通常是一组观测数据。

10、总体参数通常不可知,而样本统计量则可以计算出来。

第3周 把握机会的法则——常见的概率分布

9、样本均值用标准误s/进行标准化后服从自由度为n-1的t分布。

10、F分布的概率密度曲线是一条对称曲线。

11、当样本容量n≥30时,t分布和标准正态分布就非常接近了。

12、对于连续型随机变量,讨论某一点取值的概率是没有意义的。

13、正态分布的标准差越大,其概率密度曲线越高越集中。

14、标准正态分布的均值为0,方差为1。

15、用100粒种子进行发芽,每个种子的发芽率为70%,那么这批种子预期将会有70个种子会发芽。

16、正态随机变量落入其均值左右各一个标准差内的概率是68.27%。

17、如果一个变量受到很多独立的随机因素的影响,这些随机影响的效应相乘后会使得这个随机变量服从正态分布。

18、理论上大样本指的是样本容量大于等于20。

19、一次( )是指对试验单元进行一次观察或测量的过程。

20、每次试验可能出现也可能不出现的结果就是( )。

21、一次试验结果的数值型描述,带有偶然性的变量称为( )。

22、随机变量按照取值的特点可以分为离散型随机变量和( )。

23、连续型随机变量的概率分布通过( )曲线来描述。

24、若随机变量X~B(n,p),则其期望值为( )。

25、计算正态分布在任意区间的概率时,首先要进行一个线性变换,称为( )。

26、( )指的是样本统计量的概率分布。

27、样本均值的抽样分布的方差为( )。

28、三个重要的抽样分布有( )、F分布、卡方分布。

29、μ=0,σ2=( )的正态分布称为标准正态分布。

第4章 人人都是柯南——假设检验

11、拒绝正确的原假设的错误为假设测验的第二类错误。

12、单样本t检验调用SPSS的路径为“分析—一比较均值——单样本t检验”。

13、进行假设检验的P值决策时,当P≤α时拒绝原假设。

14、第一类错误和第二类错误的区别是:第一类错误只有在接受H0时才会发生,第二类错误只有在否定H0时才会发生。

15、在假设检验中,不拒绝原假设意味着原假设肯定正确。

16、配对数据t检验不需要考虑两者的总体方差是否相等。

17、进行假设检验时,原假设总是表示没有显著的差异

18、拒绝原假设的所有数值集合称为显著性水平。

19、在配对数据资料用t检验比较时,若对数n=13,则其自由度为12。

20、检验新品种作物的产量是否显著提高的原假设是:新品种作物的产量有显著提高。

第5章 自信的推测——参数估计

9、无偏性指的是估计量抽样分布的数学期望等于被估计的总体参数。

10、同为无偏估计量时,估计量的方差越大越好。

11、当总体方差已知,且为大样本条件下,应使用正态分布来估计总体均值。

12、置信水平越大,估计的可靠性就越大。

13、样本量越大,样本均值的抽样标准误差就越大。

14、当样本容量一定时,置信区间的宽度随着置信水平的增大而减小。

15、95%的置信水平指的是用同样方法构造多个总体参数的置信区间时,包含总体参数真实值的区间比例为95%。

第6章 择优而取之——方差分析

9、在比较多样本数据时,若适用多次的两两相比的t检验,除了工作量大一些外,还增加了II型错误的概率。

10、方差分析中的LSD法进行多重比较完全消除了用t检测对多个平均数之间比较而造成的I类错误概率增大的问题。

11、检测两种化肥对水稻增产的比较试验,使用不同的化肥为该试验的因素,有2个水平。

12、方差分析中的LSD法进行多重比较的最小显著差数法本质就是t检测

13、标记字母法只能用于方差分析中的最小显著差数法的多重比较结果。

14、方差分析的多重比较结果,在标记符号法中,用一个星号表示在α=0.05的显著水平上有显著差异,两个星号表示在α=0.01的显著水平上有极显著差异。而在标记字母法中是用大写字母表示α=0.05,用小写字母表示α=0.01。

15、标记字母法中符凡标有相同字母的平均数间,差异不显著,没有相同字母的平均数间,仍有显著差异。

16、单因素方差分析的零假设通常为所有的平均数均无显著差异,而备择假设为所有的平均数均有显著差异。

17、双因素方差分析中的零假设有三个,分别为每个因素处理效应为零及两因素间的交互作用效应为零。

18、用SPSS软件处理双因素方差分析数据时,若为无重复的双因素方差分析时,选择构建项指定模型的主效应类型,而为有重复的双因素方差分析时中,可选择全因子制定模型。

6、以玉色和红色金鱼草杂交,在F2代得玉色金鱼草45株,粉红色金鱼草120株,红色金鱼草35株,用卡方检验此结果与期望比例1:2:1是否相符,其零假设为

11、χ2的分布区间为(-∞,+∞),随着自由度增加,趋向左右对称,当自由度大于30时,接近正态分布

12、对生物质量性状的计数资料可进行卡方检验。

13、为了检验豌豆的株高(高杆、矮杆)是否属于单基因控制的性状,取高杆和矮杆纯合品种杂交后,其杂合子F1代为高杆,F1代自交后,观测其F2代289株来统计其高杆与矮杆的株数,用卡方检验,其自由度为288。

14、卡方检验的独立性检验常用于控制某性状的基因是否符合孟德尔遗传规律的检验。

15、卡方公式可通用于卡方检验的所有案例,无需其他考虑。

16、列联表中常根据因素的水平数、质量性状的属性类别数或等级资料等级数分行或分列。

17、列联表的横行变量和纵行变量不可互换。

18、2×2列联表的自由度为4,不需要连续性矫正。

19、列联表中,r个横行中的每一个横行理论次数之和等于该行实际次数之和,r个横行实际次数之和相加应等于rc个实际次数之和,因此,独立的行约束条件只有r-1个,同理,c个纵列的独立列约束条件为c-1个。

20、用SPSS软件进行卡方检验时,需先在数据菜单栏里,用加权个案选项将频率变量与质量性状的属性类别数或等级资料等级数相加权。

第8章 数据之间的关系——直线相关与回归分析

7、在进行回归分析的显著性检验时,若α=0.01,得到F检验的P值为0.001,表明( )
    B、P<α,不能拒绝原假设,两个变量间没有显著的线性相关关系

9、相关关系和函数关系都是完全确定的数量依存关系。

10、只有当两个变量同时增加时,它们才是正相关关系。

11、回归系数b和相关系数r的符号可以相同也可以不相同。

12、在直线相关分析中,两个变量是平等的,不需要区分因变量和自变量。

13、相关的两个变量只能算出一个相关系数。

14、进行相关分析和回归分析时要注意进行相关系数和回归系数的显著性检验。

15、判定系数越大,则回归方程的拟合程度越好。

16、相关分析和回归分析中的两个变量都是随机变量。

第9章 常见的试验设计方法

7、田间试验的对象一般是在田间进行,可以不考虑田间的条件

8、田间试验误差包含了系统误差与随机误差。

9、田间试验只需要在田间进行即可。

10、重复的作用是减少与估计试验误差、扩大试验代表性。

11、局部控制的原则是,重复内有同质性,重复间有最大的异质性。

12、随机的作用是提高试验的精确性。

13、对比法不需要重复

0x1:信息论与其他学科之间的关系

信息论在统计物理(热力学)、计算机科学(科尔莫戈罗夫复杂度或算法复杂度)、统计推断(奥卡姆剃刀,最简洁的解释最佳)以及概率和统计(关于最优化假设检验与估计的误差指数)等学科中都具有奠基性的贡献。如下图

这个小节,我们简要介绍信息论及其关联的思想的来龙去脉,提纲挈领地给出一个总的框架。

,当且仅当,等号成立。

0x2:基于对数和不等式得到的推论

4、有监督学习是分类同时定性的,而无监督学习是先聚类后定性的。

5、半监督学习没标签数据的数量常常远大于有标签数据的数量。

2、谈谈你对数据挖掘和机器学习的认识

第二讲 数据预处理与评估方法

2、识别任务中,召回率是被预测为“正面”的测试数据中结果是正确的比例。

数据挖掘 第二次作业 预处理

1、描述处理空缺值问题的处理方法。

2、假设数据元组age值(按递增序):14,16,17,17,18,19,19,21,21,23,25,25,27,27,29,32,33,35,36,37,39,39,40,43,47,56,68。用分箱中值光滑对以上数据进行光滑,箱深度为3。解释你的步骤,并评论对于给定的数据该技术的效果。

3、如何识别数据中的孤立点?

使用Apriori算法发现事务中的频繁项集。(可参照教材第32页例3.1完成)

2、比较Apriori算法与FP增长算法过程的效率。

8、广义加性模型由什么特点
    C、在保持其他自变量不变的情形下可以分析每个自变量对因变量的单独效应

10、下列说法正确的是
    A、当变量之间的相关关系不是线性关系时,也能描述变量之间的相关关系
    B、当变量之间的相关关系不是线性关系时,也能直接用线性回归方程描述它们的相关关系
    C、把非线性回归化为线性回归为我们解决问题提供了一种方法
    D、当变量之间的相关关系不是线性关系时,可以通过适当的变换使其转换为线性关系

11、为了考察两个变量x和y的线性相关性,甲、乙两个同学各自独立地做10次和15次实验,并且利用线性回归方法,求得回归直线分别为L1和L2。已知在两个人的实验中发现对变量x的观测数据的平均值恰好相等,都为s,对变量y的观测数据的平均值也恰好相等,都为t,那么下列说法错误的是

12、线性假设是指自变量xj的变化对因变量y的影响与其他自变量的的取值无关。

13、“回归函数在边界区域是线性的”这个附加约束使自然样条在边界处产生更稳定的估计

14、在N-W方法中,核函数的带宽h越小,估计的回归函数曲线越光滑,h越大,估计的回归函数曲线波动越大。

15、广义加性模型在保持其他自变量不变的情形下可以分析每个自变量对因变量的单独效应。

16、回归函数刻画了平均意义下因变量与自变量的相依关系。

17、回归分析的研究对象是具有相关关系的变量。

18、回归分析的首要问题是

19、分段多项式回归的回归系数发生的临界点称为

20、自然样条是添加了 的样条回归:回归函数在边界区域是线性的。

21、做样条回归时,如果结点个数过 ,样条的回归曲线将非常曲折;反之,将过于平坦。

22、在光滑样条回归的目标函数中, 的作用是使得回归函数尽可能拟合训练数据

数据挖掘 第三次作业 线性回归

2、使用最小二乘方法,由学生的期中成绩预测学生的期末成绩。

3、预测期中成绩为86分学生的期末成绩。

7、LDA和QDA都假设每一类观测服从正态分布,但是LDA假设每一类观测都有自己的方差(或者协方差矩阵)。

8、在构建回归树的过程中,一般采用递归二叉分裂的方法来划分自变量空间。这种方法的贪婪性体现在构建树的每一过程中,“最优”分裂仅限于某一局部过程,而不是针对全局过程。

9、在分类树中,节点的纯度越高,则互熵的值越大。

10、从偏差-方差权衡的角度看,AdaBoost主要关注降低偏差,因此AdaBoost能基于泛化性能相当弱的分类器构建出很强的集成分类器。

11、贝叶斯分类器将待判别的样本分类到使得样本的后验概率达到最大的那个类中。

12、k最近邻法具有显式的学习过程。

13、一般,我们采用什么方法来估计逻辑斯蒂模型中的参数?

14、决策树是采用什么策略处理问题的一种方法?

15、在构建回归树的过程中,我们一般采用什么方法将自变量空间划分为J个矩形区域?

16、什么就是通过构建并整合多棵分类树来完成分类任务?

数据挖掘 第五次作业 判别分类

第十三讲 数据挖掘实验课 weka介绍

数据挖掘 第一次实验 数据预处理

1、在data文件夹中找到玻璃数据集glass.arff,将其导入到Explorer界面,在预处理面板中查看RI属性直方图。

2、将无监督离散化过滤器应用到等宽和等频两种离散化方法,即首先保持weka.filters.unsupervised.attribute.Discretize的全部默认选型默认值不变,然后将useEqualFrequency选项值更改为True。 比较得到的直方图,你观察到什么?

3、在预处理面板中查看Ba属性直方图,等频离散化Ba属性,再检查结果,发现直方图严重偏向一端,也就是根本不等频,这是为什么?

7、支持向量分类器的判断规则只由训练观测的一部分(支持向量)确定。

8、支持向量机通过使用核函数来扩大特征空间。

9、支持向量机可看作是一类简单、直观的最大间隔分类器的推广。

10、支持向量是最靠近决策表面的数据点。

数据挖掘第二次实验 关联规则

2、查看数据文件supermarket.arff,描述每个实例和属性表示什么?每个属性有几个值?如果顾客没有买这个商品如何表示?

3、选择Apriori算法,保持默认选项不变,列出你得到的十条最佳关联规则。 以下为对象编辑器中属性的一些解释: car:如果设为真,则会挖掘类关联规则而不是全局关联规则。 classindex: 类属性索引。如果设置为-1,最后的属性被当做类属性。 delta: 以此数值为迭代递减单位。不断减小支持度直至达到最小支持度或产生了满足数量要求的规则。 lowerBoundMinSupport: 最小支持度下界。 metricType: 度量类型,设置对规则进行排序的度量依据。可以是:置信度(类关联规则只能用置信度挖掘),提升度(lift),平衡度(leverage),确信度(conviction)。 minMtric :度量的最小值。 如果设置为真,则算法会以冗余模式运行。

4、规则采用“前件num.1==>结论num.2”的形式表示,前件后面的数字表示有多少个实例满足前件,结论后的数字表示有多少个实例满足整个规则。从你得到的规则得出什么结论,比如:购买biscuits饼干和frozen foods冷冻食品以及fruit水果的顾客,往往total总金额较高还会顺便买些bread面包和cake蛋糕。

6、树的内部结点用特征作标签,树枝用是否符合特征来标签。

7、过拟合发生在模型太过偏向训练数据时,对于决策树可以采用修剪的方法阻止过拟合。

8、对于实值特征,可以用比较测试将数据划分为两部分,或者选择范围过滤。

9、决策树的节点有两种类型:内部节点和叶节点。内部节点表示一个特征或属性,叶节点表示一个类。

10、过拟合发生在模型太过偏向训练数据时。

11、决策树的修剪可以采用正则化的方法。

12、我们要用概率模型对数据和标签进行学习,需要数据/标签对服从某种概率分布,称为 。

13、在决策树学习中将已生成的树进行简化的过程称为 。

数据挖掘 第六次作业 决策树

1、简述决策树分类的主要步骤

3、对上表的数据,通过手动模拟ID3算法来实现决策过程,并描述决策树用到了几个属性。(参考教材例4.1)

数据挖掘 第三次实验 决策树

4、加载鸢尾花Iris 数据,分别用训练集Use training set和十折交叉验证Cross-validation Folds 10两种方案在数据上评估C4.5,包括正确分类的测试实例和正确分类的比例。

5、右击结果列表中的交叉验证方案trees.J48条目,选择Visualize classifier errors,横坐标为真实类别,纵坐标为预测类别,双击散点图中的叉和方形,观察他们所代表的标记。

第七讲 集成学习:兼听则明,偏听则暗

1、Boosting算法中的加权体现在?
    B、训练阶段数据的加权,没有分类阶段每个弱分类器的加权
    C、分类阶段每个弱分类器的加权,没有训练阶段数据的加权
    D、既没有训练阶段数据的加权,也没有分类阶段每个弱分类器的加权

7、装袋是指通过取样从原始训练数据集中创建m个“新”训练数据集(m"bootstrap"样本),在每个数据集上训练分类器分类,从m个分类器中获得多数投票。

8、Boosting算法对正确分类的数据增加权重,对错误分类的数据减小权重。

9、AdaBoost算法更新数据权重只根据当前分类器更新权重(不改变以前分类器的权重)。

10、一般情况下,Boosting算法即使经过大量迭代,也不会过度拟合。

11、一个强分类器是以概率1-p产生一个误差率小于0.5的分类器。

12、假如有3个独立的分类器,每个分类器犯错误的概率相同为0.1,那么合奏学习错误的概率是多少?

13、装袋算法(Bagging)使用什么作为数据生成分布的代理?

14、在AdaBoost算法中,如果一个分类器的误差权重为0.5,那么它的“得分”是?

15、一级树可以称为什么?

4、通过梯度下降的原理,求损失函数的极小值来对模型进行优化是在训练集上进行的。

5、与采用权重的和作为正则化项相比,采用权重的平方和作为正则化项会给予权重的较大值更多的惩罚。

6、通过梯度下降法最小化训练集的损失函数得到的参数一般不会使测试集也最小。

7、随着分类器复杂度逐渐增加,测试集上的误差/损失会呈现先下降后上升的趋势。

8、正则化项时损失函数的附加标准,以确保不会过拟合。

9、引入正则化项可以惩罚较大的权重。

10、L1正则化往往会导致稀疏解决方案(大量零权重)。

7、单层感知器能对线形可分的数据集进行分类,能解决逻辑问题异或。

8、前馈神经网络中偏置单元可以有输入。

9、在某种意思上,小批量梯度下降算法是以迭代次数换取算法的运行速度。

10、神经网络中的神经元有两个状态:兴奋、抑制。这两个状态由阈值决定。

11、前馈式神经网络层间有反馈。

12、小批量梯度下降法在迭代的每一步中,参数的更新只用了小批量样本的信息

13、小批量梯度下降法和随机梯度下降算法收敛可能需要更多的迭代次数

14、在 模型中,每个神经元同时将自身的输出作为输入信号反馈给其他神经元

8、聚类算法中的谱聚类算法是一种分层算法。

9、两个向量之间的余弦距离等于1减这两个向量的余弦相似度。

10、K-均值++算法能够克服最远点不能处理离群值的问题。

11、K-means和EM聚类之间的主要区别之一是EM聚类是一种“软”聚类算法。

12、监督学习的训练集时有标签的数据。

13、在文本聚类中,欧氏距离是比较适合的。

14、无监督学习中除了聚类,另一种是什么?

15、我们将一个数据可以属于多个类(概率)的聚类称作什么?

16、EM算法中,E代表期望,M代表什么?

数据挖掘 第四次实验 聚类

1、Weka通常支持4中数据类型:数值型nominal、标称型、字符串型、日期和时间型。导入weather.numeric.arff天气数据,观察数据的属性值有哪些类型?

2、切换至Cluster聚类面板,选择SimpleKMeans算法,保持默认参数,即2个簇以及欧氏距离,单击Ignore attribute 按钮,选择play属性为忽略属性,单击select确认选择,单击Start显示运行结果。

3、此聚类结果以表格形式显示,解释每行、每列所对应的信息

4、这里Full Data是一个额外的簇,括号里表示什么信息?

5、EM算法是在概率中寻找参数最大似然估计或者最大后验估计的算法,下面用EM算法对与上面相同数据进行分析。单击Choose选择EM聚类器,修改numClusters簇数为2,其他保持默认值。确保Play为忽略属性,单击Start显示运行结果。

6、比较EM与Kmeans的聚类结果表,有什么不同?

7、比较Kmeans与EM中不同的表项显示的内容。

8、比较Kmeans与EM最后分配给每个簇实例的数量分别是多少?

5、池化层可以非常有效地缩小参数矩阵的尺寸,从而减少后面的卷积层或者全连接层中的参数数量。

6、多伦多大学的Geoffrey Hinton教授利用预训练的方式来缓解局部最优解的问题,提出了真正意义上的深度神经网络,从而掀起了第二次机器学习热潮——“深度学习”。

7、正则化方法是一种通过引入额外的新信息来解决机器学习中过拟合问题的方法。

8、全连接的神经网络应用于图像处理时可能会导致一个严重的参数数量的膨胀的问题。

9、卷积层的输出通常由3个量来控制,它们分别是深度、步幅和什么?

10、深度神经网络和浅度神经网络模型具有相似的结构,由输入层、输出层和什么构成?

11、我们将在深度网络学习的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃的方法称作什么?

我要回帖

更多关于 2 P X X C 0 M 的文章

 

随机推荐