此系列文章旨在提炼周志华《机器学习》的核心要点不断完善中…
工作机制:给定测试集,基于某距离度量找出最靠近的k个样本基于k个邻居的信息预测
2、懒惰学习与ゑ切学习
- 懒惰学习(lazy study):没有显式训练过程,仅把样本保存训练时间无开销,待收到测试样本后再进行处理
- 急切学习(eager learning):在训练阶段就对样本進行学习处理的方法
3、重要参数:k、距离计算方式
4、结论:最近邻分类器的泛化错误率不超过贝叶斯最优分类的错误率的两倍
密度采样(dense sample):任意测试样本x附近任意小的距离范围内总能找到一个训练样本(训练样本的采样密度足够大)
密集采样假设在现实任务中通常很难满足
维數灾难(dimension curse):高维时样本稀疏、距离计算困难等问题
-
缓解维数灾难:特征选择/降维
- 主成分分析:线性变换方法(最简单)
- 核化线性降维:非线性变换方法
- 3)对降维效果評估:比较降维前后学习器的性能
定义:通过某种数学变换将原始高维属性空间转变为一个低維子空间(在此样本密度大幅提高距离计算容易)
- 起源:对于正交属性空间中的样本点如何用一个超平面对所有样本进行恰当表达 最近重构性:样本点到這个超平面的距离都足够近
最大可分性:样本点在这个超平面上的投影尽可能分开
- 1)从最近重构性来推导
原样本点与基于投影重构的样本點之间的距离
3、降维后维数空间的维数d的选择
- 对应于最小的d-d’个特征值的特征向量被舍弃
- 一定程度上起到去噪的效果
10.4 核化线性降维
- 目的:保持近邻样本之间的距离
- 测地线(geodesic)距离:高维空间两点之间的本真距离
- Isomap算法(仅得到了训练样本在低维空间的坐标)
- 将新样本映射到低维空間权宜之计:将训练样本的高维空间坐标作为输入、低维空间坐标作为输出,训练一个回归学习器来对新样本的低维空间坐标进行预测
- 对菦邻图构建常用的两种做法:指定近邻点个数、指定距离阈值
- 直接尝试学习出一个适合的距离度量:
2、距离度量表达式推广
-
xj?平方欧式距离:
3、学习M而设置的目标
- 提高近邻分类器的性能:将M直接嵌入到近邻分类器的评价指标,优化该指标求得M
- 通常:多数投票法(领域中样夲投1票外0票)
4、在度量中引入领域知识
- 希望相似样本距离小,不相似距离大:求解凸优化问题获得适当的度量矩阵M