统计学习及监督学习概论
1 统计学习
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。
特点
- 以计算机及网络为平台
- 以数据为研究对象
- 目的是对数据进行预测与分析
- 以方法为中心,构建模型并应用模型进行预测和分析
对象:数据
从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。
目的
考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测和分析,同时考虑尽可能提高学习效率。
方法
-
监督学习
-
无监督学习
-
强化学习
步骤
- 得到一个有限的训练数据集合
- 确定包含所有可能的模型的假设空间,即学习模型的集合
- 确定模型选择的准则,即学习的策略
- 实现求解最优模型的算法,即学习的算法
- 通过学习方法选择最优模型
- 利用学习的最优模型对新数据进行预测或分析
2 统计学习的分类
基本分类
-
监督学习:从标注数据中学习预测模型,本质是学习输入到输出的映射的统计规律。
-
输入空间:输入所有可能取值的集合,输入变量习惯上写作 X
输出空间:输出所有可能取值的集合,通常输出空间远小于输入空间,输出变量习惯上写作 Y
特征空间:每个具体的输入是一个实例,通常由特征向量表示,所有特征向量存在的空间称为特征空间
输入实例 x 的特征向量 记作 $$ x=(x^{(1)},x^{(2)},...,x^{(i)},...,x^{(n)})^T $$ x\(^{(i)}\) 表示 x 的第 i 个特征
-
训练集通常表示为 $$ T={(x_1,y_1),(x_2,y_2),...,(x_N,y_N)} $$ 输入输出变量均为连续变量的预测问题称为回归问题,输出变量为有限个离散变量的预测问题称为分类问题,输入输出变量均为变量序列的预测问题称为标注问题。
-
联合概率分布
监督学习假设输入与输出的随即变量 X 和 Y 遵循概率分布 \(P(X,Y)\)。\(P(X,Y)\) 表示分布函数,或分布密度函数。
训练数据与测试数据被看作是依联合概率分布 \(P(X,Y)\) 独立同分布产生的。
-
假设空间
监督学习的目的在于学习一个从输入到输出的映射,这一映射由模型来表示,模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。
- 模型可以是概率模型或者非概率模型,由条件概率分布 \(P(Y|X)\) 或决策函数 \(Y=f(X)\) 表示。
-
问题的形式化
首先给定一个训练数据集 T,在学习过程中,学习系统利用给定的训练数据集,通过学习或训练得到一个模型,表示为条件概率分布 \(\hat{P}(Y|X)\) 或决策函数 \(Y=\hat{f}(X)\),描述输入与输出随机变量之间的映射关系。
在预测过程中,预测系统对于给定的测试样本集中的输入 \(x_{N+1}\),由模型 \(y_{N+1} = argmax_y\hat{P}(y|x_{N+1})\) 或 \(Y_{N+1}=\hat{f}(x_{N+1})\) 给出相应的输出 \(y_{N+1}\)。
-
-
无监督学习:从无标注数据中学习预测模型,本质是学习数据中的统计规律或潜在结构。
-
训练数据表示为 \(U=\{x_1,x_2,...,x_N\}\)。
-
无监督学习可以用于已有数据的分析,也可以用于对未来数据的预测。
分析时使用学习得到的模型,即函数 \(z=\hat{g}(x)\),条件概率分布 \(\hat{P}(z|x)\),或者条件概率分布 \(\hat{P}(x|z)\)。
预测时,和监督学习流程类似。
-
学习过程
学习系统从训练数据集学习,得到一个最优模型,表示为函数 \(z=\hat{g}(x)\),条件概率分布 \(\hat{P}(z|x)\) 或者条件概率分布 \(\hat{P}(x|z)\)。
在预测过程中,预测系统对于给定的输入 \(x_{N+1}\),由模型 \(z_{N+1}=\hat{g}(x_{N+1})\) 或 \(z_{N+1}=argmax_z\hat{P}(z|x_{N+1})\) 给出相应的输出 \(z_{N+1}\),进行聚类或降维,或者由模型 \(\hat{P}(x|z)\) 给出输入的概率 \(\hat{P}(x_{N+1}|z_{N+1})\),进行概率估计。
-
-
强化学习
-
半监督学习与主动学习
半监督学习:利用标注数据和未标注数据学习预测模型。
主动学习:机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型。
按模型分类
-
概率模型与非概率模型
-
概率模型:
监督学习中,概率模型是生成模型,取条件概率分布形式 \(P(y|x)\) ;无监督学习中,取概率分布形式 \(P(z|x)\) 或 \(P(x|z)\)。
决策树、朴素贝叶斯、隐马尔科夫模型、条件随机场、概率潜在语义分析、潜在狄利克雷分配、高斯混合模型。
-
非概率模型:
监督学习中,非概率模型是判别模型,取函数形式 \(y=f(x)\);无监督学习中,取函数形式 \(z=g(x)\)。
感知器、支持向量机、k 近邻、AdaBoost、k 均值、潜在语义分析、神经网络。
-
-
线性模型与非线性模型
- 线性模型:感知机、线性支持向量机、k 近邻、k 均值、潜在语义分析。
- 非线性模型:核函数支持向量机、AdaBoost、神经网络。