总结机器学习中的基本概念。
1. 输入空间、特征空间、假设空间
第$j$个输入实例$x$的特征向量
其中,$x_{j}^{\left(i\right)}$表示第$j$个输入实例的第$i$个特征。
监督学习的训练数据集合由输入(特征向量)与输出对组成
假设空间$\mathcal{F}$定义为决策函数的集合
其中,$X$是定义在输入空间$\mathcal{X}$上的变量,$Y$是定义在输入空间$\mathcal{}$上的变量。
假设空间$\mathcal{F}$通常是由一个参数向量决定的函数族
其中,参数向量$\theta$取值于$n$维向量空间$R^{n}$,称为参数空间。
假设空间$\mathcal{F}$也可定义为条件概率的集合
其中,$X$是定义在输入空间$\mathcal{X}$上的随机变量,$Y$是定义在输入空间$\mathcal{}$上的随机变量。
假设空间$\mathcal{F}$通常是由一个参数向量决定的概率分布族
其中,参数向量$\theta$取值于$n$维向量空间$R^{n}$,称为参数空间。
2. 损失函数和风险函数
损失函数(代价函数)来度量预测错误的程度,是预测输出$f\left(X\right)$和实际输出$Y$的非负实值函数,记作$L \left(Y, f \left( X \right) \right)$。
0-1损失函数
平方损失函数
绝对值损失函数
绝对值损失函数(对数似然损失函数)
风险损失
风险损失(期望损失)是模型$f\left(X\right)$关于联合概率分布$P\left(X,Y\right)$的平均意义下的损失
经验风险(经验损失)是模型$f\left(X\right)$关于训练数据集
的平均损失
3. 风险最小化
经验风险最小化
其中,$\mathcal{F}$是假设空间。
结构风险最小化
其中,$J \left(f\right)$是模型复杂度,是增则化项,是定义在建设空间$\mathcal{F}$上的泛函;$\lambda \geq 0$是系数,用以权衡风险和模型复杂度。
正则化项可以是参数向量的$L_{2}$范数
其中,$\mid w\mid $表示参数向量$w$的$L_{2}$范数。
正则化项可以是参数向量的$L_{1}$范数
其中,$\mid w\mid_{1}$表示参数向量$w$的$L_{1}$范数。
4. 误差
训练误差
训练误差是模型$Y = \hat f \left(X\right)$关于训练数据集的平均损失
其中,$N$是训练样本容量。
测试误差
测试误差是模型$Y = \hat f \left(X\right)$关于测试数据集的平均损失
其中,$N’$是测试样本容量。
当损失函数是0-1损失,测试误差即测试集上的误差率
其中,$I$是指示函数,即$y \neq \hat f \left( x \right)$时为1,否则为0。
测试集上的准确率
则,$r_{test} + e_{test} = 1 $。
5. 生成模型与判别模型
生成方法由数据学习联合概率分布$P\left(X,Y\right)$,然后求出条件概率分布$P\left(Y\mid X\right)$作为预测的模型,即生成模型
判别方法由数据直接学习决策函数$f\left(X\right)$或者条件概率分布$P\left(Y\mid X\right)$作为预测的模型,即判别模型。
6. 混淆矩阵
TP——将正类预测为正类
FN——将正类预测为负类
FP——将负类预测为正类
TN——将负类预测为负类
精确率
召回率
$F_{1}$值是精确率和召回率的调和均值