线性模型
基本形式
- 线性模型一般形式$f(x)=w_1x_1+w_2x_2+\cdots+w_dx_d+b$
- 向量形式$f(x)=w^{T}x+b$
线性回归
单一属性
基本目标:$f(x)=wx_{i}+b$使得$f(x_{i})\simeq y_{i}$
目的是把离散的(比如身高的高中低)转换成连续的量(比如高1.0中0.5),这种情况主要考虑”序”,比如青绿,黑色,蓝色可能没有序,这个时候不妨把它变成[0,1,0]这种向量编码(几个维度整几维);
回归:均方误差最小化
$(w^{},b^{})=arg\ min_{(w,b)}\sum_{i=1}^{m}(f(x_{i})-y_i)^2$
可以使用最小二乘参数估计(求偏导让导数为零,例子要求w,b),计算暂略
偏导(w)整的主要是关于(w)的变化率,等于零的时候意味着到了极大/极小值;
多元属性
基本目标:$f(x_i)=w^Tx_i+b$使得$f(x_{i})\simeq y_{i}$
回归:
$\hat{w}^*=\arg \min_{\hat{w}}(y-X\hat{w})^T(y-X\hat{w})$
如果满秩:$\hat{w}^*=(X^{T}X)^{-1}X^Ty$;$f(\hat{x_{i}})=\hat{x_{i}}^{T}(X^{T}X)^{-1}$
如果不满秩,求助于归纳偏好或者引入正则化(regularization)(也就是加入限制)
求解非线性的模型——广义线性模型:
- 比如$\ln y=w^Tx+b$,就可以用$e^{w^Tx+b}$来进行毕竟,称作对数线性回归;
- $g(\cdot)$为联系函数(link function),比如$g(\cdot)=\ln(\cdot)$
二分类任务
线性回归的实际输出:$z=w^{T}x+b$
期望输出 $y\in{0,1}$
这个二分类任务就是为了找到一个z,y的联系函数
理想模型:单位阶跃函数
缺陷:数学性质很糟糕,不连续
替代函数——对数几率函数(logistic function)属于sigmoid函数的一种:
logistic 和逻辑没有关系,logistic源于logit 不是logic;
$y=\frac{1}{1+e^{-z}}$
可以表示成$y=\frac{1}{1+e^{-z}}=\frac{1}{1+e^{-(w^{T}x+b)}}$
两边取对数:
$\ln\frac{y}{1-y}=w^{T}x+b=\ln\frac{p(y=1|x)}{p(y=0|x)}$
$\frac{y}{1-y}$称作几率(odds),反映了x作为正例相对于负例的相对可能性;对数几率(log odds,亦称logit)
不需要假设数据分布,可以得到“类别”的近似概率预测,并且可以直接应用现有的数值优化算法求最优解,这是分类学习算法
使用极大似然法(maximum likelihood method)求解,给定数据集${(x_{i}, y_{i})}^{m}{i=1}$,对率回归模型最大化“对数似然”:
$$
l(w,b)=\sum{i=1}^{m}\ln p (y_i|x_i;w,b)
$$
似然:正例的可能性*正例+负例的可能性*负例