线性模型

南瓜书本章连接

基本形式

  • 线性模型一般形式$f(x)=w_1x_1+w_2x_2+\cdots+w_dx_d+b$
  • 向量形式$f(x)=w^{T}x+b$

线性回归

  • 单一属性

    • 基本目标:$f(x)=wx_{i}+b$使得$f(x_{i})\simeq y_{i}$

      目的是把离散的(比如身高的高中低)转换成连续的量(比如高1.0中0.5),这种情况主要考虑”序”,比如青绿,黑色,蓝色可能没有序,这个时候不妨把它变成[0,1,0]这种向量编码(几个维度整几维);

    • 回归:均方误差最小化

      $(w^{},b^{})=arg\ min_{(w,b)}\sum_{i=1}^{m}(f(x_{i})-y_i)^2$

      可以使用最小二乘参数估计(求偏导让导数为零,例子要求w,b),计算暂略

      偏导(w)整的主要是关于(w)的变化率,等于零的时候意味着到了极大/极小值;

  • 多元属性

    • 基本目标:$f(x_i)=w^Tx_i+b$使得$f(x_{i})\simeq y_{i}$

    • 回归:

      $\hat{w}^*=\arg \min_{\hat{w}}(y-X\hat{w})^T(y-X\hat{w})$

      如果满秩:$\hat{w}^*=(X^{T}X)^{-1}X^Ty$;$f(\hat{x_{i}})=\hat{x_{i}}^{T}(X^{T}X)^{-1}$

      如果不满秩,求助于归纳偏好或者引入正则化(regularization)(也就是加入限制)

  • 求解非线性的模型——广义线性模型:

    • 比如$\ln y=w^Tx+b$,就可以用$e^{w^Tx+b}$来进行毕竟,称作对数线性回归;
    • $g(\cdot)$为联系函数(link function),比如$g(\cdot)=\ln(\cdot)$

二分类任务

  • 线性回归的实际输出:$z=w^{T}x+b$

    期望输出 $y\in{0,1}$

    这个二分类任务就是为了找到一个z,y的联系函数

  • 理想模型:单位阶跃函数

    缺陷:数学性质很糟糕,不连续

  • 替代函数——对数几率函数(logistic function)属于sigmoid函数的一种:

    logistic 和逻辑没有关系,logistic源于logit 不是logic;

    • $y=\frac{1}{1+e^{-z}}$

      可以表示成$y=\frac{1}{1+e^{-z}}=\frac{1}{1+e^{-(w^{T}x+b)}}$

    • 两边取对数:

      $\ln\frac{y}{1-y}=w^{T}x+b=\ln\frac{p(y=1|x)}{p(y=0|x)}$

      $\frac{y}{1-y}$称作几率(odds),反映了x作为正例相对于负例的相对可能性;对数几率(log odds,亦称logit)

    不需要假设数据分布,可以得到“类别”的近似概率预测,并且可以直接应用现有的数值优化算法求最优解,这是分类学习算法

    image-20210322115345578

  • 使用极大似然法(maximum likelihood method)求解,给定数据集${(x_{i}, y_{i})}^{m}{i=1}$,对率回归模型最大化“对数似然”:
    $$
    l(w,b)=\sum
    {i=1}^{m}\ln p (y_i|x_i;w,b)
    $$

似然:正例的可能性*正例+负例的可能性*负例