ml/regression/regression.md

机器学习中的回归问题属于有监督学习的范畴。回归问题的目标是给定D维输入变量x，并且每一个输入矢量x都有对应的值y，要求对于新来的数据预测它对应的连续的目标值t。比如下面这个例子：假设我们有一个包含47个房子的面积和价格的数据集如下：

![](http://images.cnitblog.com/blog/392228/201410/291919410655805.jpg)

我们可以在Matlab中画出来这组数据集，如下：

![](http://images.cnitblog.com/blog/392228/201410/291921072538240.jpg)

　　看到画出来的点，是不是有点像一条直线？我们可以用一条曲线去尽量拟合这些数据点，那么对于新来的输入，我么就可以将拟合的曲线上返回对应的点从而达到预测的目的。如果要预测的值是连续的比如上述的房价，那么就属于回归问题；如果要预测的值是离散的即一个个标签，那么就属于分类问题。这个学习处理过程如下图所示：

![](http://images.cnitblog.com/blog/392228/201410/291925279255104.jpg)

　　上述学习过程中的常用术语：包含房子面积和价格的数据集称为**训练集training set；**输入变量x（本例中为面积）为**特征features；**输出的预测值y（本例中为房价）为**目标值target；**拟合的曲线，一般表示为y = h\(x\)，称为**假设模型hypothesis；**训练集的条目数称为**特征的维数**，本例为47。