-
Notifications
You must be signed in to change notification settings - Fork 291
/
regression.md
14 lines (7 loc) · 1.42 KB
/
regression.md
1
2
3
4
5
6
7
8
9
10
11
12
13
机器学习中的回归问题属于有监督学习的范畴。回归问题的目标是给定D维输入变量x,并且每一个输入矢量x都有对应的值y,要求对于新来的数据预测它对应的连续的目标值t。比如下面这个例子:假设我们有一个包含47个房子的面积和价格的数据集如下:
![](http://images.cnitblog.com/blog/392228/201410/291919410655805.jpg)
我们可以在Matlab中画出来这组数据集,如下:
![](http://images.cnitblog.com/blog/392228/201410/291921072538240.jpg)
看到画出来的点,是不是有点像一条直线?我们可以用一条曲线去尽量拟合这些数据点,那么对于新来的输入,我么就可以将拟合的曲线上返回对应的点从而达到预测的目的。如果要预测的值是连续的比如上述的房价,那么就属于回归问题;如果要预测的值是离散的即一个个标签,那么就属于分类问题。这个学习处理过程如下图所示:
![](http://images.cnitblog.com/blog/392228/201410/291925279255104.jpg)
上述学习过程中的常用术语:包含房子面积和价格的数据集称为**训练集training set;**输入变量x(本例中为面积)为**特征features;**输出的预测值y(本例中为房价)为**目标值target;**拟合的曲线,一般表示为y = h\(x\),称为**假设模型hypothesis;**训练集的条目数称为**特征的维数**,本例为47。