-
Notifications
You must be signed in to change notification settings - Fork 63
洪钊桦 edited this page Jul 13, 2019
·
11 revisions
机器学习的对象是各种各样的数据,为了能够便于交流与处理,需要对数据使用统一的抽象概念;
数据总体分为结构化数据,半结构化数据和非结构化数据数据三种;
指有固定格式且定长的数据,一般以表的形式表示.
包括:MySQL,Oracle,SQL Server
id | name | age |
---|---|---|
0 | Mickey | 8 |
指有固定格式且不定长的数据,一般以树或图的形式表示.
包括:JSON,XML
{
"name" : "Mickey",
"age" : 8
}
<person>
<name>Mickey</name>
<age>8</age>
</person>
指无固定格式且不定长的数据,一般以文件的形式表示.
包括:文档,图片,视频,音频
我叫Mickey,今年8岁了.
注意:属性在其它一些文章中可能会称为维度(Dimension)
机器学习的属性类型分为定性的(Qualitative)和定量的(Quantitative)两种;
- 定性的属性
分为标称(Nominal)与序数(Ordinal)两种,标称具备区分意义,序数具备顺序意义;
- 定量的属性
分为间隔(Interval)与比率(Ratio)两种,间隔具备偏差意义,比率具备比值意义;
注意:模块在其它一些文章中可能会称为数据集(Data Set)
注意:实例在其它一些文章中可能会称为样本(Sample)
实例代表模块的行;
注意:实例在其它一些文章中可能会称为字段(Field)
特征代表模块的列;
注意:标记在其它一些文章中可能会称为标签(Label/Tag)
根据实例是否有标记,学习任务分为有监督的(Supervised)和无监督的(Unsupervised)两种;