Skip to content
洪钊桦 edited this page Jul 13, 2019 · 11 revisions

机器学习的对象是各种各样的数据,为了能够便于交流与处理,需要对数据使用统一的抽象概念;

数据的分类

数据总体分为结构化数据,半结构化数据非结构化数据数据三种;

结构化数据

指有固定格式且定长的数据,一般以表的形式表示.

包括:MySQL,Oracle,SQL Server

id name age
0 Mickey 8

半结构化数据

指有固定格式且不定长的数据,一般以树或图的形式表示.

包括:JSON,XML

{
    "name" : "Mickey",
    "age" : 8
}
<person>
    <name>Mickey</name>
    <age>8</age>
</person>

非结构化数据

指无固定格式且不定长的数据,一般以文件的形式表示.

包括:文档,图片,视频,音频

我叫Mickey,今年8岁了.

属性(Attribute)

注意:属性在其它一些文章中可能会称为维度(Dimension)

机器学习的属性类型分为定性的(Qualitative)和定量的(Quantitative)两种;

  • 定性的属性

分为标称(Nominal)与序数(Ordinal)两种,标称具备区分意义,序数具备顺序意义;

  • 定量的属性

分为间隔(Interval)与比率(Ratio)两种,间隔具备偏差意义,比率具备比值意义;


模块(Module)

注意:模块在其它一些文章中可能会称为数据集(Data Set)


实例(Instance)

注意:实例在其它一些文章中可能会称为样本(Sample)

实例代表模块的行;


特征(Feature)

注意:实例在其它一些文章中可能会称为字段(Field)

特征代表模块的列;


标记(Mark)

注意:标记在其它一些文章中可能会称为标签(Label/Tag)

根据实例是否有标记,学习任务分为有监督的(Supervised)和无监督的(Unsupervised)两种;


权重(Weight)