大数据: 收集到的数据已经远远超出了我们的处理能力。
Hadoop 是 MapRedece框架的一个免费开源实现。
MapReduce: 分布式的计算框架,可以将单个计算作业分配给多台计算机执行。
优点: 使程序以并行的方式执行,可在短时间内完成大量工作。
缺点: 算法必须经过重写,需要对系统工程有一定的理解。
适用数据类型: 数值型和标称型数据。
关于MapRduce的学习要点
- 主节点控制MapReduce的作业流程
- MapReduce的作业可以分成map任务和reduce任务
- map任务之间不做数据交流,reduce任务也一样
- 在map和reduce阶段中间,有一个sort和combine阶段
- 数据被重复存放在不同的机器上,以防止某个机器实效
- mapper和reducer传输的数据形式为key/value对
理论简介
例如: Hadoop流可以像Linux命令一样执行
cat inputFile.txt | python mapper.py | sort | python reducer.py > outputFile.txt
类似的Hadoop流就可以在多台机器上分布式执行,用户可以通过Linux命令来测试Python语言编写的MapReduce脚本。
实战脚本
# 测试 Mapper
# Linux
cat input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanMapper.py
# # Window
# python src/python/15.BigData_MapReduce/mrMeanMapper.py < input/15.BigData_MapReduce/inputFile.txt
# 测试 Reducer
# Linux
cat input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanMapper.py | python src/python/15.BigData_MapReduce/mrMeanReducer.py
# # Window
# python src/python/15.BigData_MapReduce/mrMeanMapper.py < input/15.BigData_MapReduce/inputFile.txt | python src/python/15.BigData_MapReduce/mrMeanReducer.py
Mahout in Action
- 简单贝叶斯:
- k-近邻算法:
- 支持向量机(SVM):使用随机梯度下降算法求解,如Pegasos算法。
- 奇异值分解:Lanczos算法是一个有效的求解近似特征值的算法。
- k-均值聚类:canopy算法初始化k个簇,然后再运行K-均值求解结果。
理论简介
- MapReduce作业流自动化的框架:Cascading 和 Oozie.
- mrjob是一个不错的学习工具,与2010年底实现了开源,来之于Yelp(一个餐厅点评网站).
python mrMean.py < inputFile.txt > myOut.txt
实战脚本
# 测试 mrjob的案例
# 先测试一下mapper方法
# python src/python/15.BigData_MapReduce/mrMean.py --mapper < input/15.BigData_MapReduce/inputFile.txt
# 运行整个程序,移除 --mapper 就行
python src/python/15.BigData_MapReduce/mrMean.py < input/15.BigData_MapReduce/inputFile.txt
在MapReduce框架上使用SVM的一般方法
收集数据:数据按文本格式存放。
准备数据:输入数据已经是可用的格式,所以不需任何准备工作。如果你需要解析一个大规模的数据集,建议使用map作业来完成,从而达到并行处理的目的。
分析数据:无。
训练算法:与普通的SVM一样,在分类器训练上仍需花费大量的时间。
测试算法:在二维空间上可视化之后,观察超平面,判断算法是否有效。
使用算法:本例不会展示一个完整的应用,但会展示如何在大数据集上训练SVM。该算法其中一个应用场景就是本文分类,通常在文本分类里可能有大量的文档和成千上万的特征。
Pegasos 算法
Pegasos是指原始估计梯度求解器(Peimal Estimated sub-GrAdient Solver)。 Pegasos算法工作流程是:
- 从训练集中随机挑选一些样本点添加到带处理列表中
- 按序判断每个样本点是否被正确分类
- 如果是则忽略
- 如果不是则将其加入到待更新集合。
- 批处理完毕后,权重向量按照这些错分的样本进行更新。
上述算法伪代码如下:
将w初始化为0
对每次批处理
随机选择k个样本点(向量)
对每个向量
如果该向量被错分:
更新权重向量w
累加对w的更新
我们继续看Python版本的代码实现。
- 作者:片刻 小瑶
- GitHub地址: https://github.com/apachecn/MachineLearning
- 版权声明:欢迎转载学习 => 请标注信息来源于 ApacheCN