Skip to content

关于Spark的源码分析,以及平时工作的一些总结

Notifications You must be signed in to change notification settings

gjhkael/deployDoc

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

74 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

关于spark的简单分析以及工作中的一些总结

心血来潮,想spark进行一些深层次的分析,同时也不脱离实践操作,所以有关spark的一些分析,尽量会结合实践附上简单的demo操作。Spark源码采用的是1.2.0版本。 ###简单介绍 作为对工作的总结,这边记录了基本上从零开始如何去做一些spark以及hadoop相关的工作,这里开始会将的很基础,从如何安装编译Spark、Spark如何提交任务开始,然后会对Spark的一些重要特性结合进行分析,其中不乏引用好的Spark相关内容(我会以引用的形式标识出来,如有侵权,请和我联系,我及时修正)。在分析Spark过程中会有很多例子程序,其中会有很多是Spark自带的例子也会有网上看到好的例子程序,我都会给程序赋予详细的注释。同时也会结合我实际的工作,把我遇到的实际问题在这边进行详细分析。 ###主要内容

1.Build and install Spark-安装和编译Spark

2.RDD details-详细介绍RDD的用法以及其实质

3.Job executing and task scheduling-介绍Spark内部如何调度和执行任务

4.Deploy-分析Spark Deploy模块

5.SparkStreaming-sparkStreaming模块源码简单分析

6.Custom receiver-如何自定义SparkStreaming接收器

7.Custom FileInputFormat-分析如何实现自己的InputFormat

8.[Shuffle]-研究Spark Shuffle并和hadoop比较

9.[Spark fault tolerant]-研究Spark血统容错并和hadoop进行比较

10.[Spark-sql]-介绍Spark sql

11.[Spark-Mllib]-介绍Spark Mllib

12.[Spark-Graphx]-介绍Spark Graphx

13.[Tachyon]-介绍Tachyon

###其它问题 在实际工作中,会遇到其他各种问题,这里将一些重要的问题也以文档的形式记录下来。

1.receiver-分析spark源码,修改sparkStreaming模块源码让其支持动态的添加和停止流

2.intellij-使用intellij打包的一些问题。

3.exception-在实践过程中的一些问题总结

4.kafka安装配置-介绍zookeeper和kafka的安装配置

5.opencv安装配置-介绍opencv的安装配置

6.ganglia安装配置-介绍ganglia的安装配置

About

关于Spark的源码分析,以及平时工作的一些总结

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published