Skip to content

Latest commit

 

History

History
11 lines (10 loc) · 764 Bytes

emr-spark.md

File metadata and controls

11 lines (10 loc) · 764 Bytes

EMR Spark是运行在阿里云平台上的大数据处理解决方案,在开源版Apache Spark的基础上做了大量性能、功能以及稳定性方面的改造,并且在和阿里云基础服务的适配上做了非常多的工作。主要有以下核心技术:

  • 实现SparkSQL事务功能,支持update、delete语句。
  • 实现PK、FK、NOT NULL等SQL Constraint,并应用在SQL优化中。
  • 实现Relational Cache:SparkSQL的物化视图。
  • 实现多租户高可用的SparkSQL JDBC Server。
  • SparkSQL部分性能优化列表:
  • 支持Runtime Filter。
  • 使用Adaptive Execution,可在运行时调整作业行为。
  • CBO Join Reorder进一步优化,支持遗传算法。
  • Shuffle流程优化,构建异步非阻塞的Shuffle IO。