add cloud reading for orc #2828

wbo4958 · 2021-06-28T13:11:47Z

This PR adds the cloud reading logic for ORC file format, and the implementation is quite similar to what we have done for Parquet file format.

I have done a round of performance test on a total of 100 non-partitioned ORC files, total 1.3G

	PERFILE	Cloud
1st	34.318	8.645
2nd	29.99	7.829
3rd	28.563	7.852
4th	25.099	7.601

Cloud reading has about ~3x speed up than PERFILE on 100 ORC files.

I can't compare the performance on more ORC files since #2850

This PR didn't fix #2850, I will fix in another PR.

Signed-off-by: Bobby Wang <wbo4958@gmail.com>

wbo4958 · 2021-06-29T13:14:24Z

build

firestarman · 2021-06-30T02:01:44Z

sql-plugin/src/main/scala/com/nvidia/spark/rapids/GpuMultiFileReader.scala

+   * @param conf configuration
+   * @return cloud reading PartitionReader
+   */
+  def buildBaseColumnarReaderForCloud(files: Array[PartitionedFile], conf: Configuration):


NIT:

Suggested change

def buildBaseColumnarReaderForCloud(files: Array[PartitionedFile], conf: Configuration):

def buildBaseColumnarReaderForCloud(

files: Array[PartitionedFile],

conf: Configuration): PartitionReader[ColumnarBatch]

firestarman · 2021-06-30T02:02:16Z

sql-plugin/src/main/scala/com/nvidia/spark/rapids/GpuMultiFileReader.scala

+   * @param conf  the configuration
+   * @return coalescing reading PartitionReader
+   */
+  def buildBaseColumnarReaderForCoalescing(files: Array[PartitionedFile], conf: Configuration):


NIT:

Suggested change

def buildBaseColumnarReaderForCoalescing(files: Array[PartitionedFile], conf: Configuration):

def buildBaseColumnarReaderForCoalescing(

files: Array[PartitionedFile],

conf: Configuration): PartitionReader[ColumnarBatch]

firestarman · 2021-06-30T02:10:36Z

sql-plugin/src/main/scala/org/apache/spark/sql/rapids/GpuFileSourceScanExec.scala

@@ -549,6 +554,7 @@ case class GpuFileSourceScanExec(
      None,
      queryUsesInputFile)(rapidsConf)
  }
+


Unnecessary change ?

firestarman · 2021-06-30T02:17:39Z

sql-plugin/src/main/scala/org/apache/spark/sql/rapids/GpuFileSourceScanExec.scala

-        allMetrics,
-        queryUsesInputFile)
+
+      val factory = fsRelation.fileFormat match {


Seems it has the totally the same creation code for both parquet and orc, so it can be simplified as:

val factory = fsRelation.fileFormat match { case _: ParquetFileFormat | OrcFileFormat => GpuParquetMultiFilePartitionReaderFactory( sqlConf, broadcastedHadoopConf, relation.dataSchema, requiredSchema, relation.partitionSchema, pushedDownFilters.toArray, rapidsConf, allMetrics, queryUsesInputFile) case _ => // never reach here throw new RuntimeException(s"File format ${fsRelation.fileFormat} is not supported yet") }

it's different, the other one is GpuOrcMultiFilePartitionReaderFactory

firestarman · 2021-06-30T02:28:52Z

sql-plugin/src/main/scala/org/apache/spark/sql/rapids/GpuFileSourceScanExec.scala

-  private val isParquetFileFormat: Boolean = relation.fileFormat.isInstanceOf[ParquetFileFormat]
-  private val isPerFileReadEnabled = rapidsConf.isParquetPerFileReadEnabled || !isParquetFileFormat
+  // CSV should be always using PERFILE read type
+  val isPerFileReadEnabled = rapidsConf.isParquetPerFileReadEnabled ||


?

Suggested change

val isPerFileReadEnabled = rapidsConf.isParquetPerFileReadEnabled ||

private val isPerFileReadEnabled = rapidsConf.isParquetPerFileReadEnabled ||

firestarman · 2021-06-30T02:50:51Z