[SPARK-25306][SQL] Use cache to speed up createFilter

dongjoon-hyun · dongjoon-hyun · commit ac06b0ca28d1 · 2018-09-01T15:22:10.000-07:00
diff --git a/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/orc/OrcFilters.scala b/sql/core/src/main/scala/org/apache/spark/sql/execution/datasources/orc/OrcFilters.scala
@@ -17,10 +17,14 @@
 
 package org.apache.spark.sql.execution.datasources.orc
 
+import java.util.concurrent.TimeUnit
+
+import com.google.common.cache.{CacheBuilder, CacheLoader}
 import org.apache.orc.storage.ql.io.sarg.{PredicateLeaf, SearchArgument, SearchArgumentFactory}
 import org.apache.orc.storage.ql.io.sarg.SearchArgument.Builder
 import org.apache.orc.storage.serde2.io.HiveDecimalWritable
 
+import org.apache.spark.SparkEnv
 import org.apache.spark.sql.sources.Filter
 import org.apache.spark.sql.types._
 
@@ -54,7 +58,37 @@ import org.apache.spark.sql.types._
  * builder methods mentioned above can only be found in test code, where all tested filters are
  * known to be convertible.
  */
-private[orc] object OrcFilters {
+private[sql] object OrcFilters {
+
+  case class FilterWithTypeMap(filter: Filter, typeMap: Map[String, DataType])
+
+  private val defaultCacheExpireTimeout = TimeUnit.SECONDS.toSeconds(20)
+
+  lazy val cacheExpireTimeout: Long =
+    Option(SparkEnv.get).map(_.conf.getTimeAsSeconds(
+      "spark.sql.orc.cache.sarg.timeout",
+      s"${defaultCacheExpireTimeout}s")).getOrElse(defaultCacheExpireTimeout)
+
+  private lazy val searchArgumentCache = CacheBuilder.newBuilder()
+    .expireAfterAccess(cacheExpireTimeout, TimeUnit.SECONDS)
+    .build(
+      new CacheLoader[FilterWithTypeMap, Option[Builder]]() {
+        override def load(typeMapAndFilter: FilterWithTypeMap): Option[Builder] = {
+          buildSearchArgument(
+            typeMapAndFilter.typeMap, typeMapAndFilter.filter, SearchArgumentFactory.newBuilder())
+        }
+      })
+
+  private def getOrBuildSearchArgumentWithNewBuilder(
+      dataTypeMap: Map[String, DataType],
+      expression: Filter): Option[Builder] = {
+    // When `spark.sql.orc.cache.sarg.timeout` is 0, cache is disabled.
+    if (cacheExpireTimeout > 0) {
+      searchArgumentCache.get(FilterWithTypeMap(expression, dataTypeMap))
+    } else {
+      buildSearchArgument(dataTypeMap, expression, SearchArgumentFactory.newBuilder())
+    }
+  }
 
   /**
    * Create ORC filter as a SearchArgument instance.
@@ -66,12 +100,19 @@ private[orc] object OrcFilters {
     // collect all convertible ones to build the final `SearchArgument`.
     val convertibleFilters = for {
       filter <- filters
-      _ <- buildSearchArgument(dataTypeMap, filter, SearchArgumentFactory.newBuilder())
+      _ <- getOrBuildSearchArgumentWithNewBuilder(dataTypeMap, filter)
     } yield filter
 
     for {
       // Combines all convertible filters using `And` to produce a single conjunction
-      conjunction <- convertibleFilters.reduceOption(org.apache.spark.sql.sources.And)
+      conjunction <- convertibleFilters.reduceOption { (x, y) =>
+        val newFilter = org.apache.spark.sql.sources.And(x, y)
+        if (cacheExpireTimeout > 0) {
+          // Build in a bottom-up manner
+          getOrBuildSearchArgumentWithNewBuilder(dataTypeMap, newFilter)
+        }
+        newFilter
+      }
       // Then tries to build a single ORC `SearchArgument` for the conjunction predicate
       builder <- buildSearchArgument(dataTypeMap, conjunction, SearchArgumentFactory.newBuilder())
     } yield builder.build()
@@ -127,8 +168,6 @@ private[orc] object OrcFilters {
       dataTypeMap: Map[String, DataType],
       expression: Filter,
       builder: Builder): Option[Builder] = {
-    def newBuilder = SearchArgumentFactory.newBuilder()
-
     def getType(attribute: String): PredicateLeaf.Type =
       getPredicateLeafType(dataTypeMap(attribute))
 
@@ -144,23 +183,23 @@ private[orc] object OrcFilters {
         // Pushing one side of AND down is only safe to do at the top level.
         // You can see ParquetRelation's initializeLocalJobFunc method as an example.
         for {
-          _ <- buildSearchArgument(dataTypeMap, left, newBuilder)
-          _ <- buildSearchArgument(dataTypeMap, right, newBuilder)
+          _ <- getOrBuildSearchArgumentWithNewBuilder(dataTypeMap, left)
+          _ <- getOrBuildSearchArgumentWithNewBuilder(dataTypeMap, right)
           lhs <- buildSearchArgument(dataTypeMap, left, builder.startAnd())
           rhs <- buildSearchArgument(dataTypeMap, right, lhs)
         } yield rhs.end()
 
       case Or(left, right) =>
         for {
-          _ <- buildSearchArgument(dataTypeMap, left, newBuilder)
-          _ <- buildSearchArgument(dataTypeMap, right, newBuilder)
+          _ <- getOrBuildSearchArgumentWithNewBuilder(dataTypeMap, left)
+          _ <- getOrBuildSearchArgumentWithNewBuilder(dataTypeMap, right)
           lhs <- buildSearchArgument(dataTypeMap, left, builder.startOr())
           rhs <- buildSearchArgument(dataTypeMap, right, lhs)
         } yield rhs.end()
 
       case Not(child) =>
         for {
-          _ <- buildSearchArgument(dataTypeMap, child, newBuilder)
+          _ <- getOrBuildSearchArgumentWithNewBuilder(dataTypeMap, child)
           negate <- buildSearchArgument(dataTypeMap, child, builder.startNot())
         } yield negate.end()
 
diff --git a/sql/core/src/test/scala/org/apache/spark/sql/execution/datasources/orc/OrcFilterSuite.scala b/sql/core/src/test/scala/org/apache/spark/sql/execution/datasources/orc/OrcFilterSuite.scala
@@ -20,9 +20,10 @@ package org.apache.spark.sql.execution.datasources.orc
 import java.nio.charset.StandardCharsets
 import java.sql.{Date, Timestamp}
 
-import scala.collection.JavaConverters._
-
 import org.apache.orc.storage.ql.io.sarg.{PredicateLeaf, SearchArgument}
+import org.scalatest.concurrent.TimeLimits
+import org.scalatest.time.SpanSugar._
+import scala.collection.JavaConverters._
 
 import org.apache.spark.sql.{Column, DataFrame}
 import org.apache.spark.sql.catalyst.dsl.expressions._
@@ -39,7 +40,7 @@ import org.apache.spark.sql.types._
  * - OrcFilterSuite uses 'org.apache.orc.storage.ql.io.sarg' package.
  * - HiveOrcFilterSuite uses 'org.apache.hadoop.hive.ql.io.sarg' package.
  */
-class OrcFilterSuite extends OrcTest with SharedSQLContext {
+class OrcFilterSuite extends OrcTest with SharedSQLContext with TimeLimits {
 
   private def checkFilterPredicate(
       df: DataFrame,
@@ -383,4 +384,13 @@ class OrcFilterSuite extends OrcTest with SharedSQLContext {
       )).get.toString
     }
   }
+
+  test("createFilter should not hang") {
+    import org.apache.spark.sql.sources._
+    val schema = new StructType(Array(StructField("a", IntegerType, nullable = true)))
+    val filters = (1 to 500).map(LessThan("a", _)).toArray[Filter]
+    failAfter(2 seconds) {
+      OrcFilters.createFilter(schema, filters)
+    }
+  }
 }
diff --git a/sql/hive/src/main/scala/org/apache/spark/sql/hive/orc/OrcFilters.scala b/sql/hive/src/main/scala/org/apache/spark/sql/hive/orc/OrcFilters.scala
@@ -17,9 +17,13 @@
 
 package org.apache.spark.sql.hive.orc
 
+import java.util.concurrent.TimeUnit
+
+import com.google.common.cache.{CacheBuilder, CacheLoader}
 import org.apache.hadoop.hive.ql.io.sarg.{SearchArgument, SearchArgumentFactory}
 import org.apache.hadoop.hive.ql.io.sarg.SearchArgument.Builder
 
+import org.apache.spark.SparkEnv
 import org.apache.spark.internal.Logging
 import org.apache.spark.sql.sources._
 import org.apache.spark.sql.types._
@@ -55,19 +59,52 @@ import org.apache.spark.sql.types._
  * known to be convertible.
  */
 private[orc] object OrcFilters extends Logging {
+  case class FilterWithTypeMap(filter: Filter, typeMap: Map[String, DataType])
+
+  private lazy val cacheExpireTimeout =
+    org.apache.spark.sql.execution.datasources.orc.OrcFilters.cacheExpireTimeout
+
+  private lazy val searchArgumentCache = CacheBuilder.newBuilder()
+    .expireAfterAccess(cacheExpireTimeout, TimeUnit.SECONDS)
+    .build(
+      new CacheLoader[FilterWithTypeMap, Option[Builder]]() {
+        override def load(typeMapAndFilter: FilterWithTypeMap): Option[Builder] = {
+          buildSearchArgument(
+            typeMapAndFilter.typeMap, typeMapAndFilter.filter, SearchArgumentFactory.newBuilder())
+        }
+      })
+
+  private def getOrBuildSearchArgumentWithNewBuilder(
+      dataTypeMap: Map[String, DataType],
+      expression: Filter): Option[Builder] = {
+    // When `spark.sql.orc.cache.sarg.timeout` is 0, cache is disabled.
+    if (cacheExpireTimeout > 0) {
+      searchArgumentCache.get(FilterWithTypeMap(expression, dataTypeMap))
+    } else {
+      buildSearchArgument(dataTypeMap, expression, SearchArgumentFactory.newBuilder())
+    }
+  }
+
   def createFilter(schema: StructType, filters: Array[Filter]): Option[SearchArgument] = {
     val dataTypeMap = schema.map(f => f.name -> f.dataType).toMap
 
     // First, tries to convert each filter individually to see whether it's convertible, and then
     // collect all convertible ones to build the final `SearchArgument`.
     val convertibleFilters = for {
       filter <- filters
-      _ <- buildSearchArgument(dataTypeMap, filter, SearchArgumentFactory.newBuilder())
+      _ <- getOrBuildSearchArgumentWithNewBuilder(dataTypeMap, filter)
     } yield filter
 
     for {
       // Combines all convertible filters using `And` to produce a single conjunction
-      conjunction <- convertibleFilters.reduceOption(And)
+      conjunction <- convertibleFilters.reduceOption { (x, y) =>
+        val newFilter = org.apache.spark.sql.sources.And(x, y)
+        if (cacheExpireTimeout > 0) {
+          // Build in a bottom-up manner
+          getOrBuildSearchArgumentWithNewBuilder(dataTypeMap, newFilter)
+        }
+        newFilter
+      }
       // Then tries to build a single ORC `SearchArgument` for the conjunction predicate
       builder <- buildSearchArgument(dataTypeMap, conjunction, SearchArgumentFactory.newBuilder())
     } yield builder.build()
@@ -77,8 +114,6 @@ private[orc] object OrcFilters extends Logging {
       dataTypeMap: Map[String, DataType],
       expression: Filter,
       builder: Builder): Option[Builder] = {
-    def newBuilder = SearchArgumentFactory.newBuilder()
-
     def isSearchableType(dataType: DataType): Boolean = dataType match {
       // Only the values in the Spark types below can be recognized by
       // the `SearchArgumentImpl.BuilderImpl.boxLiteral()` method.
@@ -98,23 +133,23 @@ private[orc] object OrcFilters extends Logging {
         // Pushing one side of AND down is only safe to do at the top level.
         // You can see ParquetRelation's initializeLocalJobFunc method as an example.
         for {
-          _ <- buildSearchArgument(dataTypeMap, left, newBuilder)
-          _ <- buildSearchArgument(dataTypeMap, right, newBuilder)
+          _ <- getOrBuildSearchArgumentWithNewBuilder(dataTypeMap, left)
+          _ <- getOrBuildSearchArgumentWithNewBuilder(dataTypeMap, right)
           lhs <- buildSearchArgument(dataTypeMap, left, builder.startAnd())
           rhs <- buildSearchArgument(dataTypeMap, right, lhs)
         } yield rhs.end()
 
       case Or(left, right) =>
         for {
-          _ <- buildSearchArgument(dataTypeMap, left, newBuilder)
-          _ <- buildSearchArgument(dataTypeMap, right, newBuilder)
+          _ <- getOrBuildSearchArgumentWithNewBuilder(dataTypeMap, left)
+          _ <- getOrBuildSearchArgumentWithNewBuilder(dataTypeMap, right)
           lhs <- buildSearchArgument(dataTypeMap, left, builder.startOr())
           rhs <- buildSearchArgument(dataTypeMap, right, lhs)
         } yield rhs.end()
 
       case Not(child) =>
         for {
-          _ <- buildSearchArgument(dataTypeMap, child, newBuilder)
+          _ <- getOrBuildSearchArgumentWithNewBuilder(dataTypeMap, child)
           negate <- buildSearchArgument(dataTypeMap, child, builder.startNot())
         } yield negate.end()
 
diff --git a/sql/hive/src/test/scala/org/apache/spark/sql/hive/orc/HiveOrcFilterSuite.scala b/sql/hive/src/test/scala/org/apache/spark/sql/hive/orc/HiveOrcFilterSuite.scala
@@ -20,9 +20,10 @@ package org.apache.spark.sql.hive.orc
 import java.nio.charset.StandardCharsets
 import java.sql.{Date, Timestamp}
 
-import scala.collection.JavaConverters._
-
 import org.apache.hadoop.hive.ql.io.sarg.{PredicateLeaf, SearchArgument}
+import org.scalatest.concurrent.TimeLimits
+import org.scalatest.time.SpanSugar._
+import scala.collection.JavaConverters._
 
 import org.apache.spark.sql.{Column, DataFrame}
 import org.apache.spark.sql.catalyst.dsl.expressions._
@@ -36,7 +37,7 @@ import org.apache.spark.sql.types._
 /**
  * A test suite that tests Hive ORC filter API based filter pushdown optimization.
  */
-class HiveOrcFilterSuite extends OrcTest with TestHiveSingleton {
+class HiveOrcFilterSuite extends OrcTest with TestHiveSingleton with TimeLimits {
 
   override val orcImp: String = "hive"
 
@@ -384,4 +385,13 @@ class HiveOrcFilterSuite extends OrcTest with TestHiveSingleton {
       )).get.toString
     }
   }
+
+  test("createFilter should not hang") {
+    import org.apache.spark.sql.sources._
+    val schema = new StructType(Array(StructField("a", IntegerType, nullable = true)))
+    val filters = (1 to 500).map(LessThan("a", _)).toArray[Filter]
+    failAfter(2 seconds) {
+      OrcFilters.createFilter(schema, filters)
+    }
+  }
 }