sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/analysis/Analyzer.scala

-Original file line number
+Diff line change
@@ Expand Up / @@ -91,7 +91,6 @@ class Analyzer( @@
           ExtractWindowExpressions ::
           GlobalAggregates ::
           ResolveAggregateFunctions ::
-          DistinctAggregationRewriter(conf) ::
           HiveTypeCoercion.typeCoercionRules ++
           extendedResolutionRules : _*),
         Batch("Nondeterministic", Once,
@@ Expand Down @@

...t/src/main/scala/org/apache/spark/sql/catalyst/analysis/DistinctAggregationRewriter.scala

            
                      Original file line number
                      Diff line number
                      Diff line change
                  
    @@ -17,7 +17,6 @@
  
    package org.apache.spark.sql.catalyst.analysis

    import org.apache.spark.sql.catalyst.CatalystConf

    import org.apache.spark.sql.catalyst.expressions._

    import org.apache.spark.sql.catalyst.expressions.aggregate.{AggregateExpression, AggregateFunction, Complete}

    import org.apache.spark.sql.catalyst.plans.logical.{Aggregate, Expand, LogicalPlan}

    @@ -100,13 +99,10 @@ import org.apache.spark.sql.types.IntegerType
  
     * we could improve this in the current rule by applying more advanced expression cannocalization

     * techniques.

     */

    case class DistinctAggregationRewriter(conf: CatalystConf) extends Rule[LogicalPlan] {

    object DistinctAggregationRewriter extends Rule[LogicalPlan] {

      def apply(plan: LogicalPlan): LogicalPlan = plan resolveOperators {

        case p if !p.resolved => p

        // We need to wait until this Aggregate operator is resolved.

      def apply(plan: LogicalPlan): LogicalPlan = plan transformUp {

        case a: Aggregate => rewrite(a)

        case p => p

      }

      def rewrite(a: Aggregate): Aggregate = {

sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/optimizer/Optimizer.scala

-Original file line number
+Diff line change
@@ Expand Up / @@ -20,7 +20,7 @@ package org.apache.spark.sql.catalyst.optimizer @@
     import scala.annotation.tailrec
     import scala.collection.immutable.HashSet
-    import org.apache.spark.sql.catalyst.analysis.{CleanupAliases, EliminateSubqueryAliases}
+    import org.apache.spark.sql.catalyst.analysis.{CleanupAliases, DistinctAggregationRewriter, EliminateSubqueryAliases}
     import org.apache.spark.sql.catalyst.expressions._
     import org.apache.spark.sql.catalyst.expressions.aggregate._
     import org.apache.spark.sql.catalyst.expressions.Literal.{FalseLiteral, TrueLiteral}
@@ Expand All / @@ -42,7 +42,8 @@ abstract class Optimizer extends RuleExecutor[LogicalPlan] { @@
         // we do not eliminate subqueries or compute current time in the analyzer.
         Batch("Finish Analysis", Once,
           EliminateSubqueryAliases,
-          ComputeCurrentTime) ::
+          ComputeCurrentTime,
+          DistinctAggregationRewriter) ::
         //////////////////////////////////////////////////////////////////////////////////////////
         // Optimizer rules start here
         //////////////////////////////////////////////////////////////////////////////////////////
@@ Expand Down @@

sql/hive/src/test/scala/org/apache/spark/sql/hive/LogicalPlanToSQLSuite.scala

-Original file line number
+Diff line change
@@ Expand Up @@
           """.stripMargin)
       }
       test("intersect") {
         checkHiveQl("SELECT * FROM t0 INTERSECT SELECT * FROM t0")
       }
@@ Expand Down Expand Up @@
         checkHiveQl("SELECT * FROM parquet_t0 TABLESAMPLE(0.1 PERCENT) WHERE 1=0")
       }
-      // TODO Enable this
-      // Query plans transformed by DistinctAggregationRewriter are not recognized yet
-      ignore("multi-distinct columns") {
+      test("multi-distinct columns") {
         checkHiveQl("SELECT a, COUNT(DISTINCT b), COUNT(DISTINCT c), SUM(d) FROM parquet_t2 GROUP BY a")
       }
@@ Expand Down @@

[SPARK-12727][SQL] support SQL generation for aggregate with multi-distinct #11579

New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Closed

cloud-fan wants to merge 1 commit into apache:master from cloud-fan:distinct

-Original file line number
+Diff line change
@@ Expand Up / @@ -91,7 +91,6 @@ class Analyzer( @@
           ExtractWindowExpressions ::
           GlobalAggregates ::
           ResolveAggregateFunctions ::
-          DistinctAggregationRewriter(conf) ::
           HiveTypeCoercion.typeCoercionRules ++
           extendedResolutionRules : _*),
         Batch("Nondeterministic", Once,
@@ Expand Down @@

-Original file line number
+Diff line change
@@ Expand Up / @@ -20,7 +20,7 @@ package org.apache.spark.sql.catalyst.optimizer @@
     import scala.annotation.tailrec
     import scala.collection.immutable.HashSet
-    import org.apache.spark.sql.catalyst.analysis.{CleanupAliases, EliminateSubqueryAliases}
+    import org.apache.spark.sql.catalyst.analysis.{CleanupAliases, DistinctAggregationRewriter, EliminateSubqueryAliases}
     import org.apache.spark.sql.catalyst.expressions._
     import org.apache.spark.sql.catalyst.expressions.aggregate._
     import org.apache.spark.sql.catalyst.expressions.Literal.{FalseLiteral, TrueLiteral}
@@ Expand All / @@ -42,7 +42,8 @@ abstract class Optimizer extends RuleExecutor[LogicalPlan] { @@
         // we do not eliminate subqueries or compute current time in the analyzer.
         Batch("Finish Analysis", Once,
           EliminateSubqueryAliases,
-          ComputeCurrentTime) ::
+          ComputeCurrentTime,
+          DistinctAggregationRewriter) ::
         //////////////////////////////////////////////////////////////////////////////////////////
         // Optimizer rules start here
         //////////////////////////////////////////////////////////////////////////////////////////
@@ Expand Down @@

-Original file line number
+Diff line change
@@ Expand Up @@
           """.stripMargin)
       }
       test("intersect") {
         checkHiveQl("SELECT * FROM t0 INTERSECT SELECT * FROM t0")
       }
@@ Expand Down Expand Up @@
         checkHiveQl("SELECT * FROM parquet_t0 TABLESAMPLE(0.1 PERCENT) WHERE 1=0")
       }
-      // TODO Enable this
-      // Query plans transformed by DistinctAggregationRewriter are not recognized yet
-      ignore("multi-distinct columns") {
+      test("multi-distinct columns") {
         checkHiveQl("SELECT a, COUNT(DISTINCT b), COUNT(DISTINCT c), SUM(d) FROM parquet_t2 GROUP BY a")
       }
@@ Expand Down @@

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[SPARK-12727][SQL] support SQL generation for aggregate with multi-distinct #11579

Uh oh!

Diff view

Diff view

There are no files selected for viewing