Rare terms aggregation precomputation (opensearch-project#18978)

ajleong623 · Peter Alfonsi · commit a0b01217bfc3 · 2025-10-15T15:36:00.000-07:00
---------

Signed-off-by: Anthony Leong &lt;aj.leong623@gmail.com&gt;
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -34,6 +34,7 @@ The format is based on [Keep a Changelog](https://keepachangelog.com/en/1.0.0/),
 - Implement GRPC MatchPhrase, MultiMatch queries ([#19449](https://github.com/opensearch-project/OpenSearch/pull/19449))
 - Optimize gRPC transport thread management for improved throughput ([#19278](https://github.com/opensearch-project/OpenSearch/pull/19278))
 - Implement GRPC Boolean query and inject registry for all internal query converters ([#19391](https://github.com/opensearch-project/OpenSearch/pull/19391))
+- Added precomputation for rare terms aggregation ([##18978](https://github.com/opensearch-project/OpenSearch/pull/18978))
 - Implement GRPC Script query ([#19455](https://github.com/opensearch-project/OpenSearch/pull/19455))
 - [Search Stats] Add search & star-tree search query failure count metrics ([#19210](https://github.com/opensearch-project/OpenSearch/issues/19210))
 - [Star-tree] Support for multi-terms aggregation ([#18398](https://github.com/opensearch-project/OpenSearch/issues/18398))
diff --git a/server/src/main/java/org/opensearch/search/aggregations/bucket/terms/RareTermsAggregatorFactory.java b/server/src/main/java/org/opensearch/search/aggregations/bucket/terms/RareTermsAggregatorFactory.java
@@ -97,7 +97,8 @@ public Aggregator build(
                 SearchContext context,
                 Aggregator parent,
                 CardinalityUpperBound cardinality,
-                Map<String, Object> metadata
+                Map<String, Object> metadata,
+                ValuesSourceConfig config
             ) throws IOException {
 
                 ExecutionMode execution = ExecutionMode.MAP; // TODO global ords not implemented yet, only supports "map"
@@ -123,7 +124,8 @@ public Aggregator build(
                     metadata,
                     maxDocCount,
                     precision,
-                    cardinality
+                    cardinality,
+                    config
                 );
 
             }
@@ -148,7 +150,8 @@ public Aggregator build(
                 SearchContext context,
                 Aggregator parent,
                 CardinalityUpperBound cardinality,
-                Map<String, Object> metadata
+                Map<String, Object> metadata,
+                ValuesSourceConfig config
             ) throws IOException {
 
                 if ((includeExclude != null) && (includeExclude.isRegexBased())) {
@@ -233,7 +236,8 @@ protected Aggregator doCreateInternal(
                 searchContext,
                 parent,
                 cardinality,
-                metadata
+                metadata,
+                config
             );
     }
 
@@ -263,7 +267,8 @@ Aggregator create(
                 Map<String, Object> metadata,
                 long maxDocCount,
                 double precision,
-                CardinalityUpperBound cardinality
+                CardinalityUpperBound cardinality,
+                ValuesSourceConfig config
             ) throws IOException {
                 int maxRegexLength = context.getQueryShardContext().getIndexSettings().getMaxRegexLength();
                 final IncludeExclude.StringFilter filter = includeExclude == null
@@ -280,7 +285,8 @@ Aggregator create(
                     metadata,
                     maxDocCount,
                     precision,
-                    cardinality
+                    cardinality,
+                    config
                 );
             }
 
@@ -317,7 +323,8 @@ abstract Aggregator create(
             Map<String, Object> metadata,
             long maxDocCount,
             double precision,
-            CardinalityUpperBound cardinality
+            CardinalityUpperBound cardinality,
+            ValuesSourceConfig config
         ) throws IOException;
 
         abstract boolean needsGlobalOrdinals();
diff --git a/server/src/main/java/org/opensearch/search/aggregations/bucket/terms/RareTermsAggregatorSupplier.java b/server/src/main/java/org/opensearch/search/aggregations/bucket/terms/RareTermsAggregatorSupplier.java
@@ -36,6 +36,7 @@
 import org.opensearch.search.aggregations.AggregatorFactories;
 import org.opensearch.search.aggregations.CardinalityUpperBound;
 import org.opensearch.search.aggregations.support.ValuesSource;
+import org.opensearch.search.aggregations.support.ValuesSourceConfig;
 import org.opensearch.search.internal.SearchContext;
 
 import java.io.IOException;
@@ -58,6 +59,7 @@ Aggregator build(
         SearchContext context,
         Aggregator parent,
         CardinalityUpperBound carinality,
-        Map<String, Object> metadata
+        Map<String, Object> metadata,
+        ValuesSourceConfig config
     ) throws IOException;
 }
diff --git a/server/src/main/java/org/opensearch/search/aggregations/bucket/terms/StringRareTermsAggregator.java b/server/src/main/java/org/opensearch/search/aggregations/bucket/terms/StringRareTermsAggregator.java
@@ -31,13 +31,19 @@
 
 package org.opensearch.search.aggregations.bucket.terms;
 
+import org.apache.lucene.index.DocValues;
 import org.apache.lucene.index.LeafReaderContext;
+import org.apache.lucene.index.NumericDocValues;
+import org.apache.lucene.index.Terms;
+import org.apache.lucene.index.TermsEnum;
+import org.apache.lucene.search.Weight;
 import org.apache.lucene.util.BytesRef;
 import org.apache.lucene.util.BytesRefBuilder;
 import org.opensearch.common.lease.Releasables;
 import org.opensearch.common.util.BytesRefHash;
 import org.opensearch.common.util.SetBackedScalingCuckooFilter;
 import org.opensearch.index.fielddata.SortedBinaryDocValues;
+import org.opensearch.index.mapper.DocCountFieldMapper;
 import org.opensearch.search.DocValueFormat;
 import org.opensearch.search.aggregations.Aggregator;
 import org.opensearch.search.aggregations.AggregatorFactories;
@@ -46,6 +52,7 @@
 import org.opensearch.search.aggregations.LeafBucketCollector;
 import org.opensearch.search.aggregations.LeafBucketCollectorBase;
 import org.opensearch.search.aggregations.support.ValuesSource;
+import org.opensearch.search.aggregations.support.ValuesSourceConfig;
 import org.opensearch.search.internal.SearchContext;
 
 import java.io.IOException;
@@ -55,6 +62,7 @@
 import java.util.Map;
 
 import static java.util.Collections.emptyList;
+import static org.apache.lucene.search.DocIdSetIterator.NO_MORE_DOCS;
 
 /**
  * An aggregator that finds "rare" string values (e.g. terms agg that orders ascending)
@@ -64,7 +72,10 @@
 public class StringRareTermsAggregator extends AbstractRareTermsAggregator {
     private final ValuesSource.Bytes valuesSource;
     private final IncludeExclude.StringFilter filter;
+    private Weight weight;
     private final BytesKeyedBucketOrds bucketOrds;
+    protected final String fieldName;
+    private final ValuesSourceConfig config;
 
     StringRareTermsAggregator(
         String name,
@@ -77,12 +88,19 @@ public class StringRareTermsAggregator extends AbstractRareTermsAggregator {
         Map<String, Object> metadata,
         long maxDocCount,
         double precision,
-        CardinalityUpperBound cardinality
+        CardinalityUpperBound cardinality,
+        ValuesSourceConfig config
     ) throws IOException {
         super(name, factories, context, parent, metadata, maxDocCount, precision, format);
         this.valuesSource = valuesSource;
         this.filter = filter;
         this.bucketOrds = BytesKeyedBucketOrds.build(context.bigArrays(), cardinality);
+        this.fieldName = valuesSource.getIndexFieldName();
+        this.config = config;
+    }
+
+    public void setWeight(Weight weight) {
+        this.weight = weight;
     }
 
     @Override
@@ -122,6 +140,68 @@ public void collect(int docId, long owningBucketOrd) throws IOException {
         };
     }
 
+    @Override
+    protected boolean tryPrecomputeAggregationForLeaf(LeafReaderContext ctx) throws IOException {
+        if (weight == null) {
+            return false;
+        } else {
+            // The optimization could only be used if there are no deleted documents and the top-level
+            // query matches all documents in the segment.
+            if (weight.count(ctx) == 0) {
+                return true;
+            } else if (weight.count(ctx) != ctx.reader().maxDoc()) {
+                return false;
+            }
+        }
+
+        if (subAggregators.length > 0) {
+            // The optimization does not work when there are subaggregations.
+            // The query has to be a match all, otherwise
+            return false;
+        }
+
+        Terms stringTerms = ctx.reader().terms(fieldName);
+        if (stringTerms == null) {
+            // Field is not indexed.
+            return false;
+        }
+
+        NumericDocValues docCountValues = DocValues.getNumeric(ctx.reader(), DocCountFieldMapper.NAME);
+        if (docCountValues.nextDoc() != NO_MORE_DOCS) {
+            // This segment has at least one document with the _doc_count field.
+            return false;
+        }
+
+        TermsEnum stringTermsEnum = stringTerms.iterator();
+        BytesRef stringTerm = stringTermsEnum.next();
+
+        // Here, we are accounting for the case that there might be missing values for the field name
+        if (config != null && config.missing() != null) {
+            String missingField = (String) config.missing();
+            BytesRef missingFieldTerm = new BytesRef(missingField);
+            int missingCount = weight.count(ctx) - ctx.reader().getDocCount(fieldName);
+            if (missingCount > 0) {
+                // Since the bucket name for the missing documents is not indexed as a potential value for that field,
+                // We will not have to worry about adding to a bucket that was already seen.
+                long bucketOrdinal = bucketOrds.add(0L, missingFieldTerm);
+                incrementBucketDocCount(bucketOrdinal, missingCount);
+            }
+        }
+
+        // Here, we will iterate over all the terms in the segment and add the counts into the bucket.
+        while (stringTerm != null) {
+            if (filter == null || filter.accept(stringTerm)) {
+                long bucketOrdinal = bucketOrds.add(0L, stringTerm);
+                if (bucketOrdinal < 0) { // already seen
+                    bucketOrdinal = -1 - bucketOrdinal;
+                }
+                incrementBucketDocCount(bucketOrdinal, stringTermsEnum.docFreq());
+            }
+            stringTerm = stringTermsEnum.next();
+        }
+        return true;
+    }
+
     @Override
     public InternalAggregation[] buildAggregations(long[] owningBucketOrds) throws IOException {
         /*
diff --git a/server/src/main/java/org/opensearch/search/aggregations/support/MissingValues.java b/server/src/main/java/org/opensearch/search/aggregations/support/MissingValues.java
@@ -269,6 +269,11 @@ public String toString() {
                 return "anon ValuesSource.Bytes.WithOrdinals of [" + super.toString() + "]";
             }
 
+            @Override
+            public String getIndexFieldName() {
+                return valuesSource.getIndexFieldName();
+            }
+
         };
     }
 
diff --git a/server/src/main/java/org/opensearch/search/aggregations/support/ValuesSource.java b/server/src/main/java/org/opensearch/search/aggregations/support/ValuesSource.java
@@ -113,6 +113,10 @@ public boolean hasGlobalOrdinals() {
         return false;
     }
 
+    public String getIndexFieldName() {
+        return null;
+    }
+
     /**
      * Range type
      *
@@ -249,6 +253,7 @@ public FieldData(IndexOrdinalsFieldData indexFieldData) {
                     this.indexFieldData = indexFieldData;
                 }
 
+                @Override
                 public String getIndexFieldName() {
                     return this.indexFieldData.getFieldName();
                 }
@@ -309,6 +314,11 @@ public SortedBinaryDocValues bytesValues(LeafReaderContext context) {
                 return indexFieldData.load(context).getBytesValues();
             }
 
+            @Override
+            public String getIndexFieldName() {
+                return this.indexFieldData.getFieldName();
+            }
+
         }
 
         /**
@@ -631,6 +641,7 @@ public SortedNumericDoubleValues doubleValues(LeafReaderContext context) {
                 return indexFieldData.load(context).getDoubleValues();
             }
 
+            @Override
             public String getIndexFieldName() {
                 return indexFieldData.getFieldName();
             }
diff --git a/server/src/test/java/org/opensearch/search/aggregations/bucket/terms/RareTermsAggregatorTests.java b/server/src/test/java/org/opensearch/search/aggregations/bucket/terms/RareTermsAggregatorTests.java
diff --git a/test/framework/src/main/java/org/opensearch/search/aggregations/AggregatorTestCase.java b/test/framework/src/main/java/org/opensearch/search/aggregations/AggregatorTestCase.java

Original file line number	Diff line number	Diff line change
`@@ -269,6 +269,11 @@ public String toString() {`
`269`	`269`	`return "anon ValuesSource.Bytes.WithOrdinals of [" + super.toString() + "]";`
`270`	`270`	`}`
`271`	`271`
	`272`	`+ @Override`
	`273`	`+ public String getIndexFieldName() {`
	`274`	`+ return valuesSource.getIndexFieldName();`
	`275`	`+ }`
	`276`	`+`
`272`	`277`	`};`
`273`	`278`	`}`
`274`	`279`
Original file line number	Diff line number	Diff line change
`@@ -113,6 +113,10 @@ public boolean hasGlobalOrdinals() {`
`113`	`113`	`return false;`
`114`	`114`	`}`
`115`	`115`
	`116`	`+ public String getIndexFieldName() {`
	`117`	`+ return null;`
	`118`	`+ }`
	`119`	`+`
`116`	`120`	`/**`
`117`	`121`	`* Range type`
`118`	`122`	`*`
`@@ -249,6 +253,7 @@ public FieldData(IndexOrdinalsFieldData indexFieldData) {`
`249`	`253`	`this.indexFieldData = indexFieldData;`
`250`	`254`	`}`
`251`	`255`
	`256`	`+ @Override`
`252`	`257`	`public String getIndexFieldName() {`
`253`	`258`	`return this.indexFieldData.getFieldName();`
`254`	`259`	`}`
`@@ -309,6 +314,11 @@ public SortedBinaryDocValues bytesValues(LeafReaderContext context) {`
`309`	`314`	`return indexFieldData.load(context).getBytesValues();`
`310`	`315`	`}`
`311`	`316`
	`317`	`+ @Override`
	`318`	`+ public String getIndexFieldName() {`
	`319`	`+ return this.indexFieldData.getFieldName();`
	`320`	`+ }`
	`321`	`+`
`312`	`322`	`}`
`313`	`323`
`314`	`324`	`/**`
`@@ -631,6 +641,7 @@ public SortedNumericDoubleValues doubleValues(LeafReaderContext context) {`
`631`	`641`	`return indexFieldData.load(context).getDoubleValues();`
`632`	`642`	`}`
`633`	`643`
	`644`	`+ @Override`
`634`	`645`	`public String getIndexFieldName() {`
`635`	`646`	`return indexFieldData.getFieldName();`
`636`	`647`	`}`