apache · leonardBang · Jan 13, 2024 · Dec 18, 2023 · Dec 15, 2023 · Dec 16, 2023
diff --git a/...ysql/src/main/java/com/ververica/cdc/connectors/mysql/factory/MySqlDataSourceFactory.java b/...ysql/src/main/java/com/ververica/cdc/connectors/mysql/factory/MySqlDataSourceFactory.java
@@ -203,6 +203,8 @@ public String identifier() {
     }
 
     private static final String SCAN_STARTUP_MODE_VALUE_INITIAL = "initial";
+
+    private static final String SCAN_STARTUP_MODE_VALUE_SNAPSHOT = "snapshot";
     private static final String SCAN_STARTUP_MODE_VALUE_EARLIEST = "earliest-offset";
     private static final String SCAN_STARTUP_MODE_VALUE_LATEST = "latest-offset";
     private static final String SCAN_STARTUP_MODE_VALUE_SPECIFIC_OFFSET = "specific-offset";
@@ -221,7 +223,8 @@ private static StartupOptions getStartupOptions(Configuration config) {
         switch (modeString.toLowerCase()) {
             case SCAN_STARTUP_MODE_VALUE_INITIAL:
                 return StartupOptions.initial();
-
+            case SCAN_STARTUP_MODE_VALUE_SNAPSHOT:
+                return StartupOptions.snapshot();
             case SCAN_STARTUP_MODE_VALUE_LATEST:
                 return StartupOptions.latest();
 
@@ -238,9 +241,10 @@ private static StartupOptions getStartupOptions(Configuration config) {
             default:
                 throw new ValidationException(
                         String.format(
-                                "Invalid value for option '%s'. Supported values are [%s, %s, %s, %s, %s], but was: %s",
+                                "Invalid value for option '%s'. Supported values are [%s, %s, %s, %s, %s, %s], but was: %s",
                                 SCAN_STARTUP_MODE.key(),
                                 SCAN_STARTUP_MODE_VALUE_INITIAL,
+                                SCAN_STARTUP_MODE_VALUE_SNAPSHOT,
                                 SCAN_STARTUP_MODE_VALUE_LATEST,
                                 SCAN_STARTUP_MODE_VALUE_EARLIEST,
                                 SCAN_STARTUP_MODE_VALUE_SPECIFIC_OFFSET,

diff --git a/...-base/src/main/java/com/ververica/cdc/connectors/base/config/JdbcSourceConfigFactory.java b/...-base/src/main/java/com/ververica/cdc/connectors/base/config/JdbcSourceConfigFactory.java
@@ -201,6 +201,7 @@ public JdbcSourceConfigFactory chunkKeyColumn(String chunkKeyColumn) {
     public JdbcSourceConfigFactory startupOptions(StartupOptions startupOptions) {
         switch (startupOptions.startupMode) {
             case INITIAL:
+            case SNAPSHOT:
             case LATEST_OFFSET:
                 break;
             default:

diff --git a/...s/flink-cdc-base/src/main/java/com/ververica/cdc/connectors/base/options/StartupMode.java b/...s/flink-cdc-base/src/main/java/com/ververica/cdc/connectors/base/options/StartupMode.java
@@ -30,5 +30,6 @@ public enum StartupMode {
 
     SPECIFIC_OFFSETS,
 
-    TIMESTAMP
+    TIMESTAMP,
+    SNAPSHOT
 }
diff --git a/...link-cdc-base/src/main/java/com/ververica/cdc/connectors/base/options/StartupOptions.java b/...link-cdc-base/src/main/java/com/ververica/cdc/connectors/base/options/StartupOptions.java
@@ -38,6 +38,14 @@ public static StartupOptions initial() {
         return new StartupOptions(StartupMode.INITIAL, null, null, null);
     }
 
+    /**
+     * Performs an initial snapshot on the monitored database tables upon first startup, and not
+     * read the binlog anymore .
+     */
+    public static StartupOptions snapshot() {
+        return new StartupOptions(StartupMode.SNAPSHOT, null, null, null);
+    }
+
     /**
      * Never to perform snapshot on the monitored database tables upon first startup, just read from
      * the beginning of the change log. This should be used with care, as it is only valid when the
@@ -89,6 +97,7 @@ private StartupOptions(
 
         switch (startupMode) {
             case INITIAL:
+            case SNAPSHOT:
             case EARLIEST_OFFSET:
             case LATEST_OFFSET:
                 break;
@@ -104,6 +113,17 @@ private StartupOptions(
         }
     }
 
+    public boolean isStreamOnly() {
+        return startupMode == StartupMode.EARLIEST_OFFSET
+                || startupMode == StartupMode.LATEST_OFFSET
+                || startupMode == StartupMode.SPECIFIC_OFFSETS
+                || startupMode == StartupMode.TIMESTAMP;
+    }
+
+    public boolean isSnapshotOnly() {
+        return startupMode == StartupMode.SNAPSHOT;
+    }
+
     @Override
     public boolean equals(Object o) {
         if (this == o) {

diff --git a/...nk-cdc-base/src/main/java/com/ververica/cdc/connectors/base/source/IncrementalSource.java b/...nk-cdc-base/src/main/java/com/ververica/cdc/connectors/base/source/IncrementalSource.java
@@ -33,7 +33,6 @@
 import com.ververica.cdc.common.annotation.VisibleForTesting;
 import com.ververica.cdc.connectors.base.config.SourceConfig;
 import com.ververica.cdc.connectors.base.dialect.DataSourceDialect;
-import com.ververica.cdc.connectors.base.options.StartupMode;
 import com.ververica.cdc.connectors.base.source.assigner.HybridSplitAssigner;
 import com.ververica.cdc.connectors.base.source.assigner.SplitAssigner;
 import com.ververica.cdc.connectors.base.source.assigner.StreamSplitAssigner;
@@ -101,7 +100,12 @@ public OffsetFactory getOffsetFactory() {
 
     @Override
     public Boundedness getBoundedness() {
-        return Boundedness.CONTINUOUS_UNBOUNDED;
+        C sourceConfig = configFactory.create(0);
+        if (sourceConfig.getStartupOptions().isSnapshotOnly()) {
+            return Boundedness.BOUNDED;
+        } else {
+            return Boundedness.CONTINUOUS_UNBOUNDED;
+        }
     }
 
     @Override
@@ -139,7 +143,7 @@ public SplitEnumerator<SourceSplitBase, PendingSplitsState> createEnumerator(
             SplitEnumeratorContext<SourceSplitBase> enumContext) {
         C sourceConfig = configFactory.create(0);
         final SplitAssigner splitAssigner;
-        if (sourceConfig.getStartupOptions().startupMode == StartupMode.INITIAL) {
+        if (!sourceConfig.getStartupOptions().isStreamOnly()) {
             try {
                 final List<TableId> remainingTables =
                         dataSourceDialect.discoverDataCollections(sourceConfig);
@@ -161,7 +165,8 @@ public SplitEnumerator<SourceSplitBase, PendingSplitsState> createEnumerator(
             splitAssigner = new StreamSplitAssigner(sourceConfig, dataSourceDialect, offsetFactory);
         }
 
-        return new IncrementalSourceEnumerator(enumContext, sourceConfig, splitAssigner);
+        return new IncrementalSourceEnumerator(
+                enumContext, sourceConfig, splitAssigner, getBoundedness());
     }
 
     @Override
@@ -189,7 +194,8 @@ public SplitEnumerator<SourceSplitBase, PendingSplitsState> restoreEnumerator(
             throw new UnsupportedOperationException(
                     "Unsupported restored PendingSplitsState: " + checkpoint);
         }
-        return new IncrementalSourceEnumerator(enumContext, sourceConfig, splitAssigner);
+        return new IncrementalSourceEnumerator(
+                enumContext, sourceConfig, splitAssigner, getBoundedness());
     }
 
     @Override

diff --git a/.../src/main/java/com/ververica/cdc/connectors/base/source/assigner/HybridSplitAssigner.java b/.../src/main/java/com/ververica/cdc/connectors/base/source/assigner/HybridSplitAssigner.java
@@ -46,6 +46,7 @@ public class HybridSplitAssigner<C extends SourceConfig> implements SplitAssigne
     private static final String STREAM_SPLIT_ID = "stream-split";
 
     private final int splitMetaGroupSize;
+    private final C sourceConfig;
 
     private boolean isStreamSplitAssigned;
 
@@ -61,6 +62,7 @@ public HybridSplitAssigner(
             DataSourceDialect<C> dialect,
             OffsetFactory offsetFactory) {
         this(
+                sourceConfig,
                 new SnapshotSplitAssigner<>(
                         sourceConfig,
                         currentParallelism,
@@ -80,6 +82,7 @@ public HybridSplitAssigner(
             DataSourceDialect<C> dialect,
             OffsetFactory offsetFactory) {
         this(
+                sourceConfig,
                 new SnapshotSplitAssigner<>(
                         sourceConfig,
                         currentParallelism,
@@ -92,10 +95,12 @@ public HybridSplitAssigner(
     }
 
     private HybridSplitAssigner(
+            C sourceConfig,
             SnapshotSplitAssigner<C> snapshotSplitAssigner,
             boolean isStreamSplitAssigned,
             int splitMetaGroupSize,
             OffsetFactory offsetFactory) {
+        this.sourceConfig = sourceConfig;
         this.snapshotSplitAssigner = snapshotSplitAssigner;
         this.isStreamSplitAssigned = isStreamSplitAssigned;
         this.splitMetaGroupSize = splitMetaGroupSize;
@@ -179,8 +184,8 @@ public void notifyCheckpointComplete(long checkpointId) {
     }
 
     @Override
-    public boolean isStreamSplitAssigned() {
-        return isStreamSplitAssigned;
+    public boolean noMoreSplits() {
+        return snapshotSplitAssigner.noMoreSplits() && isStreamSplitAssigned;
     }
 
     @Override
@@ -199,13 +204,17 @@ public StreamSplit createStreamSplit() {
         Map<String, Offset> splitFinishedOffsets = snapshotSplitAssigner.getSplitFinishedOffsets();
         final List<FinishedSnapshotSplitInfo> finishedSnapshotSplitInfos = new ArrayList<>();
 
-        Offset minOffset = null;
+        Offset minOffset = null, maxOffset = null;
         for (SchemalessSnapshotSplit split : assignedSnapshotSplit) {
-            // find the min offset of change log
+            // find the min and max offset of change log
             Offset changeLogOffset = splitFinishedOffsets.get(split.splitId());
             if (minOffset == null || changeLogOffset.isBefore(minOffset)) {
                 minOffset = changeLogOffset;
             }
+            if (maxOffset == null || changeLogOffset.isAfter(maxOffset)) {
+                maxOffset = changeLogOffset;
+            }
+
             finishedSnapshotSplitInfos.add(
                     new FinishedSnapshotSplitInfo(
                             split.getTableId(),
@@ -216,14 +225,21 @@ public StreamSplit createStreamSplit() {
                             offsetFactory));
         }
 
+        // If the source is running in snapshot mode, we use the highest watermark among
+        // snapshot splits as the ending offset to provide a consistent snapshot view at the moment
+        // of high watermark.
+        Offset stoppingOffset = offsetFactory.createNoStoppingOffset();
+        if (sourceConfig.getStartupOptions().isSnapshotOnly()) {
+            stoppingOffset = maxOffset;
+        }
+
         // the finishedSnapshotSplitInfos is too large for transmission, divide it to groups and
         // then transfer them
-
         boolean divideMetaToGroups = finishedSnapshotSplitInfos.size() > splitMetaGroupSize;
         return new StreamSplit(
                 STREAM_SPLIT_ID,
                 minOffset == null ? offsetFactory.createInitialOffset() : minOffset,
-                offsetFactory.createNoStoppingOffset(),
+                stoppingOffset,
                 divideMetaToGroups ? new ArrayList<>() : finishedSnapshotSplitInfos,
                 new HashMap<>(),
                 finishedSnapshotSplitInfos.size());

diff --git a/...rc/main/java/com/ververica/cdc/connectors/base/source/assigner/SnapshotSplitAssigner.java b/...rc/main/java/com/ververica/cdc/connectors/base/source/assigner/SnapshotSplitAssigner.java
@@ -290,7 +290,7 @@ public void notifyCheckpointComplete(long checkpointId) {
     @Override
     public void close() {}
 
-    /** Indicates there is no more splits available in this assigner. */
+    @Override
     public boolean noMoreSplits() {
         return remainingTables.isEmpty() && remainingSplits.isEmpty();
     }

diff --git a/...c-base/src/main/java/com/ververica/cdc/connectors/base/source/assigner/SplitAssigner.java b/...c-base/src/main/java/com/ververica/cdc/connectors/base/source/assigner/SplitAssigner.java
@@ -55,10 +55,8 @@ public interface SplitAssigner {
      */
     boolean waitingForFinishedSplits();
 
-    /** Whether the split assigner is finished stream split assigning. */
-    default boolean isStreamSplitAssigned() {
-        throw new UnsupportedOperationException("Not support to assigning StreamSplit.");
-    }
+    /** Indicates there is no more splits available in this assigner. */
+    boolean noMoreSplits();
 
     /**
      * Gets the finished splits' information. This is useful metadata to generate a stream split

diff --git a/.../src/main/java/com/ververica/cdc/connectors/base/source/assigner/StreamSplitAssigner.java b/.../src/main/java/com/ververica/cdc/connectors/base/source/assigner/StreamSplitAssigner.java
@@ -119,7 +119,7 @@ public void notifyCheckpointComplete(long checkpointId) {
     }
 
     @Override
-    public boolean isStreamSplitAssigned() {
+    public boolean noMoreSplits() {
         return isStreamSplitAssigned;
     }
 

diff --git a/...java/com/ververica/cdc/connectors/base/source/enumerator/IncrementalSourceEnumerator.java b/...java/com/ververica/cdc/connectors/base/source/enumerator/IncrementalSourceEnumerator.java
@@ -16,6 +16,7 @@
 
 package com.ververica.cdc.connectors.base.source.enumerator;
 
+import org.apache.flink.api.connector.source.Boundedness;
 import org.apache.flink.api.connector.source.SourceEvent;
 import org.apache.flink.api.connector.source.SplitEnumerator;
 import org.apache.flink.api.connector.source.SplitEnumeratorContext;
@@ -66,14 +67,18 @@ public class IncrementalSourceEnumerator
     private final TreeSet<Integer> readersAwaitingSplit;
     private List<List<FinishedSnapshotSplitInfo>> finishedSnapshotSplitMeta;
 
+    private Boundedness boundedness;
+
     public IncrementalSourceEnumerator(
             SplitEnumeratorContext<SourceSplitBase> context,
             SourceConfig sourceConfig,
-            SplitAssigner splitAssigner) {
+            SplitAssigner splitAssigner,
+            Boundedness boundedness) {
         this.context = context;
         this.sourceConfig = sourceConfig;
         this.splitAssigner = splitAssigner;
         this.readersAwaitingSplit = new TreeSet<>();
+        this.boundedness = boundedness;
     }
 
     @Override
@@ -163,7 +168,7 @@ private void assignSplits() {
                 continue;
             }
 
-            if (splitAssigner.isStreamSplitAssigned() && sourceConfig.isCloseIdleReaders()) {
+            if (shouldCloseIdleReader()) {
                 // close idle readers when snapshot phase finished.
                 context.signalNoMoreSplits(nextAwaiting);
                 awaitingReader.remove();
@@ -184,6 +189,17 @@ private void assignSplits() {
         }
     }
 
+    private boolean shouldCloseIdleReader() {
+        // When no unassigned split anymore, Signal NoMoreSplitsEvent to awaiting reader in two
+        // situations:
+        // 1. When Set StartupMode = snapshot mode(also bounded), there's no more splits in the
+        // assigner.
+        // 2. When set scan.incremental.close-idle-reader.enabled = true, there's no more splits in
+        // the assigner.
+        return splitAssigner.noMoreSplits()
+                && (boundedness == Boundedness.BOUNDED || (sourceConfig.isCloseIdleReaders()));
+    }
+
     private int[] getRegisteredReader() {
         return this.context.registeredReaders().keySet().stream()
                 .mapToInt(Integer::intValue)

diff --git a/...rc/main/java/com/ververica/cdc/connectors/base/source/reader/IncrementalSourceReader.java b/...rc/main/java/com/ververica/cdc/connectors/base/source/reader/IncrementalSourceReader.java
@@ -141,6 +141,10 @@ public void notifyCheckpointComplete(long checkpointId) throws Exception {
     protected void onSplitFinished(Map<String, SourceSplitState> finishedSplitIds) {
         for (SourceSplitState splitState : finishedSplitIds.values()) {
             SourceSplitBase sourceSplit = splitState.toSourceSplit();
+            if (sourceConfig.getStartupOptions().isSnapshotOnly() && sourceSplit.isStreamSplit()) {
+                // when startupMode = SNAPSHOT. the stream split could finish.
+                continue;
+            }
             checkState(
                     sourceSplit.isSnapshotSplit(),
                     String.format(

diff --git a/...in/java/com/ververica/cdc/connectors/base/source/reader/IncrementalSourceSplitReader.java b/...in/java/com/ververica/cdc/connectors/base/source/reader/IncrementalSourceSplitReader.java
@@ -84,7 +84,7 @@ public RecordsWithSplitIds<SourceRecords> fetch() throws IOException {
             throw new IOException(e);
         }
         return dataIt == null
-                ? finishedSnapshotSplit()
+                ? finishedSplit()
                 : ChangeEventRecords.forRecords(currentSplitId, dataIt);
     }
 
@@ -154,7 +154,7 @@ public boolean canAssignNextSplit() {
         return currentFetcher == null || currentFetcher.isFinished();
     }
 
-    private ChangeEventRecords finishedSnapshotSplit() {
+    private ChangeEventRecords finishedSplit() {
         final ChangeEventRecords finishedRecords =
                 ChangeEventRecords.forFinishedSplit(currentSplitId);
         currentSplitId = null;

diff --git a/.../ververica/cdc/connectors/base/source/reader/external/IncrementalSourceStreamFetcher.java b/.../ververica/cdc/connectors/base/source/reader/external/IncrementalSourceStreamFetcher.java
@@ -35,7 +35,6 @@
 import javax.annotation.Nullable;
 
 import java.util.ArrayList;
-import java.util.Collections;
 import java.util.HashMap;
 import java.util.HashSet;
 import java.util.Iterator;
@@ -88,13 +87,18 @@ public void submitTask(FetchTask<SourceSplitBase> fetchTask) {
                     try {
                         streamFetchTask.execute(taskContext);
                     } catch (Exception e) {
-                        this.currentTaskRunning = false;
                         LOG.error(
                                 String.format(
                                         "Execute stream read task for stream split %s fail",
                                         currentStreamSplit),
                                 e);
                         readException = e;
+                    } finally {
+                        try {
+                            stopReadTask();
+                        } catch (Exception e) {
+                            throw new RuntimeException(e);
+                        }
                     }
                 });
     }
@@ -122,7 +126,7 @@ public Iterator<SourceRecords> pollSplitRecords() throws InterruptedException {
             sourceRecordsSet.add(new SourceRecords(sourceRecords));
             return sourceRecordsSet.iterator();
         } else {
-            return Collections.emptyIterator();
+            return null;
         }
     }
 

diff --git a/...n/java/com/ververica/cdc/connectors/mongodb/source/config/MongoDBSourceConfigFactory.java b/...n/java/com/ververica/cdc/connectors/mongodb/source/config/MongoDBSourceConfigFactory.java
@@ -164,6 +164,7 @@ public MongoDBSourceConfigFactory startupOptions(StartupOptions startupOptions)
         checkNotNull(startupOptions);
         switch (startupOptions.startupMode) {
             case INITIAL:
+            case SNAPSHOT:
             case LATEST_OFFSET:
             case TIMESTAMP:
                 this.startupOptions = startupOptions;