Cassandra Analytics

Cassandra Spark Bulk Reader

The open-source repository for the Cassandra Spark Bulk Reader. This library allows integration between Cassandra and Spark job, allowing users to run arbitrary Spark jobs against a Cassandra cluster securely and consistently.

This project contains the necessary open-source implementations to connect to a Cassandra cluster and read the data into Spark.

For example usage, see the example repository; sample steps:

import org.apache.cassandra.spark.sparksql.CassandraDataSource
import org.apache.spark.sql.SparkSession

val sparkSession = SparkSession.builder.getOrCreate()
val df = sparkSession.read.format("org.apache.cassandra.spark.sparksql.CassandraDataSource")
                          .option("sidecar_contact_points", "localhost,localhost2,localhost3")
                          .option("keyspace", "sbr_tests")
                          .option("table", "basic_test")
                          .option("DC", "datacenter1")
                          .option("createSnapshot", true)
                          .option("numCores", 4)
                          .load()

Cassandra Spark Bulk Writer

The Cassandra Spark Bulk Writer allows for high-speed data ingest to Cassandra clusters running Cassandra 3.0 and 4.0.

Developers interested in contributing to the Analytics library, please see the DEV-README.

Getting Started

For example usage, see the example repository. This example covers both setting up Cassandra 4.0, Apache Sidecar, and running a Spark Bulk Reader and Spark Bulk Writer job.

Name	Name	Last commit message	Last commit date
Latest commit 5 Initial Configuration for SonarCube Analysis Aug 19, 2024 66b5935 · Aug 19, 2024 History 73 Commits
.circleci	.circleci	CASSANDRA-19563: Support bulk write via S3 (apache#53 )	Apr 22, 2024
buildSrc	buildSrc	Initial Configuration for SonarCube Analysis	Aug 19, 2024
cassandra-analytics-common	cassandra-analytics-common	CASSANDRA-19806: Stream sstable eagerly when bulk writing to reclaim …	Aug 8, 2024
cassandra-analytics-core-example	cassandra-analytics-core-example	CASSANDRA-19806: Stream sstable eagerly when bulk writing to reclaim …	Aug 8, 2024
cassandra-analytics-core	cassandra-analytics-core	Initial Configuration for SonarCube Analysis	Aug 19, 2024
cassandra-analytics-integration-framework	cassandra-analytics-integration-framework	Initial Configuration for SonarCube Analysis	Aug 19, 2024
cassandra-analytics-integration-tests	cassandra-analytics-integration-tests	Initial Configuration for SonarCube Analysis	Aug 19, 2024
cassandra-bridge	cassandra-bridge	Initial Configuration for SonarCube Analysis	Aug 19, 2024
cassandra-four-zero-bridge	cassandra-four-zero-bridge	Initial Configuration for SonarCube Analysis	Aug 19, 2024
cassandra-four-zero-types	cassandra-four-zero-types	CASSANDRA-19807: Improve the core bulk reader test system to match ac…	Aug 3, 2024
cassandra-four-zero	cassandra-four-zero	CASSANDRA-19513: Refactor Cassandra bridge (apache#48 )	Apr 2, 2024
cassandra-three-zero	cassandra-three-zero	CASSANDRA-18631: Add Release Audit Tool (RAT) plugin to Analytics	Jun 29, 2023
code-coverage-report	code-coverage-report	Initial Configuration for SonarCube Analysis	Aug 19, 2024
config/checkstyle	config/checkstyle	CASSANDRA-19024 Fix bulk reading when using identifiers that need quotes	Dec 7, 2023
githooks	githooks	CASSANDRA-18631: Add Release Audit Tool (RAT) plugin to Analytics	Jun 29, 2023
gradle/wrapper	gradle/wrapper	CASSANDRA-19528: Use a classloader to isolate in-jvm dtest classes in… (	Apr 4, 2024
ide/idea	ide/idea	CEP-28: Apache Cassandra Analytics	May 19, 2023
profiles	profiles	CASSANDRA-18759: Use in-jvm dtest framework from Sidecar for testing	Oct 6, 2023
scripts	scripts	CASSANDRA-19774: Bump Cassandra Sidecar version (apache#65 )	Jul 16, 2024
.asf.yaml	.asf.yaml	CASSANDRA-18631: Add Release Audit Tool (RAT) plugin to Analytics	Jun 29, 2023
.gitignore	.gitignore	CASSANDRA-19148: Remove unused dead code	Dec 5, 2023
CHANGES.txt	CHANGES.txt	CASSANDRA-19827: Add job_timeout_seconds writer option (apache#73 )	Aug 14, 2024
DEV-README.md	DEV-README.md	CASSANDRA-19273: Allow setting TTL for snapshots created	Jan 27, 2024
LICENSE.txt	LICENSE.txt	CASSANDRA-18631: Add Release Audit Tool (RAT) plugin to Analytics	Jun 29, 2023
NOTICE.txt	NOTICE.txt	CASSANDRA-18600 Add NOTICE.txt file	Jun 27, 2023
README.md	README.md	CASSANDRA-19772: Deprecate option SIDECAR_INSTANCES and replace with …	Jul 17, 2024
build.gradle	build.gradle	Initial Configuration for SonarCube Analysis	Aug 19, 2024
code_version.sh	code_version.sh	CEP-28: Apache Cassandra Analytics	May 19, 2023
gradle.properties	gradle.properties	CASSANDRA-19748: Refactoring to introduce new cassandra-analytics-com…	Jul 12, 2024
gradlew	gradlew	CASSANDRA-19528: Use a classloader to isolate in-jvm dtest classes in… (	Apr 4, 2024
settings.gradle	settings.gradle	Initial Configuration for SonarCube Analysis	Aug 19, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Cassandra Analytics

Cassandra Spark Bulk Reader

Cassandra Spark Bulk Writer

Getting Started

About

Releases

Packages

Languages

License

5/cassandra-analytics

Folders and files

Latest commit

History

Repository files navigation

Cassandra Analytics

Cassandra Spark Bulk Reader

Cassandra Spark Bulk Writer

Getting Started

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages