moj-analytical-services · ADBond · May 25, 2023 · Apr 26, 2023 · Apr 26, 2023 · Apr 26, 2023
diff --git a/.dockerignore b/.dockerignore
@@ -0,0 +1,9 @@
+*
+
+!tests/
+!splink/
+!pyproject.toml
+!poetry.lock
+!README.md
+
+**/*.pyc
diff --git a/.github/workflows/run_demos_examples.yml b/.github/workflows/run_demos_examples.yml
@@ -36,6 +36,7 @@ jobs:
  - name: Install environment and check notebooks
  run: |
  cd splink_demos
+ cp ../benchmarking/conftest.py conftest.py
  python3 -m venv venv
  source venv/bin/activate
  pip install --upgrade pip

diff --git a/.github/workflows/run_demos_tutorials.yml b/.github/workflows/run_demos_tutorials.yml
@@ -28,6 +28,7 @@ jobs:
  - name: Install environment and check notebooks
  run: |
  cd splink_demos
+ cp ../benchmarking/conftest.py conftest.py
  python3 -m venv venv
  source venv/bin/activate
  pip install --upgrade pip

diff --git a/.gitignore b/.gitignore
@@ -172,4 +172,7 @@ cython_debug/
 *.parquet
 *.csv
 
-.DS_Store
+.DS_Store
+
+# vscode local settings
+.vscode
diff --git a/benchmarking/conftest.py b/benchmarking/conftest.py
@@ -0,0 +1,5 @@
+# add default marker to all tests - this flag is on by default
+# set in pyproject.toml to aid testing tests/
+def pytest_collection_modifyitems(items, config):
+ for item in items:
+ item.add_marker("default")
diff --git a/docs/dev_guides/changing_splink/running_tests_locally.md b/docs/dev_guides/changing_splink/running_tests_locally.md
diff --git a/docs/dev_guides/changing_splink/testing.md b/docs/dev_guides/changing_splink/testing.md
diff --git a/mkdocs.yml b/mkdocs.yml
@@ -127,7 +127,7 @@ nav:
  - Building a Virtual Environment: "dev_guides/changing_splink/building_env_locally.md"
  - Linting: "dev_guides/changing_splink/lint.md"
  - Building Docs: "dev_guides/changing_splink/build_docs_locally.md"
- - Running Tests: "dev_guides/changing_splink/running_tests_locally.md"
+ - Testing: "dev_guides/changing_splink/testing.md"
  - Releasing a Package Version: "dev_guides/changing_splink/releases.md"
  - Caching and pipelining: "dev_guides/caching.md"
  - Understanding and debugging Splink: "dev_guides/debug_modes.md"

diff --git a/pyproject.toml b/pyproject.toml
@@ -61,4 +61,21 @@ select = [
 ignore = [
  "B905", # `zip()` without an explicit `strict=` parameter
  "B006", # Do not use mutable data structures for argument defaults"
-]
+]
+
+[tool.pytest.ini_options]
+addopts = ["-m default"]
+markers = [
+# only tests where backend is irrelevant:
+ "core",
+# see tests/decorator.py::dialect_groups for group details:
+ "default",
+ "all",
+# backend-specific sets
+ "duckdb",
+ "duckdb_only",
+ "spark",
+ "spark_only",
+ "sqlite",
+ "sqlite_only",
+]
diff --git a/splink/sqlite/sqlite_comparison_level_library.py b/splink/sqlite/sqlite_comparison_level_library.py
@@ -4,6 +4,7 @@
  DistanceFunctionLevelBase,
  ElseLevelBase,
  ExactMatchLevelBase,
+ LevenshteinLevelBase,
  NullLevelBase,
  PercentageDifferenceLevelBase,
 )
@@ -30,6 +31,9 @@ def _distance_function_level(self):
  return distance_function_level
 
  @property
+ def _levenshtein_level(self):
+ return levenshtein_level
+
  def _columns_reversed_level(self):
  return columns_reversed_level
 
@@ -46,6 +50,10 @@ class else_level(SqliteBase, ElseLevelBase):
  pass
 
 
+class levenshtein_level(SqliteBase, LevenshteinLevelBase):
+ pass
+
+
 class columns_reversed_level(SqliteBase, ColumnsReversedLevelBase):
  pass
 

diff --git a/splink/sqlite/sqlite_comparison_library.py b/splink/sqlite/sqlite_comparison_library.py
@@ -1,6 +1,7 @@
 from ..comparison_library import (
  DistanceFunctionAtThresholdsComparisonBase,
  ExactMatchBase,
+ LevenshteinAtThresholdsComparisonBase,
 )
 from .sqlite_comparison_level_library import SqliteComparisonProperties
 
@@ -13,3 +14,11 @@ class distance_function_at_thresholds(
  SqliteComparisonProperties, DistanceFunctionAtThresholdsComparisonBase
 ):
  pass
+
+
+class levenshtein_at_thresholds(
+ SqliteComparisonProperties, LevenshteinAtThresholdsComparisonBase
+):
+ @property
+ def _distance_level(self):
+ return self._levenshtein_level
diff --git a/tests/conftest.py b/tests/conftest.py
@@ -3,10 +3,25 @@
 import pytest
 
 from splink.spark.jar_location import similarity_jar_location
+from tests.decorator import dialect_groups
+from tests.helpers import DuckDBTestHelper, SparkTestHelper, SQLiteTestHelper
 
 logger = logging.getLogger(__name__)
 
 
+def pytest_collection_modifyitems(items, config):
+ # any tests without backend-group markers will always run
+ marks = {gp for groups in dialect_groups.values() for gp in groups}
+ # any mark we've added, but excluding e.g. parametrize
+ our_marks = {*marks, *dialect_groups.keys()}
+
+ for item in items:
+ if not any(marker.name in our_marks for marker in item.iter_markers()):
+ item.add_marker("core")
+ for mark in our_marks:
+ item.add_marker(mark)
+
+
 @pytest.fixture(scope="module")
 def spark():
  from pyspark import SparkConf, SparkContext
@@ -35,3 +50,14 @@ def df_spark(spark):
  df = spark.read.csv("./tests/datasets/fake_1000_from_splink_demos.csv", header=True)
  df.persist()
  yield df
+
+
+# workaround as you can't pass fixtures as param arguments in base pytest
+# see e.g. https://stackoverflow.com/a/42400786/11811947
+@pytest.fixture
+def test_helpers(spark):
+ return {
+ "duckdb": DuckDBTestHelper(),
+ "spark": SparkTestHelper(spark),
+ "sqlite": SQLiteTestHelper(),
+ }
diff --git a/tests/decorator.py b/tests/decorator.py
@@ -0,0 +1,48 @@
+import pytest
+
+dialect_groups = {
+ "duckdb": ["default"],
+ "spark": ["default"],
+ "sqlite": [],
+}
+for groups in dialect_groups.values():
+ groups.append("all")
+
+
+def invert(sql_dialects_missing):
+ return (
+ sql_d for sql_d in dialect_groups.keys() if sql_d not in sql_dialects_missing
+ )
+
+
+def mark_with_dialects_excluding(*sql_dialects_missing):
+ sql_dialects = invert(sql_dialects_missing)
+ return mark_with_dialects_including(*sql_dialects, pass_dialect=True)
+
+
+def mark_with_dialects_including(*sql_dialects, pass_dialect=False):
+ def mark_decorator(test_fn):
+ params = []
+ all_marks = []
+ for sql_d in sql_dialects:
+ # marks for whatever groups the dialect is in
+ marks = [
+ getattr(pytest.mark, dialect_group)
+ for dialect_group in dialect_groups[sql_d]
+ ]
+ # plus the basic dialect mark
+ dialect_mark = getattr(pytest.mark, sql_d)
+ dialect_only_mark = getattr(pytest.mark, f"{sql_d}_only")
+ marks += [dialect_mark, dialect_only_mark]
+ params.append(pytest.param(sql_d, marks=marks))
+ # will end up with duplicates, but think that's okay. for now at least.
+ all_marks += marks
+
+ if pass_dialect:
+ test_fn = pytest.mark.parametrize("dialect", params)(test_fn)
+ else:
+ for mark in all_marks:
+ test_fn = mark(test_fn)
+ return test_fn
+
+ return mark_decorator