TDAmeritrade · NimaSarajpoor · Sep 6, 2022 · Sep 6, 2022 · Sep 7, 2022 · Sep 7, 2022
@@ -8,9 +8,12 @@
 STUMPY_MEAN_STD_NUM_CHUNKS = 1
 STUMPY_MEAN_STD_MAX_ITER = 10
 STUMPY_DENOM_THRESHOLD = 1e-14
-STUMPY_STDDEV_THRESHOLD = 1e-7
+STUMPY_STDDEV_THRESHOLD = 1e-20
 if σ_Q < config.STUMPY_STDDEV_THRESHOLD or Σ_T < config.STUMPY_STDDEV_THRESHOLD: 
     D_squared = m 
 else: 
     denom = m * σ_Q * Σ_T 
     if np.abs(denom) < config.STUMPY_DENOM_THRESHOLD:  # pragma nocover 
         denom = config.STUMPY_DENOM_THRESHOLD 
     D_squared = np.abs(2 * m * (1.0 - (QT - m * μ_Q * M_T) / denom)) 
 if ( 
     σ_Q < config.STUMPY_STDDEV_THRESHOLD 
     and Σ_T < config.STUMPY_STDDEV_THRESHOLD 
 ) or D_squared < config.STUMPY_P_NORM_THRESHOLD: 
     D_squared = 0 
 if ( 
     σ_Q[i] < config.STUMPY_STDDEV_THRESHOLD 
     or Σ_T[j] < config.STUMPY_STDDEV_THRESHOLD 
 ): 
     p_norm = m 
 else: 
     denom = m * σ_Q[i] * Σ_T[j] 
     if math.fabs(denom) < config.STUMPY_DENOM_THRESHOLD:  # pragma nocover 
         denom = config.STUMPY_DENOM_THRESHOLD 
     p_norm = abs(2 * m * (1.0 - (QT_out[j] - m * μ_Q[i] * M_T[j]) / denom)) 
 if ( 
     σ_Q[i] < config.STUMPY_STDDEV_THRESHOLD 
     and Σ_T[j] < config.STUMPY_STDDEV_THRESHOLD 
 ) or p_norm < config.STUMPY_P_NORM_THRESHOLD: 
     p_norm = 0 
 T_subseq_isconstant = Σ_T < config.STUMPY_STDDEV_THRESHOLD 
 if σ_Q < config.STUMPY_STDDEV_THRESHOLD or Σ_T < config.STUMPY_STDDEV_THRESHOLD: 
     D_squared = m 
 else: 
     denom = m * σ_Q * Σ_T 
     if np.abs(denom) < config.STUMPY_DENOM_THRESHOLD:  # pragma nocover 
         denom = config.STUMPY_DENOM_THRESHOLD 
     D_squared = np.abs(2 * m * (1.0 - (QT - m * μ_Q * M_T) / denom)) 
  
 if ( 
     σ_Q < config.STUMPY_STDDEV_THRESHOLD 
     and Σ_T < config.STUMPY_STDDEV_THRESHOLD 
 ) or D_squared < config.STUMPY_P_NORM_THRESHOLD: 
     D_squared = 0 
 if ( 
     σ_Q[i] < config.STUMPY_STDDEV_THRESHOLD 
     or Σ_T[j] < config.STUMPY_STDDEV_THRESHOLD 
 ): 
     p_norm = m 
 else: 
     denom = m * σ_Q[i] * Σ_T[j] 
     if math.fabs(denom) < config.STUMPY_DENOM_THRESHOLD:  # pragma nocover 
         denom = config.STUMPY_DENOM_THRESHOLD 
     p_norm = abs(2 * m * (1.0 - (QT_out[j] - m * μ_Q[i] * M_T[j]) / denom)) 
  
 if ( 
     σ_Q[i] < config.STUMPY_STDDEV_THRESHOLD 
     and Σ_T[j] < config.STUMPY_STDDEV_THRESHOLD 
 ) or p_norm < config.STUMPY_P_NORM_THRESHOLD: 
     p_norm = 0 
 T_subseq_isconstant = Σ_T < config.STUMPY_STDDEV_THRESHOLD 
 STUMPY_P_NORM_THRESHOLD = 1e-14
 STUMPY_TEST_PRECISION = 5
 STUMPY_MAX_P_NORM_DISTANCE = np.finfo(np.float64).max
 STUMPY_MAX_DISTANCE = np.sqrt(STUMPY_MAX_P_NORM_DISTANCE)
 STUMPY_EXCL_ZONE_DENOM = 4
+STUMPY_MIN_VAR = 1.0
+STUMPY_MIN_STD_AB = 1.0  # denom in equation: pearson_AB = cov / (std_A * std_B)
+STUMPY_CORRELATION_THRESHOLD = 0.99999999  # 1 - 1e-08
@@ -577,6 +577,8 @@ def _welford_nanvar(a, w, a_subseq_isfinite):
                 * (a[last_idx] - curr_mean + a[prev_start_idx] - prev_mean)
                 / w
             )
+            if curr_var < config.STUMPY_MIN_VAR:
+                curr_var = np.nanvar(a[start_idx:stop_idx])
 
         all_variances[start_idx] = curr_var
 
@@ -1738,8 +1740,8 @@ def preprocess_diagonal(T, m):
     M_T : numpy.ndarray
         Rolling mean with a subsequence length of `m`
 
-    Σ_T_inverse : numpy.ndarray
-        Inverted rolling standard deviation
+    Σ_T : numpy.ndarray
+        Rolling standard deviation
 
     M_T_m_1 : numpy.ndarray
         Rolling mean with a subsequence length of `m-1`
@@ -1753,12 +1755,12 @@ def preprocess_diagonal(T, m):
     """
     T, T_subseq_isfinite = preprocess_non_normalized(T, m)
     M_T, Σ_T = compute_mean_std(T, m)
+
     T_subseq_isconstant = Σ_T < config.STUMPY_STDDEV_THRESHOLD
     Σ_T[T_subseq_isconstant] = 1.0  # Avoid divide by zero in next inversion step
-    Σ_T_inverse = 1.0 / Σ_T
     M_T_m_1, _ = compute_mean_std(T, m - 1)
 
-    return T, M_T, Σ_T_inverse, M_T_m_1, T_subseq_isfinite, T_subseq_isconstant
+    return T, M_T, Σ_T, M_T_m_1, T_subseq_isfinite, T_subseq_isconstant
 
 
 def replace_distance(D, search_val, replace_val, epsilon=0.0):

@@ -529,7 +529,7 @@ def __init__(
         (
             self._T_A,
             self._μ_Q,
-            self._σ_Q_inverse,
+            self._σ_Q,
             self._μ_Q_m_1,
             self._T_A_subseq_isfinite,
             self._T_A_subseq_isconstant,
@@ -538,7 +538,7 @@ def __init__(
         (
             self._T_B,
             self._M_T,
-            self._Σ_T_inverse,
+            self._Σ_T,
             self._M_T_m_1,
             self._T_B_subseq_isfinite,
             self._T_B_subseq_isconstant,
@@ -639,8 +639,8 @@ def update(self):
                 self._m,
                 self._M_T,
                 self._μ_Q,
-                self._Σ_T_inverse,
-                self._σ_Q_inverse,
+                self._Σ_T,
+                self._σ_Q,
                 self._M_T_m_1,
                 self._μ_Q_m_1,
                 self._T_A_subseq_isfinite,

@@ -25,8 +25,8 @@ def _compute_diagonal(
     m,
     M_T,
     μ_Q,
-    Σ_T_inverse,
-    σ_Q_inverse,
+    Σ_T,
+    σ_Q,
     cov_a,
     cov_b,
     cov_c,
@@ -66,11 +66,11 @@ def _compute_diagonal(
     μ_Q : numpy.ndarray
         Mean of the query sequence, `Q`, relative to the current sliding window
 
-    Σ_T_inverse : numpy.ndarray
-        Inverse sliding standard deviation of time series, `T`
+    Σ_T : numpy.ndarray
+        Sliding standard deviation of time series, `T`
 
-    σ_Q_inverse : numpy.ndarray
-        Inverse standard deviation of the query sequence, `Q`, relative to the current
+    σ_Q : numpy.ndarray
+        Standard deviation of the query sequence, `Q`, relative to the current
         sliding window
 
     cov_a : numpy.ndarray
@@ -182,13 +182,35 @@ def _compute_diagonal(
 
             if T_B_subseq_isfinite[i + k] and T_A_subseq_isfinite[i]:
                 # Neither subsequence contains NaNs
-                if T_B_subseq_isconstant[i + k] or T_A_subseq_isconstant[i]:
-                    pearson = 0.5
-                else:
-                    pearson = cov * Σ_T_inverse[i + k] * σ_Q_inverse[i]
-
                 if T_B_subseq_isconstant[i + k] and T_A_subseq_isconstant[i]:
                     pearson = 1.0
+                elif T_B_subseq_isconstant[i + k] or T_A_subseq_isconstant[i]:
+                    pearson = 0.5
+                else:
+                    denom = Σ_T[i + k] * σ_Q[i]
+                    if denom < config.STUMPY_MIN_STD_AB:
+                        cov = (
+                            np.dot(
+                                (T_B[i + k : i + k + m] - M_T[i + k]),
+                                (T_A[i : i + m] - μ_Q[i]),
+                            )
+                            * m_inverse
+                        )
+
+                    pearson = cov / denom
+                    if pearson > 1.0:
+                        pearson = 1.0
+
+                # if config.STUMPY_CORRELATION_THRESHOLD <= pearson < 1.0:
+                #    cov = (
+                #        np.dot(
+                #            (T_B[i + k : i + k + m] - M_T[i + k]),
+                #            (T_A[i : i + m] - μ_Q[i]),
+                #        )
+                #        * m_inverse
+                #    )
+
+                #    pearson = cov * Σ_T_inverse[i + k] * σ_Q_inverse[i]
 
                 if pearson > ρ[thread_idx, i, 0]:
                     ρ[thread_idx, i, 0] = pearson
@@ -225,8 +247,8 @@ def _stump(
     m,
     M_T,
     μ_Q,
-    Σ_T_inverse,
-    σ_Q_inverse,
+    Σ_T,
+    σ_Q,
     M_T_m_1,
     μ_Q_m_1,
     T_A_subseq_isfinite,
@@ -259,11 +281,11 @@ def _stump(
     μ_Q : numpy.ndarray
         Mean of the query sequence, `Q`, relative to the current sliding window
 
-    Σ_T_inverse : numpy.ndarray
-        Inverse sliding standard deviation of time series, `T`
+    Σ_T : numpy.ndarray
+        Sliding standard deviation of time series, `T`
 
-    σ_Q_inverse : numpy.ndarray
-        Inverse standard deviation of the query sequence, `Q`, relative to the current
+    σ_Q : numpy.ndarray
+        Standard deviation of the query sequence, `Q`, relative to the current
         sliding window
 
     M_T_m_1 : numpy.ndarray
@@ -384,8 +406,8 @@ def _stump(
             m,
             M_T,
             μ_Q,
-            Σ_T_inverse,
-            σ_Q_inverse,
+            Σ_T,
+            σ_Q,
             cov_a,
             cov_b,
             cov_c,
@@ -545,7 +567,7 @@ def stump(T_A, m, T_B=None, ignore_trivial=True, normalize=True, p=2.0):
     (
         T_A,
         μ_Q,
-        σ_Q_inverse,
+        σ_Q,
         μ_Q_m_1,
         T_A_subseq_isfinite,
         T_A_subseq_isconstant,
@@ -554,7 +576,7 @@ def stump(T_A, m, T_B=None, ignore_trivial=True, normalize=True, p=2.0):
     (
         T_B,
         M_T,
-        Σ_T_inverse,
+        Σ_T,
         M_T_m_1,
         T_B_subseq_isfinite,
         T_B_subseq_isconstant,
@@ -600,8 +622,8 @@ def stump(T_A, m, T_B=None, ignore_trivial=True, normalize=True, p=2.0):
         m,
         M_T,
         μ_Q,
-        Σ_T_inverse,
-        σ_Q_inverse,
+        Σ_T,
+        σ_Q,
         M_T_m_1,
         μ_Q_m_1,
         T_A_subseq_isfinite,

@@ -141,7 +141,7 @@ def stumped(dask_client, T_A, m, T_B=None, ignore_trivial=True, normalize=True,
     (
         T_A,
         μ_Q,
-        σ_Q_inverse,
+        σ_Q,
         μ_Q_m_1,
         T_A_subseq_isfinite,
         T_A_subseq_isconstant,
@@ -150,7 +150,7 @@ def stumped(dask_client, T_A, m, T_B=None, ignore_trivial=True, normalize=True,
     (
         T_B,
         M_T,
-        Σ_T_inverse,
+        Σ_T,
         M_T_m_1,
         T_B_subseq_isfinite,
         T_B_subseq_isconstant,
@@ -202,8 +202,8 @@ def stumped(dask_client, T_A, m, T_B=None, ignore_trivial=True, normalize=True,
     T_B_future = dask_client.scatter(T_B, broadcast=True, hash=False)
     M_T_future = dask_client.scatter(M_T, broadcast=True, hash=False)
     μ_Q_future = dask_client.scatter(μ_Q, broadcast=True, hash=False)
-    Σ_T_inverse_future = dask_client.scatter(Σ_T_inverse, broadcast=True, hash=False)
-    σ_Q_inverse_future = dask_client.scatter(σ_Q_inverse, broadcast=True, hash=False)
+    Σ_T_future = dask_client.scatter(Σ_T, broadcast=True, hash=False)
+    σ_Q_future = dask_client.scatter(σ_Q, broadcast=True, hash=False)
     M_T_m_1_future = dask_client.scatter(M_T_m_1, broadcast=True, hash=False)
     μ_Q_m_1_future = dask_client.scatter(μ_Q_m_1, broadcast=True, hash=False)
     T_A_subseq_isfinite_future = dask_client.scatter(
@@ -238,8 +238,8 @@ def stumped(dask_client, T_A, m, T_B=None, ignore_trivial=True, normalize=True,
                 m,
                 M_T_future,
                 μ_Q_future,
-                Σ_T_inverse_future,
-                σ_Q_inverse_future,
+                Σ_T_future,
+                σ_Q_future,
                 M_T_m_1_future,
                 μ_Q_m_1_future,
                 T_A_subseq_isfinite_future,

@@ -6,7 +6,7 @@
 from stumpy import core, config
 
 
-def z_norm(a, axis=0, threshold=1e-7):
+def z_norm(a, axis=0, threshold=config.STUMPY_STDDEV_THRESHOLD):
     std = np.std(a, axis, keepdims=True)
     std[np.less(std, threshold, where=~np.isnan(std))] = 1.0
 

@@ -792,36 +792,35 @@ def test_preprocess_diagonal():
 
     ref_T = np.array([0, 0, 2, 3, 4, 5, 6, 7, 0, 9], dtype=float)
     ref_M, ref_Σ = naive.compute_mean_std(ref_T, m)
-    ref_Σ_inverse = 1.0 / ref_Σ
     ref_M_m_1, _ = naive.compute_mean_std(ref_T, m - 1)
 
     (
         comp_T,
         comp_M,
-        comp_Σ_inverse,
+        comp_Σ,
         comp_M_m_1,
         comp_T_subseq_isfinite,
         comp_T_subseq_isconstant,
     ) = core.preprocess_diagonal(T, m)
 
     npt.assert_almost_equal(ref_T, comp_T)
     npt.assert_almost_equal(ref_M, comp_M)
-    npt.assert_almost_equal(ref_Σ_inverse, comp_Σ_inverse)
+    npt.assert_almost_equal(ref_Σ, comp_Σ)
     npt.assert_almost_equal(ref_M_m_1, comp_M_m_1)
 
     T = pd.Series(T)
     (
         comp_T,
         comp_M,
-        comp_Σ_inverse,
+        comp_Σ,
         comp_M_m_1,
         comp_T_subseq_isfinite,
         comp_T_subseq_isconstant,
     ) = core.preprocess_diagonal(T, m)
 
     npt.assert_almost_equal(ref_T, comp_T)
     npt.assert_almost_equal(ref_M, comp_M)
-    npt.assert_almost_equal(ref_Σ_inverse, comp_Σ_inverse)
+    npt.assert_almost_equal(ref_Σ, comp_Σ)
     npt.assert_almost_equal(ref_M_m_1, comp_M_m_1)