Not in this branch

stellasia · stellasia · commit 9288d9aafd8e · 2025-10-16T13:22:54.000+02:00
diff --git a/tests/unit/embeddings/test_sentence_transformers.py b/tests/unit/embeddings/test_sentence_transformers.py
@@ -76,3 +76,51 @@ def test_embed_query_non_retryable_error_handling(mock_import: Mock) -> None:
 
     # Verify the model was called only once (no retries for non-rate-limit errors)
     assert mock_model.encode.call_count == 1
+
+
+@patch("builtins.__import__")
+def test_embed_query_rate_limit_error_retries(mock_import: Mock) -> None:
+    """Test that rate limit errors are retried the expected number of times."""
+    MockSentenceTransformer = get_mock_sentence_transformers()
+    mock_import.return_value = MockSentenceTransformer
+    mock_model = MockSentenceTransformer.SentenceTransformer.return_value
+
+    # Rate limit error that should trigger retries (matches "too many requests" pattern)
+    # Create separate exception instances for each retry attempt
+    mock_model.encode.side_effect = [
+        Exception("too many requests - please wait"),
+        Exception("too many requests - please wait"),
+        Exception("too many requests - please wait"),
+    ]
+
+    instance = SentenceTransformerEmbeddings()
+
+    # After exhausting retries, tenacity raises RetryError (since retries should work)
+    with pytest.raises(RetryError):
+        instance.embed_query("test query")
+
+    # Verify the model was called 3 times (default max_attempts for RetryRateLimitHandler)
+    assert mock_model.encode.call_count == 3
+
+
+@patch("builtins.__import__")
+def test_embed_query_rate_limit_error_eventual_success(mock_import: Mock) -> None:
+    """Test that rate limit errors eventually succeed after retries."""
+    MockSentenceTransformer = get_mock_sentence_transformers()
+    mock_import.return_value = MockSentenceTransformer
+    mock_model = MockSentenceTransformer.SentenceTransformer.return_value
+
+    # First two calls fail with rate limit, third succeeds
+    mock_model.encode.side_effect = [
+        Exception("too many requests - please wait"),
+        Exception("too many requests - please wait"),
+        np.array([[0.1, 0.2, 0.3]]),
+    ]
+
+    instance = SentenceTransformerEmbeddings()
+    result = instance.embed_query("test query")
+
+    # Verify successful result
+    assert result == [0.1, 0.2, 0.3]
+    # Verify the model was called 3 times before succeeding
+    assert mock_model.encode.call_count == 3