Merge branch 'main' into merge_netflix_streamlining_function_calls

noisebridge · Oct 24, 2024 · 162cf04 · 162cf04
2 parents 9991f42 + d5d271b
commit 162cf04
Show file tree

Hide file tree

Showing 19 changed files with 80 additions and 2 deletions.
diff --git a/.gitignore b/.gitignore
@@ -1,3 +1,5 @@
 data
 out
 .env
+.pytest_cache
+__pycache__
diff --git a/Pipfile b/Pipfile
@@ -7,6 +7,8 @@ name = "pypi"
 requests = "==2.26.0"
 python-dotenv = "==1.0.1"
 tqdm = "==4.66.5"
+pytest = "==8.3.3"
+pytest-cov = "==5.0.0"
 
 [dev-packages]
 

diff --git a/README.md b/README.md
@@ -1,3 +1,14 @@
-# Noisebridge Python Project
+# What is MediaBridge?
 
-https://www.noisebridge.net/wiki/Python_Project_Meetup
+MediaBridge is a project being developed at the [Noisebridge](https://github.com/noisebridge) hackerspace in San Francisco, CA, USA. See also the [Noisebridge hompage](https://www.noisebridge.net/wiki/Noisebridge) and the [wiki entry for this project](https://www.noisebridge.net/wiki/Python_Project_Meetup).
+
+MediaBridge is in a _very_ early stage of the development. It's intended functionality is to provide recommendations that _bridge_ media types. So for example, you might say you're interested in the film _Saw_ and MediaBrige might recommend the video game _Silent Hill_ or a Stephen King book. For now, we are working on simply returning recommendations for movies, based on the [Netflix Prize dataset](https://www.kaggle.com/datasets/netflix-inc/netflix-prize-data).
+
+Currently, we are only accepting contributions from members of the project who meet in person at Noisebridge.
+
+## Testing
+
+To run unit tests,
+
+1. Ensure `pipenv` is installed
+2. Run `pipenv run pytest`
diff --git a/src/config/setting.py → mediabridge/config/setting.py b/src/config/setting.py → mediabridge/config/setting.py
diff --git a/src/constants.py → mediabridge/constants.py b/src/constants.py → mediabridge/constants.py
diff --git a/src/data_processing/build_matrices.py → ...abridge/data_processing/build_matrices.py b/src/data_processing/build_matrices.py → ...abridge/data_processing/build_matrices.py
diff --git a/src/data_processing/credentials → mediabridge/data_processing/credentials b/src/data_processing/credentials → mediabridge/data_processing/credentials
diff --git a/src/data_processing/preprocess.py → mediabridge/data_processing/preprocess.py b/src/data_processing/preprocess.py → mediabridge/data_processing/preprocess.py
diff --git a/src/data_processing/wiki_to_netflix.py → ...bridge/data_processing/wiki_to_netflix.py b/src/data_processing/wiki_to_netflix.py → ...bridge/data_processing/wiki_to_netflix.py
@@ -140,13 +140,19 @@ def process_data(test=False):
     missing_count = 0
     processed_data = []
 
+<<<<<<< HEAD:src/data_processing/wiki_to_netflix.py
     netflix_data = read_netflix_txt(os.path.join(DATA_DIR, 'movie_titles.txt'), test)
     num_rows = len(netflix_data)
+=======
+    netflix_data = read_netflix_txt(os.path.join(data_dir, 'movie_titles.txt'), test)
+>>>>>>> main:mediabridge/data_processing/wiki_to_netflix.py
 
     netflix_csv = os.path.join(OUT_DIR, 'movie_titles.csv')
 
     wiki_movie_ids_list, wiki_genres_list, wiki_directors_list = wiki_query(netflix_data, user_agent)
 
+    num_rows = len(wiki_movie_ids_list)
+
     for index, row in enumerate(netflix_data):
         netflix_id, year, title = row
         if wiki_movie_ids_list[index] is None:

diff --git a/mediabridge/data_processing/wiki_to_netflix_test.py b/mediabridge/data_processing/wiki_to_netflix_test.py
@@ -0,0 +1,6 @@
+from wiki_to_netflix import format_sparql_query, wiki_query, process_data
+from wiki_to_netflix_test_data import EXPECTED_SPARQL_QUERY
+
+def test_format_sparql_query():
+    QUERY = format_sparql_query("The Room", 2003)
+    assert QUERY == EXPECTED_SPARQL_QUERY
diff --git a/mediabridge/data_processing/wiki_to_netflix_test_data.py b/mediabridge/data_processing/wiki_to_netflix_test_data.py
@@ -0,0 +1,45 @@
+EXPECTED_SPARQL_QUERY ='''
+        SELECT * WHERE {
+            SERVICE wikibase:mwapi {
+                bd:serviceParam wikibase:api "EntitySearch" ;
+                                wikibase:endpoint "www.wikidata.org" ;
+                                mwapi:search "The Room" ;
+                                mwapi:language "en" .
+                ?item wikibase:apiOutputItem mwapi:item .
+            }
+
+            ?item wdt:P31/wdt:P279* wd:Q11424 .
+            
+            {
+                # Get US release date
+                ?item p:P577 ?releaseDateStatement .
+                ?releaseDateStatement ps:P577 ?releaseDate .
+                ?releaseDateStatement pq:P291 wd:Q30 .  
+            }
+            UNION
+            {
+                # Get unspecified release date
+                ?item p:P577 ?releaseDateStatement .
+                ?releaseDateStatement ps:P577 ?releaseDate .
+                FILTER NOT EXISTS { ?releaseDateStatement pq:P291 ?country }
+            }
+        
+            FILTER (YEAR(?releaseDate) = 2003) .
+
+            ?item rdfs:label ?itemLabel .
+            FILTER (lang(?itemLabel) = "en") .
+
+            OPTIONAL {
+                ?item wdt:P136 ?genre .
+                ?genre rdfs:label ?genreLabel .
+                FILTER (lang(?genreLabel) = "en") .
+            }
+
+            OPTIONAL {?item wdt:P57 ?director.
+                            ?director rdfs:label ?directorLabel.
+                            FILTER (lang(?directorLabel) = "en")}
+
+            SERVICE wikibase:label { bd:serviceParam wikibase:language "en" . }
+            }
+    
+        '''
diff --git a/src/db/connect.py → mediabridge/db/connect.py b/src/db/connect.py → mediabridge/db/connect.py
diff --git a/src/db/insert_data.py → mediabridge/db/insert_data.py b/src/db/insert_data.py → mediabridge/db/insert_data.py
diff --git a/src/db/queries.py → mediabridge/db/queries.py b/src/db/queries.py → mediabridge/db/queries.py
diff --git a/mediabridge/main.py b/mediabridge/main.py
@@ -0,0 +1,4 @@
+from mediabridge.data_processing import wiki_to_netflix
+
+q = wiki_to_netflix.format_sparql_query('The Room', 2003)
+print(q)
diff --git a/src/models/predict.py → mediabridge/models/predict.py b/src/models/predict.py → mediabridge/models/predict.py
diff --git a/src/models/train_model.py → mediabridge/models/train_model.py b/src/models/train_model.py → mediabridge/models/train_model.py
diff --git a/src/models/utils.py → mediabridge/models/utils.py b/src/models/utils.py → mediabridge/models/utils.py
diff --git a/pytest.ini b/pytest.ini
@@ -0,0 +1,2 @@
+[pytest]
+python_files = *_test.py