Cosine Similarity

SimpleCosineSimilarity

A very simple implementation of document similarity in Python using a vector space model with TF-IDF weights and Cosine Similarity.

Obviously this could be vastly improved using Numpy arrays, NLP libraries (e.g. NLTK, Spacy) to tokenize and maybe do lemmatization or stemming, an inverted index for querying in constant time, additive smoothing, etc. It could also be much shorter (e.g. using Sklearn's TF-IDF Vectorizer), but the goal was to have a very simple, easily understood, Python implementation from scratch. If one were to build a search engine in Python, then there's the excellent Whoosh library, that does all this and more.

SklearnCosineSimilarity

An example showing how easy it is to do the same using Sklearn's TfIdfVectorizer class and the cosine_similarity function. Again, this could be improved doing stemming/lemmatization, improving stopword filtering, using n-grams, etc., but the idea is to keep it simple and show how it can be done in less than 10 lines of code.

Name		Name	Last commit message	Last commit date
Latest commit History 33 Commits
.gitignore		.gitignore
README.md		README.md
SimpleCosineSimilarity.ipynb		SimpleCosineSimilarity.ipynb
SimpleCosineSimilarity.js		SimpleCosineSimilarity.js
SklearnCosineSimilarity.ipynb		SklearnCosineSimilarity.ipynb
requirements.txt		requirements.txt
runtime.txt		runtime.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Cosine Similarity

SimpleCosineSimilarity

SklearnCosineSimilarity

About

Releases

Packages

Languages

tinfante/CosineSimilarity

Folders and files

Latest commit

History

Repository files navigation

Cosine Similarity

SimpleCosineSimilarity

SklearnCosineSimilarity

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages