Plagiarism Detector using LSH

This application is capable of extracting pairs similar documents from a set of documents present in a corpus. Documents containing similar texts are marked as a plagiarized pair. Locality sensitive hashing is used to find similar pairs and various distance measures such as Jaccard distance, Cosine distance and Hamming distance are used in the process. For each distance measure, a set of predicted plagiarized pairs are returned.

Features

Returns pairs of plagiarised or similar documents, which are answers to a question in our corpus.
Three different measures (Jaccard distance, Cosine distance, Hamming distance) can be used to find similar documents.
The algorithm shows the precision and number of correct documents returned for each distance measure.
The signature matrix needs to be generated only once for each distance measure.
Fully documented code.

How to run

Install pipenv using pip install -U pipenv.
In the project folder, run pipenv install to install all python dependencies.
Generate the shingle-document matrix by running: pipenv run python matrix.py. Matrix will be stored in shingles_matrix.csv.
To create the signature matrix:
1. Jaccard distance: pipenv run python jaccard_sig.py. Signature matrix stores in jaccard_signatures.csv.
2. Cosine distance: pipenv run python cosine_sig.py. Signature matrix stores in cosine_signatures.csv.
3. Hamming distance: pipenv run python hamming_sig.py. Signature matrix stores in hamming_signatures.csv.
To run the LSH algorithm: pipenv run python main.py.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
corpus-20090418		corpus-20090418
docs		docs
pairs		pairs
Pipfile		Pipfile
README.md		README.md
cosine_sig.py		cosine_sig.py
cosine_signatures.csv		cosine_signatures.csv
euclidean.py		euclidean.py
euclidean_signatures.csv		euclidean_signatures.csv
hamming_sig.py		hamming_sig.py
hamming_signatures.csv		hamming_signatures.csv
index.csv		index.csv
jaccard_sig.py		jaccard_sig.py
jaccard_signatures.csv		jaccard_signatures.csv
lsh.py		lsh.py
main.py		main.py
matrix.py		matrix.py
shingles_matrix.csv		shingles_matrix.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Plagiarism Detector using LSH

Features

How to run

About

Releases

Packages

Languages

Virtualexistence/LSH-DocSimilarity

Folders and files

Latest commit

History

Repository files navigation

Plagiarism Detector using LSH

Features

How to run

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages