Legal-Docs-Large-MLTC

1. Prepare datasets

The following script will:

Download JRC-Aquis data.
Download and prepare EuroVoc data and EuroVoc Analysis tool.
Prepare JRC-Aquis datasets for monolingual and multi-lingual experiments.

bash preparedata.sh

OUTPUT FILES

JRC Monolingual Dataset: datasets/jrc_en_basic.csv
JRC Multilingul Dataset: datasets/jrc_3langs_basic.csv
EURLEX57K Dataset: datasets/EurLex57K.csv
Pickle of EuroVocAnalyzeTool instance: data/EuroVocAnalysisTool.pickle
- This instance store EuroVoc data.
- This object provides access to relations within EuroVoc hierarchy.

TODO

Provide splits directory from bash script.

2. Iterative split

Default splits for the datasets are provided in Iterative_Split/JRC_Aquis and Iterative_Split/EurLex57K To make another split using iterative split approach, follow instructions in Iterative_Split/README.md

Name		Name	Last commit message	Last commit date
Latest commit History 30 Commits
Iterative_Split		Iterative_Split
conf		conf
data		data
training		training
EuroVocAnalyzeTool.py		EuroVocAnalyzeTool.py
README.md		README.md
prepare_eurlex57k_data.py		prepare_eurlex57k_data.py
prepare_eurovoc.py		prepare_eurovoc.py
prepare_jrc_data.py		prepare_jrc_data.py
preparedata.sh		preparedata.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Legal-Docs-Large-MLTC

1. Prepare datasets

2. Iterative split

TODO

About

Releases

Packages

Contributors 2

Languages

zeinsh/Legal-Docs-Large-MLTC

Folders and files

Latest commit

History

Repository files navigation

Legal-Docs-Large-MLTC

1. Prepare datasets

2. Iterative split

TODO

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages