Skip to content

Commit

Permalink
Merge branch 'develop' into dist_over_time
Browse files Browse the repository at this point in the history
  • Loading branch information
MariellaCC authored Dec 18, 2023
2 parents f884155 + 587f072 commit cd7689b
Show file tree
Hide file tree
Showing 4 changed files with 89 additions and 38 deletions.
3 changes: 3 additions & 0 deletions .gitignore
Original file line number Diff line number Diff line change
Expand Up @@ -65,3 +65,6 @@ ci/conda/kiara_plugin.topic_modelling/meta.yaml
.pixi
pixi.lock
dev.py

*.zip
**/temp_folder/
63 changes: 31 additions & 32 deletions docs/jupyter/kiara_topic_modelling.ipynb
Original file line number Diff line number Diff line change
Expand Up @@ -495,48 +495,47 @@
"\u001b[3m \u001b[0m - re: https://docs.python.org/3/library/re.html │\n",
"│ │\n",
"\u001b[3m \u001b[0m\u001b[3mInputs \u001b[0m\u001b[3m \u001b[0m │\n",
"\u001b[3m \u001b[0m \u001b[1m \u001b[0m\u001b[1mfield \u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m \u001b[1m \u001b[0m \u001b[1m \u001b[0m \u001b[1m \u001b[0m │\n",
"\u001b[3m \u001b[0m \u001b[1m \u001b[0m\u001b[1mname \u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mtype \u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mdescrip\u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mRequired\u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mDefault \u001b[0m\u001b[1m \u001b[0m │\n",
"\u001b[3m \u001b[0m \u001b[1m \u001b[0m\u001b[1mfield \u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m \u001b[1m \u001b[0m \u001b[1m \u001b[0m \u001b[1m \u001b[0m │\n",
"\u001b[3m \u001b[0m \u001b[1m \u001b[0m\u001b[1mname \u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mtype \u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mdescript\u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mRequired\u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mDefault \u001b[0m\u001b[1m \u001b[0m │\n",
"\u001b[3m \u001b[0m ────────────────────────────────────────────────────── │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mcorpus_ta\u001b[0m\u001b[3m \u001b[0m table The \u001b[1myes\u001b[0m -- no │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mble \u001b[0m\u001b[3m \u001b[0m corpus default │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m for -- │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m which we │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m want to │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m get │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mcorpus_ta\u001b[0m\u001b[3m \u001b[0m table The \u001b[1myes\u001b[0m -- no │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mble \u001b[0m\u001b[3m \u001b[0m corpus default │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m for which -- │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m we want │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m to get │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m metadata │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m from │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m file │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m from file │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m names. │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mcolumn_na\u001b[0m\u001b[3m \u001b[0m string The \u001b[1myes\u001b[0m -- no │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mme \u001b[0m\u001b[3m \u001b[0m column default │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m contain… -- │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m metadat… │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mfile_name\u001b[0m\u001b[3m \u001b[0m string The \u001b[1myes\u001b[0m -- no │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3m_col \u001b[0m\u001b[3m \u001b[0m column default │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m containi… -- │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m file │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m names │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m with │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m metadata. │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m In order │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m to work, │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m file │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m names │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m need to │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m comply │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m with │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m LCCN │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m with LCCN │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m pattern │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m '/sn860… │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m contain… │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m publica… │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m referen… │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m '/sn8606… │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m containi… │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m publicat… │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m reference │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m and date. │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mmap \u001b[0m\u001b[3m \u001b[0m list List of no -- no │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m lists of default │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m unique -- │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m publicat… │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m referenc… │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m and │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m date. │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m\u001b[3mmap \u001b[0m\u001b[3m \u001b[0m list List of no -- no │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m lists of default │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m unique -- │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m publica… │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m referen… │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m and │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m publica… │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m publicat… │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m names in │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m the │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m collect… \n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m collecti…\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m provided │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m in the │\n",
"\u001b[3m \u001b[0m \u001b[3m \u001b[0m same │\n",
Expand Down Expand Up @@ -566,7 +565,7 @@
"source": [
"get_lccn_metadata_inputs = {\n",
" \"corpus_table\": corpus_table_zenodo,\n",
" \"column_name\": \"file_name\",\n",
" \"file_name_col\": \"file_name\",\n",
" \"map\": [['2012271201','sn85054967','sn93053873','sn85066408','sn85055164','sn84037024','sn84037025','sn84020351','sn86092310','sn92051386'],['Cronaca_Sovversiva','Il_Patriota','L\\'Indipendente','L\\'Italia','La_Libera_Parola','La_Ragione','La_Rassegna','La_Sentinella','La_Sentinella_del_West','La_Tribuna_del_Connecticut']],\n",
"}"
]
Expand Down Expand Up @@ -607,7 +606,7 @@
"│ <span style=\"font-weight: bold\"> field </span> <span style=\"font-weight: bold\"> value </span> │\n",
"│ ────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── │\n",
"│ <span style=\"font-weight: bold\"> corpus_table </span> <span style=\"font-style: italic\"> </span> │\n",
"│ <span style=\"font-weight: bold\"> </span> <span style=\"font-style: italic\"> </span><span style=\"font-weight: bold; font-style: italic\"> file_name </span><span style=\"font-style: italic\"> </span><span style=\"font-weight: bold; font-style: italic\"> content </span><span style=\"font-style: italic\"> </span><span style=\"font-weight: bold; font-style: italic\"> date </span><span style=\"font-style: italic\"> </span><span style=\"font-weight: bold; font-style: italic\"> pub_ref </span><span style=\"font-style: italic\"> </span> │\n",
"│ <span style=\"font-weight: bold\"> </span> <span style=\"font-style: italic\"> </span><span style=\"font-weight: bold; font-style: italic\"> file_name </span><span style=\"font-style: italic\"> </span><span style=\"font-weight: bold; font-style: italic\"> content </span><span style=\"font-style: italic\"> </span><span style=\"font-weight: bold; font-style: italic\"> date </span><span style=\"font-style: italic\"> </span><span style=\"font-weight: bold; font-style: italic\"> publication_ref </span><span style=\"font-style: italic\"> </span><span style=\"font-weight: bold; font-style: italic\"> publication_name </span><span style=\"font-style: italic\"> </span> │\n",
"│ <span style=\"font-weight: bold\"> </span> <span style=\"font-style: italic\"> ─────────────────────────────────────────────────────────────────────────────────────────────────────────────────── </span> │\n",
"│ <span style=\"font-weight: bold\"> </span> <span style=\"font-style: italic\"> 2012271201_1918-03-30_ed-1_seq-1_ocr.txt -A Ci 1918-03-30 2012271201 </span> │\n",
"│ <span style=\"font-weight: bold\"> </span> <span style=\"font-style: italic\"> 2012271201_1918-03-16_ed-1_seq-1_ocr.txt This newspaper has no objection 1918-03-16 2012271201 </span> │\n",
Expand Down Expand Up @@ -654,7 +653,7 @@
"\u001b[1m \u001b[0m\u001b[1mfield \u001b[0m\u001b[1m \u001b[0m \u001b[1m \u001b[0m\u001b[1mvalue \u001b[0m\u001b[1m \u001b[0m │\n",
"│ ────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── │\n",
"\u001b[1m \u001b[0m\u001b[1mcorpus_table\u001b[0m\u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n",
"\u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3mfile_name\u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3mcontent\u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3mdate\u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3mpub_ref\u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n",
"\u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3mfile_name\u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3mcontent\u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3mdate\u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3mpublication_ref\u001b[0m\u001b[1;3m \u001b[0m\u001b[3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3mpublication_name\u001b[0m\u001b[1;3m \u001b[0m\u001b[1;3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n",
"\u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m ─────────────────────────────────────────────────────────────────────────────────────────────────────────────────── \u001b[0m\u001b[3m \u001b[0m │\n",
"\u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m2012271201_1918-03-30_ed-1_seq-1_ocr.txt\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m-A Ci\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m1918-03-30\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m2012271201\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n",
"\u001b[1m \u001b[0m \u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m2012271201_1918-03-16_ed-1_seq-1_ocr.txt\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3mThis newspaper has no objection\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m1918-03-16\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m2012271201\u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m\u001b[3m \u001b[0m │\n",
Expand Down
Loading

0 comments on commit cd7689b

Please sign in to comment.