Skip to content

mtriclot/Europresse_to_iramuteq

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Europresse_to_iramuteq

Script pour le parsing des .html d'europresse vers Iramuteq

L'objectif du script est de traiter les html téléchargés d'europresse pour les rendre exploitables dans Iramuteq. Le script est adapté de https://rpubs.com/CorentinRoquebert/europresse.

Mode d'emploi

  1. Placer les fichiers HTML dans le même dossier que les deux scripts R (sous windows, pas de dossier avec espaces ou caractères accentués dans le nom)
  2. Passer le script europresse_extract ligne à ligne dans RStudio
  3. On récupère à la fin des .csv à chaque étape de traitement des données
  4. Et un fichier .txt prêt pour Iramuteq

About

Script pour le parsing des .html d'europresse vers Iramuteq

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages