Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Pouillés – analyse des fichiers XML livrés #23

Open
architexte opened this issue Feb 21, 2023 · 0 comments
Open

Pouillés – analyse des fichiers XML livrés #23

architexte opened this issue Feb 21, 2023 · 0 comments

Comments

@architexte
Copy link
Contributor

architexte commented Feb 21, 2023

Analyse des fichiers XML des Pouillés

Décomptes et synthèse

définition PO_t7.xml PO_t8.xml PO_t9.xml TOTAL
article une notice de lieu 4292 2546 5396 12234
vedette les labels du lieu 4292 2546 5396 12234
vedette/i 4866 2955 5907 13728
//i[not(ancestor::vedette)] 139 260 222 621
localisationpa pays de localisation 804 5 0 809
localisationde dpt de localisation 3433 2446 5339 11218
localisationca canton de localisation 3838 2122 5270 11230
localisationco commune de localisation 812 1083 1844 3739
localisation localisation, divers 990 197 351 1538
forme_ancienne forme ancienne et attestation(s) 9073 4512 9953 23538
fa forme ancienne 9073 4512 9952 23537
reference ref biblio de la forme ancienne 12883 7018 12626 32527
i italique 5017 3261 6150 14428
sup exposant 4650 3206 7506 15362
//sup[not(ancestor::localisationca)][not(ancestor::localisationco)] 405 11 392 808
sm petites caps 16174 8687 16602 41463
renvoi renvoi à un article 10 11 226 247
compl ? 1129 866 1100 3095
x incertitude ? 227 626 384 1237
y quadratin de la première forme ancienne 75 245 420 740
z forme ancienne restituée ? 74 244 403 721

Pagination

Par commodité, ajout de la pagination de chaque article dans article/@pg.

Vedettes

Les balises i rendent difficile l’extraction des vedettes :

  • PO7-00004: <vedette><i>Abbaye</i> (<i>l’</i>)</vedette>
  • PO7-03995: <vedette><i>Vauffelin</i>, en all. <i>Füglisthal</i></vedette>
  • PO7-00053: <vedette><i>Alby</i> ou <i>Alby-sur-Chéran</i></vedette>
  • PO7-02803: <vedette><i>Réchésy</i>, en all. <i>Röschlach</i> ou <i>Röschli</i></vedette>

Pire :

  • PO7-00461: <vedette><i>Bonhomme</i> (<i>le</i>), en all. <i>Diedolshausen</i></vedette>
  • PO7-00662: <vedette><i>Chaffal</i> (<i>le</i>), auj. <i>l’Escoulin</i></vedette>

Des exemples dans DT02 :

  • DT02-00003: <vedette><sm>Abbaye (L’),</sm></vedette>
  • DT02-00014: <vedette><sm>Abonval</sm> ou <sm>Ploisy,</sm></vedette>
  • DT02-00944: <vedette><sm>Buisson (Le)</sm> ou <sm>Montabaudière,</sm></vedette>

Je propose de standardiser en suivant le modèle précédemment adopté :

  • PO7-00004: <vedette><sm>Abbaye (l’)</sm></vedette>
  • PO7-03995: <vedette><sm>Vauffelin</sm>, en all. <sm>Füglisthal</sm></vedette>
  • PO7-00053: <vedette><sm>Alby</sm> ou <sm>Alby-sur-Chéran</sm></vedette>
  • PO7-02803: <vedette><sm>Réchésy</sm>, en all. <sm>Röschlach</sm> ou <sm>Röschli</sm></vedette>
  • PO7-00461: <vedette><sm>Bonhomme (le)</sm>, en all. <sm>Diedolshausen</sm></vedette>
  • PO7-00662: <vedette><sm>Chaffal (le)</sm>, auj. <sm>Escoulin (l’)</sm></vedette>

Qu’en dites-vous ? Pas si trivial… cf PO7-00662.

Localisation

Schéma

La localisation est spécifiée dans un élément dédié pour chaque échelon administratif (très pratique), même si les valeurs peuvent être mal standardisées.

Le schéma diffère fortement sur ce point des DT. Je proposerais de réviser ce modèle. Par exemple :

<article old-id="PO7-02698" pg="649">
  <vedette><i>Pont-du-Doux</i></vedette>
  <localisationde>Ardèche</localisationde>
  <localisationca>c<sup>on</sup> de Tournon</localisationca>
  <localisationco>c<sup>ne</sup> de Saint-Barthélemy-le-Plein</localisationco>
  …
</article>

deviendrait (à revoir, pas top, cf segmentation de la commune – il faut analyser l’ensemble des balises).

<article old-id="PO7-02698" pg="649">
  <vedette><i>Pont-du-Doux</i></vedette>
  <definition>
    <localisation>
      <departement>Ardèche</departement>
      <canton>canton de Tournon</canton>
      <commune precision="approximatif" insee="07217">commune de Saint-Barthélemy-le-Plein</commune>
      <!-- 'Saint-Barthélémy-le-Plain' dans le COG 2011 -->
    </localisation>
  </definition>
  …
</article>

localisationpa

Unique pays de localisation, si PAS la France : Allemagne, Asie mineure, Italie, Palestine, Suisse

Un seul article avec localisationpa ET localisationde :

  • PO7-01969 : pa = 'Suisse' / de = 'Haut-Rhin'.

210 articles sans localisationpa NI localisationde (//article[not(localisationde)][not(localisationpa)]) :

  • doyenneté
  • affluents
  • ?

localisationde

(Ancien) Département de localisation.

2 articles avec 2 départements de localisation :

  • PO7-02695: Isère + Savoie
  • PO8-02447: Bouches-du-Rhône + Var

Liste étendue des valeurs possibles… Il va falloir normaliser les valeurs dans le code utile au liage :

  • Ain
  • Allier
  • Alpes Maritimes
  • Alpes-Maritimes
  • Ardèche
  • Aude
  • Aveyron
  • Bas-Rhin
  • Basses-Alpes
  • Basses-Pyrénées
  • Bouches-du-Rhône
  • Bouches-du-Rhône et Var
  • Cantal
  • Charente
  • Charente-Maritime
  • Cher
  • Corrèze
  • Côte-d’Or
  • Creuse
  • Dordogne
  • Doubs
  • Drôme
  • Gard
  • Gers
  • Gironde
  • Haut-Rhin
  • Haute-Alpes
  • Haute-Garonne
  • Haute-Loire
  • Haute-Marne
  • Haute-Saône
  • Haute-Savoie
  • Haute-Vienne
  • Hautes-Alpes
  • Hérault
  • Indre
  • Indre-et-Loire
  • Isère
  • Jura
  • Loir-et-Cher
  • Loire
  • Loiret
  • Lot
  • Lot-et-Garonne
  • Lozère
  • Maine-et-Loire
  • Marne
  • Meurthe-et-Moselle
  • Nièvre
  • Puy-de-Dôme
  • Rhône
  • Saône-et-Loire
  • Savoie
  • Seine
  • Somme
  • Tarn
  • Tarn-et-Garonne
  • Var
  • Vaucluse
  • Vienne
  • Vosges
  • Yonne
  • territoire de Belfort

localisationco

Canton de localisation.

Analyser intérêt.

localisationco

Commune de localisation.

3 articles avec plusieurs communes de localisation :

  • PO7-02635: Arnavon + Saint-Ferréol
  • PO7-02932: Saint-Saphorin + Chardonne
  • PO9-04206: Viala-du-Tarn + Saint-Rome-de-Tarn

localisation

Localisation indéfinie.

Par exemple :

  • PO8-00098: <localisation>arr<sup>t</sup> de Grasse</localisation>

TODO: analyser

Formes anciennes

Une forme (fa) + sa ou ses référence(s) (reference).

fa

Contient la forme ancienne.

Italique

621 i hors vedette, par exemple :

  • PO7-00180: <forme_ancienne><fa>Assinetz</fa>, <reference>304 var. <i>b</i></reference>.</forme_ancienne>
  • PO7-01190: <compl>, localité disparue près de <i>Beauchastel</i></compl>
  • PO7-02550: <renvoi>Voir <i>Saint-Sylvestre</i>.</renvoi>

D’accord pour conserver.

Exposant

405 sup hors localisationca et localisationco. – souvent des abréviations.

TODO: analyser

Renvois

Peut-on normaliser les renvois comme dans les DT et les insérer dans un commentaire ?

  • DT02-04296: <renvoi>— Voy. <sm>Montreuil.</sm></renvoi>

<renvoi>Voir <i>Saint-Sylvestre</i>.</renvoi> (PO7-02550) deviendrait :

<commentaire>
  <p><renvoi>Voir <sm>Saint-Sylvestre</sm></renvoi>.</p>
</commentaire>

Doutes et corrections ?

compl

?

x

Souvent de la ponctuation : incertitudes de saisie ?

y

Des quadratins ajoutés devant la première forme ancienne d’un article ? Supprimer ?

z

Dans fa : restitution d’une forme ancienne ?

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

2 participants