diff --git a/README.md b/README.md index 7bd2b0b..0fdb219 100644 --- a/README.md +++ b/README.md @@ -56,12 +56,33 @@ Une petite partie de ce corpus correspond également aux enregistrements des jug ![illus_upper](static/img/illus_signatures.png) -- les signatures sont systématiquement transcrites par un `¥`. Tous les segments contenant des signatures et des paraphes (en général ils ne contiennent rien d'autre) ont été associés au type "Signature". +- les signatures sont systématiquement transcrites par un `¥`. Tous les segments contenant des signatures et des paraphes (en général ils ne contiennent rien d'autre) ont été associés au type "DefaultLine:Signature". ![illus_upper](static/img/illus_printed.png) -- les portions de texte pré-imprimées, notamment les en-têtes des tableaux et les préambules ont été transcrits. Les segments concernés ont été associés au type "printed". +- les portions de texte pré-imprimées, notamment les en-têtes des tableaux et les préambules ont été transcrits. Les segments concernés ont été associés au type "DefaultLine:Print". + +## SegmOnto + +L'ontologie SegmOnto a été appliquée de manière simplifée: + +- `MainZone` est utilisé pour le texte libre en en-tête de la page. +- `NumberingZone` signale la zone de pagination manuscrite (souvent tracée au crayon) +- `TableZone` signale la zone principale, présentée sous la forme d'un tableau. En revanche, le détail des en-têtes et colonne n'est pas annoté. +- `MarginTextZone` est parfois utilisé pour les annotations en marge des tableaux. + +![illus_segmonto_zones](static/img/segmonto_zones.png) + +Pour les lignes de texte, comme indiqué ci-dessus, trois types de lignes sont recensés: + +- `DefaultLine:Handwritten` pour les inscriptions manuscrites +- `DefaultLine:Signature` pour les paraphes et les signatures, ce qui permet de les ignorer si besoin. +- `DefaultLine:Print` pour les en-têtes du tableau et les lignes imprimées, ce qui permet de les ignorer si besoin. + +![illus_segmonto_lines](static/img/segmonto_lines.png) + + ## Les autres dépôts LECTAUREP @@ -82,4 +103,3 @@ Une petite partie de ce corpus correspond également aux enregistrements des jug | ![inria](static/img/logo_inria.png) | ![archives nationales](static/img/logo_archives-nationales.png) | - diff --git a/static/img/segmonto_lines.png b/static/img/segmonto_lines.png new file mode 100644 index 0000000..7c29a96 Binary files /dev/null and b/static/img/segmonto_lines.png differ diff --git a/static/img/segmonto_zones.png b/static/img/segmonto_zones.png new file mode 100644 index 0000000..0a14b69 Binary files /dev/null and b/static/img/segmonto_zones.png differ