- Browsen nach https://digital.staatsbibliothek-berlin.de/werkansicht?PPN=PPN680203753
- Kopieren der METS-URL https://content.staatsbibliothek-berlin.de/dc/PPN680203753.mets.xml
mkdir demo1
cd demo1
ocrd workspace clone https://content.staatsbibliothek-berlin.de/dc/PPN680203753.mets.xml
ocrd workspace find -k url -k mimetype -k fileGrp
ocrd workspace find --fileGrp DEFAULT --download
ocrd resmgr download ocrd-tesserocr-recognize Fraktur_GT4HistOCR.traineddata
Workflow-Dokumentation: https://ocr-d.de/en/workflows
ocrd-tesserocr-recognize -P segmentation_level region -P textequiv_level word -P find_tables true -P model Fraktur_GT4HistOCR -I DEFAULT -O OCR-D-OCR-TESS
Mit dem Skript ppn2ocr
aus dem Projekt https://github.com/qurator-spk/ocrd-galley können Sie Werke der Staatsbibliothek "in einem Rutsch" mit voller Auflösung als OCR-D-Workspace herunterladen:
ppn2ocr PPN680203753
ocrd resmgr download ocrd-calamari-recognize qurator-gt4histocr-1.0
ocrd process \
"cis-ocropy-binarize -I DEFAULT -O OCR-D-BIN" \
"anybaseocr-crop -I OCR-D-BIN -O OCR-D-CROP" \
"skimage-binarize -I OCR-D-CROP -O OCR-D-BIN2 -P method li" \
"skimage-denoise -I OCR-D-BIN2 -O OCR-D-BIN-DENOISE -P level-of-operation page" \
"tesserocr-deskew -I OCR-D-BIN-DENOISE -O OCR-D-BIN-DENOISE-DESKEW -P operation_level page" \
"cis-ocropy-segment -I OCR-D-BIN-DENOISE-DESKEW -O OCR-D-SEG -P level-of-operation page" \
"cis-ocropy-dewarp -I OCR-D-SEG -O OCR-D-SEG-LINE-RESEG-DEWARP" \
"calamari-recognize -I OCR-D-SEG-LINE-RESEG-DEWARP -O OCR-D-OCR-CALA -P checkpoint_dir qurator-gt4histocr-1.0"
browse-ocrd mets.xml
mkdir demo2
cd demo2
OCR-D-GT-Repo: https://ocr-d.de/gt-repo
curl -O https://ocr-d-repo.scc.kit.edu/api/v1/dataresources/dda89351-7596-46eb-9736-593a5e9593d3/data/luz_blitz_1784.ocrd.zip
unzip luz_blitz_1784.ocrd.zip
cd data
ocrd-tesserocr-recognize -P segmentation_level region -P textequiv_level word -P find_tables true -P model Fraktur_GT4HistOCR -I OCR-D-IMG -O OCR-D-OCR-TESS
ocrd-dinglehopper -I OCR-D-GT-SEG-LINE,OCR-D-OCR-TESS -O EVAL-DINGLE
{
"gt": "OCR-D-GT-SEG-LINE/OCR-D-GT-SEG-LINE_0003.xml",
"ocr": "OCR-D-OCR-TESS/OCR-D-OCR-TESS_0003.xml",
"cer": 0.02749551703526599,
"wer": 0.07924528301886792,
"n_characters": 1673,
"n_words": 265
}