Kilde for metadata verdier

Dataene er ekstrahert fra 2 kilder:

pdfinfo: metadata som er embedded i PDF-filen.
tekst: tekstelementene fra de 5 første og 5 siste sidene av dokumentet.

Tittel

Tittelen er hentet fra:

"title" fra pdfinfo, om den også finnes noe sted i tekst
tekst-blokka som er skrevet med største font på første side
tekst som står ved en "tittel"-blokk på en kolofon- eller informasjonsside

År

År-verdien er hentet fra 3 forskjellige kilder (synkende rekkefølge for preferanse):

en copyright-linje i teksten (f. eks. "© NAV 2016")
"modDate" fra pdfinfo (datoen når filen sist ble endret), hvis datoen også finnes i tekst
"creationDate" fra pdfinfo (datoen når filen ble opprettet), hvis datoen også finnes i tekst

ISBN/ISSN

Vi søker etter kombinasjoner av sifre, bindestrek og 'X' (til ISSN), med riktig format, i nærheten av ordet "ISBN"/"ISSN". I tilfeller hvor det finnes flere verdier, typisk til trykt/digital versjoner, foretrekker METEOR den digitale.

NB: per nå har vi ingen validering som sikrer at ISBN/ISSN-verdien er gyldig.

Utgiver

For å finne utgivere, bruker vi data fra Felles autoritetsregister.

Vi prøver å finne utgivere fra (synkende rekkefølge for preferanse):

tekst som er i nærheten av "Utgiver", "Utgitt av"... (på engelsk, bokmål og nynorsk), i tekst
prefiks for "-rapport" (f.eks. "NIBIO-Rapport") i tekst
en copyright-linje i teksten (f. eks. "© NAV 2016")

For hvert treff returnerer METEOR den foretrukne navneformen fra autoritetsregisteret.

Forfatter

METEOR leter etter forfatter fra tre kilder:

metadata-felt for forfatter(e) i pdfinfo hvis de finnes i tekst
tekst som er i nærheten av en blokk med nøkkelord som "Forfatter", "Author" på informasjonssiden (på engelsk, bokmål og nynorsk)
tekst som er på den aller første siden i dokumentet

Videre valideres teksten fra kildene opp mot følgende kriterier:

Består av minst 2 ord
Kan ha forkortelser av navn så lenge de er skrevet med stor bokstav (f.eks. "Edgar A. Poe")
Kan ha bindestrek i navnet (f.eks. "Ola-Johan Nordmann")
Kan ha apostrofer i navnet (f.eks. "John O'Leary")
Kan ha bokstaver med diakritiske tegn utover det standarde latinske alfabetet (f.eks. Æ, Ø og Å)
Navnet forekommer ikke i tekstblokker som inneholder ord som ikke matcher kriteriene over, med følgende unntak:
- Ord som "and" og "og"
- Tekst i paranteser
Navnet forekommer ikke i tittelen
Navnet kommer ikke etter "Fotograf:" eller varianter av dette

For å unngå at tekster som ikke er forfatternavn – men som likevel matcher kriteriene over – blir lagt til, sjekker vi også om teksten forekommer i en liste over ord som ofte forekommer i offentlige dokumenter. Eksempelvis vil ord som "Norwegian University" matche kriteriene, men ordene "Norwegian" og "University" ligger i ordlista og det blir derfor ikke oppfattet som forfatternavn.

Språk

Til gjenkjenning av språk bruker METEOR en maskinlæring metode (N-Gram-Based Text Categorization) med språk modeller fra Språkbanken (Målfrid).

Per nå kan METEOR bare gjenkjenne bokmål, nynorsk, norsamisk, lulesamisk, sørsamisk, og engelsk.

Dokumenttype

METEOR prøver å finne hva slags rapport dokumenten er, med å søke på nøkkelord på forsiden. Mulige verdiene er årsrapport (annualReport), NOU, evaluering (evaluation), veileder(guidance), og undersøkelse(survey).

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

DOC.md

DOC.md

Kilde for metadata verdier

Tittel

År

ISBN/ISSN

Utgiver

Forfatter

Språk

Dokumenttype

Files

DOC.md

Latest commit

History

DOC.md

File metadata and controls

Kilde for metadata verdier

Tittel

År

ISBN/ISSN

Utgiver

Forfatter

Språk

Dokumenttype