Dataene er ekstrahert fra 2 kilder:
- pdfinfo: metadata som er embedded i PDF-filen.
- tekst: tekstelementene fra de 5 første og 5 siste sidene av dokumentet.
Tittelen er hentet fra:
- "title" fra pdfinfo, om den også finnes noe sted i tekst
- tekst-blokka som er skrevet med største font på første side
- tekst som står ved en "tittel"-blokk på en kolofon- eller informasjonsside
År-verdien er hentet fra 3 forskjellige kilder (synkende rekkefølge for preferanse):
- en copyright-linje i teksten (f. eks. "© NAV 2016")
- "modDate" fra pdfinfo (datoen når filen sist ble endret), hvis datoen også finnes i tekst
- "creationDate" fra pdfinfo (datoen når filen ble opprettet), hvis datoen også finnes i tekst
Vi søker etter kombinasjoner av sifre, bindestrek og 'X' (til ISSN), med riktig format, i nærheten av ordet "ISBN"/"ISSN". I tilfeller hvor det finnes flere verdier, typisk til trykt/digital versjoner, foretrekker METEOR den digitale.
NB: per nå har vi ingen validering som sikrer at ISBN/ISSN-verdien er gyldig.
For å finne utgivere, bruker vi data fra Felles autoritetsregister.
Vi prøver å finne utgivere fra (synkende rekkefølge for preferanse):
- tekst som er i nærheten av "Utgiver", "Utgitt av"... (på engelsk, bokmål og nynorsk), i tekst
- prefiks for "-rapport" (f.eks. "NIBIO-Rapport") i tekst
- en copyright-linje i teksten (f. eks. "© NAV 2016")
For hvert treff returnerer METEOR den foretrukne navneformen fra autoritetsregisteret.
METEOR leter etter forfatter fra tre kilder:
- metadata-felt for forfatter(e) i pdfinfo hvis de finnes i tekst
- tekst som er i nærheten av en blokk med nøkkelord som "Forfatter", "Author" på informasjonssiden (på engelsk, bokmål og nynorsk)
- tekst som er på den aller første siden i dokumentet
Videre valideres teksten fra kildene opp mot følgende kriterier:
- Består av minst 2 ord
- Kan ha forkortelser av navn så lenge de er skrevet med stor bokstav (f.eks. "Edgar A. Poe")
- Kan ha bindestrek i navnet (f.eks. "Ola-Johan Nordmann")
- Kan ha apostrofer i navnet (f.eks. "John O'Leary")
- Kan ha bokstaver med diakritiske tegn utover det standarde latinske alfabetet (f.eks. Æ, Ø og Å)
- Navnet forekommer ikke i tekstblokker som inneholder ord som ikke matcher kriteriene over, med følgende unntak:
- Ord som "and" og "og"
- Tekst i paranteser
- Navnet forekommer ikke i tittelen
- Navnet kommer ikke etter "Fotograf:" eller varianter av dette
For å unngå at tekster som ikke er forfatternavn – men som likevel matcher kriteriene over – blir lagt til, sjekker vi også om teksten forekommer i en liste over ord som ofte forekommer i offentlige dokumenter. Eksempelvis vil ord som "Norwegian University" matche kriteriene, men ordene "Norwegian" og "University" ligger i ordlista og det blir derfor ikke oppfattet som forfatternavn.
Til gjenkjenning av språk bruker METEOR en maskinlæring metode (N-Gram-Based Text Categorization) med språk modeller fra Språkbanken (Målfrid).
Per nå kan METEOR bare gjenkjenne bokmål, nynorsk, norsamisk, lulesamisk, sørsamisk, og engelsk.
METEOR prøver å finne hva slags rapport dokumenten er, med å søke på nøkkelord på forsiden. Mulige verdiene er årsrapport (annualReport), NOU, evaluering (evaluation), veileder(guidance), og undersøkelse(survey).