-
Notifications
You must be signed in to change notification settings - Fork 9
Schlagworte
Dokumente in der Suche werden automatisch verschlagwortet. Die Schlagworte sollen schnell Aufschluss darüber geben, worum es in einem Dokument geht. Sie sollen darüber hinaus in Tagcloud-Ansichten einen Überblick über häufiger vorhandene Themen in der gesammten Smamlung oder innerhalb von Auszügen bieten.
- Der gesamte Text eines Dokuments (einschließlich Volltext von Anhängen) wird beim Solr-Import als Grundlage herangezogen. Dazu werden mehrere Solr-Felder in das Feld
schlagwort
kopiert (siehe dazu Datei schema.xml). - Der Text wird in einzelne Wörter zerlegt, die Wörter werden in Kleinschreibung umgewandelt.
- Die einzelnen Wörter aus diesen Feldinhalten werden dann zunächst durch den Synonym-Filter geschickt. Hierbei werden Schreibweisen bestimmter Begriffe verändert. Details weiter unten.
- Danach werden Stoppworte herausgefiltert. Das sind alle jene Wörter, die nicht als Schlagworte in Frage kommen. Details weiter unten.
Der Synonymfilter wird durch die Datei synonyms_terms.txt
konfiguriert. Dies ist eine einfache Textdatei im UTF-8-Zeichensatz.
Es wird jeweils ein Begriffs-Paare je Zeile notiert. Links vom Zeichen =>
steht die unerwünschte, rechts davon die erwünschte Schreibweise.
Auszug:
bebauungsplanes => bebauungsplan
beschlussvorschlages => beschlussvorschlag
die grünen => grüne
die linke => dielinke
die linke.köln => dielinke
Die richtige Schreibweise ist nicht grundsätzlich Singular oder grundsätzlich Plural, sondern wird von Fall zu Fall festgelegt. Bei vielen Fällen passt der Plural besser (verkehrsunfälle, splielplätze, ...), weil es auch in den Dokumenten, die durch diese Schlagworte gekennzeichnet werden, oft um mehrere dieser Objekte geht. In anderen Fällen ist das Dokument selbst das Objekt, wie z.B. bei "Bebauungsplan". In diesem Fall ist der Singular besser geeignet.
Der Stoppwort-Filter ist eine reine Text-Datei (UTF-8-kodiert) mit dem Namen stopwords_terms.txt
In dieser Datei ist je Zeile ein Stoppwort-Eintrag enthalten. Leerzeichen am Anfang oder am Ende spielen keine Rolle.
Auszug:
a
aber
abgedeckt
abgegeben
abgelehnt
abgerissen
abgerufen
abgeschlossen
abhilfe
ablaufschemas
ablesbar
abstimmung