-
Notifications
You must be signed in to change notification settings - Fork 3
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
TICCL-unk: vraag naar werking opschoning samengevoegde ngram-lijst #12
Comments
|
Punt 1: ok, is dus een nieuwe bug. Dat geldt echter niet denk ik voor de ')' en '^' gevallen. Die moeten ook opgelost worden Punt 2. Als je elk 'woord', dus elke string herbekijkt, dan bekijk je de unigramstrings op zijn minst 6 keer (1 unigram, 2 bigrammen en 3 trigrammen. 'Op zijn minst' is dan voor hapaxen. Is het niet veel efficienter elk unigram 1 keer te evalueren, bij te houden wat de conclusie is (clean of punct of unk) en die conclusie dan bij editen van de bi- en trigrammen (= search en evt. replace op basis van de lijst verzameld voor de unigrammen) die conclusie door te trekken naar het ngram? Als een string een unk is, hebben we verder in het verhaal ook niet veel aan bigrammen en trigrammen met die string in. Het zelfde geldt voor ngrammen met getallen, bv. Punt 3. Dit lijkt hier en daar scheef te gaan. Voor acroniemen in het bijzonder, zover ik tot nu toe zie: reynaert@red:/reddata/TICCLAT/UNK$ grep 'H.S.C' TESTacro1950NGRAMS.5.acro |wc Dit zijn wat mij betreft helemaal geen unk-gevallen. Hetzelfde gebeurt ook met andere acroniemen. Graag dit eerst bekijken a.u.b! |
Ok, ik heb die komma's even uitgezocht. 't is weer moeilijker dan gedacht :) Eerst: Dan Tot slot: |
Dank voor het opzoeken en de toelichting!! De IGNORE status voor bv. 66 mag er niet in resulteren dat de bi- en trigrammen wel overgenomen worden. Moet erin resulteren eerder dat ook die niet in clean opgenomen worden, dus verder ook gewoon 'ignored' worden. 1 enkel extern punctuatieteken als onderdeel van een ngram heeft bitter weinig waarde toe te voegen voor gelijkaardige strings. Deze ngrammen moeten ook ignored worden. Er moeten inderdaad dan meer tekens als 'punctuatie' behandeld worden. Zeker '^'. er kunnen er best nog meer zijn. Dus: kW"atóërtje?öpgehaald'^^^ moet in punct opgenomen worden als: kW"atóërtje?öpgehaald Aan de andere kant zie ik dat gesplitte samenstellingen met een koppelteken van dat koppelteken ontdaan worden, dat mag juist niet gebeuren. Dit kunnen bigrammen, bv. 'ge-_ split' of 'ge_-split' of ook trigrammen zijn: 'ge_-_split'. 't Is verduiveld complex! |
Ok, ik denk dat we een duidelijkere beslisboom nodig hebben.
Voor unigram is het simpel: Voor n-grammen is het nu niet helemaal goed uitgewerkt, en warrig.
op dit moment (kleine bugs gefixt...) is
de clean file:
en de punct file:
Dit lijkt me niet 'optimaal', maar wat wil je er wel uitkrijgen? |
My suggestion is, that we create a small gold standard .tsv file with several 'hard' cases together with the desired Whenever a new unexpected case pops up, we can add it to the standard. (at first this will happen quite often, but at the end we should cover all) |
OK, good suugestion! I will work on that. Verder heb ik geprobeerd een en ander op een rijtje te krijgen: Vroege processing in TICCL-unk:
Gaan (niet) naar CLEAN:
De acroniemen De lijst acroniemen die momenteel gegenereerd wordt bevat een grote hoeveelheid varianten van acroniemen. In de KBkranten van 1950 zien we dat de meest voorkomende vorm dominant de volledig gepunctueerde vorm is, bv. 'A.C.R.O.'. We zijn uitgegaan van de niet gepunctuurde vorm, e.g. 'ACRO'. Ik denk dat voor de gebruiker en voor de andere werking wat betreft punten '.' in diverse indexeersystemen (functioneren als single character wildcard in Delpher, bijvoorbeeld. Blijken niet goed opzoekbaar in b.v. OpenSoNaR+) raadzaam is te normaliseren naar de niet-gepunctueerde vorm. Momenteel vatten we niet alle varianten. Indien de gepunctueerde vorm zonder eindpunt gebruikt wordt in een regex en daarbij toegelaten wordt dat of geen punt, dan wel twee punten of 1 ander karakter mogelijk is, dan vatten we uit de input frequentielijst wellicht nagenoeg alle varianten. De 'tussenliggende' karakters kunnen daarbij ook door de OCR gecreeerde alfanumerieke karakters zijn. Zodra we deze vollediger lijst acroniemen kunnen genereren, lijkt het me aangewezen meteen te zorgen dat alleen de genormaliseerde varianten en hun aangepaste bi-/trigrammen naar 'clean' gaan. De paren 'variant - cleane acroniemversie' kunnen meteen als lijst 'correcties' (a la 'rank' qua format) opgeslagen worden. Ik laat open of dit in TICCL-unk gebeurt of als tussenliggende stap tussen TICCL-unk en TICCL-anahash. Verder gelden voor acroniemen-ngrammen dezelfde regels als hierboven wat betreft clean/ignore of unk. [Wordt vervolgd / verder aangevuld] |
Ok, hier kan ik al mee aan de slag.
|
Ja, dit wijst me meteenal op een tekort in de beschrijving hierboven... Punt 1: ja, dit is dus een taak van TICCL-unk want de originele en herschreven strings moeten dus wel naar 'punct' en de herschreven ook naar 'clean'. Maar gezien er nog andere regels overheen gaan, zou je dit misschien toch samen daarmee moeten kunnen doen. Want als het bv. '^^over‒weg,' is, moet het toch in punct en in clean 'over-weg' worden. Punt 2. Als 'in frog schieten' betekent 'aan frog voeren', dan: uiteraard. Zie je hier problemen mee? EN zo ja, welke en waarom? Het moeten juist woordvormen worden waar Frog minder moeite mee heeft. Punt 3. Wij kunnen SoNaR niet zomaar gaan herschrijven, maar de teksten erin die ik verwerkt heb (alles wat niet tot bepaalde nieuwe media behoort) is wel al eerder door een Latin-9 filter gegaan. Ik denk dat je TICCL-unk moet zien als 1 grote normalizatiemodule. Die kan ook toegepast worden ten bate van andere programma's. Misschien moeten we het straks maar TICCL-norm ofzo gaan noemen. (Maar we moeten niet lichtzinnig programmanamen gaan veranderen...). En als dit gebeurt, moeten ook andere. |
|
Wellicht een bug: TICCL-unk lijkt niet alle componenten van bi- and trigrammen volledig op te schonen.
In file: (unk-file = reynaert@red:/reddata/TICCLAT/UNK/TESTacro1950NGRAMS.5.punct)
'voor_een_kW"atóërtje?öpgehaald'^^^ voor_een_kW"atóërtje?öpgehaald'^^^
'voor_de_, voor_de_,
Zelfs bij unigrammen:
(taxatie_66) taxatie_66)
(taxatie_66), taxatie_66),
Voor je dit fixt, volgende vraag:
Ik voer TICCL-unk momenteel een samengevoegde frequentielijst van uni-, bi- en trigrammen. Worden die als aparte items geevalueerd en opgeschoond? Of doe je eerst de unigrammen en editeer je dan met het resultaat daarvan de bi- en trigrammen? (In laatste geval zouden de drie lijsten zoals geleverd door FoLiA- of TICCL-stats door TICCL-unk apart ingelezen en samengevoegd kunnen worden).
Ter overweging aanverwant punt: heeft het zin in de lijst *unk de niet weerhouden bi- en trigrammen op te nemen?
Dit zijn misschien al weer 3 issues door elkaar...
The text was updated successfully, but these errors were encountered: