Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[folia] Text validation error (normalisation problem between sentences?) #34

Closed
proycon opened this issue Oct 10, 2017 · 5 comments
Closed
Assignees

Comments

@proycon
Copy link
Owner

proycon commented Oct 10, 2017

Continuation of LanguageMachines/ucto#35 by @JessedeDoes:

Expected: (space after "Mo" due to default sentence delimiter)

Versoek van het Zuyd-Hollandse Synode aan Haar Ho. Mo. , dat bij het inwilligen van een nieuw octroy de Compagnie een goede somme gelds soude contribueeren tot onderhoud van een Seminarium. Het getal der predikanten in Indiën a°. 1647 gebragt op ’t getal van 28. Verdeelinge van deselve (blz. 12).

Got: (No space after "Mo", word carries space="no")

Versoek van het Zuyd-Hollandse Synode aan Haar Ho. Mo., dat bij het inwilligen van een nieuw octroy de Compagnie een goede somme gelds soude contribueeren tot onderhoud van een Seminarium. Het getal der predikanten in Indiën a°. 1647 gebragt op ’t getal van 28. Verdeelinge van deselve (blz. 12).

Occurs in multiple places, tests seem not to cover this however (hence only discovering it now). Libfolia/folialint works fine too.

@proycon
Copy link
Owner Author

proycon commented Oct 10, 2017

Has to to with Sentence not inheriting its text delimiter from the last word inside

@proycon
Copy link
Owner Author

proycon commented Oct 10, 2017

This solves a lot of errors from the original input document, but one remains:

Expected (Indiën, en):

Verhandelinge van het ecclesiasticq of JcercJcelijcke saecken en regieringh in Indiën,en hoedanigh deselve haar van den beginne en soo vervolgens hebben toegedragenen dat alles is gereguleert; voort aennemen van predikanten , sieckentroosters enschoolmeesters voor de kercken aldaar, met derselver respective tractemenien, enspecialij eken mede raeckende het opreghten van een seminarium voor jonge studenten,hoe dat is begrepen en wat daarin is gedaan. Soo oock hoedanigh het is gelegenmet de Franschen aan de Caep de Goede Hoop en wat ordre omtrent het ecclesias-ticq en den godsdienst ten aansien van deselve daar is ge-stelt.

Got (Indiën,en):

Verhandelinge van het ecclesiasticq of JcercJcelijcke saecken en regieringh in Indiën, en hoedanigh deselve haar van den beginne en soo vervolgens hebben toegedragen en dat alles is gereguleert; voort aennemen van predikanten , sieckentroosters en schoolmeesters voor de kercken aldaar, met derselver respective tractemenien, en specialij eken mede raeckende het opreghten van een seminarium voor jonge studenten, hoe dat is begrepen en wat daarin is gedaan. Soo oock hoedanigh het is gelegen met de Franschen aan de Caep de Goede Hoop en wat ordre omtrent het ecclesias- ticq en den godsdienst ten aansien van deselve daar is ge-stelt.

Investigating..

@proycon
Copy link
Owner Author

proycon commented Oct 10, 2017

Input here is a text consisting of markup ( <t-style> ) that has each been put on a different line. The expected behaviour looks like the correct one indeed.

              <t class="default">
                <t-style class="italic">Verhandelinge van het ecclesiasticq of JcercJcelijcke saecken en regieringh in Indiën,</t-style>
                <t-style class="italic">en hoedanigh deselve haar van den beginne en soo vervolgens hebben toegedragen</t-style>
                <t-style class="italic">en dat alles is gereguleert; voort aennemen van predikanten , sieckentroosters en</t-style>
                <t-style class="italic">schoolmeesters voor de kercken aldaar, met derselver respective tractemenien, en</t-style>
                <t-style class="italic">specialij eken mede raeckende het opreghten van een seminarium voor jonge studenten,</t-style>
                <t-style class="italic">hoe dat is begrepen en wat daarin is gedaan. Soo oock hoedanigh het is gelegen</t-style>
                <t-style class="italic">met de Franschen aan de Caep de Goede Hoop en wat ordre omtrent het ecclesias-</t-style>
                <t-style class="italic">ticq en den godsdienst ten aansien van deselve daar is ge-stelt.</t-style>
              </t>

@proycon
Copy link
Owner Author

proycon commented Oct 10, 2017

This 2nd issue DOES seem like an ucto issue again, redirecting back to LanguageMachines/ucto#35

@proycon
Copy link
Owner Author

proycon commented Oct 10, 2017

Original issue solved and released

@proycon proycon closed this as completed Oct 10, 2017
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant