-
Notifications
You must be signed in to change notification settings - Fork 210
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
language detection for documents that have multiple languages #185
Comments
Please define the problem with a small code example and document in question (or a public text you find if doc contains private data). Also keep in mind language detection may make mistakes. |
LanguageIdentifier lid = LanguageIdentifier.fromInternalModels(); bu örnekte dökümanda hem türkçe hem ingilizce veri olduğunu anlamaya çalışıyoruz.zemberek bize bir tane dil veriyor birden fazla olduğunu anlamamızın bir yolu var mıdır ? |
Bunun bir kaç yolu olabilir. Paragrafı cümlelere ayırıp belli karakterden uzun cümleler için ayrı ayrı tespit yapılabilir. Sonra bazı kurallar vs kullanıp aşağı yukarı hangi dillerin kullanıldığı bulunabilir. Alternatif olarak belli bir kaç dilin olduğunu kesin ise her dil için containsLanguage metodu denenebilir. Son olarak, Müge, satırlara bölünürse ployglot aracının bunu yapabildiğini söylemiş. |
Bahsi geçen yöntemlerin işlemi oldukça yavaşlatacağını da hatırlatırım. |
polyglot'u inceleyebilirsiniz, Karışık dilli metinler için özel hazırlanmış bir kütüphane imiş. |
teşekkürler |
hi,
we have a problem about language detection for documents has multiple languages, could you help to us for this
The text was updated successfully, but these errors were encountered: