Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

language detection for documents that have multiple languages #185

Open
crayzsociety opened this issue Oct 5, 2018 · 6 comments
Open

language detection for documents that have multiple languages #185

crayzsociety opened this issue Oct 5, 2018 · 6 comments

Comments

@crayzsociety
Copy link

hi,
we have a problem about language detection for documents has multiple languages, could you help to us for this

@ahmetaa
Copy link
Owner

ahmetaa commented Oct 5, 2018

Please define the problem with a small code example and document in question (or a public text you find if doc contains private data). Also keep in mind language detection may make mistakes.

@crayzsociety
Copy link
Author

LanguageIdentifier lid = LanguageIdentifier.fromInternalModels();
result = lid.identify("Ahmet eve gitti.Ayşe has gone");

bu örnekte dökümanda hem türkçe hem ingilizce veri olduğunu anlamaya çalışıyoruz.zemberek bize bir tane dil veriyor birden fazla olduğunu anlamamızın bir yolu var mıdır ?

@ahmetaa
Copy link
Owner

ahmetaa commented Oct 5, 2018

Bunun bir kaç yolu olabilir. Paragrafı cümlelere ayırıp belli karakterden uzun cümleler için ayrı ayrı tespit yapılabilir. Sonra bazı kurallar vs kullanıp aşağı yukarı hangi dillerin kullanıldığı bulunabilir.

Alternatif olarak belli bir kaç dilin olduğunu kesin ise her dil için containsLanguage metodu denenebilir.
Ama metindeki dile ait karakter sayısı vs başarı oranını etkiler. Denemeniz gerekir.

Son olarak, Müge, satırlara bölünürse ployglot aracının bunu yapabildiğini söylemiş.

@ahmetaa
Copy link
Owner

ahmetaa commented Oct 5, 2018

Bahsi geçen yöntemlerin işlemi oldukça yavaşlatacağını da hatırlatırım.
Bu konuyu açık bırakıyorum, belki buna özel bir metod yazılabilir.

@ahmetaa
Copy link
Owner

ahmetaa commented Oct 5, 2018

polyglot'u inceleyebilirsiniz, Karışık dilli metinler için özel hazırlanmış bir kütüphane imiş.
https://github.com/saffsd/polyglot

@crayzsociety
Copy link
Author

teşekkürler

@ahmetaa ahmetaa changed the title language detection for documents has multiple languages language detection for documents that have multiple languages Oct 15, 2018
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants