-
Notifications
You must be signed in to change notification settings - Fork 210
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Normalizer'daki farklılık (0.16.0 'dan 0.17.1'e geçiş testlerinde) #233
Comments
Bu bir hataya isaret ediyor muhtemelen. Inceleyecegim uygun zamanda |
ilginiz için teşekkür ederim. iyi çalışmalar. |
Bu problem TurkishSentenceNormalizer icerisindeki Asagidaki metod uzerinde biraz iyilestirme yaparak bu tur durumlar duzeltilebilir dusuncesindeyim. Belki karar icin <0.05 gibi bir sey denilebilir.
|
deasciifier ciktisini morfolojik olarak analiz edip eger hataliysa iptal etmek makul bir yaklasim mi? |
@mdakin bana makul geldi bu. ozel isimlerde ve hatali yazilmis kelimelerde bazi sorunlar olusturabilir gerci. |
Genel olarak daha iyi sonuc verecegini dusunuyorum. Hatali yazilmis kelimeyi hatali yazmis baska bir kelimeye donusturmusse zaten buyuk bir kayip olmaz, sadece onceki haline geri donmus olur. |
Merhaba,
Öncelikle çalışmalarınızdan dolayı sizi takdir eder ve başarılarınızın devamını dilerim.
Zemberek-full.jar dosyasını 0.16.0 'dan 0.17.1'e geçiş testlerini yapmaktayım. "alndığından" kelimesinin normalizer işlemin tabi tuttuğumda;
0.16.0 versiyonunda;
"alndığından" => "aldığından"
0.17.1 versiyonunda;
"alndığından" => "alndiğından"
şeklinde çıktı vermektedir. Bu işlemden sonra kök bulmak için lemma methodu kullanıldığında sonuçlar çok daha farklı oluyor tabi;
"aldığından" => al
"alndiğından" => alndiğından
(müşteriden bilgiler alındığından... şeklinde devam eden bir cümle fakat alındığından kelimesinin 3. harfı olan "ı" eksik yazılmış)
Normalization bloğunda yapılan kodsal değişikliklerinizi yeniden değerlendirme imkanınız olabilir mi ?
iyi çalışmalar.
The text was updated successfully, but these errors were encountered: