-
Notifications
You must be signed in to change notification settings - Fork 31
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Нарицательные в разметке #17
Comments
В эталоне есть объекты, состоящие из спанов типа org_descr / loc_descr без "настоящих" имён. Они нужны для фактов (третья дорожка). В первой и второй дорожках за их отсутствие участников не должны штрафовать. |
Правильно ли я понимаю, что на текущий момент компаратор их всё-таки штрафует, по крайней мере в первой дорожке? |
Добрый день. Присоединяюсь к вопросу. Помимо этого посылаю список ошибочно размеченных (в моем понимании) организаций в эталоне вместе с документами и идентификаторами объектов. Все эти организации нуждаются в локации и без ее упоминания не могут считаться именем собственным. Однако они размечены как имена собственные: их определяют спаны org_descr+loc_name (аналог - правительство России) либо даже org_name. Если вы не согласитесь с ошибочностью некоторых элементов списка, то просьба объяснить почему. Видимо нужно быть готовым к тому, что такие же ошибки будут и в тестовой части корпуса, что даст заниженную оценку полноты примерно на 3-4%. Конституционного суда: count=4: book_278, obectId=17509; book_278, obectId=17514; book_278, obectId=17520; book_278, obectId=17526 |
@alexandr-j , спасибо! Это вопрос о том, что такое собственное имя у организации? У тех, из которых состоит государственный аппарат, нет таких имён, как, например, у ООО "Ромашка". Они названы по функциям, по их месту в структуре, по территории, к которой они относятся и т.д.. У таких названий есть часть признаков имени собственного: многие пишутся с заглавной буквы и обозначают единственный в своём роде объект. Название страны у них систематически опускается, т.к. оно очевидно. Я исправил разметку у "правительства", "политбюро" и "пресс-службы". Там было по-разному сделано. Теперь org_descr. |
Коллеги,
не могли бы вы пояснить логику появления отдельных нарицательных в разметке организаций и локаций. Должны они там быть, если мы именованные сущности извлекаем? Если по вашему мнению - да, то по каким правилам?
Например, book_489 - в Org попали "правительство" (2 раза) и "вооруженные силы", но при этом "полиция" осталась неразмеченной.
Другой пример - book_480, два раза выделен "концерн" и один раз "завод", хотя в тексте завод втречается три раза.
В book_503 выделены "город" и "столица".
И примеров таких много. Если речь идет о кореферентности, хотя пример с заводом и вооруженными силами это опровергает, то логично было бы ее увидеть и для персон, но для них такого пока не замечано.
Заранее спасибо за разъяснения.
The text was updated successfully, but these errors were encountered: