Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Нарицательные в разметке #17

Open
FedorBykov opened this issue Jan 22, 2016 · 4 comments
Open

Нарицательные в разметке #17

FedorBykov opened this issue Jan 22, 2016 · 4 comments

Comments

@FedorBykov
Copy link

Коллеги,
не могли бы вы пояснить логику появления отдельных нарицательных в разметке организаций и локаций. Должны они там быть, если мы именованные сущности извлекаем? Если по вашему мнению - да, то по каким правилам?

Например, book_489 - в Org попали "правительство" (2 раза) и "вооруженные силы", но при этом "полиция" осталась неразмеченной.

Другой пример - book_480, два раза выделен "концерн" и один раз "завод", хотя в тексте завод втречается три раза.

В book_503 выделены "город" и "столица".

И примеров таких много. Если речь идет о кореферентности, хотя пример с заводом и вооруженными силами это опровергает, то логично было бы ее увидеть и для персон, но для них такого пока не замечано.

Заранее спасибо за разъяснения.

@vbocharov
Copy link
Contributor

В эталоне есть объекты, состоящие из спанов типа org_descr / loc_descr без "настоящих" имён. Они нужны для фактов (третья дорожка).

В первой и второй дорожках за их отсутствие участников не должны штрафовать.

@sysoev-a
Copy link

Правильно ли я понимаю, что на текущий момент компаратор их всё-таки штрафует, по крайней мере в первой дорожке?

@alexandr-j
Copy link

Добрый день. Присоединяюсь к вопросу. Помимо этого посылаю список ошибочно размеченных (в моем понимании) организаций в эталоне вместе с документами и идентификаторами объектов. Все эти организации нуждаются в локации и без ее упоминания не могут считаться именем собственным. Однако они размечены как имена собственные: их определяют спаны org_descr+loc_name (аналог - правительство России) либо даже org_name. Если вы не согласитесь с ошибочностью некоторых элементов списка, то просьба объяснить почему. Видимо нужно быть готовым к тому, что такие же ошибки будут и в тестовой части корпуса, что даст заниженную оценку полноты примерно на 3-4%.

Конституционного суда: count=4: book_278, obectId=17509; book_278, obectId=17514; book_278, obectId=17520; book_278, obectId=17526
Конгресса: count=3: book_124, obectId=10546; book_252, obectId=13464; book_93, obectId=10398
Палаты представителей: count=2: book_252, obectId=13459
Конгрессе: count=2: book_252, obectId=13460; book_252, obectId=13469
Сенате: count=2: book_252, obectId=13465; book_252, obectId=13476
Минсвязи: count=2: book_383, obectId=14376; book_383, obectId=14386
Минэкономразвития: count=2: book_475, obectId=18584; book_475, obectId=18605
ГУВД: count=1: book_147, obectId=12389
Следственного комитета при прокуратуре: count=1: book_182, obectId=12648
Минкомсвязи: count=1: book_247, obectId=13454
Палату представителей: count=1: book_252, obectId=13458
Палаты представителей 112 созыва: count=1: book_252, obectId=13475
Федеральному собранию: count=1: book_256, obectId=13486
правительству: count=1: book_256, obectId=13488
Дума: count=1: book_278, obectId=17511
Сената: count=1: book_278, obectId=17515
Синода: count=1: book_278, obectId=17516
Служба прессы Конституционного суда: count=1: book_278, obectId=17525
Думы: count=1: book_278, obectId=17529
делегация США: count=1: book_282, obectId=17547
МВД: count=1: book_288, obectId=17595
Законодательного собрания: count=1: book_302, obectId=17581
генштаба: count=1: book_346, obectId=18173
политбюро партии: count=1: book_367, obectId=18236
Госдуму: count=1: book_506, obectId=14115
Министерство сельского хозяйства и пищевой промышленности: count=1: book_622, obectId=18997

@vbocharov
Copy link
Contributor

@alexandr-j , спасибо!

Это вопрос о том, что такое собственное имя у организации? У тех, из которых состоит государственный аппарат, нет таких имён, как, например, у ООО "Ромашка". Они названы по функциям, по их месту в структуре, по территории, к которой они относятся и т.д.. У таких названий есть часть признаков имени собственного: многие пишутся с заглавной буквы и обозначают единственный в своём роде объект. Название страны у них систематически опускается, т.к. оно очевидно.

Я исправил разметку у "правительства", "политбюро" и "пресс-службы". Там было по-разному сделано. Теперь org_descr.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

4 participants