-
Notifications
You must be signed in to change notification settings - Fork 12
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
very long valency frames #393
Comments
@leoalenc, especificamente a moldura
Pode verificar isto? |
@leoalenc, aqui está minha contagem de casos deste issue e como foi feito: from valences import *
import joblib
val = joblib.load('bosque-master-20211210.pickle')
long_frames = []
for i in val.keys():
if len(i.split(',')) > 3:
long_frames.append(i)
print("Total de molduras: " + str(len(long_frames)))
sents_for_correction = 0
for i in long_frames:
for j in val[i]:
sents_for_correction += len(extract_example(val, str(i), str(j)))
print("Total de sentencas para correcao: " + str(sents_for_correction)) Return:
@leoalenc. note que, a quantidade de molduras aqui foi 98 diferente do |
@leoalenc qual foi exatatmente seu código para obter o arquivo anexado? |
De fato, |
@arademaker , veja LR-POR/tools#39 (comment).
Sobretudo os casos com 5 ou 6 elementos são relevantes para detecção de erros, dada a aridade máxima de 3 para verbos (o primeiro elemento da moldura, |
@wellington36 e @arademaker , vejam no anexo todas as molduras com mais de três elementos, sendo o primeiro um verbo.
Partindo do pressuposto de que a aridade máxima dos verbos em português é 3 (verbos bitransitivos), molduras como esta
['VERB:act', 'nsubj', 'iobj:com', 'obj']
enquadram-se no padrão.
No entanto, molduras como estas
['VERB:act', 'nsubj', 'ccomp:que+Sub', 'iobj:a', 'obj', 'xcomp:Inf']
['VERB:act', 'nsubj', 'iobj', 'obj', 'xcomp:a+Inf']
['VERB:act', 'nsubj', 'ccomp:que', 'iobj', 'obj']
com cinco e quatro argumentos nucleares são extremamente suspeitas, devendo seguramente constituir erros de anotação.
Seria interessante, usando o programa em Python, extrair os verbos com molduras de aridade > 3 e os respectivos exemplos, organizando os resultados numa tabela.
long_frames.txt
The text was updated successfully, but these errors were encountered: