Skip to content
This repository has been archived by the owner on Dec 21, 2023. It is now read-only.

Realizar testes com novas metodologias de busca #24

Open
ogecece opened this issue Jul 19, 2022 · 4 comments
Open

Realizar testes com novas metodologias de busca #24

ogecece opened this issue Jul 19, 2022 · 4 comments
Assignees

Comments

@ogecece
Copy link
Member

ogecece commented Jul 19, 2022

Para a geração das novas bases de dados, realizar as seguintes alterações:

  • Trocar palavra "sistema" por "sistema de gestão" e "sistema integrado de gestão"
    • Sistema Educacional [categoria gestão]
    • Sistema de Informática [categoria gestão]
    • Sistema de Gestão (Escolar, Pública, da Educação) [categoria gestão]
    • Sistema Integrado de Gestão (da Educação) [categoria gestão]
    • SIGEDUC [categoria gestão]
  • Alterar Span ou Gap de 20 para 50
  • Vocabulário em português
  • Remover grupo de palavras de tipo de publicação
  • Comparar algoritmo de span com busca intervalar
  • Implementar Negação de termos
    • Autorização de funcionamento (termo da lista negra)

Metodologia:

Realizar o processamento para gerar os conjuntos de dados a partir dos parâmetros, utilizando as 4 configurações possíveis para execução do algoritmo de consulta na base:

a) Referência: Conjunto A (spanmais permissivo, 20 slop, com grupo de palavras tipo de publicação → 6923 resultados
Acurácia: 30% |(|+-2100 excertos)
b) Conjunto B (span mais permissivo, 50 slop, sem grupo de palavras tipo de publicação → ? resultados
Acurácia: 20% |(|+-? excertos)
c) Conjunto C (span mais restritivo, 50 slop, sem grupo de palavras tipo de publicação) → 700+ resultados
Acurácia: ?% (? excertos)
d) Conjunto D (intervalar mais restritivo, 50 gap, sem grupo de palavras tipo de publicação) → ? resultados

Executar o algoritmo para produzir o conjunto B, calcular a acurácia a partir de uma amostragem aleatória dos resultados (e.g. 1% dos resultados) e comparar com acurácia do conjunto de referência.

Depois, implementar as consultas para gerar os conjuntos C e D para comparação com A e B.

Implementar método de análise dos resultados das consultas, separando por UF e verificando se há reincidência dos excertos entre os conjuntos.

@tigreped
Copy link
Collaborator

Concluir os testes com a geração dos conjuntos de dados no drive.

Realizar análise dos conjuntos de dados utilizando como referência as cidades de Petrolina e Sumaré.

@tigreped
Copy link
Collaborator

O primeiro conjunto de dados dataset1.csv foi gerado com os parâmetros utilizados inicialmente. 20 termos de distância no máximo entre os termos, utilizando o algoritmo span mais permissivo, inclui a lista de tipos de publicação, mas não especificava a palavra sistema. É considerada a base de referência. Possui 6923 resultados.

O conjuto de dados dataset2.csv foi gerado utilizando a mesma distância entre termos (20 de gap/slop), mas foi retirado o conjunto de sinônimos dos tipos de publicação. O conjunto gerado possui 15217 resultados, o que indica que com a remoção dos tipos de publicação, as consultas ficam menos restritivas, retornando mais resultados.

Por essa razão, recomenda-se a utilização do grupo de sinônimos para tipos de publicação.

O dataset3.csv, por sua vez, foi gerado substituindo-se o uso da palavra "sistema" por frases mais específicas, como "sistema de gestão" ou "sistema educacional". O conjunto de dados gerado possui 1533 resultados, um número mais reduzido.

@tigreped
Copy link
Collaborator

O conjunto dataset4.csv foi gerado idêntico ao anterior (dataset3.csv), mas com uma distância maior, de 50 termos, ao invés de 20. Gerou 4990 resultados, indicando mais que 3x o número de resultados, com o aumento da distância.

O conjunto dataset5.csv foi uma tentativa da implementação restritiva com 50 termos de distância. Esta retornou apenas 106 resultados.

O conjunto dataset6.csv diferiu da anterior apenas pela distância entre os termpos, utilizando 20. Esta retornou os mesmos 106 resultados, contraindicando o argumento percebido no conjunto dataset4.csv uma vez que nesse caso a quantidade de resultados não mudou em função da distância entre os termos buscados.

A implementação atual do método de busca intervalar não retornou resultados, indicando que ainda precisa de alguns ajustes para retornar resultados válidos, portanto não foi utilizada para análise.

@ogecece ogecece moved this from Fazendo to Backlog in Querido Diário: Tecnologias na Educação Aug 30, 2022
@ogecece
Copy link
Member Author

ogecece commented Aug 30, 2022

Tarefa despriorizada por enquanto, até o fim da Análise #1. O dataset3 será utilizado para complementar o dataset inicial para a realização da Análise 1 e com isso teremos sua acurácia em algumas cidades restantes.

Após o fim da análise, o dataset4 já pode ser analisado. Para verificar sua acurácia, podemos realizar a amostragem. Mas, observar alguns municípios analisados com o dataset3 será interessante para verificar se há ocorrências relevantes no dataset4 que não haviam aparecido antes.

Em paralelo a isso, podemos investir no desenvolvimento das outras metodologias.

Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
None yet
Projects
Development

No branches or pull requests

2 participants