Realizar testes com novas metodologias de busca #24

ogecece · 2022-07-19T18:13:19Z

Para a geração das novas bases de dados, realizar as seguintes alterações:

Trocar palavra "sistema" por "sistema de gestão" e "sistema integrado de gestão"
- Sistema Educacional [categoria gestão]
- Sistema de Informática [categoria gestão]
- Sistema de Gestão (Escolar, Pública, da Educação) [categoria gestão]
- Sistema Integrado de Gestão (da Educação) [categoria gestão]
- SIGEDUC [categoria gestão]
Alterar Span ou Gap de 20 para 50
Vocabulário em português
Remover grupo de palavras de tipo de publicação
Comparar algoritmo de span com busca intervalar
Implementar Negação de termos
- Autorização de funcionamento (termo da lista negra)

Metodologia:

Realizar o processamento para gerar os conjuntos de dados a partir dos parâmetros, utilizando as 4 configurações possíveis para execução do algoritmo de consulta na base:

a) Referência: Conjunto A (spanmais permissivo, 20 slop, com grupo de palavras tipo de publicação → 6923 resultados
Acurácia: 30% |(|+-2100 excertos)
b) Conjunto B (span mais permissivo, 50 slop, sem grupo de palavras tipo de publicação → ? resultados
Acurácia: 20% |(|+-? excertos)
c) Conjunto C (span mais restritivo, 50 slop, sem grupo de palavras tipo de publicação) → 700+ resultados
Acurácia: ?% (? excertos)
d) Conjunto D (intervalar mais restritivo, 50 gap, sem grupo de palavras tipo de publicação) → ? resultados

Executar o algoritmo para produzir o conjunto B, calcular a acurácia a partir de uma amostragem aleatória dos resultados (e.g. 1% dos resultados) e comparar com acurácia do conjunto de referência.

Depois, implementar as consultas para gerar os conjuntos C e D para comparação com A e B.

Implementar método de análise dos resultados das consultas, separando por UF e verificando se há reincidência dos excertos entre os conjuntos.

tigreped · 2022-08-16T18:02:04Z

Concluir os testes com a geração dos conjuntos de dados no drive.

Realizar análise dos conjuntos de dados utilizando como referência as cidades de Petrolina e Sumaré.

tigreped · 2022-08-16T18:13:28Z

O primeiro conjunto de dados dataset1.csv foi gerado com os parâmetros utilizados inicialmente. 20 termos de distância no máximo entre os termos, utilizando o algoritmo span mais permissivo, inclui a lista de tipos de publicação, mas não especificava a palavra sistema. É considerada a base de referência. Possui 6923 resultados.

O conjuto de dados dataset2.csv foi gerado utilizando a mesma distância entre termos (20 de gap/slop), mas foi retirado o conjunto de sinônimos dos tipos de publicação. O conjunto gerado possui 15217 resultados, o que indica que com a remoção dos tipos de publicação, as consultas ficam menos restritivas, retornando mais resultados.

Por essa razão, recomenda-se a utilização do grupo de sinônimos para tipos de publicação.

O dataset3.csv, por sua vez, foi gerado substituindo-se o uso da palavra "sistema" por frases mais específicas, como "sistema de gestão" ou "sistema educacional". O conjunto de dados gerado possui 1533 resultados, um número mais reduzido.

tigreped · 2022-08-30T16:13:04Z

O conjunto dataset4.csv foi gerado idêntico ao anterior (dataset3.csv), mas com uma distância maior, de 50 termos, ao invés de 20. Gerou 4990 resultados, indicando mais que 3x o número de resultados, com o aumento da distância.

O conjunto dataset5.csv foi uma tentativa da implementação restritiva com 50 termos de distância. Esta retornou apenas 106 resultados.

O conjunto dataset6.csv diferiu da anterior apenas pela distância entre os termpos, utilizando 20. Esta retornou os mesmos 106 resultados, contraindicando o argumento percebido no conjunto dataset4.csv uma vez que nesse caso a quantidade de resultados não mudou em função da distância entre os termos buscados.

A implementação atual do método de busca intervalar não retornou resultados, indicando que ainda precisa de alguns ajustes para retornar resultados válidos, portanto não foi utilizada para análise.

ogecece · 2022-08-30T18:23:28Z

Tarefa despriorizada por enquanto, até o fim da Análise #1. O dataset3 será utilizado para complementar o dataset inicial para a realização da Análise 1 e com isso teremos sua acurácia em algumas cidades restantes.

Após o fim da análise, o dataset4 já pode ser analisado. Para verificar sua acurácia, podemos realizar a amostragem. Mas, observar alguns municípios analisados com o dataset3 será interessante para verificar se há ocorrências relevantes no dataset4 que não haviam aparecido antes.

Em paralelo a isso, podemos investir no desenvolvimento das outras metodologias.

ogecece assigned tigreped and ogecece Jul 19, 2022

ogecece moved this from Backlog to A fazer in Querido Diário: Tecnologias na Educação Jul 19, 2022

ogecece added this to the Análise completa dos resultados #1 milestone Jul 19, 2022

tigreped moved this from A fazer to Fazendo in Querido Diário: Tecnologias na Educação Aug 2, 2022

ogecece moved this from Fazendo to Backlog in Querido Diário: Tecnologias na Educação Aug 30, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Realizar testes com novas metodologias de busca #24

Realizar testes com novas metodologias de busca #24

ogecece commented Jul 19, 2022 •

edited by tigreped

Loading

tigreped commented Aug 16, 2022

tigreped commented Aug 16, 2022

tigreped commented Aug 30, 2022

ogecece commented Aug 30, 2022

Realizar testes com novas metodologias de busca #24

Realizar testes com novas metodologias de busca #24

Comments

ogecece commented Jul 19, 2022 • edited by tigreped Loading

tigreped commented Aug 16, 2022

tigreped commented Aug 16, 2022

tigreped commented Aug 30, 2022

ogecece commented Aug 30, 2022

ogecece commented Jul 19, 2022 •

edited by tigreped

Loading