-
Notifications
You must be signed in to change notification settings - Fork 0
Realizar testes com novas metodologias de busca #24
Comments
Concluir os testes com a geração dos conjuntos de dados no drive. Realizar análise dos conjuntos de dados utilizando como referência as cidades de Petrolina e Sumaré. |
O primeiro conjunto de dados dataset1.csv foi gerado com os parâmetros utilizados inicialmente. 20 termos de distância no máximo entre os termos, utilizando o algoritmo span mais permissivo, inclui a lista de tipos de publicação, mas não especificava a palavra sistema. É considerada a base de referência. Possui 6923 resultados. O conjuto de dados dataset2.csv foi gerado utilizando a mesma distância entre termos (20 de gap/slop), mas foi retirado o conjunto de sinônimos dos tipos de publicação. O conjunto gerado possui 15217 resultados, o que indica que com a remoção dos tipos de publicação, as consultas ficam menos restritivas, retornando mais resultados. Por essa razão, recomenda-se a utilização do grupo de sinônimos para tipos de publicação. O dataset3.csv, por sua vez, foi gerado substituindo-se o uso da palavra "sistema" por frases mais específicas, como "sistema de gestão" ou "sistema educacional". O conjunto de dados gerado possui 1533 resultados, um número mais reduzido. |
O conjunto dataset4.csv foi gerado idêntico ao anterior (dataset3.csv), mas com uma distância maior, de 50 termos, ao invés de 20. Gerou 4990 resultados, indicando mais que 3x o número de resultados, com o aumento da distância. O conjunto dataset5.csv foi uma tentativa da implementação restritiva com 50 termos de distância. Esta retornou apenas 106 resultados. O conjunto dataset6.csv diferiu da anterior apenas pela distância entre os termpos, utilizando 20. Esta retornou os mesmos 106 resultados, contraindicando o argumento percebido no conjunto dataset4.csv uma vez que nesse caso a quantidade de resultados não mudou em função da distância entre os termos buscados. A implementação atual do método de busca intervalar não retornou resultados, indicando que ainda precisa de alguns ajustes para retornar resultados válidos, portanto não foi utilizada para análise. |
Tarefa despriorizada por enquanto, até o fim da Análise #1. O dataset3 será utilizado para complementar o dataset inicial para a realização da Análise 1 e com isso teremos sua acurácia em algumas cidades restantes. Após o fim da análise, o dataset4 já pode ser analisado. Para verificar sua acurácia, podemos realizar a amostragem. Mas, observar alguns municípios analisados com o dataset3 será interessante para verificar se há ocorrências relevantes no dataset4 que não haviam aparecido antes. Em paralelo a isso, podemos investir no desenvolvimento das outras metodologias. |
Para a geração das novas bases de dados, realizar as seguintes alterações:
Metodologia:
Realizar o processamento para gerar os conjuntos de dados a partir dos parâmetros, utilizando as 4 configurações possíveis para execução do algoritmo de consulta na base:
a) Referência: Conjunto A (spanmais permissivo, 20 slop, com grupo de palavras tipo de publicação → 6923 resultados
Acurácia: 30% |(|+-2100 excertos)
b) Conjunto B (span mais permissivo, 50 slop, sem grupo de palavras tipo de publicação → ? resultados
Acurácia: 20% |(|+-? excertos)
c) Conjunto C (span mais restritivo, 50 slop, sem grupo de palavras tipo de publicação) → 700+ resultados
Acurácia: ?% (? excertos)
d) Conjunto D (intervalar mais restritivo, 50 gap, sem grupo de palavras tipo de publicação) → ? resultados
Executar o algoritmo para produzir o conjunto B, calcular a acurácia a partir de uma amostragem aleatória dos resultados (e.g. 1% dos resultados) e comparar com acurácia do conjunto de referência.
Depois, implementar as consultas para gerar os conjuntos C e D para comparação com A e B.
Implementar método de análise dos resultados das consultas, separando por UF e verificando se há reincidência dos excertos entre os conjuntos.
The text was updated successfully, but these errors were encountered: