[Revisão retroativa] Campos dos Goytacazes-RJ #637

rennerocha · 2022-09-05T22:57:24Z

Spider existente funciona, porém não possui filtro de datas (start_date e end_date) para reduzir a quantidade de requests e extrair apenas os períodos solicitados.

ayharano · 2022-10-04T05:04:57Z

Ainda não abri PR mas gostaria de avisar que estou trabalhando nessa issue

resolve okfn-brasil#637

ayharano · 2022-10-05T02:24:45Z

Conforme comentado, abri o PR #702. No caso, fui além do solicitado pelo fato de que algumas mudanças poderiam ser feitas para cobrir alguns casos que talvez ainda não existissem em 2020, data da versão anterior às mudanças do PR, com exemplos de referência via comentário para justificar a escolha do tratamento.

resolve okfn-brasil#637

The way the spider was implemented assumed that there could only be a single file_url per day per is_extra_edition value, which was not always true. This refactoring gathers all the various files per day and is_extra_edition. The existing code did not address the text format for Saturday gazettes to be considered is_extra_edition. We also included the start_date and end_date handling. resolve okfn-brasil#637

The way the spider was implemented assumed that there could only be a single file_url per day per is_extra_edition value, which was not always true. This refactoring gathers all the various files per day and is_extra_edition. We addressed the text format for Saturday gazettes to be considered is_extra_edition. We also included the start_date and end_date handling, and edition_number when applicable. resolve okfn-brasil#637

ayharano · 2022-10-09T23:04:36Z

Finalmente reescrevi o PR com as mudanças que eu gostaria de fazer. Como a reescrita ficou bem diferente da implementação usual dos Spiders desse repo, peço para fazer o review com tempo.

The way the spider was implemented assumed that there could only be a single file_url per day per is_extra_edition value, which was not always true. This refactoring gathers all the various files per day and is_extra_edition. We addressed the text format for Saturday gazettes to be considered is_extra_edition. We also included the start_date and end_date handling, and edition_number when applicable. resolve okfn-brasil#637

ayharano · 2022-10-18T15:59:39Z

Repetindo o comentário que deixei no PR:

Conforme conversado com @trevineju e @giuliocc, o spider precisa acertar a questão dos arquivos .rar de Outubro de 2012 a Outubro de 2013.

The way the spider was implemented assumed that there could only be a single file_url per day per is_extra_edition value, which was not always true. This refactoring gathers all the various files per day and is_extra_edition. We addressed the text format for Saturday gazettes to be considered is_extra_edition. We also included the start_date and end_date handling, and edition_number when applicable. resolve okfn-brasil#637

samueldsiqueira · 2024-10-23T13:38:12Z

Olá, fiz uma pesquisa pela cidade de Campos dos Goytacazes e não obtive sucesso no retorno.
Posso ajudar nessa issue?

trevineju · 2024-10-23T21:52:05Z

@samueldsiqueira, esta issue já tem uma PR vinculada, então não teria como ajudar pq tá "feito", estava aguardando revisão

trevineju · 2024-10-23T21:56:05Z

porém, vou fechar a PR e a issue por incompatibilidade.

O comentário de @ayharano sobre parte dos documentos estarem em .rar impossibilita adicionarmos o raspador. Verifiquei o período que havia mencionado (outubro de 2012 a 2013) e segue do mesmo jeito... vou deixar uma issue para discutirmos se faz sentido ou temos como adicionar uma solução pra essa situação, e aí podemos retomar a task a partir do acumulo

trevineju · 2024-10-30T17:57:05Z

@slfabio trouxe a sugestão de ignorarmos o intervalo e seguirmos com a integração do raspador. Reabro a issue para conversarmos sobre a ideia.

Fabio pode argumentar mais a sua sugestão, claro, mas a princípio, não concordo muito, pois vai incorporar ao raspador (e no limite, ao projeto) uma lógica de ficar deixando de lado certos trechos de diários oficiais de propósito, "hardcodando" esses contornos. E temos o comprometimento de oferecer a base de dados de maneira confiável e sequencial.

Porém, de forma provisória, penso que podemos assumir o start_date do raspador para outubro/2013. Assim, o intervalo incompatível fica de fora e tudo antes também, mas de outubro/2013 até hoje fica consistente.

Forçar o start_date "errado" seria uma decisão nova no projeto, mas teria uma natureza próxima ao que fazemos com sites descontinuados: importa ter o intervalo vigente primeiro, e depois ir expandindo a cobertura rumo aos diários antigos. Aí poderíamos retomar a PR que foi fechada...

O que vocês acham?
@ayharano @slfabio @rennerocha @ogecece

slfabio · 2024-10-30T21:23:58Z

Prefiro sua proposta também, @trevineju. Já vai trazer os últimos 11 anos para a plataforma.

Por enquanto estamos sem estagiário, eu também não estou conseguindo tempo pra puxar nenhuma issue.
Mas estamos selecionando novos estagiários, e acredito que a partir do meio de novembro vamos voltar a puxar as issues lá do quadro.

Muito obrigado por reabrir a issue, esse é um dos maiores municípios do Estado, temos bastante interesse de incluí-lo no QD.

rennerocha added this to the 50 maiores cidades do Brasil milestone Sep 5, 2022

rennerocha added the spider Adiciona robô raspador para município(s) label Sep 11, 2022

rennerocha added the dificuldade:media Dificuldade média de desenvolver label Sep 20, 2022

ayharano pushed a commit to ayharano/querido-diario that referenced this issue Oct 5, 2022

start_date and end_date handling for Campos dos Goytacazes-RJ spider

1b352b3

resolve okfn-brasil#637

trevineju linked a pull request Oct 5, 2022 that will close this issue

Campos dos Goytacazes-RJ spider refactor #702

Closed

5 tasks

ayharano pushed a commit to ayharano/querido-diario that referenced this issue Oct 5, 2022

start_date and end_date handling for Campos dos Goytacazes-RJ spider

830b411

resolve okfn-brasil#637

trevineju added this to [Querido Diário] Municípios Oct 7, 2022

trevineju removed this from [Querido Diário] Municípios Oct 7, 2022

trevineju added this to [Querido Diário] Municípios Oct 8, 2022

trevineju moved this to 🔴 Não desenvolvido in [Querido Diário] Municípios Oct 8, 2022

trevineju moved this from 🔴 Não desenvolvido to 🟡 Em revisão in [Querido Diário] Municípios Oct 8, 2022

trevineju moved this from 🟡 Em revisão to 🟠 Revisão retroativa in [Querido Diário] Municípios Oct 10, 2022

trevineju moved this from 🟠 Revisão retroativa to 🔴 Não desenvolvido in [Querido Diário] Municípios Oct 23, 2022

trevineju moved this from 🔴 Não desenvolvido to 🟡 Em revisão in [Querido Diário] Municípios Feb 10, 2023

trevineju changed the title ~~Campos dos Goytacazes-RJ~~ [Revisão retroativa] Campos dos Goytacazes-RJ Mar 10, 2024

trevineju mentioned this issue Oct 23, 2024

O que fazer com diários oficiais compactados (.rar, .zip, etc)? #1306

Open

trevineju added the incompativel Esta Issue ou Pull Request não de adequa ao atual estado do projeto label Oct 23, 2024

trevineju closed this as not planned Won't fix, can't repro, duplicate, stale Oct 23, 2024

trevineju reopened this Oct 30, 2024

github-project-automation bot moved this from em revisão to novo in [Querido Diário] Municípios Oct 30, 2024

trevineju moved this from novo to em revisão in [Querido Diário] Municípios Nov 10, 2024

slfabio self-assigned this Nov 13, 2024

slfabio linked a pull request Nov 13, 2024 that will close this issue

Atualiza spider de rj-campos para usar start_date #1323

Open

14 tasks

slfabio added a commit to slfabio/querido-diario that referenced this issue Nov 16, 2024

okfn-brasil#637 adiciona start_date e edition_number para campos-rj

54de4b4

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Revisão retroativa] Campos dos Goytacazes-RJ #637

[Revisão retroativa] Campos dos Goytacazes-RJ #637

rennerocha commented Sep 5, 2022 •

edited

Loading

ayharano commented Oct 4, 2022

ayharano commented Oct 5, 2022

ayharano commented Oct 9, 2022

ayharano commented Oct 18, 2022

samueldsiqueira commented Oct 23, 2024 •

edited

Loading

trevineju commented Oct 23, 2024

trevineju commented Oct 23, 2024

trevineju commented Oct 30, 2024

slfabio commented Oct 30, 2024

[Revisão retroativa] Campos dos Goytacazes-RJ #637

[Revisão retroativa] Campos dos Goytacazes-RJ #637

Comments

rennerocha commented Sep 5, 2022 • edited Loading

ayharano commented Oct 4, 2022

ayharano commented Oct 5, 2022

ayharano commented Oct 9, 2022

ayharano commented Oct 18, 2022

samueldsiqueira commented Oct 23, 2024 • edited Loading

trevineju commented Oct 23, 2024

trevineju commented Oct 23, 2024

trevineju commented Oct 30, 2024

slfabio commented Oct 30, 2024

rennerocha commented Sep 5, 2022 •

edited

Loading

samueldsiqueira commented Oct 23, 2024 •

edited

Loading