Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Process en échec depuis le 5 mars en raison d'un timeout de la conversion vers XML #91

Closed
ColinMaudry opened this issue Mar 10, 2022 · 7 comments · Fixed by #93
Closed
Labels
bug Something isn't working

Comments

@ColinMaudry
Copy link

ColinMaudry commented Mar 10, 2022

Du fait de l'échec du traitement le 5 mars (timeout), je pense que les dossiers sources ne sont plus créés lors de la restoration du cache CI.

Il faudrait donc régler le problème de timeout lors de la conversion JSON agrégé en XML.

Je vois qu'il y a déjà un chunking mis en place pour limiter la consommation de mémoire.

@ColinMaudry ColinMaudry added the bug Something isn't working label Mar 10, 2022
@ColinMaudry
Copy link
Author

ColinMaudry commented Mar 10, 2022

Retirer l'indentation (xmllint) pourrait permettre de gagner quelques minutes de processing, et donc quelques jours ou semaines sans timeout, mais le problème se reposera irrémédiablement au fur et à mesure que la quantité de données augmente.

@menbati
Copy link

menbati commented Mar 10, 2022

Bonjour,

D'après mon enquête, j'avais plutôt ciblé ciblé jq comme la problématique.
En effet, dans le build juste avant (build 1200), on voit le get_data qui échoue au niveau du traitement de "2022-03-08T01:26:14 : début du traitement pour source marches-publics.info"

Cela échoue très exactement sur une commande jq (aucun autre traitement significatif à côté semble t il).

La PR #89 met à jour jq avec la dernière version develop car j'ai pu voir un commentaire citant un problème de perf avec jq 1.6... ( jqlang/jq#2069 (comment) )

J'ai conscience que mettre à jour jq a un impact sur l'intégralité du projet decp-rama car la commande est utilisée un peu partout... Mais je n'ai pas trouvé mieux et je suis loin d'être expert avec cet outil.

A noter la PR #90 qui vient fixer aussi un soucis de dureeMois sur les fichiers marches-publics.info !

@ColinMaudry
Copy link
Author

@desrousseaux, au cas où vous n'auriez pas vu cet issue.

@desrousseaux
Copy link

Vu. Je suis d'accord sur le constat qu'une optimisation ne résoudra pas le problème à long terme. Je regarde le problème avec un devops chez nous.

@menbati
Copy link

menbati commented Mar 21, 2022

Bonjour, il semblerait que la mise à jour des données sur data.gouv.fr refonctionne. J'en déduis que c'est grâce aux fixes effectués sur ce repo https://github.com/cds-bercyhub/decp-rama merci à vous 👍

@ColinMaudry
Copy link
Author

La CI (Gihub actions) de cds-bercyhub/decp-rama ne publie pas de données sur data.gouv.fr, donc c'est toujours le dépôt original qui publie (CircleCI).

Je pense que ces derniers jours il y a eu moins de nouvelles données, donc il n'y a pas eu de time out. Par contre, les nouvelles données des jours "failed" n'ont, je pense, pas été traitées. J'ai lancé un process complet en local, je ferai une comparaison avec les données publiées.

@ghost ghost linked a pull request Mar 28, 2022 that will close this issue
@ghost
Copy link

ghost commented Mar 28, 2022

Bonjour Colin,
La migration de la CI sur GitHub Actions n'était pas totalement terminée mais la publication testée vendredi en fin d'après-midi avec publication des données sur data.gouv.fr (entre18h00 et 18h30). J'avais donc volontairement désactivé le job en charge de la publication le temps de terminer le reste de la migration.

Ainsi, j'ai poussé une PR ce matin correspondant à la migration vers GitHub Actions afin fixer le problème de timeout lié aux modifications de Free Plan de CircleCI qui limite notamment un build à 1h00 max.

@ghost ghost closed this as completed in #93 Mar 28, 2022
This issue was closed.
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

Successfully merging a pull request may close this issue.

3 participants