- Ajout des données du profil d'acheteur Megalis Bretagne
- Ajout d'un fichier de version dédié
- Ajout des données de marches.maximilien.fr et du profil d'acheteur Ternum BFC
- Amélioration des instructions pour une exécution locale des scripts
- Script partagé pour la conversion XML>JSON (convert-xml.sh)
- Remplacement de l'adresse email de contact
- Conversion JSON > XML par blocs de 30 000 marchés pour limiter la consommation de mémoire (#42)
- Fixation de la durée de timeout (
no_output_timeout
) CircleCI à 4 heures.
- Migration du dépôt vers l'organisation @139bercy
- Remplacement des anciens noms de procédure par les nouveaux dans les données consolidées (voir 139bercy/format-commande-publique#48)
- Correction de bug : le SIRET de l'autorité concédante est maintenant ajoutée à l'
uid
des contrats de concession (#39)
- Ajout du format OCDS aux formats de sortie
- Fixation de la durée de timeout (
no_output_timeout
) CircleCI à 1 heure 30 minutes. fin de ne pas surconsommer les crédits Circle d'Etalab. Si les timeout sont rares, le traitement des données se fera exceptionnellement en local. Autrement, il faudra migrer vers une autre solution.
- Allongement de la durée de timeout (
no_output_timeout
) CircleCI (1 heure 45 minutes => 10 heures)
- Allongement de la durée de timeout (
no_output_timeout
) CircleCI (1 heure => 1 heure 45 minutes)
- Données AIFE : Plus de discrimination sur l'extension de fichier (#30)
- Allongement de la durée de timeout CircleCI (
no_output_timeout
) (10 minutes => 1 heure)
- Suppression d'une commande qui dépendait de la création d'une archive ZIP
- Ajout d'un jeu de données supplémentaire de l'AIFE (https://www.data.gouv.fr/fr/datasets/aife-de-13001977100018/)
- Ajout de stats dans les logs
- Suppression de la création d'archive ZIP
- Données PES marché : récupération du fichier consolidé plutôt des centains de fichiers individuels (#GreenIT)
- Amélioration de la production des fichiers JSON et XML du jour lorsqu'il y a plus de 1000 nouveaux marchés sur une journée
- Prise en compte des marchés exclus (fictifs ou inexploitables)
- Seul le premier espace (s'il y en avait) dans les identifiants de marchés était traité. S'il y avait plus d'un espace, il décalait le compte des nouveaux marchés. J'ai modifié l'expression régulière pour qu'elle soit globale.
wget
parcourait également les dossiers parents et frères de /decp, téléchargeant les fichiers XML de /lcsqa. C'est corrigé avec l'option-np
pourno-parent
.
- pour les marchés provenant de l'AIFE (
data.gouv.fr_aife
), si unedatePublicationDonnees
est manquante, elle est récupérée à partir du nom du fichier XML publié par l'AIFE - pour les marchés provenant du portail du Grand Lyon (
grandlyon
), si plusieursdatePublicationDonnees
sont présentes, seule la première est retenue
- Correction d'un bug dans la génération des nouveaux marchés du jour
- dédublication des marchés via l'
uid
(concaténation du SIRET de l'acheteur et de l'id
du marché)
- image docker plutôt que de réinstaller toutes les dépendances dans la VM à chaque run de CircleCI
- les données ne sont récupérées et consolidées que du mardi au samedi matin (peu ou pas de nouvelles données le weekend)
- seul les runs sur la branche
master
se terminent par une publication sur data.gouv.fr, pas surdevelop
et autres branches
- les fichiers des nouveaux marchés du jour sont maintenant typés "Mise à jour" sur data.gouv.fr
- correction d'une erreur dans la conversion JSON > XML
- conversion de l'agrégat vers XML
- correction des soucis de téléchargement et de traitement
- ajout des données du Grand Lyon (merci Nathalie Vernus-Prost)
- création d'un fichier des nouveaux marchés du jour
- fork de decp-json (Colin Maudry) par Etalab pour la publication des données sur data.gouv.fr
- passage à la licence MIT
- amélioration du mécanisme d'orchestration du traitement avec
process.sh
- automatisation du process récupération/traitement/publication dans CircleCI
- correction d'un bug dans la fusion des JSON
- ajout des données de e-marchespublics.com
- couvertures des trois datasets de l'AIFE
- gestion des sources de données qui ne nécessitent pas de conversion
- amélioration du workflow (get > convert > fix > package > load-in-db)
- correction d'une anomalie dans les données
marches-publics.info
(certains marchés n'ont pas de_type
) - nouvelles données dans
/json
- ajout d'un script de (ré)initialisation de MongoDB
- support des données publiées sur marches-publics.info (
marches-publics.info
) - ajout de la date du dernier téléchargement dans les métadonnées
- amélioration de la scructure des scripts
- ajout de
all.sh
, pour traiter intégralement une source (sauf le chargement en base de données)
- support des données PES marché publiées sur data.gouv.fr (
data.gouv.fr_pes
)