Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Radar plus bugfixes #32

Merged
merged 8 commits into from
Apr 19, 2023
Merged

Radar plus bugfixes #32

merged 8 commits into from
Apr 19, 2023

Conversation

ClementCadieux
Copy link
Contributor

Ajouter champs dans metadata
Ajouté une façon supplémentaire de scraper CTV News
Ajouté une méchanique pour répéter le commit dans le lake des fichiers si ça fail

Copy link
Collaborator

@p2xcode p2xcode left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Tu risques d'avoir une boucle infinie dans les while. Il faut mettre un compteur avec tu arrêtes d'essayer si ça fonctionne jamais (exemple 20 fois). Et il te faut un temps d'arrêt entre chaque essai de 30 secondes environ car si la cible fait du throttling, elle va te faire attendre un certain nombre de secondes avant de te laisser réécrire.

Copy link
Collaborator

@p2xcode p2xcode left a comment

Choose a reason for hiding this comment

The reason will be displayed to describe this comment to others. Learn more.

Je garderais les noms de variables metadata en anglais si possible. Ça serait key_headine ou keys_headline plutôt que keys_une

Aussi je me demande si tu vas avoir une liste en csv dans cette metadonnée ou si on devrait pas juste garder la root_key seulement. Dans ce cas là ce serait pas plutôt headline_root_key non? Parce que si j’ai bien compris une même frontpage lake_item pourrait avoir plusieurs versions de la même headine en?

@ClementCadieux
Copy link
Contributor Author

Je garderais les noms de variables metadata en anglais si possible. Ça serait key_headine ou keys_headline plutôt que keys_une

Aussi je me demande si tu vas avoir une liste en csv dans cette metadonnée ou si on devrait pas juste garder la root_key seulement. Dans ce cas là ce serait pas plutôt headline_root_key non? Parce que si j’ai bien compris une même frontpage lake_item pourrait avoir plusieurs versions de la même headine en?

Donc, ça serait mieux de faire le lien à partir des headlines plutôt que des frontpages? Dans le sens, si la frontpage_key dans la metadata de la headline la plus récente est identique à la frontpage la plus récente, on détermine que c'est identique?

@ClementCadieux
Copy link
Contributor Author

Je fais les changement pour l'anglais.

@p2xcode
Copy link
Collaborator

p2xcode commented Apr 18, 2023

Je garderais les noms de variables metadata en anglais si possible. Ça serait key_headine ou keys_headline plutôt que keys_une
Aussi je me demande si tu vas avoir une liste en csv dans cette metadonnée ou si on devrait pas juste garder la root_key seulement. Dans ce cas là ce serait pas plutôt headline_root_key non? Parce que si j’ai bien compris une même frontpage lake_item pourrait avoir plusieurs versions de la même headine en?

Donc, ça serait mieux de faire le lien à partir des headlines plutôt que des frontpages? Dans le sens, si la frontpage_key dans la metadata de la headline la plus récente est identique à la frontpage la plus récente, on détermine que c'est identique?

A mon avis il faut se garder la possibilité de faire un lien dans les deux sens mais juste avec des root key (sans time stamp), de cette façon on peut avoir toutes les headlines à partir d’une frontpage et toute les frontpages à partir d’une headline avec du code très simple. Ça va pouvoir être aidant quand on va vouloir enrichir des jeux de données structurés plus loin dans le Pipeline pour faire des statistiques.

Quand au mécanisme pour déterminer si deux pages sont identiques afin de ne pas les stocker deux fois, à mon avis le hash reste la meilleure solution. Par contre il faut trouver sur quoi faire le hash. Et d’après moi ça va être des valeurs dans des balises quelconques (ex a avec un attribut particulier). D’ailleurs pour ne pas stocker une frontpage deux fois il va falloir que les frontpages aient un hash aussi non?

@ClementCadieux
Copy link
Contributor Author

Je garderais les noms de variables metadata en anglais si possible. Ça serait key_headine ou keys_headline plutôt que keys_une
Aussi je me demande si tu vas avoir une liste en csv dans cette metadonnée ou si on devrait pas juste garder la root_key seulement. Dans ce cas là ce serait pas plutôt headline_root_key non? Parce que si j’ai bien compris une même frontpage lake_item pourrait avoir plusieurs versions de la même headine en?

Donc, ça serait mieux de faire le lien à partir des headlines plutôt que des frontpages? Dans le sens, si la frontpage_key dans la metadata de la headline la plus récente est identique à la frontpage la plus récente, on détermine que c'est identique?

A mon avis il faut se garder la possibilité de faire un lien dans les deux sens mais juste avec des root key (sans time stamp), de cette façon on peut avoir toutes les headlines à partir d’une frontpage et toute les frontpages à partir d’une headline avec du code très simple. Ça va pouvoir être aidant quand on va vouloir enrichir des jeux de données structurés plus loin dans le Pipeline pour faire des statistiques.

Quand au mécanisme pour déterminer si deux pages sont identiques afin de ne pas les stocker deux fois, à mon avis le hash reste la meilleure solution. Par contre il faut trouver sur quoi faire le hash. Et d’après moi ça va être des valeurs dans des balises quelconques (ex a avec un attribut particulier). D’ailleurs pour ne pas stocker une frontpage deux fois il va falloir que les frontpages aient un hash aussi non?

Ah okay, je comprends ce que tu veux dire. Je fais le changements.

@p2xcode p2xcode merged commit 1879685 into main Apr 19, 2023
@p2xcode p2xcode deleted the radar_plus_bugfixes branch June 27, 2023 22:48
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants