-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Radar plus bugfixes #32
Conversation
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Tu risques d'avoir une boucle infinie dans les while. Il faut mettre un compteur avec tu arrêtes d'essayer si ça fonctionne jamais (exemple 20 fois). Et il te faut un temps d'arrêt entre chaque essai de 30 secondes environ car si la cible fait du throttling, elle va te faire attendre un certain nombre de secondes avant de te laisser réécrire.
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
Je garderais les noms de variables metadata en anglais si possible. Ça serait key_headine ou keys_headline plutôt que keys_une
Aussi je me demande si tu vas avoir une liste en csv dans cette metadonnée ou si on devrait pas juste garder la root_key seulement. Dans ce cas là ce serait pas plutôt headline_root_key non? Parce que si j’ai bien compris une même frontpage lake_item pourrait avoir plusieurs versions de la même headine en?
Donc, ça serait mieux de faire le lien à partir des headlines plutôt que des frontpages? Dans le sens, si la frontpage_key dans la metadata de la headline la plus récente est identique à la frontpage la plus récente, on détermine que c'est identique? |
Je fais les changement pour l'anglais. |
A mon avis il faut se garder la possibilité de faire un lien dans les deux sens mais juste avec des root key (sans time stamp), de cette façon on peut avoir toutes les headlines à partir d’une frontpage et toute les frontpages à partir d’une headline avec du code très simple. Ça va pouvoir être aidant quand on va vouloir enrichir des jeux de données structurés plus loin dans le Pipeline pour faire des statistiques. Quand au mécanisme pour déterminer si deux pages sont identiques afin de ne pas les stocker deux fois, à mon avis le hash reste la meilleure solution. Par contre il faut trouver sur quoi faire le hash. Et d’après moi ça va être des valeurs dans des balises quelconques (ex a avec un attribut particulier). D’ailleurs pour ne pas stocker une frontpage deux fois il va falloir que les frontpages aient un hash aussi non? |
Ah okay, je comprends ce que tu veux dire. Je fais le changements. |
Ajouter champs dans metadata
Ajouté une façon supplémentaire de scraper CTV News
Ajouté une méchanique pour répéter le commit dans le lake des fichiers si ça fail