-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Version worfkflow #16
Comments
Alors, oui, les workflows sont maintenant versionnés. Plus pragmatique, je pense qu'il faut visualiser les workflows dans l'éditeur. On en a pas 4000 à examiner et comme les workflows ont des noms, je suis assez tranquille. By the way, j'ai extrait les outils des workflows de https://github.com/IFB-ElixirFr/EMERGEN-workflows/tree/main/Galaxy-workflows/galaxyproject/SARS-CoV-2. ça fait une nouvelle liste yaml à incorporer potentiellement dans usegalaxy.fr (aka ugfr ? c'est une proposition) |
Versionné sous git mais je pensais plus à des numéros dans leurs noms ou une date. |
Ici, ils ont des numéros de version : https://workflowhub.eu/search?utf8=%E2%9C%93&q=covid#workflows |
A priori, des exports automatique de https://github.com/galaxyproject/iwc/tree/main/workflows/sars-cov-2-variant-calling vers workflowhub.eu |
Oui c'est le projet iwc de Marius and Co, il a fait une présentation il y a quelques semaines. Je ne savais pas qu'ils le connectaient à workflowhub, mais c'est logique Je pensais que ton soucis était autre, et le mien en réalité: si tu te limites au workflows de w meier, pas de soucis, son versioning assure que tu sais de quel workflow de w meier (ou de l'iwc) tu parles. mais il y a pas mal de workflows "concurrents" qui circulent dans la communauté Galaxy. Certains ont l'air de faire la même chose, avec des variations. et the question c'est d'évaluer rapidement ces workflows. 2 workflows peuvent faire exactement la même chose et avoir des noms et auteurs différents, ou faire presque la même chose mais l'un en mieux... Et là tu n'a pas vraiment de solution simples type checksum ou mulled-env etc... Finalement, c'est un peu le même problème avec les outils galaxy, (ou avec les mottes de beurre): pour comparer le produit, on peut juste se fier à la marque, mais c'est plus satisfaisant de gouter ou au moins d'avoir la composition détaillée... Encore une fois, il faut être pragmatique: le système de w meier et d'anton and co fonctionne on peut faire tout comme eux (comme dirait Bjorn, sauf si on a trop de temps ;-). Je n'avais pas catché le coup du dépot dans le workflowhub, merci, j'achète ! Mais, j'ai au moins un cas ou il faut développer la réponse nous même: les séquençage IonTorrent PGM (https://gitter.im/usegalaxy-eu/covid19?at=60b7af3a45c2185a5e040131), et je serais surpris qu'il ne faille pas adapter un peu les workflows qu'on "empreinte" à notre environnement de production |
Plus formellement, il s'agirait de comparaison de graphes, puisqu'un workflow peut être branché. Sans blague, il serait sans doute assez facile de convertir les workflows en graphes avec un noeud pour chaque outil, puis de faire une comparaison. Si on s'y prend bien, on pourrait même faire du clustering de workflows pour identifier non seulement ceux qui sont identiques mais aussi identifier des groupes de workflows fortement similaires .Est-ce que cela présenterait un intérêt pragmatique, par exemple pour identifier des redondances ? |
Assez d'accord avec Jacques, c'est quelque-chose qui avait été initié par mouamadou Ba quand il était irisa Rennes.. |
Oui d'accord aussi avec @jvanheld je trouve ça intéressant comme question. C'est vrai que ma métaphore de la sequence peptidique ne fonctionne pas (encore qu'on peut avoir une séquence secondaire, tertiaire et même quaternaire pour des complexes multiprotéiques) et que les graphs paraissent plus proches de la question. Mais si j'y réfléchis avec mon problème en tête je me dis qu'on se fait peut être des noeuds dans la tête pour rien: en réalité ce que je cherche c'est les workflows qui prennent en entrée un type de données (genre au hasard des bam générés par un IonTorrent GPM) et qui crachent un autre type de donnée en sortie, genre toujours au hasard des variants covid19 ;-). Je te dirais que si je trouve ce schéma, je me fous un peu de ce qui s'est passé entre les deux - dans un premier temps. J'imagine aisément que le graph pour parcourir ce changement d'état de la donnée peut varier du tout au tout, l'important c'est d'abord le résultat. On peut voir un workflow comme une fonction d'état. Ensuite, pour la mise en production, c'est autre chose et oui la forme du workflow va compter. d'ailleurs le travail W n'est pas une fonction d'état !! J'aurais donc tendance à proposer une approche basée sur "la variation d'entropie" associée à un workflow. Pour le moment c'est purement métaphorique.... d'ailleurs il faut que je lint des codes R et j'y retourne :-( |
Salut @drosofff En suivant ta suggestion, en première approche on pourrait simplifier le problème en considérant chaque workflow comme un ensemble d'outils, sans se préoccuper de leurs interconnexions. Sur cette base, on pourrait également identifier des identités et similarités entre ensembles, et faire du clustering (voire des arbres phylogénétiques de workflows). Bonne nuit |
Bonjour à tous, |
Salut Christophe,
Je viens de tomber sur ce papier, qui décrit un pipeline générique pour les données SARS-CoV-2 (illumina, Torrent, Nanopore). Peut être que tu peux avoir accès au pipeline Galaxy.
Voici le lien vers le papier https://www.biorxiv.org/content/10.1101/2021.01.16.425365v2.full.pdf.
David
————
David Salgado, PhD
Bioinformatics Research Engineer
Marseille Medical Genetics Bioinformatics platform manager
Aix-Marseille University - INSERM U1251
Genetics and Bioinformatics Group
Christophe Béroud Team
Faculté de Médecine La Timone
27, Boulevard Jean Moulin
13385 Marseille cedex 5
Phone: +33 (0)491 324 884
Email : ***@***.******@***.***>
On 3 Jun 2021, at 23:47, Christophe Antoniewski ***@***.******@***.***>> wrote:
Oui d'accord aussi avec @jvanheld<https://github.com/jvanheld> je trouve ça intéressant comme question. C'est vrai que ma métaphore de la sequence peptidique ne fonctionne pas (encore qu'on peut avoir une séquence secondaire, tertiaire et même quaternaire pour des complexes multiprotéiques) et que les graphs paraissent plus proches de la question. Mais si j'y réfléchis avec mon problème en tête je me dis qu'on se fait peut être des noeuds dans la tête pour rien:
en réalité ce que je cherche c'est les workflows qui prennent en entrée un type de données (genre au hasard des bam générés par un IonTorrent GPM) et qui crachent un autre type de donnée en sortie, genre toujours au hasard des variants covid19 ;-). Je te dirais que si je trouve ce schéma, je me fous un peu de ce qui s'est passé entre les deux - dans un premier temps. J'imagine aisément que le graph pour parcourir ce changement d'état de la donnée peut varier du tout au tout, l'important c'est d'abord le résultat. On peut voir un workflow comme une fonction d'état. Ensuite, pour la mise en production, c'est autre chose et oui la forme du workflow va compter. d'ailleurs le travail W n'est pas une fonction d'état !!
J'aurais donc tendance à proposer une approche basée sur "la variation d'entropie" associée à un workflow. Pour le moment c'est purement métaphorique.... d'ailleurs il faut que je lint des codes R et j'y retourne :-(
—
You are receiving this because you are subscribed to this thread.
Reply to this email directly, view it on GitHub<#16 (comment)>, or unsubscribe<https://github.com/notifications/unsubscribe-auth/ACEEPA4MHMK4FEXLWH2WMXDTQ72A5ANCNFSM4546NYCQ>.
|
Merci David,
Malheureusement le premier outil du workflow (
https://aries.iss.it/root?tool_id=sarscov2genomes) est "maison" et non
accessible.... J'imagine "available on request...". Mais quand tu regardes
le workflow tu comprends que ce n'est pas grave: de toute façon, c'est
précisément cette étape qu'il faudra customiser pour Emergen-workflow.
Je le rajoute de dossier workflow !
Chris
Christophe Antoniewski
Plateforme de bioinformatique ARTbio <http://artbio.fr/>
Institut de Biologie Paris Seine <http://www.ibps.upmc.fr/en> |
Sorbonne-Université
Bâtiment B, 7e étage, porte 725
9, Quai St Bernard, - Case Courrier 25
75252 Paris Cedex 05
Tel +33 1 44 2
*7 70 05*Mobile +33 6 68 60 51 50
Pour accéder à la PlateformeBâtiment B,
7e étage, Porte 725
<https://www.google.com/maps/d/u/0/edit?mid=zmZz-3Vin5D0.kjRSV6vitXE8>
https://twitter.com/ARTbio_IBPS
Beati gli ultimi, se i primi sono onesti
Le ven. 4 juin 2021 à 09:17, d-salgado ***@***.***> a écrit :
… Salut Christophe,
Je viens de tomber sur ce papier, qui décrit un pipeline générique pour
les données SARS-CoV-2 (illumina, Torrent, Nanopore). Peut être que tu peux
avoir accès au pipeline Galaxy.
Voici le lien vers le papier
https://www.biorxiv.org/content/10.1101/2021.01.16.425365v2.full.pdf.
David
————
David Salgado, PhD
Bioinformatics Research Engineer
Marseille Medical Genetics Bioinformatics platform manager
Aix-Marseille University - INSERM U1251
Genetics and Bioinformatics Group
Christophe Béroud Team
Faculté de Médecine La Timone
27, Boulevard Jean Moulin
13385 Marseille cedex 5
Phone: +33 (0)491 324 884
Email : ***@***.******@***.***>
On 3 Jun 2021, at 23:47, Christophe Antoniewski ***@***.******@***.***>>
wrote:
Oui d'accord aussi avec @jvanheld<https://github.com/jvanheld> je trouve
ça intéressant comme question. C'est vrai que ma métaphore de la sequence
peptidique ne fonctionne pas (encore qu'on peut avoir une séquence
secondaire, tertiaire et même quaternaire pour des complexes
multiprotéiques) et que les graphs paraissent plus proches de la question.
Mais si j'y réfléchis avec mon problème en tête je me dis qu'on se fait
peut être des noeuds dans la tête pour rien:
en réalité ce que je cherche c'est les workflows qui prennent en entrée un
type de données (genre au hasard des bam générés par un IonTorrent GPM) et
qui crachent un autre type de donnée en sortie, genre toujours au hasard
des variants covid19 ;-). Je te dirais que si je trouve ce schéma, je me
fous un peu de ce qui s'est passé entre les deux - dans un premier temps.
J'imagine aisément que le graph pour parcourir ce changement d'état de la
donnée peut varier du tout au tout, l'important c'est d'abord le résultat.
On peut voir un workflow comme une fonction d'état. Ensuite, pour la mise
en production, c'est autre chose et oui la forme du workflow va compter.
d'ailleurs le travail W n'est pas une fonction d'état !!
J'aurais donc tendance à proposer une approche basée sur "la variation
d'entropie" associée à un workflow. Pour le moment c'est purement
métaphorique.... d'ailleurs il faut que je lint des codes R et j'y retourne
:-(
—
You are receiving this because you are subscribed to this thread.
Reply to this email directly, view it on GitHub<
#16 (comment)>,
or unsubscribe<
https://github.com/notifications/unsubscribe-auth/ACEEPA4MHMK4FEXLWH2WMXDTQ72A5ANCNFSM4546NYCQ>.
—
You are receiving this because you were mentioned.
Reply to this email directly, view it on GitHub
<#16 (comment)>,
or unsubscribe
<https://github.com/notifications/unsubscribe-auth/ACZJ2GJ5GIJYM5SJDNQO2WLTRB4YLANCNFSM4546NYCQ>
.
|
@drosofff, est-ce que les workflows sont en quelque versionné ?
Comment savoir si nous ne les avons déjà pas https://usegalaxy.fr/workflows/list_published ?
The text was updated successfully, but these errors were encountered: