IKIM-Essen · Atapa1908 · Jan 30, 2022 · Feb 2, 2022 · Feb 2, 2022 · Feb 2, 2022
diff --git a/config/pep/config.yaml b/config/pep/config.yaml
@@ -1,2 +1,2 @@
 pep_version: 2.0.0
-sample_table: "samples.csv"
+sample_table: "UHGG_human-gut-v2-0_genomes.csv"
diff --git a/config/pep/samples.csv b/config/pep/samples.csv
diff --git a/workflow/Snakefile b/workflow/Snakefile
@@ -21,7 +21,7 @@ include: "rules/download.smk"
 rule all:
     input:
         expand(
-            "results/test/{sample}.gff.gz",
+            "results/test/{sample}.gff",
             sample = get_samples(),
         ),
 

diff --git a/workflow/rules/download.smk b/workflow/rules/download.smk
@@ -2,7 +2,7 @@
 
 rule download_rule:
     output:
-        "results/test/{sample}.gff.gz",
+        "results/test/{sample}.gff",
     log:
         "logs/test/{sample}.log",
     params:

diff --git a/workflow/scripts/mgnify_api.py b/workflow/scripts/mgnify_api.py
@@ -1,20 +1,47 @@
+# Sample table assembly from the UHGG Human Gut v2.0 catalogue
+
+import pandas as pd
 import requests
+import time
+import threading
+# No threading, no sleep
+# could not implement time and threading... yet!
 
 
 download_URL = "https://www.ebi.ac.uk/metagenomics/api/v1/genome-catalogues/human-gut-v2-0/genomes?format=json"
 
-
 r = requests.get(download_URL)
 data = r.json()
 pages_total = data["meta"]["pagination"]["pages"]
 IDs = list()
 
-for i in range(1, pages_total + 1):
+limiter_for_testing = pages_total - 2   # integrating a limiter to test for only 2 pages (not all, for management/testing reason)
+
+
+
+for i in range(1, pages_total + 1 - limiter_for_testing):   # limiter_for_testing needs to be taken out for final code
     current_URL = download_URL + "&page=" + str(i)
     r = requests.get(current_URL)
     data = r.json()
     innerscope = data["data"]
     for result in innerscope:
         IDs.append(result["id"])
 
-print(IDs)
+
+download_links_list = list()
+for ID in IDs:
+    download_request_raw = requests.get("https://www.ebi.ac.uk/metagenomics/api/v1/genomes/" + str(ID) + "/downloads")
+    download_request = download_request_raw.json()
+    innerscope = download_request["data"]
+    for element in innerscope:
+        if ".gff" in element["links"]["self"]:
+            download_links_list.append(element["links"]["self"])
+
+data_frame = {
+    "sample_name": IDs,
+    "url": download_links_list
+}
+
+df = pd.DataFrame(data_frame)
+
+df.to_csv("/local/work/ata/gut-brain-modules/config/pep/UHGG_human-gut-v2-0_genomes.csv", index = False) # path can be rewritten with snakemake concepts