add dataset import from blobDB.json file

rjchallis · rjchallis · commit 2837194dc804 · 2018-12-06T09:31:57.000Z
diff --git a/.pylintrc b/.pylintrc
@@ -317,7 +317,7 @@ indent-after-paren=4
 indent-string='    '
 
 # Maximum number of characters on a single line.
-max-line-length=100
+max-line-length=120
 
 # Maximum number of lines in a module.
 max-module-lines=1000
diff --git a/lib/add.py b/lib/add.py
@@ -8,7 +8,7 @@
 Usage:
     blobtools add [--busco TSV...] [--cov BAM...]  [--hits TSV...]  [--fasta FASTA]
                   [--key path=value...] [--link path=url...] [--skip-link-test]
-                  [--meta YAML] [--synonyms TSV...]
+                  [--blobDB JSON] [--meta YAML] [--synonyms TSV...]
                   [--taxdump DIRECTORY] [--taxrule bestsum|bestsumorder]
                   [--threads INT] [--create] [--replace] DIRECTORY
 
@@ -24,6 +24,7 @@
     --link path=URL       Link to an external resource.
     --skip-link-test      Skip test to see if link URL can be resolved.
     --meta YAML           Dataset metadata.
+    --blobDB JSON         Blobtools v1 blobDB.
     --synonyms TSV        TSV file containing current identifiers and synonyms.
     --taxdump DIRECTORY   Location of NCBI new_taxdump directory.
     --taxrule bestsum|bestsumorder
@@ -40,6 +41,7 @@
 
 from docopt import docopt
 import file_io
+import blob_db
 import busco
 import cov
 import fasta
@@ -51,6 +53,7 @@
 from fetch import fetch_field, fetch_metadata, fetch_taxdump
 
 FIELDS = [{'flag': '--fasta', 'module': fasta, 'depends': ['identifiers']},
+          {'flag': '--blobDB', 'module': blob_db, 'depends': ['identifiers']},
           {'flag': '--busco', 'module': busco, 'depends': ['identifiers']},
           {'flag': '--cov', 'module': cov, 'depends': ['identifiers', 'length', 'ncount']},
           {'flag': '--hits', 'module': hits, 'depends': ['identifiers']},
diff --git a/lib/blob_db.py b/lib/blob_db.py
@@ -0,0 +1,163 @@
+#!/usr/bin/env python3
+"""Convert a blobDB to BlobDir Fields."""
+
+# pylint: disable=too-many-locals
+
+import math
+from pathlib import Path
+from collections import defaultdict
+import file_io
+import cov
+import hits
+from field import Identifier, Variable, Category
+
+
+def field_name_from_path(path):
+    """Extract field name from file path."""
+    parts = Path(path).stem.split('.')
+    field_name = parts[-1]
+    if len(parts) > 1:
+        if parts[-1] in ('bam', 'sam', 'cram'):
+            field_name = parts[-2]
+    return field_name
+
+
+def values_from_blob_db(blob_db):
+    """Read values from a blobDB ints a dict of lists of values."""
+    values = defaultdict(list)
+    for identifier in blob_db['order_of_blobs']:
+        blob = blob_db['dict_of_blobs'][identifier]
+        values['lengths'].append(blob.get('length', 0))
+        values['gcs'].append(blob.get('gc', 0))
+        values['n_counts'].append(blob.get('n_count', 0))
+        for cov_lib in blob_db['covLibs'].keys():
+            values["%s_cov" % cov_lib].append(blob['covs'].get(cov_lib, 0))
+            values["%s_read_cov" % cov_lib].append(blob['read_cov'].get(cov_lib, 0))
+        for tax_rule in blob_db['taxrules']:
+            for rank, results in blob['taxonomy'][tax_rule].items():
+                values["%s_%s" % (tax_rule, rank)].append(results.get('tax', 'no-hit'))
+                values["%s_%s_score" % (tax_rule, rank)].append(int(results.get('score', 0)))
+                values["%s_%s_cindex" % (tax_rule, rank)].append(int(results.get('c_index', 0)))
+    return values
+
+
+def parse(file, **kwargs):
+    """Parse all synonym files."""
+    blob_db = file_io.load_yaml(file)
+    parsed = []
+    identifiers = kwargs['dependencies']['identifiers']
+    if not identifiers:
+        identifiers = Identifier('identifiers',
+                                 meta={'field_id': 'identifiers'},
+                                 values=blob_db['order_of_blobs'],
+                                 parents=[])
+        parsed.append(identifiers)
+    values = values_from_blob_db(blob_db)
+    parsed.append(Variable('gc',
+                           meta={
+                               'preload': True,
+                               'scale': 'scaleLinear',
+                               'field_id': 'gc',
+                               'name': 'GC',
+                               'datatype': 'float',
+                               'range': [min(values['gcs']), max(values['gcs'])]
+                           },
+                           values=values['gcs'],
+                           parents=[]))
+    _min = min(values['lengths'])
+    parsed.append(Variable('length',
+                           meta={
+                               'field_id': 'length',
+                               'preload': True,
+                               'scale': 'scaleLog',
+                               'name': 'Length',
+                               'clamp': 100 if _min == 0 else False,
+                               'datatype': 'integer',
+                               'range': [_min, max(values['lengths'])]
+                           },
+                           parents=[],
+                           values=values['lengths']))
+    parsed.append(Variable('ncount',
+                           meta={
+                               'field_id': 'ncount',
+                               'scale': 'scaleLinear',
+                               'name': 'N count',
+                               'datatype': 'integer',
+                               'range': [min(values['n_counts']), max(values['n_counts'])]
+                           },
+                           values=values['n_counts'],
+                           parents=[]))
+    cov_range = [math.inf, -math.inf]
+    read_cov_range = [math.inf, -math.inf]
+    for cov_lib in blob_db['covLibs']:
+        cov_file_name = field_name_from_path(blob_db['covLibs'][cov_lib]['f'])
+        covs = values["%s_cov" % cov_lib]
+        read_covs = values["%s_read_cov" % cov_lib]
+        cov_range = [min(covs+[cov_range[0]]),
+                     max(covs+[cov_range[1]])]
+        read_cov_range = [min(read_covs+[read_cov_range[0]]),
+                          max(read_covs+[read_cov_range[1]])]
+        parsed.append(Variable("%s_cov" % cov_file_name,
+                               values=covs,
+                               meta={'field_id': "%s_cov" % cov_file_name},
+                               parents=cov.parent() + ['children',
+                                                       {'id': 'base_coverage',
+                                                        'clamp': 1 if cov_range[0] == 0 else False,
+                                                        'range': cov_range},
+                                                       'children']
+                               ))
+        parsed.append(Variable("%s_read_cov" % cov_file_name,
+                               values=read_covs,
+                               meta={'field_id': "%s_read_cov" % cov_file_name},
+                               parents=cov.parent() + ['children',
+                                                       {'id': 'read_coverage',
+                                                        'datatype': 'integer',
+                                                        'clamp': 1 if read_cov_range[0] == 0 else False,
+                                                        'range': read_cov_range},
+                                                       'children']
+                               ))
+    ranks = blob_db['dict_of_blobs'][
+        identifiers.values[0]]['taxonomy'][blob_db['taxrules'][0]].keys()
+    for tax_rule in blob_db['taxrules']:
+        for rank in ranks:
+            field_id = "%s_%s" % (tax_rule, rank)
+            parsed.append(Category(field_id,
+                                   values=values[field_id],
+                                   meta={'field_id': field_id},
+                                   parents=hits.parent() + ['children']))
+            parents = hits.parent() + ['children', {'id': field_id}, 'data']
+            field_id = "%s_%s_cindex" % (tax_rule, rank)
+            parsed.append(Variable(field_id,
+                                   values=values[field_id],
+                                   meta={
+                                       'scale': 'scaleLinear',
+                                       'field_id': field_id,
+                                       'datatype': 'integer',
+                                       'range': [min(values[field_id]),
+                                                 max(values[field_id])],
+                                       'preload': False,
+                                       'active': False
+                                       },
+                                   parents=parents))
+            field_id = "%s_%s_score" % (tax_rule, rank)
+            _min = min(values[field_id])
+            parsed.append(Variable(field_id,
+                                   values=values[field_id],
+                                   meta={
+                                       'scale': 'scaleLog',
+                                       'field_id': field_id,
+                                       'clamp': 1 if _min == 0 else False,
+                                       'datatype': 'integer',
+                                       'range': [_min,
+                                                 max(values[field_id])],
+                                       'preload': False,
+                                       'active': False
+                                       },
+                                   parents=parents))
+
+    return parsed
+
+
+def parent():
+    """Set standard metadata for synonyms."""
+    return []
diff --git a/lib/cov.py b/lib/cov.py
@@ -54,17 +54,6 @@ def parse_bam(bam_file, **kwargs):
     for result in results:
         _covs.update({result[0]: result[1]})
         _read_covs.update({result[0]: result[2]})
-    # for seq_id in tqdm(ids):
-    #     reads = set()
-    #     for pileupcolumn in samfile.pileup(seq_id):
-    #         _covs[seq_id] += pileupcolumn.n
-    #         for pileupread in pileupcolumn.pileups:
-    #             if not pileupread.is_del and not pileupread.is_refskip:
-    #                 reads.add(pileupread.alignment.query_name)
-    #     _read_covs[seq_id] = len(reads)
-    # samfile.close()
-    # stats = pysam.flagstat(bam_file)
-    # print(stats)
     if index_file:
         os.remove(index_file)
     if not identifiers.validate_list(list(_covs.keys())):
@@ -84,7 +73,7 @@ def parse_bam(bam_file, **kwargs):
                              meta={'field_id': field_id},
                              parents=['children',
                                       {'id': 'base_coverage',
-                                       'clamp': 0.1,
+                                       'clamp': 1 if fields['cov_range'][0] == 0 else False,
                                        'range': fields['cov_range']},
                                       'children']
                              )
@@ -97,7 +86,7 @@ def parse_bam(bam_file, **kwargs):
                                   parents=['children',
                                            {'id': 'read_coverage',
                                             'datatype': 'integer',
-                                            'clamp': 1,
+                                            'clamp': 1 if fields['read_cov_range'][0] == 0 else False,
                                             'range': fields['read_cov_range']},
                                            'children']
                                   )
diff --git a/lib/fasta.py b/lib/fasta.py
@@ -60,25 +60,17 @@ def parse(file, **kwargs):
         lengths.append(_lengths[seq_id] if seq_id in _lengths else 0)
         gc_portions.append(_gc_portions[seq_id] if seq_id in _gc_portions else 0)
         n_counts.append(_n_counts[seq_id] if seq_id in _n_counts else 0)
-    parsed.append(Variable('gc',
-                           meta={
-                               'preload': True,
-                               'scale': 'scaleLinear',
-                               'field_id': 'gc',
-                               'name': 'GC',
-                               'datatype': 'float',
-                               'range': [min(gc_portions), max(gc_portions)]
-                           },
-                           values=gc_portions,
-                           parents=[]))
+    parsed.append()
+    _min = min(lengths)
     parsed.append(Variable('length',
                            meta={
                                'preload': True,
                                'scale': 'scaleLog',
                                'field_id': 'length',
                                'name': 'Length',
+                               'clamp': 1 if _min == 0 else False,
                                'datatype': 'integer',
-                               'range': [min(lengths), max(lengths)]
+                               'range': [_min, max(lengths)]
                            },
                            values=lengths,
                            parents=[]))
diff --git a/lib/fetch.py b/lib/fetch.py
@@ -56,7 +56,10 @@ def fetch_metadata(path_to_dataset, **kwargs):
     elif not kwargs.get('meta'):
         meta = file_io.load_yaml("%s/meta.json" % path_to_dataset)
     if not meta:
-        meta = kwargs['meta']
+        if kwargs.get('meta'):
+            meta = kwargs['meta']
+        else:
+            meta = {}
     if 'id' not in meta:
         meta['id'] = dataset_id
         meta['name'] = dataset_id
diff --git a/lib/field.py b/lib/field.py
@@ -153,6 +153,9 @@ class Identifier(Field):
     def __init__(self, field_id, **kwargs):
         """Init Identifier class."""
         kwargs['type'] = 'identifier'
+        if 'meta' not in kwargs:
+            kwargs['meta'] = {}
+        kwargs['meta']['type'] = kwargs['type']
         super().__init__(field_id, **kwargs)
 
     def to_set(self):
@@ -187,6 +190,9 @@ class Variable(Field):
     def __init__(self, field_id, **kwargs):
         """Init Variable class."""
         kwargs['type'] = 'variable'
+        if 'meta' not in kwargs:
+            kwargs['meta'] = {}
+        kwargs['meta']['type'] = kwargs['type']
         super().__init__(field_id, **kwargs)
 
     def get_indices_in_range(self, min_max, invert=False):
@@ -231,6 +237,9 @@ def __init__(self, field_id, **kwargs):
             for index, value in enumerate(kwargs['values']):
                 value[slot] = values[index]
         kwargs['type'] = 'array'
+        if 'meta' not in kwargs:
+            kwargs['meta'] = {}
+        kwargs['meta']['type'] = kwargs['type']
         super().__init__(field_id, **kwargs)
 
     def get_values_by_indices_for_slots(self, indices, slots):
@@ -273,6 +282,9 @@ def __init__(self, field_id, **kwargs):
         """Init MultiArray class."""
         self.category_slot = None
         kwargs['type'] = 'multiarray'
+        if 'meta' not in kwargs:
+            kwargs['meta'] = {}
+        kwargs['meta']['type'] = kwargs['type']
         if 'category_slot' in kwargs:
             self.category_slot = kwargs['category_slot']
         if self.category_slot is not None and not kwargs.get('keys'):
@@ -318,6 +330,9 @@ class Category(Field):
     def __init__(self, field_id, **kwargs):
         """Init Category class."""
         kwargs['type'] = 'category'
+        if 'meta' not in kwargs:
+            kwargs['meta'] = {}
+        kwargs['meta']['type'] = kwargs['type']
         if 'keys' not in kwargs or kwargs['keys'] is None:
             keys = kwargs.get('fixed_keys', [])
             kwargs['keys'], kwargs['values'] = self._collapse_values(kwargs['values'], keys)
diff --git a/lib/hits.py b/lib/hits.py
@@ -116,15 +116,16 @@ def create_fields(results, fields=None):
                                    },
                                parents=parents))
         field_id = "%s_%s" % (result['field_id'], 'score')
+        _min = min(result['data']['score'])
         fields.append(Variable(field_id,
                                values=result['data']['score'],
                                meta={
                                    'scale': 'scaleLog',
                                    'field_id': field_id,
                                    'name': field_id,
-                                   'clamp': 1,
+                                   'clamp': 1 if _min == 0 else False,
                                    'datatype': 'integer',
-                                   'range': [min(result['data']['score']),
+                                   'range': [_min,
                                              max(result['data']['score'])],
                                    'preload': False,
                                    'active': False