Add dataset export facility (#813)

* Add datumaro django application * Add cvat task datumaro bindings * Add REST api for task export * Add scheduler service * Updated CHANGELOG.md
cvat-ai · Nov 22, 2019 · 74f720a · 74f720a
1 parent 3aa4abf
commit 74f720a
Show file tree

Hide file tree

Showing 82 changed files with 10,370 additions and 0 deletions.
diff --git a/.travis.yml b/.travis.yml
@@ -13,4 +13,5 @@ before_script:
 
 script:
  - docker exec -it cvat /bin/bash -c 'python3 manage.py test cvat/apps utils/cli'
+ - docker exec -it cvat /bin/bash -c 'python3 manage.py test datumaro/'
  - docker exec -it cvat /bin/bash -c 'cd cvat-core && npm install && npm run test && npm run coveralls'
diff --git a/.vscode/launch.json b/.vscode/launch.json
@@ -71,6 +71,22 @@
  "env": {},
  "console": "internalConsole"
  },
+ {
+ "name": "server: RQ - scheduler",
+ "type": "python",
+ "request": "launch",
+ "stopOnEntry": false,
+ "justMyCode": false,
+ "pythonPath": "${config:python.pythonPath}",
+ "program": "${workspaceRoot}/manage.py",
+ "args": [
+ "rqscheduler",
+ ],
+ "django": true,
+ "cwd": "${workspaceFolder}",
+ "env": {},
+ "console": "internalConsole"
+ },
  {
  "name": "server: RQ - low",
  "type": "python",
@@ -177,6 +193,7 @@
  "server: django",
  "server: RQ - default",
  "server: RQ - low",
+ "server: RQ - scheduler",
  "server: git",
  ]
  }

diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -15,6 +15,8 @@ https://github.com/opencv/cvat/issues/750).
 - Auto segmentation using Mask_RCNN component (Keras+Tensorflow Mask R-CNN Segmentation)
 - Added MOT CSV format support
 - Ability to dump/load annotations in LabelMe format from UI
+- REST API to export an annotation task (images + annotations)
+- Datumaro is an experimental framework to build, analyze, debug and visualize datasets for DL algorithms
 
 ### Changed
 -

diff --git a/Dockerfile b/Dockerfile
@@ -154,6 +154,10 @@ COPY utils ${HOME}/utils
 COPY cvat/ ${HOME}/cvat
 COPY cvat-core/ ${HOME}/cvat-core
 COPY tests ${HOME}/tests
+COPY datumaro/ ${HOME}/datumaro
+
+RUN sed -r "s/^(.*)#.*$/\1/g" ${HOME}/datumaro/requirements.txt | xargs -n 1 -L 1 pip3 install --no-cache-dir
+
 # Binary option is necessary to correctly apply the patch on Windows platform.
 # https://unix.stackexchange.com/questions/239364/how-to-fix-hunk-1-failed-at-1-different-line-endings-message
 RUN patch --binary -p1 < ${HOME}/cvat/apps/engine/static/engine/js/3rdparty.patch

diff --git a/cvat/apps/dataset_manager/__init__.py b/cvat/apps/dataset_manager/__init__.py
diff --git a/cvat/apps/dataset_manager/bindings.py b/cvat/apps/dataset_manager/bindings.py
@@ -0,0 +1,176 @@
+from collections import OrderedDict
+import os
+import os.path as osp
+
+from django.db import transaction
+
+from cvat.apps.annotation.annotation import Annotation
+from cvat.apps.engine.annotation import TaskAnnotation
+from cvat.apps.engine.models import Task, ShapeType
+
+import datumaro.components.extractor as datumaro
+from datumaro.util.image import lazy_image
+
+
+class CvatImagesDirExtractor(datumaro.Extractor):
+ _SUPPORTED_FORMATS = ['.png', '.jpg']
+
+ def __init__(self, url):
+ super().__init__()
+
+ items = []
+ for (dirpath, _, filenames) in os.walk(url):
+ for name in filenames:
+ path = osp.join(dirpath, name)
+ if self._is_image(path):
+ item_id = Task.get_image_frame(path)
+ item = datumaro.DatasetItem(
+ id=item_id, image=lazy_image(path))
+ items.append((item.id, item))
+
+ items = sorted(items, key=lambda e: e[0])
+ items = OrderedDict(items)
+ self._items = items
+
+ self._subsets = None
+
+ def __iter__(self):
+ for item in self._items.values():
+ yield item
+
+ def __len__(self):
+ return len(self._items)
+
+ def subsets(self):
+ return self._subsets
+
+ def get(self, item_id, subset=None, path=None):
+ if path or subset:
+ raise KeyError()
+ return self._items[item_id]
+
+ def _is_image(self, path):
+ for ext in self._SUPPORTED_FORMATS:
+ if osp.isfile(path) and path.endswith(ext):
+ return True
+ return False
+
+
+class CvatTaskExtractor(datumaro.Extractor):
+ def __init__(self, url, db_task, user):
+ self._db_task = db_task
+ self._categories = self._load_categories()
+
+ cvat_annotations = TaskAnnotation(db_task.id, user)
+ with transaction.atomic():
+ cvat_annotations.init_from_db()
+ cvat_annotations = Annotation(cvat_annotations.ir_data, db_task)
+
+ dm_annotations = []
+
+ for cvat_anno in cvat_annotations.group_by_frame():
+ dm_anno = self._read_cvat_anno(cvat_anno)
+ dm_item = datumaro.DatasetItem(
+ id=cvat_anno.frame, annotations=dm_anno)
+ dm_annotations.append((dm_item.id, dm_item))
+
+ dm_annotations = sorted(dm_annotations, key=lambda e: e[0])
+ self._items = OrderedDict(dm_annotations)
+
+ self._subsets = None
+
+ def __iter__(self):
+ for item in self._items.values():
+ yield item
+
+ def __len__(self):
+ return len(self._items)
+
+ def subsets(self):
+ return self._subsets
+
+ def get(self, item_id, subset=None, path=None):
+ if path or subset:
+ raise KeyError()
+ return self._items[item_id]
+
+ def _load_categories(self):
+ categories = {}
+ label_categories = datumaro.LabelCategories()
+
+ db_labels = self._db_task.label_set.all()
+ for db_label in db_labels:
+ db_attributes = db_label.attributespec_set.all()
+ label_categories.add(db_label.name)
+
+ for db_attr in db_attributes:
+ label_categories.attributes.add(db_attr.name)
+
+ categories[datumaro.AnnotationType.label] = label_categories
+
+ return categories
+
+ def categories(self):
+ return self._categories
+
+ def _read_cvat_anno(self, cvat_anno):
+ item_anno = []
+
+ categories = self.categories()
+ label_cat = categories[datumaro.AnnotationType.label]
+
+ label_map = {}
+ label_attrs = {}
+ db_labels = self._db_task.label_set.all()
+ for db_label in db_labels:
+ label_map[db_label.name] = label_cat.find(db_label.name)[0]
+
+ attrs = {}
+ db_attributes = db_label.attributespec_set.all()
+ for db_attr in db_attributes:
+ attrs[db_attr.name] = db_attr.default_value
+ label_attrs[db_label.name] = attrs
+ map_label = lambda label_db_name: label_map[label_db_name]
+
+ for tag_obj in cvat_anno.tags:
+ anno_group = tag_obj.group
+ if isinstance(anno_group, int):
+ anno_group = anno_group
+ anno_label = map_label(tag_obj.label)
+ anno_attr = dict(label_attrs[tag_obj.label])
+ for attr in tag_obj.attributes:
+ anno_attr[attr.name] = attr.value
+
+ anno = datumaro.LabelObject(label=anno_label,
+ attributes=anno_attr, group=anno_group)
+ item_anno.append(anno)
+
+ for shape_obj in cvat_anno.labeled_shapes:
+ anno_group = shape_obj.group
+ if isinstance(anno_group, int):
+ anno_group = anno_group
+ anno_label = map_label(shape_obj.label)
+ anno_attr = dict(label_attrs[shape_obj.label])
+ for attr in shape_obj.attributes:
+ anno_attr[attr.name] = attr.value
+
+ anno_points = shape_obj.points
+ if shape_obj.type == ShapeType.POINTS:
+ anno = datumaro.PointsObject(anno_points,
+ label=anno_label, attributes=anno_attr, group=anno_group)
+ elif shape_obj.type == ShapeType.POLYLINE:
+ anno = datumaro.PolyLineObject(anno_points,
+ label=anno_label, attributes=anno_attr, group=anno_group)
+ elif shape_obj.type == ShapeType.POLYGON:
+ anno = datumaro.PolygonObject(anno_points,
+ label=anno_label, attributes=anno_attr, group=anno_group)
+ elif shape_obj.type == ShapeType.RECTANGLE:
+ x0, y0, x1, y1 = anno_points
+ anno = datumaro.BboxObject(x0, y0, x1 - x0, y1 - y0,
+ label=anno_label, attributes=anno_attr, group=anno_group)
+ else:
+ raise Exception("Unknown shape type '%s'" % (shape_obj.type))
+
+ item_anno.append(anno)
+
+ return item_anno
diff --git a/cvat/apps/dataset_manager/export_templates/extractors/cvat_rest_api_task_images.py b/cvat/apps/dataset_manager/export_templates/extractors/cvat_rest_api_task_images.py
@@ -0,0 +1,120 @@
+from collections import OrderedDict
+import getpass
+import json
+import os, os.path as osp
+import requests
+
+from datumaro.components.config import (Config,
+ SchemaBuilder as _SchemaBuilder,
+)
+import datumaro.components.extractor as datumaro
+from datumaro.util.image import lazy_image, load_image
+
+from cvat.utils.cli.core import CLI as CVAT_CLI, CVAT_API_V1
+
+
+CONFIG_SCHEMA = _SchemaBuilder() \
+ .add('task_id', int) \
+ .add('server_host', str) \
+ .add('server_port', int) \
+ .build()
+
+class cvat_rest_api_task_images(datumaro.Extractor):
+ def _image_local_path(self, item_id):
+ task_id = self._config.task_id
+ return osp.join(self._cache_dir,
+ 'task_{}_frame_{:06d}.jpg'.format(task_id, item_id))
+
+ def _make_image_loader(self, item_id):
+ return lazy_image(item_id,
+ lambda item_id: self._image_loader(item_id, self))
+
+ def _is_image_cached(self, item_id):
+ return osp.isfile(self._image_local_path(item_id))
+
+ def _download_image(self, item_id):
+ self._connect()
+ os.makedirs(self._cache_dir, exist_ok=True)
+ self._cvat_cli.tasks_frame(task_id=self._config.task_id,
+ frame_ids=[item_id], outdir=self._cache_dir)
+
+ def _connect(self):
+ if self._session is not None:
+ return
+
+ session = None
+ try:
+ print("Enter credentials for '%s:%s':" % \
+ (self._config.server_host, self._config.server_port))
+ username = input('User: ')
+ password = getpass.getpass()
+
+ session = requests.Session()
+ session.auth = (username, password)
+
+ api = CVAT_API_V1(self._config.server_host,
+ self._config.server_port)
+ cli = CVAT_CLI(session, api)
+
+ self._session = session
+ self._cvat_cli = cli
+ except Exception:
+ if session is not None:
+ session.close()
+
+ def __del__(self):
+ if hasattr(self, '_session'):
+ if self._session is not None:
+ self._session.close()
+
+ @staticmethod
+ def _image_loader(item_id, extractor):
+ if not extractor._is_image_cached(item_id):
+ extractor._download_image(item_id)
+ local_path = extractor._image_local_path(item_id)
+ return load_image(local_path)
+
+ def __init__(self, url):
+ super().__init__()
+
+ local_dir = url
+ self._local_dir = local_dir
+ self._cache_dir = osp.join(local_dir, 'images')
+
+ with open(osp.join(url, 'config.json'), 'r') as config_file:
+ config = json.load(config_file)
+ config = Config(config, schema=CONFIG_SCHEMA)
+ self._config = config
+
+ with open(osp.join(url, 'images_meta.json'), 'r') as images_file:
+ images_meta = json.load(images_file)
+ image_list = images_meta['images']
+
+ items = []
+ for entry in image_list:
+ item_id = entry['id']
+ item = datumaro.DatasetItem(
+ id=item_id, image=self._make_image_loader(item_id))
+ items.append((item.id, item))
+
+ items = sorted(items, key=lambda e: e[0])
+ items = OrderedDict(items)
+ self._items = items
+
+ self._cvat_cli = None
+ self._session = None
+
+ def __iter__(self):
+ for item in self._items.values():
+ yield item
+
+ def __len__(self):
+ return len(self._items)
+
+ def subsets(self):
+ return None
+
+ def get(self, item_id, subset=None, path=None):
+ if path or subset:
+ raise KeyError()
+ return self._items[item_id]