Sync rgb order between torch and ov inference of action classification task (#3551)

jaegukhyun · web-flow · commit 447cd9cb8742 · 2024-05-29T08:31:06.000Z
* Sync rgb order between torch and ov inference of action classification task

* Fix unit tests

* Add error for unsupported color format

* Modify unit tests

* Revert unnecessasry changes
diff --git a/src/otx/core/data/dataset/action_classification.py b/src/otx/core/data/dataset/action_classification.py
@@ -6,19 +6,55 @@
 from __future__ import annotations
 
 from functools import partial
-from typing import Callable
+from typing import TYPE_CHECKING, Callable
 
 import torch
 from datumaro import Label
 
 from otx.core.data.dataset.base import OTXDataset
 from otx.core.data.entity.action_classification import ActionClsBatchDataEntity, ActionClsDataEntity
 from otx.core.data.entity.base import ImageInfo
+from otx.core.data.mem_cache import NULL_MEM_CACHE_HANDLER
+from otx.core.types.image import ImageColorChannel
+
+if TYPE_CHECKING:
+    from datumaro import DatasetSubset
+
+    from otx.core.data.dataset.base import Transforms
+    from otx.core.data.mem_cache import MemCacheHandlerBase
 
 
 class OTXActionClsDataset(OTXDataset[ActionClsDataEntity]):
     """OTXDataset class for action classification task."""
 
+    def __init__(
+        self,
+        dm_subset: DatasetSubset,
+        transforms: Transforms,
+        mem_cache_handler: MemCacheHandlerBase = NULL_MEM_CACHE_HANDLER,
+        mem_cache_img_max_size: tuple[int, int] | None = None,
+        max_refetch: int = 1000,
+        image_color_channel: ImageColorChannel = ImageColorChannel.BGR,
+        stack_images: bool = True,
+        to_tv_image: bool = True,
+    ) -> None:
+        super().__init__(
+            dm_subset,
+            transforms,
+            mem_cache_handler,
+            mem_cache_img_max_size,
+            max_refetch,
+            image_color_channel,
+            stack_images,
+            to_tv_image,
+        )
+        # TODO(Someone): ImageColorChannel is not used in action classification task
+        # This task only supports BGR color format.
+        # There should be implementation that links between ImageColorChannel and action classification task.
+        if self.image_color_channel != ImageColorChannel.BGR:
+            msg = "Action classification task only supports BGR color format."
+            raise ValueError(msg)
+
     def _get_item_impl(self, idx: int) -> ActionClsDataEntity | None:
         item = self.dm_subset[idx]
 
diff --git a/src/otx/core/data/transform_libs/torchvision.py b/src/otx/core/data/transform_libs/torchvision.py
@@ -236,7 +236,10 @@ def _transform(self, inpt: Video, params: dict) -> tv_tensors.Video:
         start_index = 0
         frame_inds = np.concatenate(frame_inds) + start_index
 
-        outputs = torch.stack([torch.tensor(inpt[idx].data) for idx in frame_inds], dim=0)
+        outputs = torch.stack(
+            [torch.tensor(cv2.cvtColor(inpt[idx].data, cv2.COLOR_RGB2BGR)) for idx in frame_inds],
+            dim=0,
+        )
         outputs = outputs.permute(0, 3, 1, 2)
         outputs = tv_tensors.Video(outputs)
         inpt.close()
diff --git a/src/otx/recipe/_base_/data/mmaction_base.yaml b/src/otx/recipe/_base_/data/mmaction_base.yaml
@@ -5,7 +5,7 @@ config:
   mem_cache_img_max_size:
     - 500
     - 500
-  image_color_channel: RGB
+  image_color_channel: BGR
   stack_images: False
   unannotated_items_ratio: 0.0
   train_subset:
diff --git a/tests/unit/core/data/test_factory.py b/tests/unit/core/data/test_factory.py
@@ -25,6 +25,7 @@
 from otx.core.data.transform_libs.mmpretrain import MMPretrainTransformLib
 from otx.core.data.transform_libs.mmseg import MMSegTransformLib
 from otx.core.data.transform_libs.torchvision import TorchVisionTransformLib
+from otx.core.types.image import ImageColorChannel
 from otx.core.types.task import OTXTaskType
 from otx.core.types.transformer_libs import TransformLibType
 
@@ -86,6 +87,7 @@ def test_create(
         cfg_data_module.vpm_config = mocker.MagicMock(spec=VisualPromptingConfig)
         cfg_data_module.vpm_config.use_bbox = False
         cfg_data_module.vpm_config.use_point = False
+        cfg_data_module.image_color_channel = ImageColorChannel.BGR
         mocker.patch.object(HLabelInfo, "from_dm_label_groups", return_value=fxt_mock_hlabelinfo)
         assert isinstance(
             OTXDatasetFactory.create(
diff --git a/tests/unit/core/data/transform_libs/test_torchvision.py b/tests/unit/core/data/transform_libs/test_torchvision.py
@@ -38,7 +38,7 @@
 
 
 class MockFrame:
-    data = np.ndarray([3, 10, 10])
+    data = np.ndarray([10, 10, 3], dtype=np.uint8)
 
 
 class MockVideo: