fix imports and create datachain.torch

iterative · Jul 16, 2024 · 6ef3488 · 6ef3488
1 parent 0f9ed69
commit 6ef3488
Show file tree

Hide file tree

Showing 16 changed files with 93 additions and 131 deletions.
diff --git a/pyproject.toml b/pyproject.toml
@@ -41,7 +41,8 @@ dependencies = [
   "ujson>=5.9.0",
   "pydantic>=2,<3",
   "jmespath>=1.0",
-  "datamodel-code-generator>=0.25"
+  "datamodel-code-generator>=0.25",
+  "Pillow>=10.0.0,<11"
 ]
 
 [project.optional-dependencies]
@@ -53,8 +54,7 @@ docs = [
   "mkdocstrings-python>=1.6.3",
   "mkdocs-literate-nav>=0.6.1"
 ]
-cv = [
-  "Pillow>=10.0.0,<11",
+torch = [
   "torch>=2.1.0",
   "torchvision",
   "transformers>=4.36.0"

diff --git a/src/datachain/__init__.py b/src/datachain/__init__.py
@@ -1,7 +1,15 @@
 from datachain.lib.dc import C, DataChain
 from datachain.lib.feature import Feature
 from datachain.lib.feature_utils import pydantic_to_feature
-from datachain.lib.file import File, FileError, FileFeature, IndexedFile, TarVFile
+from datachain.lib.file import (
+    File,
+    FileError,
+    FileFeature,
+    ImageFile,
+    IndexedFile,
+    TarVFile,
+    TextFile,
+)
 from datachain.lib.udf import Aggregator, Generator, Mapper
 from datachain.lib.utils import AbstractUDF, DataChainError
 from datachain.query.dataset import UDF as BaseUDF  # noqa: N811
@@ -21,9 +29,11 @@
     "FileError",
     "FileFeature",
     "Generator",
+    "ImageFile",
     "IndexedFile",
     "Mapper",
     "Session",
     "TarVFile",
+    "TextFile",
     "pydantic_to_feature",
 ]
diff --git a/src/datachain/image/__init__.py b/src/datachain/image/__init__.py
diff --git a/src/datachain/lib/clip.py b/src/datachain/lib/clip.py
@@ -1,19 +1,14 @@
 import inspect
-from typing import Any, Callable, Literal, Union
+from typing import TYPE_CHECKING, Any, Callable, Literal, Union
+
+import torch
+from transformers.modeling_utils import PreTrainedModel
 
 from datachain.lib.image import convert_images
 from datachain.lib.text import convert_text
 
-try:
-    import torch
+if TYPE_CHECKING:
     from PIL import Image
-    from transformers.modeling_utils import PreTrainedModel
-except ImportError as exc:
-    raise ImportError(
-        "Missing dependencies for computer vision:\n"
-        "To install run:\n\n"
-        "  pip install 'datachain[cv]'\n"
-    ) from exc
 
 
 def _get_encoder(model: Any, type: Literal["image", "text"]) -> Callable:
@@ -37,7 +32,7 @@ def _get_encoder(model: Any, type: Literal["image", "text"]) -> Callable:
 
 
 def similarity_scores(
-    images: Union[None, Image.Image, list[Image.Image]],
+    images: Union[None, "Image.Image", list["Image.Image"]],
     text: Union[None, str, list[str]],
     model: Any,
     preprocess: Callable,

diff --git a/src/datachain/lib/dc.py b/src/datachain/lib/dc.py
@@ -549,13 +549,7 @@ def collect_one(self, col: str) -> list[FeatureType]:
     def to_pytorch(self, **kwargs):
         """Convert to pytorch dataset format."""
 
-        try:
-            import torch  # noqa: F401
-        except ImportError as exc:
-            raise ImportError(
-                "Missing required dependency 'torch' for Dataset.to_pytorch()"
-            ) from exc
-        from datachain.lib.pytorch import PytorchDataset
+        from datachain.torch import PytorchDataset
 
         if self.attached:
             chain = self

diff --git a/src/datachain/lib/file.py b/src/datachain/lib/file.py
@@ -1,12 +1,14 @@
 import json
 from abc import ABC, abstractmethod
 from datetime import datetime
+from io import BytesIO
 from pathlib import Path
 from typing import TYPE_CHECKING, Any, ClassVar, Literal, Optional, Union
 from urllib.parse import unquote, urlparse
 from urllib.request import url2pathname
 
 from fsspec.implementations.local import LocalFileSystem
+from PIL import Image
 from pydantic import Field, field_validator
 
 from datachain.cache import UniqueId
@@ -248,13 +250,17 @@ def _set_stream(self, catalog: "Catalog", caching_enabled: bool = False) -> None
         self._stream.set_mode("r")
 
 
+class ImageFile(File):
+    def get_value(self):
+        value = super().get_value()
+        return Image.open(BytesIO(value))
+
+
 def get_file(type: Literal["binary", "text", "image"] = "binary"):
     file = File
     if type == "text":
         file = TextFile
     elif type == "image":
-        from datachain.lib.image import ImageFile
-
         file = ImageFile  # type: ignore[assignment]
 
     def get_file_type(

diff --git a/src/datachain/lib/gpt4_vision.py b/src/datachain/lib/gpt4_vision.py
@@ -3,15 +3,7 @@
 import os
 
 import requests
-
-try:
-    from PIL import Image, ImageOps, UnidentifiedImageError
-except ImportError as exc:
-    raise ImportError(
-        "Missing dependency Pillow for computer vision:\n"
-        "To install run:\n\n"
-        "  pip install 'datachain[cv]'\n"
-    ) from exc
+from PIL import Image, ImageOps, UnidentifiedImageError
 
 from datachain.query import Object, udf
 from datachain.sql.types import String

diff --git a/src/datachain/lib/hf_image_to_text.py b/src/datachain/lib/hf_image_to_text.py
@@ -1,20 +1,12 @@
-try:
-    import numpy as np
-    import torch
-    from PIL import Image, ImageOps, UnidentifiedImageError
-    from transformers import (
-        AutoProcessor,
-        Blip2ForConditionalGeneration,
-        Blip2Processor,
-        LlavaForConditionalGeneration,
-    )
-except ImportError as exc:
-    raise ImportError(
-        "Missing dependencies for computer vision:\n"
-        "To install run:\n\n"
-        "  pip install 'datachain[cv]'\n"
-    ) from exc
-
+import numpy as np
+import torch
+from PIL import Image, ImageOps, UnidentifiedImageError
+from transformers import (
+    AutoProcessor,
+    Blip2ForConditionalGeneration,
+    Blip2Processor,
+    LlavaForConditionalGeneration,
+)
 
 from datachain.query import Object, udf
 from datachain.sql.types import String

diff --git a/src/datachain/lib/hf_pipeline.py b/src/datachain/lib/hf_pipeline.py
@@ -1,22 +1,14 @@
 import json
 
+from PIL import (
+    Image,
+    UnidentifiedImageError,
+)
 from transformers import pipeline
 
 from datachain.query import Object, udf
 from datachain.sql.types import JSON, String
 
-try:
-    from PIL import (
-        Image,
-        UnidentifiedImageError,
-    )
-except ImportError as exc:
-    raise ImportError(
-        "Missing dependency Pillow for computer vision:\n"
-        "To install run:\n\n"
-        "  pip install 'datachain[cv]'\n"
-    ) from exc
-
 
 def read_image(raw):
     try:

diff --git a/src/datachain/lib/image.py b/src/datachain/lib/image.py
@@ -1,23 +1,7 @@
-from io import BytesIO
 from typing import Callable, Optional, Union
 
-from datachain.lib.file import File
-
-try:
-    import torch
-    from PIL import Image
-except ImportError as exc:
-    raise ImportError(
-        "Missing dependencies for computer vision:\n"
-        "To install run:\n\n"
-        "  pip install 'datachain[cv]'\n"
-    ) from exc
-
-
-class ImageFile(File):
-    def get_value(self):
-        value = super().get_value()
-        return Image.open(BytesIO(value))
+import torch
+from PIL import Image
 
 
 def convert_image(

diff --git a/src/datachain/lib/iptc_exif_xmp.py b/src/datachain/lib/iptc_exif_xmp.py
@@ -1,23 +1,16 @@
 import json
 
+from PIL import (
+    ExifTags,
+    Image,
+    IptcImagePlugin,
+    TiffImagePlugin,
+    UnidentifiedImageError,
+)
+
 from datachain.query import Object, udf
 from datachain.sql.types import JSON, String
 
-try:
-    from PIL import (
-        ExifTags,
-        Image,
-        IptcImagePlugin,
-        TiffImagePlugin,
-        UnidentifiedImageError,
-    )
-except ImportError as exc:
-    raise ImportError(
-        "Missing dependency Pillow for computer vision:\n"
-        "To install run:\n\n"
-        "  pip install 'datachain[cv]'\n"
-    ) from exc
-
 
 def encode_image(raw):
     try:

diff --git a/src/datachain/lib/pytorch.py b/src/datachain/lib/pytorch.py
@@ -2,9 +2,11 @@
 from collections.abc import Iterator
 from typing import TYPE_CHECKING, Any, Callable, Optional
 
+from PIL import Image
 from torch import float32
 from torch.distributed import get_rank, get_world_size
 from torch.utils.data import IterableDataset, get_worker_info
+from torchvision.transforms import v2
 
 from datachain.catalog import Catalog, get_catalog
 from datachain.lib.dc import DataChain
@@ -18,20 +20,7 @@
 logger = logging.getLogger("datachain")
 
 
-try:
-    from PIL import Image
-    from torchvision.transforms import v2
-
-    DEFAULT_TRANSFORM = v2.Compose([v2.ToImage(), v2.ToDtype(float32, scale=True)])
-except ImportError:
-    logger.warning(
-        "Missing dependencies for computer vision:\n"
-        "To install run:\n\n"
-        "  pip install 'datachain[cv]'\n"
-    )
-    Image = None  # type: ignore[assignment]
-    v2 = None
-    DEFAULT_TRANSFORM = None
+DEFAULT_TRANSFORM = v2.Compose([v2.ToImage(), v2.ToDtype(float32, scale=True)])
 
 
 def label_to_int(value: str, classes: list) -> int:

diff --git a/src/datachain/lib/text.py b/src/datachain/lib/text.py
@@ -1,15 +1,15 @@
-from typing import TYPE_CHECKING, Any, Callable, Optional, Union
+from typing import Any, Callable, Optional, Union
 
-if TYPE_CHECKING:
-    import torch
+import torch
+from transformers.tokenization_utils_base import PreTrainedTokenizerBase
 
 
 def convert_text(
     text: Union[str, list[str]],
     tokenizer: Optional[Callable] = None,
     tokenizer_kwargs: Optional[dict[str, Any]] = None,
     encoder: Optional[Callable] = None,
-) -> Union[str, list[str], "torch.Tensor"]:
+) -> Union[str, list[str], torch.Tensor]:
     """
     Tokenize and otherwise transform text.
 
@@ -29,21 +29,10 @@ def convert_text(
         res = tokenizer(text, **tokenizer_kwargs)
     else:
         res = tokenizer(text)
-    try:
-        from transformers.tokenization_utils_base import PreTrainedTokenizerBase
 
-        tokens = (
-            res.input_ids if isinstance(tokenizer, PreTrainedTokenizerBase) else res
-        )
-    except ImportError:
-        tokens = res
+    tokens = res.input_ids if isinstance(tokenizer, PreTrainedTokenizerBase) else res
 
     if not encoder:
         return tokens
 
-    try:
-        import torch
-    except ImportError:
-        "Missing dependency 'torch' needed to encode text."
-
     return encoder(torch.tensor(tokens))
diff --git a/src/datachain/torch/__init__.py b/src/datachain/torch/__init__.py
@@ -0,0 +1,21 @@
+try:
+    from datachain.lib.clip import similarity_scores as clip_similarity_scores
+    from datachain.lib.image import convert_image, convert_images
+    from datachain.lib.pytorch import PytorchDataset, label_to_int
+    from datachain.lib.text import convert_text
+
+except ImportError as exc:
+    raise ImportError(
+        "Missing dependencies for torch:\n"
+        "To install run:\n\n"
+        "  pip install 'datachain[torch]'\n"
+    ) from exc
+
+__all__ = [
+    "PytorchDataset",
+    "clip_similarity_scores",
+    "convert_image",
+    "convert_images",
+    "convert_text",
+    "label_to_int",
+]
diff --git a/tests/unit/lib/test_image.py b/tests/unit/lib/test_image.py
@@ -3,8 +3,8 @@
 from torchvision.transforms import ToTensor
 from transformers import CLIPImageProcessor
 
+from datachain.lib.file import ImageFile
 from datachain.lib.image import (
-    ImageFile,
     convert_image,
     convert_images,
 )