Replace tokenizer with processor #955

kylesayrs · 2024-12-05T00:43:00Z

Purpose

Prepare to support processors and vision datasets
It's important to rename and retype variable to better reflect its more widened definition

Prerequisites

Remove unused sparseml.export utilities #950

Postrequisites

Vision Datasets #943

Changes

Rename and retype instances of tokenizer to processor
Add processor pathway argument to which tokenizer is internally reassigned to
Add typing definitions in src/llmcompressor/typing.py
Special handling of tokenizer in src/llmcompressor/transformers/finetune/data/base.py, src/llmcompressor/transformers/finetune/data/ultrachat_200k.py, src/llmcompressor/transformers/finetune/session_mixin.py

Testing

No new functionality is added, CI tests should pass

Signed-off-by: Kyle Sayers <kylesayrs@gmail.com>

github-actions · 2024-12-05T00:43:10Z

👋 Hi! Thank you for contributing to llm-compressor. Please add the ready label when the PR is ready for review.

Signed-off-by: Kyle Sayers <kylesayrs@gmail.com>

…es-tokenizer

rahul-tuli

LGTM! Thanks for this.

src/llmcompressor/typing.py

dsikka

I think we need to make it very clear:

What a processor is vs a tokenizer
If either/or can be provided and in what cases

dsikka · 2024-12-14T20:22:48Z

src/llmcompressor/transformers/finetune/runner.py

        """
        Loads datasets for each flow based on data_args, stores a Dataset for each
        enabled flow in self.datasets

        :param tokenizer: tokenizer to use for dataset tokenization
        """
        if self._data_args.dataset is None:
-            self.tokenizer = self._model_args.tokenizer
+            self.processor = self._model_args.processor


Seems like we're keeping the tokenizer in the model_args as well? What if both are specified? Or only tokenizer?

See the newly added model args handling logic

dsikka · 2024-12-14T20:29:42Z

src/llmcompressor/transformers/finetune/text_generation.py

+def initialize_processor_from_path(
+    model_args: ModelArguments, model: PreTrainedModel, teacher: PreTrainedModel
+) -> Processor:
+    processor_src = model_args.processor


same, what if a tokenizer is provided?

See the newly added model args handling logic

kylesayrs · 2024-12-16T17:21:17Z

@dsikka The current strategy is to treat all possible tokenizers as a subset of all possible processors, as type-defed here

Processor = Union[
    PreTrainedTokenizer, BaseImageProcessor, FeatureExtractionMixin, ProcessorMixin
]

We should continue to support the tokenizer model arg, but internally reassign it to the processor variable name for code simplicity.

# silently assign tokenizer to processor
if model_args.tokenizer:
    if model_args.processor:
        raise ValueError("Cannot use both a tokenizer and processor")
    model_args.processor = model_args.tokenizer
model_args.tokenizer = None

dsikka · 2024-12-16T18:30:52Z

@dsikka The current strategy is to treat all possible tokenizers as a subset of all possible processors, as type-defed here
Processor = Union[
    PreTrainedTokenizer, BaseImageProcessor, FeatureExtractionMixin, ProcessorMixin
]
We should continue to support the tokenizer model arg, but internally reassign it to the processor variable name for code simplicity.
# silently assign tokenizer to processor
if model_args.tokenizer:
    if model_args.processor:
        raise ValueError("Cannot use both a tokenizer and processor")
    model_args.processor = model_args.tokenizer
model_args.tokenizer = None

I think this is fine. My two comments about clarity were specific to being clear towards users - either in the model_args or through text_generation.py script

kylesayrs · 2024-12-17T03:27:13Z

@dsikka

There is help text attached to the newly added processor arg which users can read
We throw an error if both are passed

I think this should be clear enough messaging without being annoying/verbose

dsikka · 2024-12-17T13:58:45Z

@dsikka

There is help text attached to the newly added processor arg which users can read

We throw an error if both are passed

I think this should be clear enough messaging without being annoying/verbose

Oh sorry, missed the help text.
Sounds good

* remove sparseml utilities Signed-off-by: Kyle Sayers <kylesayrs@gmail.com> * use in model_load Signed-off-by: Kyle Sayers <kylesayrs@gmail.com> * remove use of RECIPE FILE NAME Signed-off-by: Kyle Sayers <kylesayrs@gmail.com> * rename to RECIPE_FILE_NAME, avoid circular import Signed-off-by: Kyle Sayers <kylesayrs@gmail.com> * remove qa ignore Signed-off-by: Kyle Sayers <kylesayrs@gmail.com> * replace tokenizer with processor Signed-off-by: Kyle Sayers <kylesayrs@gmail.com> * defer data collator changes Signed-off-by: Kyle Sayers <kylesayrs@gmail.com> --------- Signed-off-by: Kyle Sayers <kylesayrs@gmail.com> Co-authored-by: Dipika Sikka <dipikasikka1@gmail.com>

kylesayrs added 6 commits December 3, 2024 00:16

remove sparseml utilities

bf4744a

Signed-off-by: Kyle Sayers <kylesayrs@gmail.com>

use in model_load

7e516c1

Signed-off-by: Kyle Sayers <kylesayrs@gmail.com>

remove use of RECIPE FILE NAME

9e33641

Signed-off-by: Kyle Sayers <kylesayrs@gmail.com>

rename to RECIPE_FILE_NAME, avoid circular import

58c0fba

Signed-off-by: Kyle Sayers <kylesayrs@gmail.com>

remove qa ignore

1180b34

Signed-off-by: Kyle Sayers <kylesayrs@gmail.com>

replace tokenizer with processor

1aba16d

Signed-off-by: Kyle Sayers <kylesayrs@gmail.com>

kylesayrs self-assigned this Dec 5, 2024

defer data collator changes

89bda30

Signed-off-by: Kyle Sayers <kylesayrs@gmail.com>

This was referenced Dec 5, 2024

VLM Support via GPTQ Hooks and Sequential Data Pipeline #914

Open

Vision Datasets #943

Open

kylesayrs added 2 commits December 9, 2024 17:29

Merge remote-tracking branch 'origin' into kylesayrs/processor-replac…

d97ef2b

…es-tokenizer

Merge branch 'main' into kylesayrs/processor-replaces-tokenizer

b8e867d

This was referenced Dec 10, 2024

Update text_generation.py #938

Closed

Update session_mixin.py #941

Closed

Merge branch 'main' into kylesayrs/processor-replaces-tokenizer

8918917

kylesayrs requested review from horheynm, dsikka and rahul-tuli December 12, 2024 23:10

rahul-tuli approved these changes Dec 13, 2024

View reviewed changes

src/llmcompressor/typing.py Show resolved Hide resolved

Merge branch 'main' into kylesayrs/processor-replaces-tokenizer

8d72269

dsikka requested changes Dec 14, 2024

View reviewed changes

kylesayrs requested a review from dsikka December 17, 2024 04:05

Merge branch 'main' into kylesayrs/processor-replaces-tokenizer

3f25398

dsikka approved these changes Dec 17, 2024

View reviewed changes

dsikka merged commit ad972c2 into main Dec 17, 2024
6 of 7 checks passed

dsikka deleted the kylesayrs/processor-replaces-tokenizer branch December 17, 2024 15:50

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Replace tokenizer with processor #955

Replace tokenizer with processor #955

kylesayrs commented Dec 5, 2024

github-actions bot commented Dec 5, 2024

rahul-tuli left a comment

dsikka left a comment

dsikka Dec 14, 2024

kylesayrs Dec 16, 2024

dsikka Dec 14, 2024

kylesayrs Dec 16, 2024

kylesayrs commented Dec 16, 2024 •

edited

Loading

dsikka commented Dec 16, 2024

kylesayrs commented Dec 17, 2024

dsikka commented Dec 17, 2024

Replace tokenizer with processor #955

Replace tokenizer with processor #955

Conversation

kylesayrs commented Dec 5, 2024

Purpose

Prerequisites

Postrequisites

Changes

Testing

github-actions bot commented Dec 5, 2024

rahul-tuli left a comment

Choose a reason for hiding this comment

dsikka left a comment

Choose a reason for hiding this comment

dsikka Dec 14, 2024

Choose a reason for hiding this comment

kylesayrs Dec 16, 2024

Choose a reason for hiding this comment

dsikka Dec 14, 2024

Choose a reason for hiding this comment

kylesayrs Dec 16, 2024

Choose a reason for hiding this comment

kylesayrs commented Dec 16, 2024 • edited Loading

dsikka commented Dec 16, 2024

kylesayrs commented Dec 17, 2024

dsikka commented Dec 17, 2024

kylesayrs commented Dec 16, 2024 •

edited

Loading