2024-11-05 17:35:04.589 | WARNING | data_juicer.config.config:init_setup_from_cfg:443 - Set dataset cache directory to /mnt/dolphinfs/ssd_pool/docker/user/hadoop-mlm/by/data-juicer/.cache using the ds_cache_dir argument, which is /mnt/dolphinfs/ssd_pool/docker/user/hadoop-mlm/by/data-juicer/.cache/models/datasets before based on the env variable HF_DATASETS_CACHE. 2024-11-05 17:35:06.402 | INFO | data_juicer.config.config:config_backup:640 - Back up the input config file [/mnt/dolphinfs/ssd_pool/docker/user/hadoop-mlm/by/data-juicer/configs/test.yaml] into the work_dir [/mnt/dolphinfs/ssd_pool/docker/user/hadoop-mlm/by/data-juicer/by_output] 2024-11-05 17:35:06.475 | INFO | data_juicer.config.config:display_config:662 - Configuration table: ╒══════════════════════════╤════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════╕ │ key │ values │ ╞══════════════════════════╪════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════╡ │ config │ [Path_fr(/mnt/dolphinfs/ssd_pool/docker/user/hadoop-mlm/by/data-juicer/configs/test.yaml)] │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ hpo_config │ None │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ data_probe_algo │ 'uniform' │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ data_probe_ratio │ 1.0 │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ project_name │ 'test-process' │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ executor_type │ 'default' │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ dataset_path │ '/mnt/dolphinfs/ssd_pool/docker/user/hadoop-mlm/by/data-juicer/by_dataset/9yue-test-22m.jsonl' │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ generated_dataset_config │ None │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ export_path │ '/mnt/dolphinfs/ssd_pool/docker/user/hadoop-mlm/by/data-juicer/by_output/9yue-proccessed-test-22m.jsonl' │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ export_shard_size │ 0 │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ export_in_parallel │ False │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ keep_stats_in_res_ds │ False │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ keep_hashes_in_res_ds │ False │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ np │ 8 │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ text_keys │ 'input' │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ image_key │ 'image' │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ image_special_token │ '<__dj__image>' │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ audio_key │ 'audios' │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ audio_special_token │ '<__dj__audio>' │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ video_key │ 'videos' │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ video_special_token │ '<__dj__video>' │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ eoc_special_token │ '<|__dj__eoc|>' │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ suffixes │ [] │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ turbo │ False │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ use_cache │ True │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ ds_cache_dir │ '/mnt/dolphinfs/ssd_pool/docker/user/hadoop-mlm/by/data-juicer/.cache' │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ cache_compress │ None │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ use_checkpoint │ False │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ temp_dir │ None │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ open_tracer │ False │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ op_list_to_trace │ [] │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ trace_num │ 10 │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ op_fusion │ False │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ process │ [{'fix_unicode_mapper': {'accelerator': None, │ │ │ 'audio_key': 'audios', │ │ │ 'batch_size': 1000, │ │ │ 'cpu_required': 1, │ │ │ 'image_key': 'image', │ │ │ 'mem_required': 0, │ │ │ 'normalization': None, │ │ │ 'num_proc': 8, │ │ │ 'text_key': 'input', │ │ │ 'turbo': False, │ │ │ 'video_key': 'videos'}}, │ │ │ {'punctuation_normalization_mapper': {'accelerator': None, │ │ │ 'audio_key': 'audios', │ │ │ 'batch_size': 1000, │ │ │ 'cpu_required': 1, │ │ │ 'image_key': 'image', │ │ │ 'mem_required': 0, │ │ │ 'num_proc': 8, │ │ │ 'text_key': 'input', │ │ │ 'turbo': False, │ │ │ 'video_key': 'videos'}}, │ │ │ {'alphanumeric_filter': {'accelerator': None, │ │ │ 'audio_key': 'audios', │ │ │ 'batch_size': 1000, │ │ │ 'cpu_required': 1, │ │ │ 'image_key': 'image', │ │ │ 'max_ratio': 9223372036854775807, │ │ │ 'mem_required': '1500MB', │ │ │ 'min_ratio': 0.6, │ │ │ 'num_proc': 8, │ │ │ 'stats_export_path': None, │ │ │ 'text_key': 'input', │ │ │ 'tokenization': False, │ │ │ 'turbo': False, │ │ │ 'video_key': 'videos'}}, │ │ │ {'character_repetition_filter': {'accelerator': None, │ │ │ 'audio_key': 'audios', │ │ │ 'batch_size': 1000, │ │ │ 'cpu_required': 1, │ │ │ 'image_key': 'image', │ │ │ 'max_ratio': 0.09373663, │ │ │ 'mem_required': '1500MB', │ │ │ 'min_ratio': 0.0, │ │ │ 'num_proc': 8, │ │ │ 'rep_len': 10, │ │ │ 'stats_export_path': None, │ │ │ 'text_key': 'input', │ │ │ 'turbo': False, │ │ │ 'video_key': 'videos'}}, │ │ │ {'flagged_words_filter': {'accelerator': None, │ │ │ 'audio_key': 'audios', │ │ │ 'batch_size': 1000, │ │ │ 'cpu_required': 1, │ │ │ 'flagged_words_dir': '/mnt/dolphinfs/ssd_pool/docker/user/hadoop-mlm/by/data-juicer/.cache/assets', │ │ │ 'image_key': 'image', │ │ │ 'lang': 'en', │ │ │ 'max_ratio': 0.0, │ │ │ 'mem_required': '1500MB', │ │ │ 'num_proc': 8, │ │ │ 'stats_export_path': None, │ │ │ 'text_key': 'input', │ │ │ 'tokenization': False, │ │ │ 'turbo': False, │ │ │ 'use_words_aug': False, │ │ │ 'video_key': 'videos', │ │ │ 'words_aug_group_sizes': [2], │ │ │ 'words_aug_join_char': ''}}, │ │ │ {'perplexity_filter': {'accelerator': None, │ │ │ 'audio_key': 'audios', │ │ │ 'batch_size': 500, │ │ │ 'cpu_required': 1, │ │ │ 'image_key': 'image', │ │ │ 'lang': 'en', │ │ │ 'max_ppl': 14435.5806, │ │ │ 'mem_required': '1500MB', │ │ │ 'num_proc': 8, │ │ │ 'stats_export_path': None, │ │ │ 'text_key': 'input', │ │ │ 'turbo': False, │ │ │ 'video_key': 'videos'}}, │ │ │ {'special_characters_filter': {'accelerator': None, │ │ │ 'audio_key': 'audios', │ │ │ 'batch_size': 1000, │ │ │ 'cpu_required': 1, │ │ │ 'image_key': 'image', │ │ │ 'max_ratio': 0.42023757, │ │ │ 'mem_required': '1500MB', │ │ │ 'min_ratio': 0.16534802, │ │ │ 'num_proc': 8, │ │ │ 'stats_export_path': None, │ │ │ 'text_key': 'input', │ │ │ 'turbo': False, │ │ │ 'video_key': 'videos'}}, │ │ │ {'word_repetition_filter': {'accelerator': None, │ │ │ 'audio_key': 'audios', │ │ │ 'batch_size': 1000, │ │ │ 'cpu_required': 1, │ │ │ 'image_key': 'image', │ │ │ 'lang': 'en', │ │ │ 'max_ratio': 0.03085751, │ │ │ 'mem_required': '1500MB', │ │ │ 'min_ratio': 0.0, │ │ │ 'num_proc': 8, │ │ │ 'rep_len': 10, │ │ │ 'stats_export_path': None, │ │ │ 'text_key': 'input', │ │ │ 'tokenization': False, │ │ │ 'turbo': False, │ │ │ 'video_key': 'videos'}}, │ │ │ {'image_aspect_ratio_filter': {'accelerator': None, │ │ │ 'any_or_all': 'any', │ │ │ 'audio_key': 'audios', │ │ │ 'batch_size': 1000, │ │ │ 'cpu_required': 1, │ │ │ 'image_key': 'image', │ │ │ 'max_ratio': 3.0, │ │ │ 'mem_required': '1500MB', │ │ │ 'min_ratio': 0.333, │ │ │ 'num_proc': 8, │ │ │ 'stats_export_path': None, │ │ │ 'text_key': 'input', │ │ │ 'turbo': False, │ │ │ 'video_key': 'videos'}}, │ │ │ {'image_shape_filter': {'accelerator': None, │ │ │ 'any_or_all': 'any', │ │ │ 'audio_key': 'audios', │ │ │ 'batch_size': 1000, │ │ │ 'cpu_required': 1, │ │ │ 'image_key': 'image', │ │ │ 'max_height': 606, │ │ │ 'max_width': 727, │ │ │ 'mem_required': '1500MB', │ │ │ 'min_height': 1, │ │ │ 'min_width': 1, │ │ │ 'num_proc': 8, │ │ │ 'stats_export_path': None, │ │ │ 'text_key': 'input', │ │ │ 'turbo': False, │ │ │ 'video_key': 'videos'}}, │ │ │ {'image_size_filter': {'accelerator': None, │ │ │ 'any_or_all': 'any', │ │ │ 'audio_key': 'audios', │ │ │ 'batch_size': 500, │ │ │ 'cpu_required': 1, │ │ │ 'image_key': 'image', │ │ │ 'max_size': '124KB', │ │ │ 'mem_required': '1500MB', │ │ │ 'min_size': '0', │ │ │ 'num_proc': 8, │ │ │ 'stats_export_path': None, │ │ │ 'text_key': 'input', │ │ │ 'turbo': False, │ │ │ 'video_key': 'videos'}}, │ │ │ {'image_text_similarity_filter': {'accelerator': None, │ │ │ 'any_or_all': 'any', │ │ │ 'audio_key': 'audios', │ │ │ 'batch_size': 500, │ │ │ 'cpu_required': 1, │ │ │ 'hf_clip': 'openai/clip-vit-base-patch32', │ │ │ 'horizontal_flip': False, │ │ │ 'image_key': 'image', │ │ │ 'max_score': 1.0, │ │ │ 'mem_required': '1500MB', │ │ │ 'min_score': 0.20315419, │ │ │ 'num_proc': 8, │ │ │ 'reduce_mode': 'avg', │ │ │ 'stats_export_path': None, │ │ │ 'text_key': 'input', │ │ │ 'trust_remote_code': False, │ │ │ 'turbo': False, │ │ │ 'vertical_flip': False, │ │ │ 'video_key': 'videos'}}, │ │ │ {'image_text_matching_filter': {'accelerator': None, │ │ │ 'any_or_all': 'any', │ │ │ 'audio_key': 'audios', │ │ │ 'batch_size': 500, │ │ │ 'cpu_required': 1, │ │ │ 'hf_blip': 'Salesforce/blip-itm-base-coco', │ │ │ 'horizontal_flip': False, │ │ │ 'image_key': 'image', │ │ │ 'max_score': 1.0, │ │ │ 'mem_required': '1500MB', │ │ │ 'min_score': 0.44930778, │ │ │ 'num_proc': 8, │ │ │ 'reduce_mode': 'avg', │ │ │ 'stats_export_path': None, │ │ │ 'text_key': 'input', │ │ │ 'trust_remote_code': False, │ │ │ 'turbo': False, │ │ │ 'vertical_flip': False, │ │ │ 'video_key': 'videos'}}, │ │ │ {'image_deduplicator': {'accelerator': None, │ │ │ 'audio_key': 'audios', │ │ │ 'batch_size': 1000, │ │ │ 'consider_text': False, │ │ │ 'cpu_required': 1, │ │ │ 'image_key': 'image', │ │ │ 'mem_required': '1500MB', │ │ │ 'method': 'phash', │ │ │ 'num_proc': 8, │ │ │ 'text_key': 'input', │ │ │ 'turbo': False, │ │ │ 'video_key': 'videos'}}] │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ percentiles │ [] │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ export_original_dataset │ False │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ save_stats_in_one_file │ False │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ ray_address │ 'auto' │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ debug │ False │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ work_dir │ '/mnt/dolphinfs/ssd_pool/docker/user/hadoop-mlm/by/data-juicer/by_output' │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ timestamp │ '20241105173504' │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ dataset_dir │ '/mnt/dolphinfs/ssd_pool/docker/user/hadoop-mlm/by/data-juicer/by_dataset' │ ├──────────────────────────┼────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────┤ │ add_suffix │ False │ ╘══════════════════════════╧════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════╛ 2024-11-05 17:35:06.477 | INFO | data_juicer.core.executor:__init__:45 - Using cache compression method: [None] 2024-11-05 17:35:06.477 | INFO | data_juicer.core.executor:__init__:50 - Setting up data formatter... 2024-11-05 17:35:06.482 | INFO | data_juicer.core.executor:__init__:73 - Preparing exporter... 2024-11-05 17:35:06.483 | INFO | data_juicer.core.executor:run:150 - Loading dataset from data formatter... 2024-11-05 17:35:08.080 | INFO | logging:handle:968 - Found cached dataset json (/mnt/dolphinfs/ssd_pool/docker/user/hadoop-mlm/by/data-juicer/.cache/json/default-0d19723a397cfb3f/0.0.0/fe5dd6ea2639a6df622901539cb550cf8797e5a6b2dd7af1cf934bed8e233e6e) 0%| | 0/1 [00:00