Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[Datasets] Give dataset progress bars descriptive names #31224

Closed
bveeramani opened this issue Dec 20, 2022 · 4 comments · Fixed by #31526
Closed

[Datasets] Give dataset progress bars descriptive names #31224

bveeramani opened this issue Dec 20, 2022 · 4 comments · Fixed by #31526
Assignees
Labels
data Ray Data-related issues enhancement Request for new feature and/or capability QS Quantsight triage label

Comments

@bveeramani
Copy link
Member

bveeramani commented Dec 20, 2022

Description

Instead of names like "Map_Batches":

Map_Batches: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:13<00:00,  2.21s/it]

use names that describe what the stage is doing. For example, if you're using a UDF named resize_and_pad_images, we could do:

resize_and_pad_images: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:13<00:00,  2.21s/it]

Use case

If your workflow has many preprocessing steps, then there are many progress bars. In this case, it's hard to know what's going on, since all the progress bars say more-or-less the same thing.

Read->Map_Batches:   6%|███████▊                                                                                                                           | 12/200 [00:23<04:08,  1.32s/it](scheduler +41s) Tip: use `ray status` to view detailed cluster status. To disable these messages, set RAY_SCHEDULER_EVENTS=0.
(scheduler +41s) Adding 5 node(s) of type worker-node-type-0.
Read->Map_Batches:  46%|████████████████████████████████████████████████████████████▎                                                                      | 92/200 [02:24<02:58,  1.65s/it](raylet) Spilled 2325 MiB, 81 objects, write throughput 79 MiB/s. Set RAY_verbose_spill_logs=0 to disable this message.
Read->Map_Batches:  53%|████████████████████████████████████████████████████████████████████▉                                                             | 106/200 [02:41<03:42,  2.37s/it](raylet) Spilled 10045 MiB, 595 objects, write throughput 221 MiB/s.
Read->Map_Batches:  54%|██████████████████████████████████████████████████████████████████████▏                                                           | 108/200 [02:42<02:24,  1.57s/it](raylet) Spilled 10217 MiB, 604 objects, write throughput 220 MiB/s.
Read->Map_Batches: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [04:33<00:00,  1.43s/it]
Map_Batches:  38%|████████████████████████████████████████████████████▋                                                                                    | 77/200 [00:38<03:08,  1.53s/it](raylet) Spilled 16704 MiB, 1130 objects, write throughput 270 MiB/s.
Map_Batches: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:28<00:00,  4.31it/s]
Map_Batches: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:33<00:00,  6.60it/s]
Sort Sample: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 120.23it/s]
Shuffle Map:  98%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌   | 195/200 [00:22<00:00, 10.28it/s](scheduler +7m19s) Resized to 24 CPUs.
Shuffle Map: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:23<00:00,  8.48it/s]
Shuffle Reduce:  91%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████            | 182/200 [00:01<00:14,  1.28it/s](scheduler +7m33s) Adding 1 node(s) of type worker-node-type-0.
(scheduler +7m33s) Resized to 56 CPUs.
Shuffle Reduce:  99%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋ | 198/200 [00:20<00:01,  1.28it/s](scheduler +7m46s) Resized to 88 CPUs.
Shuffle Reduce: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [01:06<00:00,  3.97s/it]
Sort Sample: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:00<00:00, 355.98it/s]
Shuffle Map: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 85.12it/s]
Shuffle Reduce: 100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:03<00:00, 55.77it/s]
Map_Batches:   0%|                                                                                                                                                 (raylet) Spilled 35629 MiB, 1939 objects, write throughput 154 MiB/s.
(scheduler +15m6s) Resized to 104 CPUs.
Map_Batches:   0%|▋                                                                                                                                     | 1/200 [08:Map_Batches: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [08:23<00:00, 351.48s/it]
Map_Batches: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 75.73it/s]
Map_Batches: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:03<00:00, 50.06it/s]
Map_Batches: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 200/200 [00:02<00:00, 80.15it/s]
Map_Batches: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 193/193 [00:35<00:00,  5.46it/s]
Map_Batches: 100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 8/8 [00:13<00:00,  2.21s/it]
@bveeramani bveeramani added enhancement Request for new feature and/or capability data Ray Data-related issues labels Dec 20, 2022
@amogkam
Copy link
Contributor

amogkam commented Dec 20, 2022

this is great feedback...something to keep in mind @scottjlee

@bveeramani
Copy link
Member Author

cc @peytondmurray

@peytondmurray
Copy link
Contributor

I'm happy to take this one!

@peytondmurray peytondmurray self-assigned this Dec 21, 2022
@clarkzinzow
Copy link
Contributor

Is the proposal here to take the function name of the supplied UDF and set that as the stage name? That sounds great!

The implementation (outside of writing a test) should be a one-liner, replacing this line with fn.__name__:

"map_batches",

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
data Ray Data-related issues enhancement Request for new feature and/or capability QS Quantsight triage label
Projects
None yet
Development

Successfully merging a pull request may close this issue.

5 participants