[Feature Request] massive raw data → sft data parallel generation #1414

zjrwtx · 2025-01-07T13:17:48Z

Required prerequisites

I have searched the Issue Tracker and Discussions that this hasn't already been reported. (+1 or comment there if it has.)
Consider asking first in a Discussion.

Motivation

for initial qa datagen more automaticly when user source pdf、weblink content etc are very long.we should make all datagen method input Context length to 1million tokens above

Solution

No response

Alternatives

No response

Additional context

No response

Wendong-Fan · 2025-01-09T17:46:26Z

lead: @zjrwtx @harryeqs ; support & review: @AveryYay @koch3092

zjrwtx · 2025-01-10T14:10:24Z

#1431

zjrwtx added enhancement New feature or request Data Related to camel data processing call for contribution P0 Task with high level priority labels Jan 7, 2025

Wendong-Fan added this to Project Camel Jan 9, 2025

Wendong-Fan added this to the Sprint 21 milestone Jan 9, 2025

Wendong-Fan removed the call for contribution label Jan 9, 2025

Wendong-Fan assigned AveryYay, zjrwtx and koch3092 Jan 9, 2025

zjrwtx mentioned this issue Jan 10, 2025

feat: massive raw data chunking #1431

Open

13 tasks

Wendong-Fan assigned harryeqs Jan 12, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[Feature Request] massive raw data → sft data parallel generation #1414

[Feature Request] massive raw data → sft data parallel generation #1414

zjrwtx commented Jan 7, 2025

Wendong-Fan commented Jan 9, 2025 •

edited

Loading

zjrwtx commented Jan 10, 2025

[Feature Request] massive raw data → sft data parallel generation #1414

[Feature Request] massive raw data → sft data parallel generation #1414

Comments

zjrwtx commented Jan 7, 2025

Required prerequisites

Motivation

Solution

Alternatives

Additional context

Wendong-Fan commented Jan 9, 2025 • edited Loading

zjrwtx commented Jan 10, 2025

Wendong-Fan commented Jan 9, 2025 •

edited

Loading