Skip to content

rollout_log_probs如果是None,会影响GRPO的训练吗 #1413

@glennccc

Description

@glennccc
  1. 如题。
  2. eval x: {'eval/aime': 0.0698958333333333, ....},这个eval中的值是reward的平均值吗,用来作为评测指标用?为什么没用那种专门的官方benchmark的评测
  3. 日志里主要看哪些指标来判断模型训练有没有问题呢
  4. strands_agent的user question,应不应该加apply_chat_template。messages角度上,不应该加,但是sglang加载的这个训练模型的要吃的话,感觉又需要加,像search-r1的example里就有加。请教一下

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions