rollout_log_probs如果是None，会影响GRPO的训练吗

1. 如题。
2. eval x: {'eval/aime': 0.0698958333333333, ....}，这个eval中的值是reward的平均值吗，用来作为评测指标用？为什么没用那种专门的官方benchmark的评测
3. 日志里主要看哪些指标来判断模型训练有没有问题呢
4. strands_agent的user question，应不应该加apply_chat_template。messages角度上，不应该加，但是sglang加载的这个训练模型的要吃的话，感觉又需要加，像search-r1的example里就有加。请教一下