使用 vLLM 单结点 8块H200 NVL 部署的671B的 DeepSeek R1 理论速度是多少

测试下来，最高达到 1000 tokens/s 的平均生成速度。不知道正不正常，想确认下有没有类似的部署。

或者其它的sglang之类的方案，能达到更高的效率。