Skip to content

使用 vLLM 单结点 8块H200 NVL 部署的671B的 DeepSeek R1 理论速度是多少 #507

@AndrewTsao

Description

@AndrewTsao

测试下来,最高达到 1000 tokens/s 的平均生成速度。不知道正不正常,想确认下有没有类似的部署。

或者其它的sglang之类的方案,能达到更高的效率。

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions