Fix manager import with older pytorch (< 2.4.0) #905

coreyjadams · 2025-05-22T14:10:14Z

Wrap DeviceMesh in quotes for typing hint, to protect older torch versions from compatibility issues.

(The function is protected already, but the type annotation was using a type that didn't exist in older torch.)

PhysicsNeMo Pull Request

Description

closes #904

Checklist

I am familiar with the Contributing Guidelines.
New or existing tests cover these changes.
The documentation is up to date with these changes.
The CHANGELOG.md is up to date with these changes.
An issue is linked to this pull request.

Dependencies

…sions from compatibility issues.

coreyjadams · 2025-05-22T14:10:26Z

/blossom-ci

peterdsharpe

LGTM

…buted applications (#906) * Wrap DeviceMesh in quotes for typing hint, to protect older torch versions (#905) from compatibility issues. * Bumps torch version to >=2.4.0 to minimize support surface for distributed applications. * Adds changelog note * Merge SongUNetPosLtEmb with SongUNetPosEmb and add support for batch>1 (#901) * mult-gpu training supported corrdiff optimization * enable mixed precision for val * clean codebase for opt * add amp_mode aware model architecture * add None checking for params * revise datatype casting schema * Add test cases for corrdiff optimizations Signed-off-by: Neal Pan <nuochengp@nvidia.com> * revised from_checkpoint, update tests and CHANGELOG Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * Lint and format code properly Signed-off-by: Neal Pan <nuochengp@nvidia.com> * add multi-gpu optimization * rebase changes and update tests and configs Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * merge ResidualLoss and refactored layer and Unet init based on PR review Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * Update layers.py with robust apex import * address incompatibility between dynamo and patching, retain same optimization perf w torch.compile Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * update tests Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * update changelog Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * initialize global_index directly on device Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * formatting Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * fix loss arguments in train.py Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * merge songunetposembd with songuneyposltembd with index slicing (recompile issue persists) Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * fix small errors in songunet Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * revise positional_embedding_indexing to avoid recompile/graph break and with faster bw comparing to old version Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * update changelog Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * add back SongUNetPosLtEmbd class for better ckp loading Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * add forward in SongUnetLtPosEmbd and update train.py Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * update test for lt model Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * update comments for embedding_selector test for lt model Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * update doctest Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * Added tiny detail in corrdiff readme Signed-off-by: Charlelie Laurent <claurent@nvidia.com> * minor update to arguments and docstring Signed-off-by: jialusui1102 <jialusui1102@gmail.com> --------- Signed-off-by: Neal Pan <nuochengp@nvidia.com> Signed-off-by: jialusui1102 <jialusui1102@gmail.com> Signed-off-by: Charlelie Laurent <claurent@nvidia.com> Co-authored-by: Alicia Sui <asui@cw-pdx-cs-001-vscode-01.cm.cluster> Co-authored-by: Neal Pan <nuochengp@nvidia.com> Co-authored-by: Charlelie Laurent <84199758+CharlelieLrt@users.noreply.github.com> Co-authored-by: Charlelie Laurent <claurent@nvidia.com> * Update CHANGELOG.md Fix lint error --------- Signed-off-by: Neal Pan <nuochengp@nvidia.com> Signed-off-by: jialusui1102 <jialusui1102@gmail.com> Signed-off-by: Charlelie Laurent <claurent@nvidia.com> Co-authored-by: Corey adams <coreyjadams@gmail.com> Co-authored-by: Jialu (Alicia) Sui <125910753+jialusui1102@users.noreply.github.com> Co-authored-by: Alicia Sui <asui@cw-pdx-cs-001-vscode-01.cm.cluster> Co-authored-by: Neal Pan <nuochengp@nvidia.com> Co-authored-by: Charlelie Laurent <84199758+CharlelieLrt@users.noreply.github.com> Co-authored-by: Charlelie Laurent <claurent@nvidia.com>

…sions (#905) from compatibility issues.

…buted applications (#906) * Wrap DeviceMesh in quotes for typing hint, to protect older torch versions (#905) from compatibility issues. * Bumps torch version to >=2.4.0 to minimize support surface for distributed applications. * Adds changelog note * Merge SongUNetPosLtEmb with SongUNetPosEmb and add support for batch>1 (#901) * mult-gpu training supported corrdiff optimization * enable mixed precision for val * clean codebase for opt * add amp_mode aware model architecture * add None checking for params * revise datatype casting schema * Add test cases for corrdiff optimizations Signed-off-by: Neal Pan <nuochengp@nvidia.com> * revised from_checkpoint, update tests and CHANGELOG Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * Lint and format code properly Signed-off-by: Neal Pan <nuochengp@nvidia.com> * add multi-gpu optimization * rebase changes and update tests and configs Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * merge ResidualLoss and refactored layer and Unet init based on PR review Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * Update layers.py with robust apex import * address incompatibility between dynamo and patching, retain same optimization perf w torch.compile Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * update tests Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * update changelog Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * initialize global_index directly on device Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * formatting Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * fix loss arguments in train.py Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * merge songunetposembd with songuneyposltembd with index slicing (recompile issue persists) Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * fix small errors in songunet Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * revise positional_embedding_indexing to avoid recompile/graph break and with faster bw comparing to old version Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * update changelog Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * add back SongUNetPosLtEmbd class for better ckp loading Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * add forward in SongUnetLtPosEmbd and update train.py Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * update test for lt model Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * update comments for embedding_selector test for lt model Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * update doctest Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * Added tiny detail in corrdiff readme Signed-off-by: Charlelie Laurent <claurent@nvidia.com> * minor update to arguments and docstring Signed-off-by: jialusui1102 <jialusui1102@gmail.com> --------- Signed-off-by: Neal Pan <nuochengp@nvidia.com> Signed-off-by: jialusui1102 <jialusui1102@gmail.com> Signed-off-by: Charlelie Laurent <claurent@nvidia.com> Co-authored-by: Alicia Sui <asui@cw-pdx-cs-001-vscode-01.cm.cluster> Co-authored-by: Neal Pan <nuochengp@nvidia.com> Co-authored-by: Charlelie Laurent <84199758+CharlelieLrt@users.noreply.github.com> Co-authored-by: Charlelie Laurent <claurent@nvidia.com> * Update CHANGELOG.md Fix lint error --------- Signed-off-by: Neal Pan <nuochengp@nvidia.com> Signed-off-by: jialusui1102 <jialusui1102@gmail.com> Signed-off-by: Charlelie Laurent <claurent@nvidia.com> Co-authored-by: Corey adams <coreyjadams@gmail.com> Co-authored-by: Jialu (Alicia) Sui <125910753+jialusui1102@users.noreply.github.com> Co-authored-by: Alicia Sui <asui@cw-pdx-cs-001-vscode-01.cm.cluster> Co-authored-by: Neal Pan <nuochengp@nvidia.com> Co-authored-by: Charlelie Laurent <84199758+CharlelieLrt@users.noreply.github.com> Co-authored-by: Charlelie Laurent <claurent@nvidia.com>

…buted applications (NVIDIA#906) * Wrap DeviceMesh in quotes for typing hint, to protect older torch versions (NVIDIA#905) from compatibility issues. * Bumps torch version to >=2.4.0 to minimize support surface for distributed applications. * Adds changelog note * Merge SongUNetPosLtEmb with SongUNetPosEmb and add support for batch>1 (NVIDIA#901) * mult-gpu training supported corrdiff optimization * enable mixed precision for val * clean codebase for opt * add amp_mode aware model architecture * add None checking for params * revise datatype casting schema * Add test cases for corrdiff optimizations Signed-off-by: Neal Pan <nuochengp@nvidia.com> * revised from_checkpoint, update tests and CHANGELOG Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * Lint and format code properly Signed-off-by: Neal Pan <nuochengp@nvidia.com> * add multi-gpu optimization * rebase changes and update tests and configs Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * merge ResidualLoss and refactored layer and Unet init based on PR review Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * Update layers.py with robust apex import * address incompatibility between dynamo and patching, retain same optimization perf w torch.compile Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * update tests Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * update changelog Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * initialize global_index directly on device Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * formatting Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * fix loss arguments in train.py Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * merge songunetposembd with songuneyposltembd with index slicing (recompile issue persists) Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * fix small errors in songunet Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * revise positional_embedding_indexing to avoid recompile/graph break and with faster bw comparing to old version Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * update changelog Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * add back SongUNetPosLtEmbd class for better ckp loading Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * add forward in SongUnetLtPosEmbd and update train.py Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * update test for lt model Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * update comments for embedding_selector test for lt model Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * update doctest Signed-off-by: jialusui1102 <jialusui1102@gmail.com> * Added tiny detail in corrdiff readme Signed-off-by: Charlelie Laurent <claurent@nvidia.com> * minor update to arguments and docstring Signed-off-by: jialusui1102 <jialusui1102@gmail.com> --------- Signed-off-by: Neal Pan <nuochengp@nvidia.com> Signed-off-by: jialusui1102 <jialusui1102@gmail.com> Signed-off-by: Charlelie Laurent <claurent@nvidia.com> Co-authored-by: Alicia Sui <asui@cw-pdx-cs-001-vscode-01.cm.cluster> Co-authored-by: Neal Pan <nuochengp@nvidia.com> Co-authored-by: Charlelie Laurent <84199758+CharlelieLrt@users.noreply.github.com> Co-authored-by: Charlelie Laurent <claurent@nvidia.com> * Update CHANGELOG.md Fix lint error --------- Signed-off-by: Neal Pan <nuochengp@nvidia.com> Signed-off-by: jialusui1102 <jialusui1102@gmail.com> Signed-off-by: Charlelie Laurent <claurent@nvidia.com> Co-authored-by: Corey adams <coreyjadams@gmail.com> Co-authored-by: Jialu (Alicia) Sui <125910753+jialusui1102@users.noreply.github.com> Co-authored-by: Alicia Sui <asui@cw-pdx-cs-001-vscode-01.cm.cluster> Co-authored-by: Neal Pan <nuochengp@nvidia.com> Co-authored-by: Charlelie Laurent <84199758+CharlelieLrt@users.noreply.github.com> Co-authored-by: Charlelie Laurent <claurent@nvidia.com>

Wrap DeviceMesh in quotes for typing hint, to protect older torch ver…

37b70ac

…sions from compatibility issues.

peterdsharpe approved these changes May 22, 2025

View reviewed changes

coreyjadams merged commit be4f507 into NVIDIA:main May 22, 2025
1 check passed

ktangsali pushed a commit that referenced this pull request May 29, 2025

Wrap DeviceMesh in quotes for typing hint, to protect older torch ver…

d45a078

…sions (#905) from compatibility issues.

coreyjadams deleted the manager-typing-hotfix branch June 9, 2025 13:24

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Fix manager import with older pytorch (< 2.4.0) #905

Fix manager import with older pytorch (< 2.4.0) #905

Uh oh!

coreyjadams commented May 22, 2025

Uh oh!

coreyjadams commented May 22, 2025

Uh oh!

peterdsharpe left a comment

Uh oh!

Uh oh!

Uh oh!

Fix manager import with older pytorch (< 2.4.0) #905

Fix manager import with older pytorch (< 2.4.0) #905

Uh oh!

Conversation

coreyjadams commented May 22, 2025

PhysicsNeMo Pull Request

Description

Checklist

Dependencies

Uh oh!

coreyjadams commented May 22, 2025

Uh oh!

peterdsharpe left a comment

Choose a reason for hiding this comment

Uh oh!

Uh oh!

Uh oh!