diff --git a/beginner_source/former_torchies/parallelism_tutorial.py b/beginner_source/former_torchies/parallelism_tutorial.py index 24c1d0f6e..9e1c5f29b 100644 --- a/beginner_source/former_torchies/parallelism_tutorial.py +++ b/beginner_source/former_torchies/parallelism_tutorial.py @@ -45,7 +45,7 @@ def forward(self, x): # **래핑된 모듈의 속성** # # 모듈을 ``DataParallel`` 로 감싼 후에는 모듈의 속성(예. 사용자 정의 메소드)에 -# 접근할 수 없게 됩니다. 이는 ``DataParallel`` 이 몇몇 새로운 멤버를 정의하기 떄문에 +# 접근할 수 없게 됩니다. 이는 ``DataParallel`` 이 몇몇 새로운 멤버를 정의하기 때문에 # 다른 속성에 접근을 허용하는 것이 충돌을 일으킬 수도 있기 때문입니다. # 그래도 속성에 접근하고자 한다면 아래와 같이 ``DataParallel`` 의 서브클래스를 # 사용하는 것이 좋습니다. diff --git a/beginner_source/nlp/word_embeddings_tutorial.py b/beginner_source/nlp/word_embeddings_tutorial.py index ff92062fe..2488ee2c5 100644 --- a/beginner_source/nlp/word_embeddings_tutorial.py +++ b/beginner_source/nlp/word_embeddings_tutorial.py @@ -245,7 +245,7 @@ def forward(self, inputs): # tensor.item()을 호출하여 단일원소 텐서에서 숫자를 반환받습니다. total_loss += loss.item() losses.append(total_loss) -print(losses) # 반복할 떄마다 손실이 줄어드는 것을 봅시다! +print(losses) # 반복할 때마다 손실이 줄어드는 것을 봅시다! # "beauty"와 같이 특정 단어에 대한 임베딩을 확인하려면, print(model.embeddings.weight[word_to_ix["beauty"]]) diff --git a/intermediate_source/model_parallel_tutorial.py b/intermediate_source/model_parallel_tutorial.py index 46ce17204..48be19960 100644 --- a/intermediate_source/model_parallel_tutorial.py +++ b/intermediate_source/model_parallel_tutorial.py @@ -209,7 +209,7 @@ def plot(means, stds, labels, fig_name): # :alt: # -# 실험 결과, 모델 병렬 철리하여 학습하는 시간이 단일 GPU로 학습하는 시간보다 약 7% ``4.02/3.75-1=7%``정도 +# 실험 결과, 모델 병렬 처리하여 학습하는 시간이 단일 GPU로 학습하는 시간보다 약 7% ``4.02/3.75-1=7%``정도 # 오래 걸리는 것을 확인할 수 있습니다. 그러므로, 순전파와 역전파를 진행하면서 GPU 간 텐서값들이 # 복제되어 이용하는 시간이 약 7%정도 소요되는 것으로 결론지을 수 있습니다. 학습하는 과정 속에서 # 2개의 GPU 중 1개의 GPU가 계산하지 않고 대기하고 있기 때문에, 이를 해결하여