diff --git a/beginner_source/nlp/deep_learning_tutorial.py b/beginner_source/nlp/deep_learning_tutorial.py
index b993d307b..bed2b97f5 100644
--- a/beginner_source/nlp/deep_learning_tutorial.py
+++ b/beginner_source/nlp/deep_learning_tutorial.py
@@ -26,7 +26,7 @@
 종종 :math:`b` 는 *편향(Bias)* 이라 불립니다.
 
 
-PyTorch 와 대부분의 다른 딥러닝 프레임워크들은 고전적인 선형 대수학와
+PyTorch 와 대부분의 다른 딥러닝 프레임워크들은 고전적인 선형 대수학과
 조금 다르게 동작합니다. 입력의 열 대신에 행으로 매핑합니다.
 즉 주어진 :math:`A` 에서 출력의 :math:`i` 번째 행은
 입력의 :math:`i` 번째 행에 매핑되고 편향(Bias)을 더합니다.
@@ -57,7 +57,7 @@
 # ~~~~~~~~~
 #
 # 먼저 왜 비선형성이 필요한지 설명하는 다음 사실을 주목하십시오.
-# :math:`f(x) = Ax + b` 와 :math:`g(x) = Cx + d` 두개의 아핀맵이 있다고 가정합니다.
+# :math:`f(x) = Ax + b` 와 :math:`g(x) = Cx + d` 두 개의 아핀맵이 있다고 가정합니다.
 # :math:`f(g(x))` 는 무엇일까요?
 #
 # .. math::  f(g(x)) = A(Cx + d) + b = ACx + (Ad + b)
@@ -70,7 +70,7 @@
 # 없다는 것을 알 수 있습니다.
 #
 # 아핀 계층 사이에 만약 비선형성을 적용한다면
-# 이것은 위 경우와 달리 더욱 더 강력한 모델을 구축할 수 있습니다.
+# 이것은 위 경우와 달리 더욱더 강력한 모델을 구축할 수 있습니다.
 #
 # 핵심적인 비선형성 :math:`\tanh(x), \sigma(x), \text{ReLU}(x)` 들이 가장
 # 일반적입니다. 아마 의문이 생길겁니다 : "왜 이런 함수들이지? 나는 다른 많은
@@ -82,7 +82,7 @@
 #
 # 빠른 참고: AI 클래스에 대한 소개에서 일부 신경망을 배웠지만 :math:`\sigma(x)` 가 기본이었을 것입니다.
 # 일반적으로 사람들은 실제로 그것을 사용하지 않고 피합니다.
-# 이것은 변화도가 인수의 절대 값이 커짐에 따라 매우 빨리 *사라지기* 때문입니다.
+# 이것은 변화도가 인수의 절댓값이 커짐에 따라 매우 빨리 *사라지기* 때문입니다.
 # 작은 변화도는 학습하기 어렵다는 것을 의미합니다.
 # 대부분의 사람들은 tanh 또는 ReLU를 기본값으로 사용합니다.
 #
diff --git a/beginner_source/nlp/word_embeddings_tutorial.py b/beginner_source/nlp/word_embeddings_tutorial.py
index e688199cb..ff92062fe 100644
--- a/beginner_source/nlp/word_embeddings_tutorial.py
+++ b/beginner_source/nlp/word_embeddings_tutorial.py
@@ -10,7 +10,7 @@
 그렇다면, 단어를 어떻게 표현하는 것이 좋을까요? 물론 각 문자에 해당하는 ASCII코드를 사용할 수 있겠지만,
 ASCII코드는 이 단어가 *무엇* 인지를 알려줄 뿐, 단어가 어떤 *의미* 를 가지는지는 알려주지 않습니다.
 (룰베이스로 어미 등 문법적 특징을 활용하거나 영어의 경우 대문자를 사용할 수 있겠지만 충분하지 않습니다.)
-단어를 어떻게 표현할지 뿐 아니라, 이 표현법을 어떠한 방식으로 연산해야 할 지 또한 큰 문제입니다.
+단어를 어떻게 표현할지 뿐 아니라, 이 표현법을 어떠한 방식으로 연산해야 할지 또한 큰 문제입니다.
 보통 이러한 밀도 높은 벡터를 얻기 위해 사용하는 뉴럴넷 모델은 :math:`|V|` (말뭉치의 단어 개수)의
 큰 입력 차원과 몇 안되는 (텍스를 분류하는 문제라고 할 경우) 작은 출력 차원을 가집니다.
 즉, 단어들 간의 연산이 필수입니다. 어떻게 이 큰 차원의 공간을 작은 공간으로 변형시킬 수 있을까요?