Skip to content
8 changes: 4 additions & 4 deletions beginner_source/nlp/deep_learning_tutorial.py
Original file line number Diff line number Diff line change
Expand Up @@ -26,7 +26,7 @@
종종 :math:`b` 는 *편향(Bias)* 이라 불립니다.


PyTorch 와 대부분의 다른 딥러닝 프레임워크들은 고전적인 선형 대수학와
PyTorch 와 대부분의 다른 딥러닝 프레임워크들은 고전적인 선형 대수학과
조금 다르게 동작합니다. 입력의 열 대신에 행으로 매핑합니다.
즉 주어진 :math:`A` 에서 출력의 :math:`i` 번째 행은
입력의 :math:`i` 번째 행에 매핑되고 편향(Bias)을 더합니다.
Expand Down Expand Up @@ -57,7 +57,7 @@
# ~~~~~~~~~
#
# 먼저 왜 비선형성이 필요한지 설명하는 다음 사실을 주목하십시오.
# :math:`f(x) = Ax + b` 와 :math:`g(x) = Cx + d` 두개의 아핀맵이 있다고 가정합니다.
# :math:`f(x) = Ax + b` 와 :math:`g(x) = Cx + d` 두 개의 아핀맵이 있다고 가정합니다.
# :math:`f(g(x))` 는 무엇일까요?
#
# .. math:: f(g(x)) = A(Cx + d) + b = ACx + (Ad + b)
Expand All @@ -70,7 +70,7 @@
# 없다는 것을 알 수 있습니다.
#
# 아핀 계층 사이에 만약 비선형성을 적용한다면
# 이것은 위 경우와 달리 더욱 더 강력한 모델을 구축할 수 있습니다.
# 이것은 위 경우와 달리 더욱더 강력한 모델을 구축할 수 있습니다.
#
# 핵심적인 비선형성 :math:`\tanh(x), \sigma(x), \text{ReLU}(x)` 들이 가장
# 일반적입니다. 아마 의문이 생길겁니다 : "왜 이런 함수들이지? 나는 다른 많은
Expand All @@ -82,7 +82,7 @@
#
# 빠른 참고: AI 클래스에 대한 소개에서 일부 신경망을 배웠지만 :math:`\sigma(x)` 가 기본이었을 것입니다.
# 일반적으로 사람들은 실제로 그것을 사용하지 않고 피합니다.
# 이것은 변화도가 인수의 절대 값이 커짐에 따라 매우 빨리 *사라지기* 때문입니다.
# 이것은 변화도가 인수의 절댓값이 커짐에 따라 매우 빨리 *사라지기* 때문입니다.
# 작은 변화도는 학습하기 어렵다는 것을 의미합니다.
# 대부분의 사람들은 tanh 또는 ReLU를 기본값으로 사용합니다.
#
Expand Down
2 changes: 1 addition & 1 deletion beginner_source/nlp/word_embeddings_tutorial.py
Original file line number Diff line number Diff line change
Expand Up @@ -10,7 +10,7 @@
그렇다면, 단어를 어떻게 표현하는 것이 좋을까요? 물론 각 문자에 해당하는 ASCII코드를 사용할 수 있겠지만,
ASCII코드는 이 단어가 *무엇* 인지를 알려줄 뿐, 단어가 어떤 *의미* 를 가지는지는 알려주지 않습니다.
(룰베이스로 어미 등 문법적 특징을 활용하거나 영어의 경우 대문자를 사용할 수 있겠지만 충분하지 않습니다.)
단어를 어떻게 표현할지 뿐 아니라, 이 표현법을 어떠한 방식으로 연산해야 할 지 또한 큰 문제입니다.
단어를 어떻게 표현할지 뿐 아니라, 이 표현법을 어떠한 방식으로 연산해야 할지 또한 큰 문제입니다.
보통 이러한 밀도 높은 벡터를 얻기 위해 사용하는 뉴럴넷 모델은 :math:`|V|` (말뭉치의 단어 개수)의
큰 입력 차원과 몇 안되는 (텍스를 분류하는 문제라고 할 경우) 작은 출력 차원을 가집니다.
즉, 단어들 간의 연산이 필수입니다. 어떻게 이 큰 차원의 공간을 작은 공간으로 변형시킬 수 있을까요?
Expand Down