diff --git a/ru/cs-221-reflex-models.md b/ru/cs-221-reflex-models.md
new file mode 100644
index 000000000..808f8294e
--- /dev/null
+++ b/ru/cs-221-reflex-models.md
@@ -0,0 +1,539 @@
+**Reflex-based models translation** [[webpage]](https://stanford.edu/~shervine/teaching/cs-221/cheatsheet-reflex-models)
+
+
+
+**1. Reflex-based models with Machine Learning**
+
+⟶ Модели машинного обучения на основе рефлексов
+
+
+
+
+**2. Linear predictors**
+
+⟶ Линейные предсказатели
+
+
+
+
+**3. In this section, we will go through reflex-based models that can improve with experience, by going through samples that have input-output pairs.**
+
+⟶ В этом разделе мы рассмотрим модели, основанные на рефлексах, которые улучшаются по мере накопления опыта, обучаясь на парах наблюдений вход-выход.
+
+
+
+
+**4. Feature vector ― The feature vector of an input x is noted ϕ(x) and is such that:**
+
+⟶ Вектор признаков ― Вектор признаков входного сигнала x обозначается как ϕ(x) и таков, что:
+
+
+
+
+**5. Score ― The score s(x,w) of an example (ϕ(x),y)∈Rd×R associated to a linear model of weights w∈Rd is given by the inner product:**
+
+⟶ Оценка ― Оценка s(x,w) примера (ϕ(x),y) ∈Rd×R, связанного с линейной моделью весов w∈Rd, задается скалярным произведением:
+
+
+
+
+**6. Classification**
+
+⟶ Классификация
+
+
+
+
+**7. Linear classifier ― Given a weight vector w∈Rd and a feature vector ϕ(x)∈Rd, the binary linear classifier fw is given by:**
+
+⟶ Линейный классификатор ― Для вектора весов w∈Rd и вектора признаков ϕ(x)∈Rd бинарный линейный классификатор fw имеет вид:
+
+
+
+
+**8. if**
+
+⟶ если
+
+
+
+
+**9. Margin ― The margin m(x,y,w)∈R of an example (ϕ(x),y)∈Rd×{−1,+1} associated to a linear model of weights w∈Rd quantifies the confidence of the prediction: larger values are better. It is given by:**
+
+⟶ Отступ ― Отступ m(x,y,w)∈R примера (ϕ(x),y)∈Rd×{−1,+1}, связанная с линейной моделью весов w∈Rd, количественно оценивает уверенность прогноз: большие значения лучше. Задается:
+
+
+
+
+**10. Regression**
+
+⟶ Регрессия
+
+
+
+
+**11. Linear regression ― Given a weight vector w∈Rd and a feature vector ϕ(x)∈Rd, the output of a linear regression of weights w denoted as fw is given by:**
+
+⟶ Линейная регрессия ― Для данного вектора весов w∈Rd и вектора признаков ϕ(x)∈Rd результат линейной регрессии весов w, обозначенный как fw, определяется выражением:
+
+
+
+
+**12. Residual ― The residual res(x,y,w)∈R is defined as being the amount by which the prediction fw(x) overshoots the target y:**
+
+⟶ Разность ― Разность res(x,y,w)∈R определяется как величина, на которую прогноз fw(x) превышает целевой y:
+
+
+
+
+**13. Loss minimization**
+
+⟶ Минимизация потерь
+
+
+
+
+**14. Loss function ― A loss function Loss(x,y,w) quantifies how unhappy we are with the weights w of the model in the prediction task of output y from input x. It is a quantity we want to minimize during the training process.**
+
+⟶ Функция потерь ― Функция потерь Loss(x,y,w) количественно определяет, насколько мы недовольны весами w модели в задаче прогнозирования выхода y на основе входа x. Это количество, которое мы хотим минимизировать во время процесса обучения.
+
+
+
+
+**15. Classification case - The classification of a sample x of true label y∈{−1,+1} with a linear model of weights w can be done with the predictor fw(x)≜sign(s(x,w)). In this situation, a metric of interest quantifying the quality of the classification is given by the margin m(x,y,w), and can be used with the following loss functions:**
+
+⟶ Случай классификации ― Классификация выборки x истинной метки y∈{−1,+1} с линейной моделью весов w может быть выполнена с помощью предиктора fw(x)≜sign(s(x,w)). В этой ситуации интересующий показатель, определяющий качество классификации, задается зазором m(x,y,w) и может использоваться со следующими функциями потерь:
+
+
+
+
+**16. [Name, Illustration, Zero-one loss, Hinge loss, Logistic loss]**
+
+⟶ [Название, Иллюстрация, Zero-one loss, Hinge loss, Logistic loss]
+
+
+
+
+**17. Regression case - The prediction of a sample x of true label y∈R with a linear model of weights w can be done with the predictor fw(x)≜s(x,w). In this situation, a metric of interest quantifying the quality of the regression is given by the margin res(x,y,w) and can be used with the following loss functions:**
+
+⟶ Случай регрессии ― Предсказание выборки x истинной метки y∈R с помощью линейной модели весов w может быть выполнено с помощью предиктора fw(x)≜s(x,w). В этой ситуации интересующий показатель, количественно оценивающий качество регрессии, задается зазором res(x,y,w) и может использоваться со следующими функциями потерь:
+
+
+
+
+**18. [Name, Squared loss, Absolute deviation loss, Illustration]**
+
+⟶ [Название, Квадратичная потеря, Абсолютное отклонение, Иллюстрация]
+
+
+
+
+**19. Loss minimization framework ― In order to train a model, we want to minimize the training loss is defined as follows:**
+
+⟶ Фреймворк минимизации потерь ― чтобы обучить модель, мы хотим минимизировать потери при обучении, которые определяются следующим образом:
+
+
+
+
+**20. Non-linear predictors**
+
+⟶ Нелинейные предсказатели
+
+
+
+
+**21. k-nearest neighbors ― The k-nearest neighbors algorithm, commonly known as k-NN, is a non-parametric approach where the response of a data point is determined by the nature of its k neighbors from the training set. It can be used in both classification and regression settings.**
+
+⟶ k-ближайших соседей ― Алгоритм k-ближайших соседей, широко известный как k-NN, представляет собой непараметрический подход, в котором метка новой точки данных определяется признаками её k соседей из обучающего набора. Его можно использовать в случаях как классификации, так и регрессии.
+
+
+
+
+**22. Remark: the higher the parameter k, the higher the bias, and the lower the parameter k, the higher the variance.**
+
+⟶ Примечание: чем выше параметр k, тем выше смещение, а чем ниже параметр k, тем выше дисперсия.
+
+
+
+
+**23. Neural networks ― Neural networks are a class of models that are built with layers. Commonly used types of neural networks include convolutional and recurrent neural networks. The vocabulary around neural networks architectures is described in the figure below:**
+
+⟶ Нейронные сети ― Нейронные сети - это класс моделей, построенных с использованием слоёв. Обычно используемые типы нейронных сетей включают сверточные и рекуррентные нейронные сети. Словарь архитектур нейронных сетей представлен на рисунке ниже:
+
+
+
+
+**24. [Input layer, Hidden layer, Output layer]**
+
+⟶ [Входной слой, Скрытый слой, Выходной слой]
+
+
+
+
+**25. By noting i the ith layer of the network and j the jth hidden unit of the layer, we have:**
+
+⟶ Обозначим i - это i-й уровень сети, а j - j-й скрытый блок слоя, у нас есть:
+
+
+
+
+**26. where we note w, b, x, z the weight, bias, input and non-activated output of the neuron respectively.**
+
+⟶ где мы обозначаем w, b, x, z вес, смещение, вход и неактивированный выход нейрона соответственно.
+
+
+
+
+**27. For a more detailed overview of the concepts above, check out the Supervised Learning cheatsheets!**
+
+⟶ Для более подробного обзора приведенных выше концепций ознакомьтесь со шпаргалками по контролируемому обучению!
+
+
+
+
+**28. Stochastic gradient descent**
+
+⟶ Стохастический градиентный спуск
+
+
+
+
+**29. Gradient descent ― By noting η∈R the learning rate (also called step size), the update rule for gradient descent is expressed with the learning rate and the loss function Loss(x,y,w) as follows:**
+
+⟶ Градиентный спуск ― Gradient descent - Обозначим η∈R скорость обучения (также называемую размером шага), правило обновления для градиентного спуска выражается с помощью скорости обучения и функции потерь Loss(x,y,w) следующим образом:
+
+
+
+
+**30. Stochastic updates ― Stochastic gradient descent (SGD) updates the parameters of the model one training example (ϕ(x),y)∈Dtrain at a time. This method leads to sometimes noisy, but fast updates.**
+
+⟶ Стохастические обновления ― Stochastic gradient descent (SGD) обновляет параметры модели по одному обучающему примеру (ϕ(x),y)∈Dtrain за раз. Этот метод зачастую приводит к шумным, но быстрым обновлениям.
+
+
+
+
+**31. Batch updates ― Batch gradient descent (BGD) updates the parameters of the model one batch of examples (e.g. the entire training set) at a time. This method computes stable update directions, at a greater computational cost.**
+
+⟶ Пакетные обновления ― Batch gradient descent (BGD) обновляет параметры модели по одной партии примеров (например, половина обучающего набора) за раз. Этот метод вычисляет стабильные направления обновления с большими вычислительными затратами.
+
+
+
+
+**32. Fine-tuning models**
+
+⟶ Дообучение моделей
+
+
+
+
+**33. Hypothesis class ― A hypothesis class F is the set of possible predictors with a fixed ϕ(x) and varying w:**
+
+⟶ Класс гипотез ― Класс гипотез F - это набор возможных предикторов с фиксированным ϕ(x) и изменяющимся w:
+
+
+
+
+**34. Logistic function ― The logistic function σ, also called the sigmoid function, is defined as:**
+
+⟶ Логистическая функция ― Логистическая функция σ, также называемая сигмовидной функцией, определяется как:
+
+
+
+
+**35. Remark: we have σ′(z)=σ(z)(1−σ(z)).**
+
+⟶ Примечание: у нас есть σ′(z)=σ(z)(1−σ(z)).
+
+
+
+
+**36. Backpropagation ― The forward pass is done through fi, which is the value for the subexpression rooted at i, while the backward pass is done through gi=∂out∂fi and represents how fi influences the output.**
+
+⟶ Обратное распространение ошибки ― Backpropagation - Прямой проход сети выполняется через fi, которое является значением подвыражения с индексом i, а обратный проход выполняется через gi=∂out∂fi и отражает то, как сильно fi влияет на выход.
+
+
+
+
+**37. Approximation and estimation error ― The approximation error ϵapprox represents how far the entire hypothesis class F is from the target predictor g∗, while the estimation error ϵest quantifies how good the predictor ^f is with respect to the best predictor f∗ of the hypothesis class F.**
+
+⟶ Ошибки приближения и оценки ― Ошибка приближения ϵapprox отражает то, насколько далеко весь класс гипотез F от целевого предиктора g∗, в то время как ошибка оценки ϵest количественно определяет, насколько хорош предиктор ^f по отношению к лучшему предиктору f∗ из класса гипотез F.
+
+
+
+
+**38. Regularization ― The regularization procedure aims at avoiding the model to overfit the data and thus deals with high variance issues. The following table sums up the different types of commonly used regularization techniques:**
+
+⟶ Регуляризация ― Процедура регуляризации направлена на то, чтобы модель не переобучалась на данных (запоминала их полностью), и, таким образом, решает проблемы с высокой дисперсией. В следующей таблице суммированы различные типы широко используемых методов регуляризации:
+
+
+
+
+**39. [Shrinks coefficients to 0, Good for variable selection, Makes coefficients smaller, Tradeoff between variable selection and small coefficients]**
+
+⟶ [Уменьшает коэффициенты до 0, Подходит для выбора переменных, Делает коэффициенты меньше, Компромисс между выбором переменных и небольшими коэффициентами]
+
+
+
+
+**40. Hyperparameters ― Hyperparameters are the properties of the learning algorithm, and include features, regularization parameter λ, number of iterations T, step size η, etc.**
+
+⟶ Гиперпараметры ― это свойства алгоритма обучения, включающие параметр регуляризации λ, количество итераций T, размер шага η и так далее.
+
+
+
+
+**41. Sets vocabulary ― When selecting a model, we distinguish 3 different parts of the data that we have as follows:**
+
+⟶ Наборы словарей ― при выборе модели мы выделяем 3 разные части данных, которые у нас есть, а именно:
+
+
+
+
+**42. [Training set, Validation set, Testing set]**
+
+⟶ [Обучающий набор, Контрольный набор, Тестовый набор]
+
+
+
+
+**43. [Model is trained, Usually 80% of the dataset, Model is assessed, Usually 20% of the dataset, Also called hold-out or development set, Model gives predictions, Unseen data]**
+
+⟶ [Модель обучена, Обычно 80% набора данных, Модель оценена, Обычно 20% набора данных, Также называется отложенным или набором для разработки, Модель дает прогнозы, Ранее невиданные данные]
+
+
+
+
+**44. Once the model has been chosen, it is trained on the entire dataset and tested on the unseen test set. These are represented in the figure below:**
+
+⟶ Как только модель выбрана, она обучается на всем наборе данных и тестируется на невиданном тестовом наборе. Они представлены на рисунке ниже:
+
+
+
+
+**45. [Dataset, Unseen data, train, validation, test]**
+
+⟶ [Набор данных, Ранее невиданные данные, обучение, контроль, тест]
+
+
+
+
+**46. For a more detailed overview of the concepts above, check out the Machine Learning tips and tricks cheatsheets!**
+
+⟶ Для более подробного обзора приведенных выше концепций ознакомьтесь со шпаргалками с советами и приемами машинного обучения!
+
+
+
+
+**47. Unsupervised Learning**
+
+⟶ Обучение без учителя
+
+
+
+
+**48. The class of unsupervised learning methods aims at discovering the structure of the data, which may have of rich latent structures.**
+
+⟶ Класс методов обучения без учителя направлен на обнаружение структуры данных, которые могут иметь богатые скрытые структуры.
+
+
+
+
+**49. k-means**
+
+⟶ k-средние
+
+
+
+
+**50. Clustering ― Given a training set of input points Dtrain, the goal of a clustering algorithm is to assign each point ϕ(xi) to a cluster zi∈{1,...,k}**
+
+⟶ Кластеризация ― Дан обучающий набор входных точек Dtrain, цель алгоритма кластеризации состоит в том, чтобы определить каждую точку ϕ(xi) к одному из кластеров zi∈{1,...,k}
+
+
+
+
+**51. Objective function ― The loss function for one of the main clustering algorithms, k-means, is given by:**
+
+⟶ Целевая функция ― функция потерь для одного из основных алгоритмов кластеризации, k-средних, определяется выражением:
+
+
+
+
+**52. Algorithm ― After randomly initializing the cluster centroids μ1,μ2,...,μk∈Rn, the k-means algorithm repeats the following step until convergence:**
+
+⟶ Алгоритм ― после случайной инициализации центроидов кластера μ1,μ2,...,μk∈Rn алгоритм k-средних повторяет следующий шаг до сходимости:
+
+
+
+
+**53. and**
+
+⟶ и
+
+
+
+
+**54. [Means initialization, Cluster assignment, Means update, Convergence]**
+
+⟶ [Инициализация средних, Назначение кластера, Обновление средних, Сходимость]
+
+
+
+
+**55. Principal Component Analysis**
+
+⟶ Метод главных компонент - Principal Component Analysis (PCA)
+
+
+
+
+**56. Eigenvalue, eigenvector ― Given a matrix A∈Rn×n, λ is said to be an eigenvalue of A if there exists a vector z∈Rn∖{0}, called eigenvector, such that we have:**
+
+⟶ Собственное значение, собственный вектор ― Для данной матрицы A∈Rn×n, λ называется собственным значением A, если существует вектор z∈Rn∖{0}, называемый собственным вектором, такой, что у нас есть:
+
+
+
+
+**57. Spectral theorem ― Let A∈Rn×n. If A is symmetric, then A is diagonalizable by a real orthogonal matrix U∈Rn×n. By noting Λ=diag(λ1,...,λn), we have:**
+
+⟶ Спектральная теорема ― Пусть A∈Rn×n. Если A симметрична, то A диагонализуема действительной ортогональной матрицей U∈Rn×n. Обозначим Λ=diag(λ1,...,λn), у нас есть:
+
+
+
+
+**58. Remark: the eigenvector associated with the largest eigenvalue is called principal eigenvector of matrix A.**
+
+⟶ Примечание: собственный вектор, связанный с наибольшим собственным значением, называется главным собственным вектором матрицы A. (примечание переводчика: Смотри минимизацию нормы Фробениуса матрицы ошибок)
+
+
+
+
+**59. Algorithm ― The Principal Component Analysis (PCA) procedure is a dimension reduction technique that projects the data on k dimensions by maximizing the variance of the data as follows:**
+
+⟶ Алгоритм ― процедура метода главных компонент - это метод уменьшения размерности, который проецирует данные по k измерениям, максимизируя дисперсию данных следующим образом:
+
+
+
+
+**60. Step 1: Normalize the data to have a mean of 0 and standard deviation of 1.**
+
+⟶ Шаг 1. Нормализовать данные, чтобы получить среднее значение 0 и стандартное отклонение 1.
+
+
+
+
+**61. [where, and]**
+
+⟶ [где, и]
+
+
+
+
+**62. [Step 2: Compute Σ=1mm∑i=1ϕ(xi)ϕ(xi)T∈Rn×n, which is symmetric with real eigenvalues., Step 3: Compute u1,...,uk∈Rn the k orthogonal principal eigenvectors of Σ, i.e. the orthogonal eigenvectors of the k largest eigenvalues., Step 4: Project the data on spanR(u1,...,uk).]**
+
+⟶ [Шаг 2: Вычислить Σ=1mm∑i=1ϕ(xi)ϕ(xi)T∈Rn×n, которая симметрична действительным собственным значениям., Шаг 3: Вычислить u1,...,uk∈Rn k ортогональных главных собственных векторов Σ, т.е. ортогональные собственные векторы k наибольших собственных значений., Шаг 4: Спроецировать данные на spanR(u1,...,uk).]
+
+
+
+
+**63. This procedure maximizes the variance among all k-dimensional spaces.**
+
+⟶ Эта процедура максимизирует дисперсию всех k-мерных пространств.
+
+
+
+
+**64. [Data in feature space, Find principal components, Data in principal components space]**
+
+⟶ [Данные в пространстве функций, Поиск главных компонент, Данные в пространстве главных компонент]
+
+
+
+
+**65. For a more detailed overview of the concepts above, check out the Unsupervised Learning cheatsheets!**
+
+⟶ Более подробный обзор приведенных выше концепций можно найти в шпаргалках по Обучению без учителя!
+
+
+
+
+**66. [Linear predictors, Feature vector, Linear classifier/regression, Margin]**
+
+⟶ [Линейные предикторы, Вектор признаков, Линейный классификатор/регрессия, Зазор]
+
+
+
+
+**67. [Loss minimization, Loss function, Framework]**
+
+⟶ [Минимизация потерь, Функция потерь, Фреймворк]
+
+
+
+
+**68. [Non-linear predictors, k-nearest neighbors, Neural networks]**
+
+⟶ [Нелинейные предикторы, k-ближайших соседей, Нейронные сети]
+
+
+
+
+**69. [Stochastic gradient descent, Gradient, Stochastic updates, Batch updates]**
+
+⟶ [Стохастический градиентный спуск, Градиент, Стохастические обновления, Пакетные обновления]
+
+
+
+
+**70. [Fine-tuning models, Hypothesis class, Backpropagation, Regularization, Sets vocabulary]**
+
+⟶ [Модели дообучения, Класс гипотез, Обратное распространение ошибки, Регуляризация, Наборы словарей]
+
+
+
+
+**71. [Unsupervised Learning, k-means, Principal components analysis]**
+
+⟶ [Обучение без учителя, k-средние, Метод главных компонент]
+
+
+
+
+**72. View PDF version on GitHub**
+
+⟶ Посмотреть PDF-версию на GitHub
+
+
+
+
+**73. Original authors**
+
+⟶ Авторы оригинала: Afshine Amidi и Shervine Amidi ― https://github.com/afshinea и https://github.com/shervinea
+
+
+
+
+**74. Translated by X, Y and Z**
+
+⟶ Переведено на русский язык: Пархоменко Александр ― https://github.com/AlexandrParkhomenko
+
+
+
+
+**75. Reviewed by X, Y and Z**
+
+⟶ Проверено на русском языке: Труш Георгий (Georgy Trush) ― https://github.com/geotrush
+
+
+
+
+**76. By X and Y**
+
+⟶ По X и Y
+
+
+
+
+**77. The Artificial Intelligence cheatsheets are now available in [target language].**
+
+⟶ Шпаргалки по искусственному интеллекту теперь доступны в формате [target language].