Skip to content

Latest commit

 

History

History
230 lines (138 loc) · 12.9 KB

README.md

File metadata and controls

230 lines (138 loc) · 12.9 KB

Build Status

Как делать задания?

Приведённые python-скрипты это пример, где вам нужно понять, что поменять так, что бы все работало для вашего варианта. По этой же причине код был написан и прокомментирован.

Как запустить?

$ git clone https://github.com/Sammers21/math_stat_python
$ cd math_stat_python
$ python problem<номер_задачи>.py

Заметка: для запуска всех задач необходимы python-библиотеки: scipy, numpy, matplotlib, pandas, statsmodels. Версия python 3.5.2 или выше

Пример пояснительной записки к:

Номеру 4: https://www.evernote.com/shard/s267/sh/20c765ce-65bd-4590-9455-72512dc2ad3a/1795f8e28d6b3966d58e94c024d9378b

Номеру 5: https://www.evernote.com/shard/s267/sh/49f91974-1090-4d64-9315-60c0a1b80fc2/9bfe1f4704883bf9a8e0ba073188827e

Номеру 6: http://telegra.ph/Zadacha-6-06-06

Номеру 7: http://telegra.ph/Zadanie-7-06-08

Вопросы к заданию номер 1

№1

Вопрос: Как можно сгенерировать ваше распределение с использованием лишь равномерного распределения R(0,1)?

Ответ: Находим обратную функцию и подставляем значения равномерного распределения.

№2

Вопрос (вытекающий из первого): А какая обратная функция к вашей?

Ответ: Взял мел и написал её на доске или бумаге.

№3

Вопрос: Что такое медиана и какова медиана вашего распределения?

Ответ: Медиана — квантиль уровня 0.5, т.е. такое значение распределения, получить значение меньше которого можно с вероятностью 1/2. Чтобы найти его, нужно решить уравнение вида F(x) = 1/2, где F - функция распределения.

№4

Вопрос: Дайте определение центральной предельной теоремы (ЦПТ)

Ответ:

2017-03-09_20-37-36

№5

Вопрос: Что такое дисперсия?

Ответ: Дисперсия: D(X) = E((X-E(X))^2)

Вопросы к заданию номер 2

№1

Вопрос: Что такое ошибка первого и второго рода?

Ответ:

screenshot from 2017-03-05 21-20-44

№2

Вопрос: Что такое уровень доверия?

Ответ: Уровень доверия — статистический термин, означающий вероятность того, что доверительный интервал содержит истинное значение параметра.

№3

Вопрос: А какую вы будете использовать статистику для оценки:

		a) мат ожидания с известной дисперсией
		б) мат ожидания с неизвестной дисперсией
		в) дисперсии с известным мат ожиданем
		г) дисперсии с неизвестным мат ожиданем

Ответы на a) и б)

image

Ответы на в) и г)

screenshot from 2017-03-05 20-03-24

Вопросы к заданию номер 3

№1

Вопрос: Приведите пример выборки, для которой коэффициент Пирсона будет близок к нулю, а Спирмена — к единице

Ответ: Выброс, см. пример на нижеприведенной иллюстрации

pidr

№2

Вопрос: При каких условиях коэффициент такой-то будет принимать крайнее значение такое-то

Ответ:

к-т \ значение -1 1
Пирсона y = ax + b, a < 0 (обратная линейная связь) y = ax + b, a > 0 (прямая линейная связь)
Спирмена x_i > x_j => y_i < y_j (строго обратная связь) x_i > x_j => y_i > y_j (строго прямая связь)

Вопросы к заданию номер 4

№1

Вопрос: Классическая линейная нормальная регресионная модель.
Ответ: Если регрессионная модель отвечает данным условиям:

  • regression

  • regressors — детерминированные (неслучайные) величины

  • error_resriction (дисперсия ошибки постоянна - гомоскедастичность)

  • noncorrelation — некоррелированность ошибок

  • norm_distribution

  • регрессоры линейно независимы

То она называется классической линейной нормальной регрессионной моделью (КЛНРМ)

№2

Вопрос: Метод наименьших квадратов и теорема Гаусса-Маркова.
Ответ: МНК заключается в нахождении таких коэффициентов регрессии, при которых суммма квадратов ошибок будет наименьшей:
ols
Берётся частная производная по каждому коэффиценту, приравнивается к нулю. Из таких уравнений составляется и решается система.

Теорема Гаусса Маркова: если выполнены все предпосылки КЛНРМ кроме нормальности (она может и выполняться, но это не обязательно), то оценки МНК будут эффективными в классе линейных несмещённых оценок. Т.е. они несмещённые и имеют наименьшие дисперсии среди всех линейных несмещённых.

№3

Вопрос: Оценка дисперсии случайной составляющей и ковариационной матрицы оценок коэффициентов регрессии.
Ответ:
error_varience
k — количество оцениваемых коэффициентов
coef_covarience

№4

Вопрос: Коэффициент детерминации.
Ответ: determination
Это доля дисперсии зависимой переменной, объяснённая моделью. Принимает значения от 0 до 1. Чем он выше, тем лучше подобрана модель и больше зависимость объясняемой переменной от объясняющих.

№5

Вопрос: Доверительный интервал для коэффициента регрессии.
Ответ: interval
t — квантиль распределения t(n-k)

№6

Вопрос: Проверка гипотезы о значении коэффициента и значимости регрессии в целом.
Ответ: Из методички от Zakhse:

№7

Вопрос: Проверка гипотезы о линейном ограничении.
Ответ: Из методички от Zakhse:

Вопросы к заданию номер 5

№1

Вопрос: Интерпретация коэффициентов линейной, полулогарифмической и логарифмической моделей регрессии.
Ответ: Из статьи Фурманова К.К.:

№2

Вопрос: Тесты на правильность спецификации: график «остатки-прогнозы», тест Рамсея.
Ответ: Читаем статью Фурманова К.К.!

Вопросы к заданию номер 6

№1

Вопрос: Линейная модель вероятности. Модели logit и probit, их оценивание методом максимального правдоподобия.

Ответ:

image image image

№2

Вопрос: Интерпретация коэффициентов линейной и логит моделей.

Ответ:

  • Для Logit:

image

  • Для линейной:

image

№3

Вопрос: Что такое Pseudo R^2?

Ответ:

image

Вклад

Каждый из вас, кто читает это README может помочь своим однокурсникам.
  • Если тут нет вопроса, который Фурманов задавал вам, то не стесняйтесь и добавьте его (посредством pull request).
  • Если у вас есть проблема, с которой вы столкнулись и не можете решить, то создайте issue в этом репозитории. Помощь обязательно будет. Быстрая и оперативная.
  • Если вы считаете, что в коде, который демонстрирует примерное решение задачи, есть ошибка, то непременно исправьте её или сообщите о ней.