Описание проекта:
Необходимо защитить данные клиентов страховой компании «Хоть потоп». Разработать метод преобразования данных, чтобы по ним было сложно восстановить персональную информацию. Обоснуйте корректность его работы.
Следует учитывать, что при преобразовании данных, качество моделей машинного обучения не ухудшилось. Подбирать наилучшую модель не требуется.
Задача преобразования: Признаки умножают на обратимую матрицу. Изменится ли качество линейной регрессии?
- a. Изменится. Приведите примеры матриц.
- b. Не изменится. Указать, как связаны параметры линейной регрессии в исходной задаче и в преобразованной.
На практике разница в качестве предсказаний "до" и "после" - не изменится. В процессе вычисления вектора предсказания
Исходная единичная матрица E (5, 5):
[[1. 0. 0. 0. 0.]
[0. 1. 0. 0. 0.]
[0. 0. 1. 0. 0.]
[0. 0. 0. 1. 0.]
[0. 0. 0. 0. 1.]]
Закодированная матрица:
[[3. 6. 2. 5. 6.]
[3. 2. 7. 2. 8.]
[7. 1. 3. 2. 3.]
[7. 8. 8. 8. 9.]
[8. 2. 8. 5. 1.]]
Метрика R2 до кодирования признаков: 0.425
Метрика R2 после кодирования признаков: 0.425
Алгоритм применим и для другого кол-ва признаков. Для матрицы