Как понять матрицу ошибок (Confusion Matrix)

Confusion matrix Матрица ошибок Теория

Перевод статьи – Understanding Confusion Matrix – Sarang Narkhede

https://cdn-images-1.medium.com/max/1600/1*va6qO1E_MK9Yg8PaCghy3A.jpeg

Когда мы получаем данные после очистки, предварительной обработки и обработки данных, первым шагом, который мы делаем, является создание модели  и, конечно, получение результатов в вероятностях. Но держись! Как, черт возьми, мы можем измерить эффективность нашей модели? Лучшая эффективность, лучшая производительность и это именно то, что мы хотим. В данном случае мы начинаем использовать матрицу ошибок. Матрица ошибок (Confusion Matrix) – это измерение производительности для классификации машинного обучения.

Этот пост призван ответить на следующие вопросы:

  • Что такое Матрица ошибок и зачем она нужна?
  • Как вычислить матрицу ошибок для задач бинарной классификации?

Сегодня давайте разберемся с матрицей путаницы раз и навсегда.

Что такое матрица ошибок, и зачем она нужна?

Ну, это измерение производительности для задачи классификации машинного обучения, где выходной может быть два или более классов. Это таблица с 4 различными комбинациями прогнозируемых и фактических значений.

https://cdn-images-1.medium.com/max/1600/1*Z54JgbS4DUwWSknhDCvNTQ.png

 

Это чрезвычайно полезно для вычисления Полноты, Точности, Специфичность, Точность и, что наиболее важно кривой ошибок AUC-ROC.

Давайте поймем термины TP, FP, FN, TN  на примере аналогии с  беременностью.

https://cdn-images-1.medium.com/max/1600/1*7EYylA6XlXSGBCF77j_rOA.png

TP — истино-положительное решение:

Интерпретация: Вы предсказали положительное, и это правда.

Вы предсказали, что женщина беременна, и она на самом деле беременна.

TN — истино-отрицательное решение:

Интерпретация: Вы прогнозировали отрицательное значения, и это правда.

Вы предсказали, что мужчина не беременен, а он на самом деле не беременен.

FP — ложно-положительное решение (Ошибка типа 1):

Интерпретация: Вы предсказали положительное значение, и это неверно.

Вы предсказали, что мужчина беременен, но на самом деле это не так.

FN— ложно-отрицательное решение (Ошибка Типа 2):

Интерпретация: Вы предсказали отрицательное значение, и это неверно.

Вы предсказали, что женщина не беременна, но она на самом деле беременная.

Только помните, мы описываем прогнозируемые значения как положительные и отрицательные, а фактические значения как истинные и ложные.

https://cdn-images-1.medium.com/max/1600/1*2lptVD05HarbzGKiZ44l5A.png

How to Calculate Confusion Matrix for a 2-class classification problem?

Как вычислить матрицу ошибок  для задачи классификации с бинарными классами?

https://cdn-images-1.medium.com/max/1200/1*kVeqcousZ3jTeEhWiT06Vw.png

https://cdn-images-1.medium.com/max/1200/1*uR09zTlPgIj5PvMYJZScVg.png

Давайте разберемся с матрицей ошибок посредством математик

 

Полнота Recall

https://cdn-images-1.medium.com/max/1600/1*BT3awaBdZHsit5s41LPb9A.png

Из всех положительных классов, сколько мы предсказали правильно. Это должно быть как можно выше.

Точность Precision

https://cdn-images-1.medium.com/max/1600/1*QRIZDkk_FffXKs_07ZlhZw.png

Из всех классов, сколько мы предсказали правильно. Это должно быть как можно выше.

F-мера

https://cdn-images-1.medium.com/max/1600/1*98FaAKfPWo-EBTbjsxm4GA.png

Трудно сравнить две модели с низкой точностью и высокой отзывчивостью или наоборот. Поэтому, чтобы сделать их сопоставимыми, мы используем F-меру. F-мера помогает измерять Полноту и Точность одновременно. Она использует гармоническое среднее вместо среднего арифметического, наказывая экстремальные значения больше.

https://towardsdatascience.com/understanding-confusion-matrix-a9ad42dcfd62

Рейтинг статьи
Добавить комментарий