Перевод статьи – Understanding Confusion Matrix – Sarang Narkhede
Когда мы получаем данные после очистки, предварительной обработки и обработки данных, первым шагом, который мы делаем, является создание модели и, конечно, получение результатов в вероятностях. Но держись! Как, черт возьми, мы можем измерить эффективность нашей модели? Лучшая эффективность, лучшая производительность и это именно то, что мы хотим. В данном случае мы начинаем использовать матрицу ошибок. Матрица ошибок (Confusion Matrix) – это измерение производительности для классификации машинного обучения.
Этот пост призван ответить на следующие вопросы:
- Что такое Матрица ошибок и зачем она нужна?
- Как вычислить матрицу ошибок для задач бинарной классификации?
Сегодня давайте разберемся с матрицей путаницы раз и навсегда.
Что такое матрица ошибок, и зачем она нужна?
Ну, это измерение производительности для задачи классификации машинного обучения, где выходной может быть два или более классов. Это таблица с 4 различными комбинациями прогнозируемых и фактических значений.
Это чрезвычайно полезно для вычисления Полноты, Точности, Специфичность, Точность и, что наиболее важно кривой ошибок AUC-ROC.
Давайте поймем термины TP, FP, FN, TN на примере аналогии с беременностью.
TP — истино-положительное решение:
Интерпретация: Вы предсказали положительное, и это правда.
Вы предсказали, что женщина беременна, и она на самом деле беременна.
TN — истино-отрицательное решение:
Интерпретация: Вы прогнозировали отрицательное значения, и это правда.
Вы предсказали, что мужчина не беременен, а он на самом деле не беременен.
FP — ложно-положительное решение (Ошибка типа 1):
Интерпретация: Вы предсказали положительное значение, и это неверно.
Вы предсказали, что мужчина беременен, но на самом деле это не так.
FN— ложно-отрицательное решение (Ошибка Типа 2):
Интерпретация: Вы предсказали отрицательное значение, и это неверно.
Вы предсказали, что женщина не беременна, но она на самом деле беременная.
Только помните, мы описываем прогнозируемые значения как положительные и отрицательные, а фактические значения как истинные и ложные.
How to Calculate Confusion Matrix for a 2-class classification problem?
Как вычислить матрицу ошибок для задачи классификации с бинарными классами?
Давайте разберемся с матрицей ошибок посредством математик
Полнота Recall
Из всех положительных классов, сколько мы предсказали правильно. Это должно быть как можно выше.
Точность Precision
Из всех классов, сколько мы предсказали правильно. Это должно быть как можно выше.
F-мера
Трудно сравнить две модели с низкой точностью и высокой отзывчивостью или наоборот. Поэтому, чтобы сделать их сопоставимыми, мы используем F-меру. F-мера помогает измерять Полноту и Точность одновременно. Она использует гармоническое среднее вместо среднего арифметического, наказывая экстремальные значения больше.
https://towardsdatascience.com/understanding-confusion-matrix-a9ad42dcfd62