Nội dung text 3.1.4. Medidas de rendimiento.pdf
Medidas de rendimiento_ valuar tu algoritmo de aprendizaje automático es una parte esencial de cualquier proyecto. Tu modelo puede brindarte resultados satisfactorios cuando se evalúa con una métrica , por ejemplo, precision_score , pero puede arrojar resultados deficientes cuando se evalúa con otras métricas, como logarithmic_loss o cualquier otra métrica similar. La mayoría de las veces usamos la precisión de la clasificación para medir el rendimiento de nuestro modelo, sin embargo, no es suficiente para juzgarlo verdaderamente. Aquí cubriremos los diferentes tipos de métricas de evaluación disponibles para modelos de aprendizaje supervisado: • Exactitud de clasificación • Pérdida logarítmica • Matriz de confusión • Área bajo la curva • Puntuación F1 • Error absoluto medio • Error cuadrático medio BOOK M A C H I N E L E A R N I N G A P L I C A D O E P r e c i s i ó n d e c l a s i f i c a c i ó n La precisión de la clasificación es lo que generalmente queremos decir cuando usamos el término exactitud. Es la relación entre el número de predicciones correctas y el número total de muestras de entrada. Precisión = Numero de predicciones correctas Numero total de predicciones realizadas Por ejemplo, considere que hay 98% de muestras de clase A y 2% de muestras de clase B en nuestro conjunto de entrenamiento. Luego, nuestro modelo puede obtener fácilmente una precisión de entrenamiento del 98% simplemente prediciendo cada muestra de entrenamiento que pertenece a la clase A. Cuando el mismo modelo se prueba en un equipo de prueba con un 60 % de muestras de clase A y un 40 % de muestras de clase B, la precisión de la prueba se reduciría al 60 %.La precisión de la clasificación es excelente, pero nos da la falsa sensación de lograr una alta precisión. El verdadero problema surge cuando el costo de la clasificación errónea de las muestras de clase menor es muy alto. Si nos enfrentamos a una enfermedad rara pero fatal, el costo de no diagnosticar la enfermedad de una persona enferma es mucho más alto que el costo de enviar a una persona sana a más pruebas.
P é r d i d a l o g a r í t m i c a ( l o g a r i t h m i c l o s s ) Logarithmic Loss o Log Loss, o pérdida logarítmica en español, funciona penalizando las clasificaciones falsas. Funciona bien para la clasificación multiclase. Al trabajar con Log Loss, el clasificador debe asignar probabilidad a cada clase para todas las muestras. Supongamos que hay N muestras que pertenecen a M clases, entonces la pérdida de registro se calcula de la siguiente manera: donde, yij, indica si la muestra i pertenece a la clase j o no pij, indica la probabilidad de que la muestra i pertenezca a la clase j Log Loss no tiene límite superior y existe en el rango [0, ∞). Log Loss más cercano a 0 indica una mayor precisión, mientras que si Log Loss está lejos de 0, indica una menor precisión. En general, la minimización de Log Loss proporciona una mayor precisión para el clasificador. M a t r i z d e c o n f u s i ó n Confusion Matrix, como sugiere el nombre, nos da una matriz como resultado y describe el rendimiento completo del modelo. Supongamos que tenemos un problema de clasificación binaria. Tenemos algunas muestras pertenecientes a dos clases: SÍ o NO. Además, tenemos nuestro propio clasificador que predice una clase para una muestra de entrada dada. Al probar nuestro modelo en 165 muestras, obtenemos el siguiente resultado. Hay 4 términos importantes: • Verdaderos positivos: los casos en los que predijimos SÍ y el resultado real también fue SÍ. • Verdaderos negativos: los casos en los que predijimos NO y el resultado real fue NO. • Falsos positivos: los casos en los que predijimos SÍ y el resultado real fue NO. • Falsos negativos: los casos en los que predijimos NO y el resultado real fue SÍ. La precisión de la matriz se puede calcular tomando el promedio de los valores que se encuentran en la "diagonal principal" , es decir: La matriz de confusión forma la base para los otros tipos de métricas. Exactitud = Verdaderos positivos + Verdaderos negativos Numero muestras totales
Á r e a b a j o l a c u r v a ( A U C ) El área bajo la curva (AUC) es una de las métricas más utilizadas para la evaluación. Se utiliza para problemas de clasificación binaria. El AUC de un clasificador es igual a la probabilidad de que el clasificador clasifique un ejemplo positivo elegido al azar más alto que un ejemplo negativo elegido al azar. Antes de definir AUC , entendamos dos términos básicos: Tasa de verdaderos positivos (sensibilidad) : la tasa de verdaderos positivos se define como TP/ (FN+TP) . La tasa de verdaderos positivos corresponde a la proporción de puntos de datos positivos que se consideran correctamente como positivos, con respecto a todos los puntos de datos positivos. Como es evidente, AUC tiene un rango de [0, 1]. Cuanto mayor sea el valor, mejor será el rendimiento de nuestro modelo. Ratio de verdaderos positivos = Verdaderos positivos Verdaderos positivos + Falsos negativos Tasa negativa verdadera (especificidad) : la tasa negativa verdadera se define como TN / (FP+TN) . Tasa de falsos positivos corresponde a la proporción de puntos de datos negativos que se consideran correctamente como negativos, con respecto a todos los puntos de datos negativos. Ratio de verdaderos negativos = Verdaderos negativos Verdaderos negativos + Falsos positivos Tasa de falsos positivos: la tasa de falsos positivos se define como FP / (FP+TN) . La tasa de falsos positivos corresponde a la proporción de puntos de datos negativos que se consideran erróneamente como positivos, con respecto a todos los puntos de datos negativos. La Tasa de falsos positivos y la Tasa de verdaderos positivos tienen valores en el rango [0, 1] . Tanto TFP como TVP se calculan con valores de umbral variables como (0,00, 0,02, 0,04, ...., 1,00) y se dibuja un gráfico. AUC (area under the curve) es el área bajo la curva del gráfico Tasa de falsos positivos frente a Tasa de verdaderos positivos en diferentes puntos en [0, 1] . Tasa de falsos positivos = Falsos positivos Verdaderos negativos + Falsos positivos
F 1 - S c o r e La puntuación F1 (F1 Score) es la media armónica entre la precisión y la recuperación. El rango para F1 Score es [0, 1]. Le dice qué tan preciso es su clasificador (cuántas instancias clasifica correctamente), así como qué tan robusto es (no pierde una cantidad significativa de instancias). Alta precisión pero menor recuperación, le brinda una precisión extrema, pero luego pierde una gran cantidad de instancias que son difíciles de clasificar. Cuanto mayor sea el F1 Score, mejor será el rendimiento de nuestro modelo. Matemáticamente, se puede expresar como: F1 Score intenta encontrar el equilibrio entre precisión y recall. Precisión: Es el número de resultados positivos correctos dividido por el número de resultados positivos previstos por el clasificador. Recall: Es el número de resultados positivos correctos dividido por el número de todas las muestras relevantes (todas las muestras que deberían haber sido identificadas como positivas). F1 = 2 ∗ 1 1 precision + 1 recall Precision = Verdaderos positivos Verdaderos positivos + Falsos positivos Recall = Verdaderos positivos Verdaderos positivos + Falsos negativos E r r o r a b s o l u t o m e d i o El error absoluto medio es el promedio de la diferencia entre los valores originales y los valores pronosticados. Nos da la medida de qué tan lejos estaban las predicciones del resultado real. Sin embargo, no nos dan ninguna idea de la dirección del error, es decir, si estamos prediciendo los datos por debajo o por encima. Matemáticamente, se representa como: Error absoluto medio = 1 N j=1 N yj − yෝj E r r o r c u a d r á t i c o m e d i o El error cuadrático medio (MSE) es bastante similar al error absoluto medio, con la única diferencia de que MSE toma el promedio del cuadrado de la diferencia entre los valores originales y los valores predichos. La ventaja de MSE es que es más fácil calcular el gradiente, mientras que el error absoluto medio requiere herramientas de programación lineal complicadas para calcular el gradiente. A medida que tomamos el cuadrado del error, el efecto de los errores más grandes se vuelve más pronunciado que el error más pequeño, por lo tanto, el modelo ahora puede enfocarse más en los errores más grandes. Error cuadrático medio = 1 N j=1 N yj − yෝj 2