Content text 3. Árboles de decisión.pdf
LOS ÁRBOLES DE DECISIÓN ¿QUÉ ES UN ÁRBOL DE DECISIÓN? Los árboles de decisión son un algoritmo de Aprendizaje Supervisado que se utilizan para problemas de clasificación y regresión. Los árboles de decisión se utilizan para tomar decisiones basadas en la observación de características de entrada. Funcionan dividiendo repetidamente el conjunto de datos en subconjuntos más pequeños y homogéneos, basándose en las características más importantes para predecir la variable objetivo. Estos modelos son representaciones gráficas de posibles soluciones, donde cada nodo interno representa una característica (atributo), cada rama representa una regla de decisión y cada nodo hoja representa el resultado de una decisión. Imagina que eres el gerente de una tienda de comestibles y quieres decidir si debes comprar más naranjas para la próxima semana en función de ciertas condiciones del mercado. Utilizar un árbol de decisión podría ayudarte a tomar esta decisión de manera más informada. 1. Condiciones del mercado: Las características de entrada podrían incluir factores como el precio actual de las naranjas, la temperatura, la previsión del tiempo y la demanda de los clientes. 2. Decisión de compra de naranjas: El objetivo es determinar si debes comprar más naranjas (Sí) o no (No) para la próxima semana. 3. Construcción del árbol de decisión: Utilizando datos históricos y un algoritmo de aprendizaje automático, construirías un árbol de decisión que represente las reglas para tomar esta decisión. Por ejemplo: • Si el precio de las naranjas es bajo y la temperatura es alta, compra más naranjas (Sí). • Si la previsión del tiempo indica un clima soleado y la demanda de los clientes es alta, compra más naranjas (Sí). • Si el precio de las naranjas es alto y la temperatura es baja, no compres más naranjas (No). 4. Toma de decisiones: Una vez construido el árbol de decisión, puedes utilizarlo para tomar decisiones sobre la compra de naranjas para la próxima semana. Simplemente evaluando las condiciones del mercado, puedes seguir las reglas establecidas por el árbol para determinar si debes comprar más naranjas o no.
LA TERMINOLOGÍA DE LA ESTRUCTURA DEL ÁRBOL • Nodo raíz: primer nodo del árbol de decisión. • División: proceso de dividir un nodo en subnodos de acuerdo con una variable elegida. • Nodos de decisión: cada subnodo posterior en el que se divide aún más la muestra. • Nodo hoja/terminal: nodos finales del árbol, no se dividen más. • Rama: subsección del árbol después de un punto de División. • Profundidad: número de aristas desde el nodo raíz hasta la hoja más baja. • Poda: eliminación de los subnodos de un nodo padre. Un árbol crece a través de la división y se encoge a través de la poda. PROCESO DE CONSTRUCCIÓN DE UN ÁRBOL DE DECISIÓN 1. Selección de la característica de división: En cada nodo, se selecciona la característica que mejor divide el conjunto de datos en subconjuntos más homogéneos. Esto se hace utilizando medidas como la ganancia de información (en el caso de árboles de decisión de clasificación) o la reducción de la varianza (en el caso de árboles de decisión de regresión). 2. División del conjunto de datos: Una vez seleccionada la característica de división, el conjunto de datos se divide en subconjuntos más pequeños en función de los valores de esa característica. 3. Construcción recursiva del árbol: Se repite este proceso de selección de la característica y división del conjunto de datos de manera recursiva en cada subconjunto hasta que se cumpla algún criterio de parada, como la profundidad máxima del árbol o la pureza de los nodos hoja.
VENTAJAS DE LOS ÁRBOLES DE DECISIÓN • Interpretabilidad: Los árboles de decisión son modelos fácilmente interpretables y comprensibles, ya que representan reglas de decisión lógicas que pueden ser visualizadas y entendidas fácilmente. • Versatilidad: Los árboles de decisión pueden manejar datos numéricos y categóricos, así como problemas de clasificación y regresión. • Escalabilidad: Son eficientes computacionalmente y pueden manejar conjuntos de datos grandes con muchas características. LIMITACIONES DE LOS ÁRBOLES DE DECISIÓN • Sobreajuste: Los árboles de decisión tienden a ser propensos al sobreajuste, especialmente cuando se construyen árboles muy profundos con muchos nodos. Esto significa que pueden adaptarse demasiado a los detalles de los datos de entrenamiento y perder la capacidad de hacer predicciones precisas sobre nuevos datos. • Inestabilidad: Pequeñas variaciones en los datos de entrenamiento pueden conducir a grandes cambios en la estructura del árbol, lo que los hace inestables. • Sensibilidad a datos ruidosos: Los árboles de decisión pueden ser sensibles a datos ruidosos o atípicos, lo que puede afectar la calidad de las predicciones.