¿Qué son árboles de decisión en business analytics?

Buenos días a todos!

Voy a daros unas pinceladas sobre un tema que considero muy en alza, el business analytics y, concretamente, voy a contaros en qué consisten los algoritmos de árboles de decisión.

Los árboles de decisión son algoritmos de clasificación supervisada, que dan como resultado un modelo en forma de árbol, llamado árbol de decisión. Es una técnica muy utilizada porque la representación gráfica del árbol facilita mucho la comprensión del modelo.

Diréis bueno, todo esto suena muy bien pero os estaréis preguntando ¿De qué me estás hablando? ¿Para qué sirve?

Para que se entienda mejor, voy a ilustrarlo con un ejemplo sobre el algoritmo C4.5 propuesto por Quinlan en 1993. Primero voy a plantear un juego de datos de clientes de una entidad financiera, de los que conocemos diferentes variables como la edad, su situación laboral, si es o no propietario vivienda y su calificación crediticia. Además añadimos otra variable al juego de datos, que será la variable objetivo llamada “clase a predecir”. En nuestro caso será si es o no apto para concederle un préstamo.

Planteamos el árbol de decisión y observamos que consiste en un nodo principal construido a partir de uno de los atributos del juego de datos. La pregunta ¿cuál es la edad del solicitante? nos servirá para segmentar el juego de datos en tres secciones: joven, medio y
mayor. Los nodos internos plantean las preguntas del resto de atributos.

Una vez introducida la representación gráfica de un árbol de decisión, se nos plantea la
siguiente pregunta: Dado un juego de datos, ¿existe un único árbol de decisión que lo representa? La respuesta es no, de hecho, si tomáramos como nodo principal un atributo distinto de edad, obtendremos un árbol de decisión distinto al de la figura anterior.
Por tanto ¿De todos los árboles posibles, cuál es el mejor? Ahí es donde entra en juego el algoritmo C4.5, que se basa en el concepto de ganancia de la información* para ir construyendo el mejor árbol posible.

Para determinar el nodo principal calculará la ganancia de la información para cada uno de los atributos del juego de datos de entrenamiento y tomará el atributo con mayor ganancia

Una vez se haya determinado, estableceremos un nodo árbol con todas las posibilidades, que ayudará a estimar si debemos, o no, conceder el crédito a un cliente en función de sus características y dando solución al problema que se plantea, donde habrá una ruta óptima.

*La ganancia de información nos da una medida de cómo de relevante es un atributo dentro de un juego de datos, de modo que un atributo con mucha ganancia será muy relevante en el juego de datos, es decir, muy determinante para predecir el atributo objetivo).

Espero que os haya resultado interesante, y si teneis cualquier duda o sugerencia… no dudéis en comentármelo.

Un saludo,

Rubén

1 me gusta