Un bosque aleatorio, también conocido como “random forest” en inglés, es un algoritmo de aprendizaje automático supervisado utilizado para la clasificación y regresión. Está compuesto por múltiples árboles de decisión individuales que trabajan en conjunto para tomar decisiones.
Cada árbol en el bosque se construye a partir de una muestra aleatoria con reemplazo del conjunto de datos de entrenamiento. Además, durante la construcción de cada árbol, en cada división del árbol se considera solo un subconjunto aleatorio de características (variables). Esto ayuda a reducir la correlación entre los árboles individuales y aumenta la diversidad en el bosque.
Cuando se trata de clasificación, cada árbol en el bosque vota por la clase más común en los datos de entrada. En el caso de la regresión, se promedia la salida de todos los árboles para obtener una predicción final.
Los bosques aleatorios son populares debido a su capacidad para manejar datos de alta dimensionalidad, lidiar con valores faltantes y evitar el sobreajuste. También pueden proporcionar medidas de importancia de características, que indican qué características son más relevantes para el problema en cuestión.
En resumen, un bosque aleatorio es un conjunto de árboles de decisión que trabajan juntos para realizar tareas de clasificación o regresión, utilizando muestras aleatorias y características seleccionadas de manera aleatoria para aumentar la precisión y evitar el sobreajuste.