Random Forest (Forêt Aléatoire)
Algorithme combinant les résultats de multiples arbres de décision pour obtenir une prédiction plus précise et stable.
Une forêt aléatoire est une méthode d’apprentissage en ensemble : au lieu de s’appuyer sur un seul arbre de décision (souvent sensible au bruit et au surapprentissage), elle agrège les prédictions de nombreux arbres pour réduire la variance et améliorer la robustesse.
Comment ça fonctionne
Chaque arbre est entraîné sur un échantillon aléatoire des données (bootstrap). À chaque nœud, l’arbre ne teste qu’un sous-ensemble aléatoire de variables. Cette double randomisation rend les arbres moins corrélés entre eux.
En classification, la prédiction finale est généralement un vote majoritaire. En régression, on prend souvent la moyenne des sorties.
Pourquoi c’est utile
La forêt aléatoire offre souvent de bonnes performances “par défaut” sans réglages complexes, gère bien les relations non linéaires, et tolère relativement bien les données bruitées. Elle fournit aussi des estimations d’importance des variables, utiles pour l’analyse exploratoire (à interpréter avec prudence en cas de variables corrélées).
Exemples d’usage
- Détection de fraude (classification binaire)
- Scoring de risque ou prédiction de prix (régression)
- Baselines solides avant d’essayer des modèles plus complexes (gradient boosting, réseaux de neurones)