TPOT vs Auto-sklearn : comparaison de deux bibliothèques d'AutoML (~4min)

Comparaison entre TPOT et Auto-sklearn, deux bibliothèques d’AutoML. TPOT utilise des algorithmes génétiques, est rapide et convivial pour les débutants. Auto-sklearn, basé sur le méta-apprentissage, offre une personnalisation avancée. Choisissez TPOT pour la simplicité, Auto-sklearn pour la flexibilité et la personnalisation approfondie en fonction des besoins spécifiques.

Thomas FRAMERY Profile Picture
Thomas FRAMERY Data Scientist

Introduction

L’AutoML est une méthode de machine learning qui automatise l’ensemble du processus de machine learning, y compris le feature engineering, la sélection du modèle et l’optimisation des hyperparamètres. Cela permet aux développeurs de créer des modèles de machine learning en un temps record, et de se focaliser au maximum sur des tâches à fortes valeurs ajoutées. Dans cet article, nous allons comparer deux bibliothèques d’AutoML populaires: TPOT et Auto-sklearn.

Présentation de TPOT

TPOT (Tree-based Pipeline Optimization Tool) est une bibliothèque d’AutoML open source. TPOT utilise des algorithmes génétiques pour optimiser les pipelines de modélisation de machine learning. Un algorithme génétique est une technique d’optimisation inspirée par la sélection naturelle, plusieurs générations sont créées et seuls les meilleurs individus sont conservés.

 

TPOT prend en charge une grande variété de modèles de machine learning, par exemple les arbres de décision, les réseaux de neurones, les forêts aléatoires et les SVM. Une fois le meilleur modèle entraîné il est possible d’exporter le code python permettant de créer et entraîner le modèle de ML.

 

Du fait de l’utilisation d’algorithmes génétiques, les résultats peuvent être différents à chaque nouvel entraînement du modèle.

Présentation d’auto-sklearn

Auto-sklearn est une autre bibliothèque d’AutoML open source. Cette librairie utilise une optimisation bayésienne pour sélectionner et optimiser les modèles de machine learning. L’optimisation bayésienne est une stratégie cherchant l’extrema d’une fonction objectif, c’est une méthode utilisée lorsque la fonction objectif est très coûteuse à calculer.

 

Une seconde méthode utilisée par cette librairie est le méta-apprentissage. Cette méthode consiste à anticiper les performances d’un modèle sur certaines données. Elle permet d’éviter de tester des modèles considérés comme inutiles et d’optimiser le temps de calcul.

 

Tout comme TPOT, elle prend également en charge une grande variété de modèles de machine learning comme les arbres de décision, les réseaux de neurones, les forêts aléatoires et les SVM.

Comparaison de TPOT et Auto-sklearn

Comme vu plus haut, TPOT est basée sur des algorithmes génétiques, tandis qu’auto-sklearn utilise un méta-apprentissage. En termes de performance, les deux bibliothèques ont des résultats comparables, bien que TPOT soit généralement plus rapide qu’auto-sklearn. En ce qui concerne la facilité d’utilisation, TPOT est plus simple à utiliser qu’auto-sklearn car il ne nécessite pas de connaissances en programmation.

 

TPOT

Auto-Sklearn

Méthode

Algorithmes génétiques

Méta-apprentissage

Performance

Bonnes performances sur des données avec du bruit et/ou non homogènes

Satisfaisant dans une majorité de cas

Vitesse

GPU pour XGboost sinon CPU

CPU uniquement

Facilité d’utilisation

Possibilité d’utiliser une pipeline entière facilement

Très ressemblant à sklearn

OS d’utilisation

Linux/Windows

Linux

Conclusion

En résumé, TPOT et auto-sklearn sont deux excellentes bibliothèques d’AutoML. TPOT se démarque par sa facilité d’utilisation et sa rapidité, tandis qu’auto-sklearn offre une plus grande flexibilité et une meilleure personnalisation dû au fait que la librairie soit construite sur la base de Sklearn. Auto-sklearn laisse une plus grande liberté dans le choix des algorithmes là où TPOT sera plus axé sur des algorithmes d’arbres (Random Forest, Decision Tree…)

 

Le choix entre les deux dépendra de vos besoins spécifiques. Pour les débutants en AutoML, TPOT est vivement recommandé. Cependant, si vous recherchez une personnalisation plus poussée et une plus grande souplesse, auto-sklearn peut être une excellente option

A voir absolument

Les articles les plus appréciés

Vous avez un projet de transfomation ? Parlons-en !