Modele ensemble en pagne 2017

Avez-vous plaisir à lire cet article? Avez-vous déjà construit un apprenant d`ensemble? Comment avez-vous choisi la bonne technique d`ensemble? Les techniques d`ensemble sont utilisées dans chaque problème de Kaggle. Choisir les bons ensembles est plus un art que la science directe. Avec l`expérience, vous développera un talent dont l`apprenant d`ensemble à employer dans différents genres de scénario et d`apprenants de base. Les techniques les plus efficaces pour les modèles de formation (en particulier pendant les étapes d`empilage) incluent l`utilisation de la validation croisée et d`une certaine forme de régularisation. Pour savoir comment nous avons utilisé ces techniques pour créer des modèles d`ensemble empilés, consultez notre récent document du Forum mondial SAS, «modèles d`ensemble empilés pour une précision de prédiction améliorée». Ce document montre également comment vous pouvez générer un ensemble diversifié de modèles par diverses méthodes (telles que les forêts, les arbres de décision boosté par gradient, les machines de factorisation et la régression logistique), puis les combiner avec des techniques d`ensemble empilées telles que régularisées régression, et les méthodes d`escalade en pente. L`apprentissage d`ensemble est un sujet large et n`est confiné que par votre imagination. Aux fins de cet article, je vais couvrir les concepts de base et les idées de modélisation d`ensemble. Cela devrait suffire pour que vous commenciez à construire des ensembles à votre propre fin. Comme d`habitude, nous avons essayé de garder les choses aussi simples que possible. Commençons rapidement par un exemple pour comprendre les bases de l`apprentissage d`ensemble. Cet exemple va faire ressortir, comment nous utilisons le modèle d`ensemble tous les jours sans se rendre compte que nous utilisons la modélisation d`ensemble. Je vais largement utiliser les arbres de décision pour décrire la définition et la praticité des méthodes d`ensemble (Cependant il est important de noter que les méthodes d`ensemble ne concernent pas seulement les arbres de décision).

2. modèles de forêt aléatoire. Les modèles de forêt aléatoire peuvent être considérés comme BAGGing, avec un léger Tweak. Lorsque vous décidez où diviser et comment prendre des décisions, les arbres de décision BAGGed ont la disposition complète des fonctionnalités à choisir. Par conséquent, bien que les échantillons bootstrap peuvent être légèrement différents, les données vont largement se rompre aux mêmes caractéristiques dans chaque modèle. Au contraire, les modèles de forêt aléatoire décident où diviser en fonction d`une sélection aléatoire de fonctionnalités. Plutôt que de fractionner des entités similaires à chaque nœud dans l`ensemble, les modèles de forêt aléatoire implémentent un niveau de différenciation car chaque arborescence se divise en fonction de différentes entités. Ce niveau de différenciation fournit un plus grand ensemble pour agréger plus, Ergo produisant un prédicteur plus précis.

Référez-vous à l`image pour une meilleure compréhension. L`empilage de modèle est une méthode d`ensemble efficace dans laquelle les prédictions, générées à l`aide de divers algorithmes d`apprentissage automatique, sont utilisées comme entrées dans un algorithme d`apprentissage de deuxième couche. Cet algorithme de deuxième couche est formé pour combiner de manière optimale les prédictions du modèle pour former un nouvel ensemble de prédictions. Par exemple, lorsque la régression linéaire est utilisée comme modélisation de deuxième couche, elle évalue ces pondérations en minimisant les erreurs les moins carrées. Toutefois, la modélisation de la deuxième couche n`est pas limitée aux modèles linéaires uniquement; la relation entre les prédicteurs peut être plus complexe, ouvrant la porte à l`emploi d`autres algorithmes d`apprentissage automatique. L`empilage de modèle utilise un algorithme de deuxième niveau pour estimer les pondérations de prédiction dans le modèle d`ensemble.

Comments are closed.