L'hypothèse iid sur les couples , i = 1 , … , N , est souvent faite en statistique et en apprentissage automatique. Parfois pour une bonne raison, parfois par commodité et parfois simplement parce que nous faisons cette hypothèse. Pour répondre de manière satisfaisante si l'hypothèse est vraiment nécessaire et quelles sont les conséquences si vous ne la faites pas, je finirais facilement par écrire un livre (si vous finissez facilement par faire quelque chose comme ça). Ici, je vais essayer de donner un bref aperçu de ce que je considère être les aspects les plus importants.(Xi,yi)i=1,…,N
Une hypothèse fondamentale
Supposons que nous voulions apprendre un modèle de probabilité de donné X , que nous appelons p ( y ∣ X ) . Nous ne faisons aucune hypothèse sur ce modèle en tant que prieuré, mais nous supposerons au minimum qu'un tel modèle existe de telle sorte queyXp ( y∣ X )
- la distribution conditionnelle de étant donné X i est p ( y i ∣ X i ) .yjeXjep ( yje∣ Xje)
Ce qu'il convient de noter à propos de cette hypothèse est que la distribution conditionnelle de dépend de i uniquement par le biais de X i . C'est ce qui rend le modèle utile, par exemple pour la prédiction. L’hypothèse est valable comme conséquence de la partie distribuée de manière identique dans l’hypothèse iid, mais elle est plus faible car nous ne faisons aucune hypothèse concernant les X i .yjejeXjeXje
Dans ce qui suit, l'accent sera principalement mis sur le rôle de l'indépendance.
La modélisation
Il existe deux approches principales pour l' apprentissage d' un modèle donné X . Une approche est connue sous le nom de modélisation discriminative et l'autre en tant que modélisation générative .yX
- Modélisation discriminante : Nous modélisons directement , par exemple un modèle de régression logistique, un réseau de neurones, un arbre ou une forêt aléatoire. L’ hypothèse de modélisation de travail sera généralement que les y i sont conditionnellement indépendants par rapport aux X i , bien que les techniques d’estimation reposant sur le sous-échantillonnage ou l’amorçage soient plus utiles dans le cas du iid ou de l’hypothèse d’échangeable inférieure (voir ci-dessous). Mais en règle générale, pour la modélisation discriminative, nous n'avons pas besoin de faire des hypothèses de répartition sur les X i . p ( y∣ X )yjeXjeXje
- Modélisation générative : Nous modélisons la distribution conjointe de ( X , y ) généralement en modélisant la distribution conditionnelle p ( X ∣ y ) et la distribution marginale p ( y ) . Nous utilisons ensuite la formule de Bayes pour calculer p ( y ∣ X ) . L'analyse discriminante linéaire et les méthodes naïves de Bayes en sont des exemples. L’ hypothèse de travail sera généralement l’hypothèse IID.p ( X , y)( X , y)p ( X ∣ y)p ( y)p ( y∣ X )
Pour les deux approches, l’hypothèse de travail est utilisée pour dériver ou proposer des méthodes d’apprentissage (ou des estimateurs). Cela pourrait être en maximisant la log-vraisemblance (pénalisée), en minimisant le risque empirique ou en utilisant des méthodes bayésiennes. Même si l'hypothèse de modélisation de travail est fausse, la méthode résultante peut toujours fournir un ajustement raisonnable de . p ( y∣ X )
Certaines techniques associées à la modélisation discriminante, telles que l’ensachage (agrégation par bootstrap), consistent à adapter de nombreux modèles aux données échantillonnées de manière aléatoire à partir du jeu de données. Sans l'hypothèse iid (ou l'échangeabilité), les jeux de données rééchantillonnés n'auront pas une distribution conjointe similaire à celle du jeu de données d'origine. Toute structure de dépendance est devenue "gâchée" par le ré-échantillonnage. Je n'y ai pas vraiment réfléchi, mais je ne vois pas pourquoi cela devrait nécessairement casser la méthode en tant que méthode d'apprentissage de . Du moins pas pour les méthodes basées sur les hypothèses d'indépendance de travail. Je suis heureux de me tromper ici.p ( y∣ X )
La cohérence et les limites d'erreur
Une question centrale pour toutes les méthodes d’apprentissage est de savoir si elles aboutissent à des modèles proches de . Il existe une vaste littérature théorique en statistiques et en apprentissage automatique traitant de la cohérence et des limites d'erreur. Un objectif principal de cette littérature est de prouver que le modèle appris est proche de p ( y ∣ X ) lorsque N est grand. La cohérence est une assurance qualitative, tandis que les limites d'erreur fournissent un contrôle quantitatif (semi) explicite de la proximité et donnent des taux de convergence.p ( y∣ X )p ( y∣ X )N
Les résultats théoriques reposent tous sur des hypothèses concernant la distribution conjointe des observations dans l'ensemble de données. Les hypothèses de modélisation de travail mentionnées ci-dessus sont souvent formulées (c'est-à-dire indépendance conditionnelle pour la modélisation discriminative et iid pour la modélisation générative). Pour la modélisation discriminative, les limites de cohérence et d'erreur nécessiteront que le remplisse certaines conditions. Dans la régression classique, une telle condition est que 1XjepourN→∞, oùXreprésente la matrice de conception aveclignesX T i . Des conditions plus faibles peuvent suffire à assurer la cohérence. Dans l'apprentissage clairsemé, une autre condition de ce type est la condition de valeur propre restreinte, voir par exempleSur les conditions utilisées pour prouver les résultats d'Oracle pour le lasso. L’hypothèse iid ainsi que certaines hypothèses techniques de distribution impliquent que certaines conditions suffisantes sont remplies avec une probabilité élevée, et donc l’hypothèse iid peut s’avérer être une hypothèse suffisante mais non nécessaire pour obtenir des limites de cohérence et d’erreur pour la modélisation discriminative.1NXTX →ΣN→ ∞XXTje
L'hypothèse de travail de l'indépendance peut être fausse pour l'une ou l'autre des méthodes de modélisation. En règle générale, on peut s'attendre à une cohérence si les données proviennent d'un processus ergodique , et à des limites d'erreur si le processus consiste à mélanger suffisamment rapidement . Une définition mathématique précise de ces concepts nous éloignerait trop de la question principale. Il suffit de noter qu'il existe des structures de dépendance en plus de l'hypothèse iid pour laquelle il est prouvé que les méthodes d'apprentissage fonctionnent, car tend vers l'infini.N
Si nous avons des connaissances plus détaillées sur la structure de dépendance, nous pouvons choisir de remplacer l'hypothèse d'indépendance de travail utilisée pour la modélisation par un modèle qui capture également la structure de dépendance. Ceci est souvent fait pour les séries chronologiques. Un meilleur modèle de travail peut conduire à une méthode plus efficace.
Évaluation du modèle
Plutôt que de prouver que la méthode d'apprentissage donne un modèle proche de il est d'une grande utilité pratique d'obtenir une évaluation (relative) de "la qualité d'un modèle appris". Ces scores d'évaluation sont comparables pour deux modèles appris ou plus, mais ils ne fourniront pas une évaluation absolue de la proximité d'un modèle appris à p ( y ∣ X ) . Les estimations des notes d’évaluation sont généralement calculées de manière empirique en divisant l’ensemble de données en un ensemble de données de formation et d’essai, ou en utilisant une validation croisée.p ( y∣ X )p ( y∣ X )
Comme avec la mise en sachet, un fractionnement aléatoire du jeu de données "gâchera" toute structure de dépendance. Toutefois, pour les méthodes basées sur les hypothèses d’indépendance de travail, les hypothèses d’ergodicité plus faibles que iid devraient suffire pour que les estimations de l’évaluation soient raisonnables, bien que les erreurs-types de ces estimations soient très difficiles à obtenir.
[ Edit: La dépendance entre les variables aura pour résultat une distribution du modèle appris différente de la distribution sous l'hypothèse iid. L'estimation produite par la validation croisée n'est pas évidemment liée à l'erreur de généralisation. Si la dépendance est forte, l'estimation sera probablement mauvaise.]
Résumé (tl; dr)
Tout ce qui précède repose sur l'hypothèse qu'il existe un modèle de probabilité conditionnelle fixe, . Par conséquent , il ne peut y avoir des tendances ou des changements brusques de la distribution conditionnelle non capturés par X .p ( y∣ X )X
En apprenant un modèle de donné X , l'indépendance joue un rôle en tant queyX
- une hypothèse de travail utile qui nous permet de dériver des méthodes d'apprentissage
- hypothèse suffisante mais non nécessaire pour prouver la cohérence et établir des limites d'erreur
- hypothèse suffisante mais non nécessaire pour utiliser des techniques de fractionnement aléatoire des données telles que la mise en sac pour l’apprentissage et la validation croisée pour l’évaluation.
Comprendre précisément quelles alternatives à iI qui sont également suffisantes est un sujet de recherche non trivial.