Pour continuer dans le sens de la réponse de Deigo, les limites standard de complexité des échantillons de la théorie de l'apprentissage vous disent que si vous êtes satisfait de trouver un programme qui est "approximativement correct", vous n'avez pas besoin d'essayer beaucoup de points. Disons que nous encodons des programmes en binaire, de sorte qu'il n'y a que programmes de longueur d. Laisse supposer également qu'il ya une certaine distribution sur des exemples d'entrée . Peut-être que votre objectif est de trouver un programme dont vous êtes presque sûr qu'il a presque raison («Probablement approximativement correct», c'est-à-dire comme dans le modèle d'apprentissage PAC de Valiants). Autrement dit, vous voulez exécuter un algorithme qui prendra un petit nombre d'échantillons avec , et avec probabilité au moins D x ∼ D f ( x ) ( 1 - δ ) P f ( 1 - ϵ ) D2réréx ∼ DF( x )(1−δ)sortie un certain programme qui est en accord avec sur au moins une fraction d'entrées provenant de . Pf(1−ϵ)D
Nous allons simplement dessiner exemples , et sortir tout programme de longueur qui est d'accord avec sur tous les exemples. (Un est garanti d'exister puisque nous supposons que a une complexité de Kolmogorov au plus ) ...x ∼ D P ≤ d f f dmx∼DP≤dffd
Quelle est la probabilité qu'un programme particulier désaccord avec sur plus d'une fraction d'exemples soit cohérent avec les exemples que nous avons sélectionnés? C'est tout au plus . Nous aimerions prendre cette probabilité pour être au plus afin que nous puissions prendre une union liée sur tous les programmes et dire qu'avec une probabilité d'au moins , aucun "mauvais" programme n'est cohérent avec nos exemples dessinés. En résolvant, nous voyons qu'il suffit de prendre uniquement des
exemples . (c.-à-d. seulement linéairement nombreux dans la complexité de Kolmogorov def ϵ m ( 1 - ϵ ) m δ / 2 d 2 d 1 - δ m ≥ 1Pfϵm(1−ϵ)mδ/2ré2ré1 - δf
m≥1ϵ(d+log1/δ)
F...)
BTW, des arguments comme celui-ci peuvent être utilisés pour justifier "le rasoir d'Occam": étant donné un nombre fixe d'observations, parmi toutes les théories qui les expliquent, vous devez choisir celle avec la complexité de Kolmogorov la plus faible, car il y a le moins de chance de sur-ajustement.
Bien sûr, si vous ne voulez vérifier qu'un seul programme fixe de cette manière, vous n'avez besoin que d' exemples ...O ( log( 1 / δ) / ϵ )