Quelle est la différence entre les prévisions «dans l'échantillon» et «hors échantillon»?


17

Je ne comprends pas exactement quelle est la différence entre les prévisions "dans l'échantillon" et "hors échantillon"? Une prévision dans l'échantillon utilise un sous - ensemble des données disponibles pour prévoir des valeurs en dehors de la période d'estimation. Une prévision hors échantillon utilise à la place toutes les données disponibles. Est-ce correct ?

Très précisément, la définition suivante est-elle correcte?

Une prévision intra-échantillon utilise un sous - ensemble des données disponibles pour prévoir des valeurs en dehors de la période d'estimation et les comparer aux résultats connus ou réels correspondants. Cela permet d'évaluer la capacité du modèle à prévoir les valeurs connues. Par exemple, une prévision intra-échantillon de 1980 à 2015 peut utiliser des données de 1980 à 2012 pour estimer le modèle. En utilisant ce modèle, le prévisionniste prédirait alors les valeurs pour 2013-2015 et comparerait les valeurs prévues aux valeurs réelles connues. Une prévision hors échantillon utilise à la place toutes les données disponibles dans l'échantillon pour estimer un modèle. Pour l'exemple précédent, l'estimation serait effectuée sur la période 1980-2015 et les prévisions commenceraient en 2016.


Pourriez-vous fournir un certain contexte? Les réponses que vous fournissez à votre propre question semblent correctes, mais la terminologie peut être spécifique au sujet.
IWS

D'où avez-vous obtenu ces définitions?
gung - Rétablir Monica

Dans l'échantillon, il s'agit de données que vous connaissez au moment de la création du modèle et que vous utilisez pour créer ce modèle. Les données hors échantillon sont des données invisibles et vous ne faites que la prédiction / prévision. Dans la plupart des circonstances, le modèle fonctionnera moins bien hors échantillon que dans l'échantillon où tous les paramètres ont été calibrés.
Ric

@IWS J'ai ajouté une question
spécifique

@Richard Veuillez lire la nouvelle question
spécifique

Réponses:


32

Par "échantillon", on entend l'échantillon de données que vous utilisez pour ajuster le modèle.

Premièrement - vous avez un échantillon
Deuxièmement - vous ajustez un modèle sur l'échantillon
Troisièmement - vous pouvez utiliser le modèle pour la prévision

Si vous prévoyez une observation qui faisait partie de l'échantillon de données, il s'agit d'une prévision dans l'échantillon.

Si vous prévoyez une observation qui ne faisait pas partie de l'échantillon de données, il s'agit d'une prévision hors échantillon.

La question que vous devez vous poser est donc: l'observation particulière a-t-elle été utilisée pour l'ajustement du modèle ou non? Si elle a été utilisée pour l'ajustement du modèle, la prévision de l'observation est dans l'échantillon. Sinon, il est hors échantillon.

si vous utilisez les données 1990-2013 pour ajuster le modèle, puis que vous prévoyez pour 2011-2013, il s'agit de prévisions dans l'échantillon. mais si vous utilisez uniquement 1990-2010 pour ajuster le modèle, puis que vous prévoyez 2011-2013, alors ses prévisions hors échantillon.


Nous avons un échantillon de 1990 à 2013, puis nous ajustons le modèle sur l'échantillon, puis nous prévoyons 2011-2013, est-ce dans l'échantillon? ou Nous avons un échantillon de 1990 à 2013, puis nous ajustons le modèle de 1990 à 2010 sur l'échantillon, nous prévoyons 2011-2013, est-ce hors échantillon?
Engin YILMAZ

oui, si vous utilisez les données 1990-2013 pour ajuster le modèle et que vous prévoyez pour 2011-2013, ce sont des prévisions dans l'échantillon. mais si vous utilisez uniquement 1990-2010 pour ajuster le modèle, puis que vous prévoyez 2011-2013, alors ses prévisions hors échantillon.
Le cheval du roi Salomon le

3

Supposons que dans votre échantillon, vous ayez une séquence de 10 points de données. Ces données peuvent être divisées en deux parties - par exemple, les 7 premiers points de données pour estimer les paramètres du modèle et les 3 points de données suivants pour tester les performances du modèle. En utilisant le modèle ajusté, les prédictions faites pour les 7 premiers points de données seront appelées prévisions dans l'échantillon et de même pour les 3 derniers points de données seront appelées hors prévisions de l'échantillon. C'est la même chose que l'idée de diviser les données en ensemble d'apprentissage et ensemble de validation.


1

La prévision dans l' échantillon est le processus d'évaluation formelle des capacités prédictives des modèles développés en utilisant les données observées pour voir l'efficacité des algorithmes dans la reproduction des données. Il est un peu similaire à un ensemble de formation dans un algorithme d'apprentissage automatique et le hors-échantillon est similaire à l'ensemble de test.


vous donnez une explication succincte des prévisions dans l'échantillon - pourriez-vous également fournir la même chose pour les échantillons hors échantillon (c.-à-d. une courte explication et pas seulement une comparaison avec les ensembles de tests)?
ReneBt

0

Le diagramme ci - dessous vous aidera à comprendre le TEMPS et HORS DU TEMPS

entrez la description de l'image ici


-1

Dans la prévision des séries chronologiques, «Insample» signifie les données de train «Outsample» signifie les données de test

Dans les séries chronologiques, nous pouvons d'abord prévoir les résultats pour les données «Insample» (c'est-à-dire le train). Plus tard, nous pouvons prévoir les résultats pour les données «hors échantillon» (c'est-à-dire les tests).

model = ARIMA(order = (p,d,q), seasonal_order=(P,D,Q,S))
model.fit(train_data)

train_predictions = model.predict_in_sample()
test_predictions = model.predict(n_periods=len(test_data.index))

predictions = pd.concatenate((train_predictions, test_predictions),axis=0)

Je pense que votre réponse est rétrogradée, car elle ne répond pas à la question - en particulier "La définition suivante est-elle tout à fait correcte?" n'est pas adressé.
Martin Modrák
En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.