Quels sont les critères et la prise de décision pour la non-linéarité dans les modèles statistiques?

J'espère que la question générale suivante aura un sens. Veuillez garder à l'esprit qu'aux fins de cette question particulière, je ne suis pas intéressé par les raisons théoriques (domaine) d'introduire la non-linéarité. Par conséquent, je formulerai la question complète comme suit:

Qu'est-ce qu'un cadre logique ( critères et, si possible, processus décisionnel ) pour introduire la non-linéarité dans les modèles statistiques pour des raisons autres que théoriques (domaine)? Comme toujours, les ressources et références pertinentes sont également les bienvenues.

— Aleksandr Blekh
source

Réponses:

Le processus de construction de modèle implique qu'un constructeur de modèle prenne de nombreuses décisions. L'une des décisions consiste à choisir parmi différentes classes de modèles à explorer. Il existe de nombreuses classes de modèles qui pourraient être envisagées; par exemple, les modèles ARIMA, les modèles ARDL, les modèles à source multiple d'erreur d'état-espace, les modèles LSTAR, les modèles Min-Max, pour n'en nommer que quelques-uns. Bien sûr, certaines classes de modèles sont plus larges que d'autres et il n'est pas courant de constater que certaines classes de modèles sont des sous-classes d'autres.

Étant donné la nature de la question, nous pouvons nous concentrer principalement sur seulement deux classes de modèles; modèles linéaires et modèles non linéaires .

Avec l'image ci-dessus à l'esprit, je commencerai à aborder la question des PO: quand il est utile d'adopter un modèle non linéaire et s'il existe un cadre logique pour le faire - d'un point de vue statistique et méthodologique.

La première chose à noter est que les modèles linéaires sont une petite sous-classe de modèles non linéaires. En d'autres termes, les modèles linéaires sont des cas particuliers de modèles non linéaires. Il y a quelques exceptions à cette déclaration, mais, aux fins actuelles, nous ne perdrons pas grand-chose en l'acceptant pour simplifier les choses.

Généralement, un constructeur de modèles sélectionnera une classe de modèles et choisira un modèle dans cette classe particulière en utilisant une méthodologie. Un exemple simple est celui où l'on décide de modéliser une série chronologique en tant que processus ARIMA et qui suit ensuite la méthodologie de Box-Jenkins pour sélectionner un modèle parmi la classe des modèles ARIMA. Travailler de cette façon, avec des méthodologies associées à des familles de modèles, est une question de nécessité pratique.

Une conséquence de la décision de construire un modèle non linéaire est que le problème de sélection du modèle devient beaucoup plus important (plus de modèles doivent être pris en compte et plus de décisions sont prises) par rapport au choix parmi le plus petit ensemble de modèles linéaires, donc il y a un réel question pratique à portée de main. De plus, il se peut qu'il n'y ait même pas de méthodologies complètement développées (connues, acceptées, comprises, faciles à communiquer) à utiliser pour sélectionner parmi certaines familles de modèles non linéaires. De plus, un autre inconvénient de la construction de modèles non linéaires est que les modèles linéaires sont plus faciles à utiliser et que leurs propriétés probabilistes sont mieux connues ( Teräsvirta, Tjøstheim et Granger (2010) ).

Cela dit, le PO demande des motifs statistiques pour guider la décision plutôt que des motifs pratiques ou théoriques, je dois donc continuer.

Avant même d'envisager comment gérer la sélection des modèles non linéaires avec lesquels travailler, il faut d'abord décider s'il faut travailler avec des modèles linéaires ou des modèles non linéaires. Une décision! Comment faire ce choix?

En faisant appel à Granger et Terasvirta (1993) , j'adopte l'argument suivant, qui a deux points principaux en réponse aux deux questions suivantes.

Q: Quand est-il utile de construire un modèle non linéaire? En bref, il peut être utile de construire un modèle non linéaire lorsque la classe de modèles linéaires a déjà été considérée et jugée insuffisante pour caractériser la relation sous inspection. On peut dire que cette procédure de modélisation non linéaire (processus décisionnel) passe du simple au général, en ce sens qu'elle passe du linéaire au non linéaire.

Q: Existe-t-il des bases statistiques pouvant être utilisées pour justifier la construction d'un modèle non linéaire? Si l'on décide de construire un modèle non linéaire basé sur les résultats des tests de linéarité, je dirais que oui, il y en a. Si les tests de linéarité suggèrent qu'il n'y a pas de non-linéarité significative dans la relation, la construction d'un modèle non linéaire ne serait pas recommandée; les tests doivent précéder la décision de construire.

Je développerai ces points par référence directe à Granger et Terasvirta (1993):

Avant de construire un modèle non linéaire, il est conseillé de savoir si un modèle linéaire caractériserait adéquatement les relations [économiques] analysées. Si tel était le cas, il y aurait plus de théorie statistique disponible pour construire un modèle raisonnable que si un modèle non linéaire était approprié. De plus, obtenir des prévisions optimales pour plus d'une période à venir serait beaucoup plus simple si le modèle était linéaire. Il peut arriver, au moins lorsque les séries chronologiques sont courtes, que l'investigateur estime avec succès un modèle non linéaire bien que la véritable relation entre les variables soit linéaire. Le danger de compliquer inutilement la construction du modèle est donc réel, mais peut être atténué par des tests de linéarité.

Dans le livre le plus récent, Teräsvirta, Tjøstheim et Granger (2010), le même type de conseil est donné, que je cite maintenant:

D'un point de vue pratique, il est [donc] utile de tester la linéarité avant de tenter d'estimer le modèle non linéaire plus compliqué. Dans de nombreux cas, les tests sont même nécessaires d'un point de vue statistique. Un certain nombre de modèles non linéaires populaires ne sont pas identifiés sous linéarité. Si le vrai modèle qui a généré les données est linéaire et que le modèle non linéaire s'intéresse à imbriquer ce modèle linéaire, les paramètres du modèle non linéaire ne peuvent pas être estimés de manière cohérente. Ainsi, le test de linéarité doit précéder toute modélisation et estimation non linéaire.

Permettez-moi de terminer avec un exemple.

Dans le contexte de la modélisation des cycles économiques, un exemple pratique d'utilisation de fondements statistiques pour justifier la construction d'un modèle non linéaire peut être le suivant. Étant donné que les modèles linéaires univariés ou vectoriels autorégressifs sont incapables de générer des séries chronologiques cycliques asymétriques, une approche de modélisation non linéaire, qui peut gérer les asymétries dans les données, mérite d'être envisagée. Une version développée de cet exemple sur la réversibilité des données se trouve dans Tong (1993) .

Toutes mes excuses si je me suis trop concentré sur les modèles de séries chronologiques. Je suis sûr, cependant, que certaines des idées sont également applicables dans d'autres contextes.

— Graeme Walsh
source

Graeme, votre réponse est excellente et, bien que d'autres réponses soient également excellentes, la vôtre est la plus proche de ce que je cherchais (une mini-version, si vous voulez). +1 et accepté. J'apprécie grandement vos efforts pour préparer votre réponse. Je suis sûr que je vais le revoir plus d'une fois ainsi que les références. Je pense que le livre du Dr Harrell sur les stratégies de régression contient également certaines parties d'un cadre que j'aurais idéalement. Soit dit en passant, mon idée d'un cadre statistique thématique est inspirée de l'excellent livre de Lisa Harlow "L'essence de la pensée multivariée", que j'ai eu le plaisir de lire.

— Aleksandr Blekh

Le problème principal est de décider pour quels types de problèmes la linéarité doit être attendue, sinon permettre aux relations d'être non linéaires comme le permet la taille de l'échantillon. La plupart des processus en biologie, sciences sociales et autres domaines sont non linéaires. Les seules situations où j'attends des relations linéaires sont:

Mécanique newtonienne
$Y$ $Y$

$Y$

Je vois rarement une relation partout linéaire dans un grand ensemble de données.

La décision d'inclure les non-linéarités dans les modèles de régression ne vient pas tant d'un principe statistique global mais plutôt de la façon dont le monde fonctionne. Une exception est lorsqu'un cadre statistique sous-optimal a été choisi et que des non-linéarités ou des termes d'interaction doivent être introduits juste pour compenser un mauvais choix du cadre. Des termes d'interaction peuvent parfois être nécessaires pour compenser les effets principaux de la sous-modélisation (par exemple, en supposant la linéarité). D'autres effets principaux peuvent être nécessaires pour compenser la perte d'informations résultant de la sous-modélisation des autres effets principaux.

Les chercheurs agonisent parfois sur l'opportunité d'inclure une certaine variable alors qu'ils sous-adaptent une foule d'autres variables en les forçant à agir de façon linéaire. D'après mon expérience, l'hypothèse de linéarité est l'une des hypothèses les plus violées qui importent fortement.

— Frank Harrell
source

+1 Dr. Harrell, merci pour votre précieuse réponse. Je comprends vos points. Cependant, je suis également curieux de savoir (et c'était en fait l'essence de ma question) les situations, lorsque le chercheur ou le data scientist doit introduire des composants non linéaires supplémentaires en raison de théories statistiques ou de divers problèmes (notamment statistiques, données, méthodologie, etc. .), et non les théories du domaine. J'apprécierais vos idées à ce sujet.

— Aleksandr Blekh

La linéarité dépend autant (ou plus) des données que du processus. La plupart des processus dans la plupart des domaines sont linéaires lorsqu'ils sont examinés sur une plage suffisamment étroite (c'est pourquoi le calcul est si largement utile) et sont non linéaires sur une plage suffisamment large (y compris les processus mécaniques). Bien qu'il soit correct de suggérer que presque tout peut apparaître non linéaire lorsqu'une taille d'échantillon suffisamment grande est disponible, peut-être une façon plus pragmatique de formuler le problème serait de savoir comment décider quand il est utile d'adopter un modèle linéaire.

— whuber

@whuber: Merci pour votre commentaire. Très utile. Maintenant, je comprends mieux la (non) linéarité sous deux angles : théorique (domaine) et centré sur les données . Je suis toujours curieux de connaître les perspectives statistiques et / ou méthodologiques de l'introduction d'une non-linéarité supplémentaire en raison d' hypothèses statistiques , de problèmes (c'est-à-dire post-EDA) ou d'aspects similaires. Donc, en plus de votre proposition de cadrage de la question, je suis également intéressé par le cadre de prise de décision pour savoir quand il est utile d'adopter un modèle non linéaire .

— Aleksandr Blekh

"La plupart des processus dans la plupart des domaines sont linéaires lorsqu'ils sont examinés sur une plage suffisamment étroite (c'est pourquoi le calcul est si largement utile) et ne sont pas linéaires sur une plage suffisamment large", bien qu'extrêmement évident pour quiconque a suivi un cours de calcul, il s'agit d'un ouverture des yeux pour moi. Merci Dr @whuber +1.

— mugen

@Aleksandr Blekh cherchez-vous, par exemple, un test statistique ou un tracé résiduel qui vous donnera une raison statistique (par opposition à une raison provenant de la théorie sous-jacente) pour justifier l'utilisation d'un modèle non linéaire?

— mugen

y_{i} = α + β x_{i} + ε_{i}

$y_i=\alpha +\beta x_i+\varepsilon_i$

y_{i} = α + β x_{i} + γ x_{i}^{2} + ε_{i}

$y_i=\alpha +\beta x_i+\gamma x_i^2+\varepsilon_i$

γ

$\gamma$ est significatif, cela peut être le cas pour un modèle non linéaire. L'intuition est, bien sûr, l'expansion de Taylor. Si vous avez une fonction linéaire, seule la dérivée première doit être différente de zéro. Pour les fonctions non linéaires, les dérivées d'ordre supérieur seraient non nulles.

y_{i} = α + β max (0, x_{i}) + γ min (0, x_{i}) + ε_{i}

$y_i=\alpha +\beta \max(0,x_i)+\gamma \min(0,x_i)+\varepsilon_i$

γ \neq β

$\gamma\ne\beta$

x^{a -} = min (x, a)

$x^{a-}=\min(x,a)$

x^{a +} = max (x, a)

$x^{a+}=\max(x,a)$

x

$x$

x = a

$x=a$ . Vous pouvez avoir plusieurs pentes pour la même variable dans différentes régions. Si ma spline linéaire est significative, je joue avec des points de nœuds et je l'utilise, ou je pense à des modèles non linéaires.

Ce n'est pas l'approche systématique, mais ce n'est qu'une des choses que je fais toujours.

— Aksakal
source

+1 Perspectives intéressantes. Merci du partage - c'est bon à savoir. Ce que j'aimerais avoir (ou même préparer), c'est un cadre / flux de travail cohérent d'approches similaires (grandes et petites) avec un raisonnement de base sous-jacent. Pensez-vous que la création d'un tel cadre serait 1) faisable et 2) utile pour d'autres personnes?

— Aleksandr Blekh

@AleksandrBlekh, je ne pense pas qu'il soit possible de créer le cadre universel. La plus générale des séries chronologiques est Box-Jenkins.

— Aksakal

Les tests statistiques pour la sélection des modèles fausseront les estimations et en particulier les erreurs standard.

— Frank Harrell

y_{i} = β_{2} x_{i}^{2} + ε_{i}

$y_i=\beta_2 x_i^2+\varepsilon_i$

@ssdecontrol: Voir Venables (1998), "Exegeses on linear models", S-Plus Users 'Conference, Washington DC pour en savoir plus sur l'heuristique de la série Taylor.

— Scortchi - Réintégrer Monica