Presque tout ce que j'ai lu sur la régression linéaire et GLM se résume à ceci: où est une fonction non croissante ou non décroissante de et est le paramètre que vous estimer et tester des hypothèses sur. Il existe des dizaines de fonctions de liaison et de transformations de et pour faire de une fonction linéaire de .
Maintenant, si vous supprimez l'exigence non croissante / non décroissante pour , je ne connais que deux choix pour ajuster un modèle paramétrique linéarisé: les fonctions trigonométriques et les polynômes. Les deux créent une dépendance artificielle entre chaque prédit et l'ensemble entier de , ce qui en fait un ajustement très non robuste, sauf s'il existe des raisons préalables de croire que vos données sont réellement générées par un processus cyclique ou polynomial.X
Ce n'est pas une sorte de cas de bord ésotérique. C'est la relation réelle et sensée entre l'eau et les rendements des cultures (une fois que les parcelles sont suffisamment profondes sous l'eau, les rendements des cultures commenceront à diminuer), ou entre les calories consommées au petit-déjeuner et les performances d'un quiz mathématique, ou le nombre de travailleurs dans une usine et le nombre de widgets qu'ils produisent ... en bref, presque tous les cas de la vie réelle pour lesquels des modèles linéaires sont utilisés, mais avec des données couvrant une gamme suffisamment large pour que vous puissiez dépasser les rendements décroissants en rendements négatifs.
J'ai essayé de chercher les termes «concave», «convexe», «curviligne», «non monotone», «baignoire», et j'oublie combien d'autres. Peu de questions pertinentes et encore moins de réponses utilisables. Donc, en termes pratiques, si vous aviez les données suivantes (code R, y est une fonction de la variable continue x et du groupe de variables discrètes):
updown<-data.frame(y=c(46.98,38.39,44.21,46.28,41.67,41.8,44.8,45.22,43.89,45.71,46.09,45.46,40.54,44.94,42.3,43.01,45.17,44.94,36.27,43.07,41.85,40.5,41.14,43.45,33.52,30.39,27.92,19.67,43.64,43.39,42.07,41.66,43.25,42.79,44.11,40.27,40.35,44.34,40.31,49.88,46.49,43.93,50.87,45.2,43.04,42.18,44.97,44.69,44.58,33.72,44.76,41.55,34.46,32.89,20.24,22,17.34,20.14,20.36,24.39,22.05,24.21,26.11,28.48,29.09,31.98,32.97,31.32,40.44,33.82,34.46,42.7,43.03,41.07,41.02,42.85,44.5,44.15,52.58,47.72,44.1,21.49,19.39,26.59,29.38,25.64,28.06,29.23,31.15,34.81,34.25,36,42.91,38.58,42.65,45.33,47.34,50.48,49.2,55.67,54.65,58.04,59.54,65.81,61.43,67.48,69.5,69.72,67.95,67.25,66.56,70.69,70.15,71.08,67.6,71.07,72.73,72.73,81.24,73.37,72.67,74.96,76.34,73.65,76.44,72.09,67.62,70.24,69.85,63.68,64.14,52.91,57.11,48.54,56.29,47.54,19.53,20.92,22.76,29.34,21.34,26.77,29.72,34.36,34.8,33.63,37.56,42.01,40.77,44.74,40.72,46.43,46.26,46.42,51.55,49.78,52.12,60.3,58.17,57,65.81,72.92,72.94,71.56,66.63,68.3,72.44,75.09,73.97,68.34,73.07,74.25,74.12,75.6,73.66,72.63,73.86,76.26,74.59,74.42,74.2,65,64.72,66.98,64.27,59.77,56.36,57.24,48.72,53.09,46.53),
x=c(216.37,226.13,237.03,255.17,270.86,287.45,300.52,314.44,325.61,341.12,354.88,365.68,379.77,393.5,410.02,420.88,436.31,450.84,466.95,477,491.89,509.27,521.86,531.53,548.11,563.43,575.43,590.34,213.33,228.99,240.07,250.4,269.75,283.33,294.67,310.44,325.36,340.48,355.66,370.43,377.58,394.32,413.22,428.23,436.41,455.58,465.63,475.51,493.44,505.4,521.42,536.82,550.57,563.17,575.2,592.27,86.15,91.09,97.83,103.39,107.37,114.78,119.9,124.39,131.63,134.49,142.83,147.26,152.2,160.9,163.75,172.29,173.62,179.3,184.82,191.46,197.53,201.89,204.71,214.12,215.06,88.34,109.18,122.12,133.19,148.02,158.72,172.93,189.23,204.04,219.36,229.58,247.49,258.23,273.3,292.69,300.47,314.36,325.65,345.21,356.19,367.29,389.87,397.74,411.46,423.04,444.23,452.41,465.43,484.51,497.33,507.98,522.96,537.37,553.79,566.08,581.91,595.84,610.7,624.04,637.53,649.98,663.43,681.67,698.1,709.79,718.33,734.81,751.93,761.37,775.12,790.15,803.39,818.64,833.71,847.81,88.09,105.72,123.35,132.19,151.87,161.5,177.34,186.92,201.35,216.09,230.12,245.47,255.85,273.45,285.91,303.99,315.98,325.48,343.01,360.05,373.17,381.7,398.41,412.66,423.66,443.67,450.39,468.86,483.93,499.91,511.59,529.34,541.35,550.28,568.31,584.7,592.33,615.74,622.45,639.1,651.41,668.08,679.75,692.94,708.83,720.98,734.42,747.83,762.27,778.74,790.97,806.99,820.03,831.55,844.23),
group=factor(rep(c('A','B'),c(81,110))));
plot(y~x,updown,subset=x<500,col=group);
Vous pourriez d'abord essayer une transformation de Box-Cox et voir si cela avait un sens mécanique, et à défaut, vous pourriez adapter un modèle des moindres carrés non linéaires avec une fonction de lien logistique ou asymptotique.
Alors, pourquoi devriez-vous abandonner complètement les modèles paramétriques et vous rabattre sur une méthode de boîte noire comme les splines lorsque vous découvrez que l'ensemble de données complet ressemble à ceci ...
plot(y~x,updown,col=group);
Mes questions sont:
- Quels termes dois-je rechercher pour trouver des fonctions de lien qui représentent cette classe de relations fonctionnelles?
ou
- Que dois-je lire et / ou rechercher pour m'apprendre à concevoir des fonctions de lien avec cette classe de relations fonctionnelles ou à étendre celles existantes qui ne sont actuellement que pour des réponses monotones?
ou
- Heck, même quelle balise StackExchange est la plus appropriée pour ce type de question!
R
code contient des erreurs de syntaxe: group
ne doit pas être cité. (2) L'intrigue est magnifique: les points rouges présentent une relation linéaire tandis que les noirs peuvent être ajustés de plusieurs façons, y compris une régression linéaire par morceaux (obtenue avec un modèle de point de changement) et peut-être même comme exponentielle. Cependant, je ne les recommande pas , car les choix de modélisation doivent être éclairés par une compréhension de ce qui a produit les données et motivés par les théories dans les disciplines pertinentes. Ils pourraient être un meilleur début pour votre recherche.