Test de Kolmogorov-Smirnov?

J'étudie les perturbations causées par le trafic maritime à un petit oiseau de mer. J'ai observé des animaux focaux pendant un certain temps et j'ai noté s'ils volaient ou non de l'eau pendant l'observation. Cet oiseau particulier ne vole pas à des probabilités élevées lorsqu'il n'est pas dérangé (environ 10% du temps). Post hoc, j'ai ajouté la distance du navire le plus proche à chaque observation (les navires d'intérêt avaient des localisateurs GPS enregistrant un point toutes les 5 secondes).

J'ai tracé la fonction de distribution cumulative pour TOUTES les observations et pour les observations où l'oiseau s'est envolé de l'eau en fonction de la distance jusqu'au navire le plus proche. Comme prévu, la majorité des observations dans lesquelles l'oiseau a volé ont été observées lorsque le navire était proche.

tracé ecdf, voler, ne pas voler, tous obs

Puis-je utiliser le test de Kolmogorov-Smirnov pour tester s'il existe une différence statistique dans la distribution des observations de vol et des observations totales? Ma pensée est que si ces deux distributions sont différentes, cela suggérerait que la distance du navire a une influence sur le vol. Je m'inquiète car ces fonctions de distribution ne sont pas indépendantes car les observations de vol sont un sous-ensemble des observations totales.

Pensées?

Après avoir lu un peu plus loin sur ce site je pense pouvoir tester la distribution des observations dans lesquelles le vol s'est produit (F) par rapport à la distribution des observations dans lesquelles il ne s'est pas produit (NF) car elles sont indépendantes. Si ces distributions sont les mêmes F = NF, alors nous pouvons supposer que la distribution de (F) et (TOT = toutes les observations) sont les mêmes que nous savons que la distribution de (F) est égale à elle-même et (F) + (T) = (TOT). Droite?

MISE À JOUR: 2/12/14

Suite aux suggestions de @Scortchi, j'ai étudié la relation entre l'incidence du vol et la distance au navire le plus proche dans un cadre de régression logistique. Il y avait une légère relation présente (pente négative) mais la valeur de p n'était pas significative, suggérant que la vraie pente pourrait être nulle. Sur la base des statistiques de descente (y compris les parcelles ecdf), je soupçonnais que l'effet des navires proches était noyé par les nombreuses observations lorsque le navire n'affectait pas le comportement. J'ai ensuite utilisé le package R segmenté ( http://cran.r-project.org/web/packages/segmented/segmented.pdf) pour essayer de trouver un point d'arrêt dans le modèle. Le programme a révélé que la rupture des données à 2,6 km du navire et l'ajustement de deux coefficients distincts étaient meilleurs que le modèle à coefficient unique. Le coefficient de pente des approches rapprochées des navires était négatif et suggère que les navires affectent la réponse en vol jusqu'à environ 2,6 km (valeur p <0,001). Le coefficient de la deuxième pente était légèrement positif, mais la valeur de p n'était pas significative au niveau de 0,05 alpha (valeur de p = 0,11). Donc, en résumé, la ligne de régression segmentée a pu détecter une différence de seuil à laquelle la probabilité de vol augmente. L'estimation de la probabilité de vol lorsque le navire fait plus de 2,6 km est de 0,11. À juste titre, j'ai observé 79 oiseaux quand aucun navire n'était même dans la baie d'étude (>

Merci pour toutes les suggestions. J'espère que cette question ainsi que les suggestions et réponses aideront les autres.

kolmogorov-smirnov

— marcellt
source

Pourquoi pas une régression logistique avec vol / n'a pas volé comme réponse, et la distance au navire le plus proche comme prédicteur?

— Scortchi - Réintégrer Monica

J'ai essayé ça. L'ordonnée à l'origine est importante mais pas la pente. Il y a trop de bruit (vol) dans les données à des distances non pertinentes sur le plan biologique. C'est le vol naturel qui se produit chez cette espèce. J'essaie de déterminer la distance à laquelle le navire affecte le vol afin de pouvoir regrouper les observations comme «en présence» ou «en l'absence» de navires. Je pense que la distance maximale ou le point auquel la statistique D est calculée pourrait me rapprocher de cet objectif.

— marcellt

Mauvaise idée - voir ici . Et l'utilisation de la variable de réponse pour décider où rompre une variable continue est particulièrement mauvaise, biaisant les estimations de coefficient. Avez-vous vérifié la courbure dans la relation du logit de la réponse au prédicteur?

— Scortchi - Réintégrer Monica

Rien de mal à votre test (F vs NF), ou à déterminer la distance à laquelle les ECDF sont les plus éloignés; mais (a) utiliser vos données pour définir des groupes de contrôle et de traitement, puis tester / modéliser les mêmes données sur ces groupes n'est pas valide; (b) à moins que vous ne pensiez vraiment qu'il existe une distance au-delà de laquelle les oiseaux ne sont pas affectés et dans laquelle ils sont affectés, c'est une mauvaise façon de le modéliser même pour les données futures; c) compte tenu des différences évidentes entre les ECDF, une régression logistique convenablement spécifiée devrait montrer un effet significatif de la distance des navires sur la probabilité de vol.

— Scortchi - Réintégrer Monica

(i) Vous ne voulez vraiment pas comparer (A vs A + B) car vous perdez l'indépendance des deux et tout test devra être ajusté pour cela (ce qui sera délicat dans de nombreux cas). Testez A vs B et gardez l'indépendance. Aucun des tests standard ne fonctionnera autrement. (ii) vous voulez éviter de discrétiser les prédicteurs si cela peut être évité.

— Glen_b -Reinstate Monica

Problème intéressant. J'ai deux réflexions, une générale et une sur la façon de caractériser vos données ...

Tout d'abord, en ce qui concerne la comparaison des distributions, je suis d'accord avec @Glen_b et @Scortchi que vous ne voulez pas comparer Fly vs All comme indiqué dans votre graphique (mais bonne idée de superposer le tracé de la statistique D). Parce que vous avez une forte conviction quant à l' endroit où les distributions sont susceptibles d'être différentes, et pas seulement qu'elles sont différentes, vous voudrez peut-être envisager de comparer les quantiles des deux distributions. Il y a un joli billet de blog sur le sujet qui fonctionne à travers le code R pour développer la méthode de test. Et il existe un package R, WRS , qui implémente des méthodes de test basées sur les quantiles.

Deuxièmement, j'envisagerais d'abandonner complètement l'utilisation d'un test de comparaison formel et d'utiliser plutôt le poids de la preuve (WOE). Cette approche est couramment utilisée dans les industries qui ont besoin de cadres de décision traitant de différents niveaux de risque pour différents prédicteurs. Les exemples incluent la souscription d'assurance, l'évaluation de crédit et les essais cliniques.

Dans votre environnement, il existe un «risque» de vol de référence (vous avez dit 10%), mais les chances de vol semblent augmenter considérablement en présence de navires à certaines distances. En utilisant l'approche WOE, vous pouvez transmettre le changement des chances de vol en fonction de la distance d'un navire, ce qui est facile à comprendre pour les non-initiés (enfin, au moins plus facile que de comprendre les valeurs de p associées aux statistiques de test). Notez que cela est étroitement lié à la suggestion de @ Scortchi d'utiliser la régression logistique, mais avec WOE, vous n'essayez pas d'adapter un modèle de régression.

Il existe une bonne documentation sur le site Web de Statistica pour appliquer la méthode, mais la meilleure introduction que j'ai trouvée se trouve dans un livre Credit Scoring, Response Modeling and Insurance Rating: A Practical Guide to Forecasting Consumer Behavior . Si vous recherchez le terme «WOE», vous trouverez plusieurs sections discutant de l'idée, et la section 5.1 présente un exemple complet de calcul de WOE (c'est assez facile) et d'évaluation des résultats pour la prise de décision. Enfin, notez qu'il existe un article stackoverflow sur ce sujet, qui n'est pas très développé, mais il existe un lien vers PDF parcourant un autre exemple dans le contexte du codage SAS.

— Josh Hemann
source