J'ai un problème qui, je pense, devrait être simple, mais je n'arrive pas à le comprendre. Je regarde la pollinisation des graines, j'ai des plantes (n = 36) qui fleurissent en grappes, j'échantillon 3 grappes de fleurs de chaque plante et 6 gousses de graines de chaque grappe (18 gousses de graines au total de chaque plante). Une gousse peut avoir entre 0 et au plus 4 graines pollinisées. Ainsi, les données sont comptées, avec une limite supérieure. Je trouve qu'en moyenne ~ 10% des graines sont pollinisées, mais entre 1 et 30% sur une plante donnée, donc sur des données dispersées, et bien sûr, il y a 4 répliques de grappes manquantes sur 3 plantes, donc pas parfaitement symétriques .
La question que je pose est de savoir si ces données soutiennent l'idée que cette plante nécessite des pollinisateurs pour la production de graines.
Je trouve que la distribution du nombre de graines dans une gousse semble être plus de 0 gousses pollinisées (6-9 gousses sur 16) et plus de 3 et 4 gousses pollinisées (2-4 pour chacune) que ne le ferait s’attendre à ce que les graines de la population soient pollinisées au hasard. Fondamentalement, je pense que c'est un exemple classique de données zéro gonflées, d'abord un insecte visite ou ne visite pas du tout la fleur (un générateur zéro) et si c'est le cas, puis pollinise 0-4 des graines dans une autre distribution. L'hypothèse alternative est que la plante est partiellement autofécondée, et on s'attendrait alors à ce que chaque graine ait la même probabilité d'être pollinisée (ces données suggèrent une chance d'environ 0,1, ce qui signifie 0,01 chance pour deux graines dans la même gousse, etc.) .
Mais je veux simplement démontrer que les données correspondent le mieux à l'une ou l'autre distribution, pas réellement FAIRE un ZIP ou un ZINB sur les données. Je pense que quelle que soit la méthode que j'utilise, elle devrait tenir compte du nombre réel de graines pollinisées et du nombre de gousses échantillonnées sur chaque plante. La meilleure chose que j'ai trouvée est de faire une sorte de sangle de démarrage où j'assigne simplement au hasard le nombre de graines pollinisées pour une plante donnée dans le nombre de gousses de graines que j'ai échantillonnées, faites-le 10000 fois et voyez combien il est probable les données expérimentales pour la plante donnée sont sorties de cette distribution aléatoire.
Je pense simplement qu'il y a quelque chose à ce sujet qui devrait être beaucoup plus facile que le bootstrap par force brute, mais après des jours de réflexion et de recherche, j'abandonne. Je ne peux pas simplement comparer à une distribution de Poisson parce que c'est la limite supérieure, ce n'est pas binomial parce que j'ai besoin de générer la distribution attendue en premier. Des pensées? Et j'utilise R, donc des conseils (en particulier sur la façon de générer le plus élégamment 10 000 distributions aléatoires de n boules dans 16 boîtes qui peuvent chacune contenir au plus 4 boules) seraient les bienvenus.
AJOUTÉ 9/07/2012 Tout d'abord, merci à tous pour tout l'intérêt et l'aide. La lecture des réponses m'a fait penser à reformuler un peu ma question. Ce que je dis, c'est que j'ai une hypothèse (que je considère pour l'instant comme nulle) selon laquelle les graines sont pollinisées au hasard entre les gousses, et mon autre hypothèse est qu'une gousse contenant au moins 1 graine pollinisée est plus susceptible de ont plusieurs graines pollinisées que l'on pourrait attendre d'un processus aléatoire. J'ai fourni des données réelles de trois usines comme exemples pour illustrer ce dont je parle. La première colonne est le nombre de graines pollinisées dans une gousse, la deuxième colonne est la fréquence des gousses avec ce nombre de graines.
plante 1 (total 3 graines: 4% de pollinisation)
num.seeds :: pod.freq
0 :: 16
1 :: 1
2 :: 1
3 :: 0
4 :: 0
plante 2 (total 19 graines: 26% de pollinisation)
num.seeds :: pod.freq
0 :: 12
1 :: 1
2 :: 1
3 :: 0
4 :: 4
plante 3 (total 16 graines: 22% de pollinisation)
num.seeds :: pod.freq
0 :: 9
1 :: 4
2 :: 3
3 :: 2
4 :: 0
Dans l'usine # 1, seulement 3 graines ont été pollinisées dans 18 gousses, une gousse avait une graine et une gousse avait deux graines. En pensant à un processus d'ajout aléatoire d'une graine aux gousses, les deux premières graines vont chacune dans leur propre gousse, mais pour la 3ème graine, il y a 6 emplacements disponibles dans les gousses qui ont déjà une graine mais 64 emplacements dans les 16 gousses sans graines, donc la probabilité la plus élevée d'une gousse avec 2 graines ici est de 6/64 = 0,094. C'est un peu faible, mais pas vraiment extrême, donc je dirais que cette plante correspond à l'hypothèse d'une pollinisation aléatoire sur toutes les graines avec une probabilité de pollinisation de ~ 4%. Mais la plante 2 me semble beaucoup plus extrême, avec 4 gousses complètement pollinisées, mais 12 gousses sans rien. Je ne sais pas exactement comment calculer les chances de cette distribution directement (d'où mon idée de bootstrap), mais je suppose que les chances que cette distribution se produise au hasard si chaque graine a environ 25% de chances de pollinisation sont assez faibles. Plant # 3 Je n'ai vraiment aucune idée, je pense qu'il y a plus de 0 et de 3 que ce à quoi on devrait s'attendre pour une distribution aléatoire mais mon instinct est que cette distribution pour ce nombre de graines est beaucoup plus probable que la distribution pour la plante # 2, et peut-être pas si improbable. Mais évidemment, je veux savoir avec certitude, et à travers toutes les usines. Je pense qu'il y a plus de 0 et de 3 que ce à quoi on devrait s'attendre pour une distribution aléatoire, mais mon intuition est que cette distribution pour ce nombre de graines est beaucoup plus probable que la distribution pour la plante # 2, et peut-être pas si improbable. Mais évidemment, je veux savoir avec certitude, et à travers toutes les usines. Je pense qu'il y a plus de 0 et de 3 que ce à quoi on devrait s'attendre pour une distribution aléatoire, mais mon intuition est que cette distribution pour ce nombre de graines est beaucoup plus probable que la distribution pour la plante # 2, et peut-être pas si improbable. Mais évidemment, je veux savoir avec certitude, et à travers toutes les usines.
En fin de compte, je cherche à écrire une déclaration comme «La distribution des graines pollinisées dans les cosses de graines correspond (ou ne correspond pas) à l'hypothèse que les plantes ne sont pas simplement partiellement auto-compatibles, mais nécessitent la visite d'un pollinisateur pour effectuer la formation de graines. (résultats du test statistique). " C'est vraiment juste une partie de ma section prospective, où je parle des expériences à mener ensuite, donc je ne veux pas désespérément que ce soit une chose ou l'autre, mais je veux savoir par moi-même, si possible. Si je ne peux pas faire ce que j'essaie de faire avec ces données, j'aimerais le savoir aussi!
J'ai posé une question assez large au début, car je suis curieux de savoir s'il existe ou non de bons tests pour montrer si les données doivent entrer dans un modèle gonflé à zéro en premier lieu. Tous les exemples que j'ai vus semblent dire - «regardez, il y a beaucoup de zéros ici, et il y a une explication raisonnable à cela, alors utilisons un modèle gonflé à zéro». C'est ce que je fais en ce moment sur ce forum, mais j'ai eu une expérience sur mon dernier chapitre où j'ai utilisé un glm de Poisson pour les données de comptage et un de mes superviseurs a dit: «Non, les glms sont trop complexes et inutiles, ces données devraient entrer dans une table de contingence ", puis m'a envoyé un vidage de données de la table de contingence massive générée par leur package de statistiques coûteux qui a donné les mêmes valeurs de p pour tous mes facteurs + interactions à trois chiffres significatifs !! Donc, j'essaie de garder les statistiques claires et simples, et assurez-vous de bien les comprendre pour défendre solidement mes choix, ce que je ne pense pas pouvoir faire pour un modèle gonflé à zéro en ce moment. J'ai utilisé à la fois un quasi-binôme (pour les plantes entières pour se débarrasser de la pesudoreplicaiton) et un modèle mixte pour les données ci-dessus pour comparer les traitements et répondre à mes principales questions expérimentales, soit semble faire le même travail, mais je vais aussi jouer avec ZINB ce soir, pour voir à quel point cela fonctionne. Je pense que si je peux démontrer explicitement que ces données sont fortement regroupées (ou gonflées à zéro) au début, puis fournir une bonne raison biologique pour que cela se produise, je serais beaucoup mieux configuré pour extraire ensuite un ZINB, que pour il suffit de comparer un à un modèle quasibinomial / mixte et de discuter car il donne de meilleurs résultats, c'est ce que je devrais utiliser. ce que je ne pense pas pouvoir faire pour un modèle gonflé zéro en ce moment. J'ai utilisé à la fois un quasi-binôme (pour les plantes entières pour se débarrasser de la pesudoreplicaiton) et un modèle mixte pour les données ci-dessus pour comparer les traitements et répondre à mes principales questions expérimentales, soit semble faire le même travail, mais je vais aussi jouer avec ZINB ce soir, pour voir à quel point cela fonctionne. Je pense que si je peux démontrer explicitement que ces données sont fortement regroupées (ou gonflées à zéro) au début, puis fournir une bonne raison biologique pour que cela se produise, je serais beaucoup mieux configuré pour extraire ensuite un ZINB, que pour il suffit de comparer un à un modèle quasibinomial / mixte et de discuter car il donne de meilleurs résultats, c'est ce que je devrais utiliser. ce que je ne pense pas pouvoir faire pour un modèle gonflé zéro en ce moment. J'ai utilisé à la fois un quasi-binôme (pour les plantes entières pour se débarrasser de la pesudoreplicaiton) et un modèle mixte pour les données ci-dessus pour comparer les traitements et répondre à mes principales questions expérimentales, soit semble faire le même travail, mais je vais aussi jouer avec ZINB ce soir, pour voir à quel point cela fonctionne. Je pense que si je peux démontrer explicitement que ces données sont fortement regroupées (ou gonflées à zéro) au début, puis fournir une bonne raison biologique pour que cela se produise, je serais beaucoup mieux configuré pour extraire ensuite un ZINB, que pour il suffit de comparer un à un modèle quasibinomial / mixte et de discuter car il donne de meilleurs résultats, c'est ce que je devrais utiliser. J'ai utilisé à la fois un quasi-binôme (pour les plantes entières pour se débarrasser de la pesudoreplicaiton) et un modèle mixte pour les données ci-dessus pour comparer les traitements et répondre à mes principales questions expérimentales, soit semble faire le même travail, mais je vais aussi jouer avec ZINB ce soir, pour voir à quel point cela fonctionne. Je pense que si je peux démontrer explicitement que ces données sont fortement regroupées (ou gonflées à zéro) au début, puis fournir une bonne raison biologique pour que cela se produise, je serais beaucoup mieux configuré pour extraire ensuite un ZINB, que pour il suffit de comparer un à un modèle quasibinomial / mixte et de discuter car il donne de meilleurs résultats, c'est ce que je devrais utiliser. J'ai utilisé à la fois un quasi-binôme (pour les plantes entières pour se débarrasser de la pesudoreplicaiton) et un modèle mixte pour les données ci-dessus pour comparer les traitements et répondre à mes principales questions expérimentales, soit semble faire le même travail, mais je vais aussi jouer avec ZINB ce soir, pour voir à quel point cela fonctionne. Je pense que si je peux démontrer explicitement que ces données sont fortement regroupées (ou gonflées à zéro) au début, puis fournir une bonne raison biologique pour que cela se produise, je serais beaucoup mieux configuré pour extraire ensuite un ZINB, que pour il suffit de comparer un à un modèle quasibinomial / mixte et de discuter car il donne de meilleurs résultats, c'est ce que je devrais utiliser.
Mais je ne veux pas trop distraire de ma question principale, comment puis-je déterminer si mes données sont vraiment plus gonflées que prévu à partir d'une distribution aléatoire? Dans mon cas, la réponse à cela est ce qui m'intéresse vraiment, l'avantage possible pour la justification du modèle étant un bonus.
Merci encore pour tout votre temps et votre aide!
À la vôtre, BWGIA