"Y a-t-il un meilleur mot pour cette distribution?"
Il existe une distinction intéressante entre l'utilisation de mots pour décrire les propriétés de la distribution et la recherche d'un "nom" pour la distribution afin que vous puissiez l'identifier comme (approximativement) une instance d'une distribution standard particulière: une pour laquelle une formule ou des tableaux statistiques peuvent exister pour sa fonction de distribution, et pour lesquels vous pouvez estimer ses paramètres. Dans ce dernier cas, vous utilisez probablement la distribution nommée, par exemple "normal / gaussien" (les deux termes sont généralement synonymes), comme un modèle qui capture certaines des caractéristiques clés de vos données, plutôt que de revendiquer la population de vos données. tirés d' exactement suit cette distribution théorique. Pour citer légèrement George Box,tous les modèles sont "faux", mais certains sont utiles. Si vous pensez à l'approche de modélisation, il convient de considérer les fonctionnalités que vous souhaitez intégrer et la complexité ou la parcimonie que vous souhaitez que votre modèle soit.
Le fait d'être biaisé positivement est un exemple de description d'une propriété de la distribution, mais ne permet pas de spécifier quelle distribution standard est "le" modèle approprié. Cela exclut certains candidats, par exemple la distribution gaussienne (c'est-à-dire normale) a une asymétrie nulle, il ne sera donc pas approprié de modéliser vos données si l'inclinaison est une caractéristique importante. Il peut y avoir d'autres propriétés des données qui sont importantes pour vous aussi, par exemple qu'elles sont unimodales (a un seul pic) ou qu'elles sont limitées entre 0 et 24 heures (ou entre 0 et 1, si vous les écrivez sous forme de fraction du jour), ou qu'il existe une masse de probabilité concentrée à zéro (car il y a des gens qui ne regardent pas du tout YouTube sur un jour donné).kurtosis . Et il convient de garder à l'esprit que même si votre distribution avait une forme de "bosse" ou de "courbe en cloche" et avait un biais nul ou presque nul, il ne s'ensuit pas automatiquement que la distribution normale est "correcte" pour elle! D'un autre côté, même si la population à partir de laquelle vos données sont tirées suivait précisément une distribution particulière en raison d' une erreur d'échantillonnagevotre jeu de données peut ne pas lui ressembler. Les petits ensembles de données sont susceptibles d'être "bruyants", et il peut être difficile de savoir si certaines caractéristiques que vous pouvez voir, par exemple de petites bosses supplémentaires ou des queues asymétriques, sont des propriétés de la population sous-jacente à partir de laquelle les données ont été tirées (et devraient donc peut-être être incorporées dans votre modèle) ou s’ils ne sont que des artefacts provenant de votre échantillon particulier (et à des fins de modélisation doivent être ignorés). Si vous disposez d'un petit ensemble de données et que l'asymétrie est proche de zéro, il est même plausible que la distribution sous-jacente soit en fait symétrique. Plus votre ensemble de données est grand et plus l'asymétrie est grande, moins cela devient plausible - mais pendant que vous puissiez effectuer un test de signification pour voir à quel point les preuves fournies par vos données sur l'asymétrie dans la population à partir desquelles elles sont tirées sont convaincantes, cela peut manquer de savoir si une distribution normale (ou une autre asymétrie zéro) est appropriée comme modèle ...
Quelles propriétés des données importent vraiment aux fins que vous souhaitez modéliser? Notez que si l'inclinaison est raisonnablement petite et que vous ne vous en souciez pas beaucoup, même si la population sous-jacente est véritablement asymétrique , alors vous pourriez toujours trouver la distribution normale un modèle utile pour approximer cette vraie distribution des heures de visionnage. Mais vous devez vérifier que cela ne finit pas par faire des prédictions stupides. Parce qu'une distribution normale n'a pas de valeur la plus élevée ou la plus basse possible, bien que des valeurs extrêmement élevées ou basses deviennent de plus en plus improbables, vous constaterez toujours que votre modèle prédit qu'il y a un certainprobabilité de regarder un nombre d'heures négatif par jour, ou plus de 24 heures. Cela devient plus problématique pour vous si la probabilité prédite de tels événements impossibles devient élevée. Une distribution symétrique comme la normale prédira qu'autant de personnes surveilleront des durées plus de 50% au-dessus de la moyenne, par exemple, que moins de 50% au-dessous de la moyenne. Si les temps d'observation sont très biaisés, ce type de prédiction peut également être si invraisemblable qu'il est stupide et vous donner des résultats trompeurs si vous prenez les résultats de votre modèle et les utilisez comme entrées à d'autres fins (par exemple, vous exécute une simulation des heures de visionnage afin de calculer la planification optimale de la publicité). Si l'asymétrie est si remarquable que vous souhaitez la capturer dans le cadre de votre modèle, laune distribution normale asymétrique peut être plus appropriée. Si vous voulez capturer à la fois l'asymétrie et le kurtosis, alors considérez le t asymétrique . Si vous souhaitez incorporer les limites supérieures et inférieures physiquement possibles, envisagez d'utiliser les versions tronquées de ces distributions. Il existe de nombreuses autres distributions de probabilités qui peuvent être asymétriques et unimodales (pour les choix de paramètres appropriés) telles que les distributions F ou gamma , et encore une fois, vous pouvez les tronquer afin qu'elles ne prédisent pas des temps d'observation incroyablement élevés. Une distribution bêtapeut être un bon choix si vous modélisez la fraction de la journée passée à regarder, car elle est toujours limitée entre 0 et 1 sans qu'une troncature supplémentaire soit nécessaire. Si vous souhaitez intégrer la concentration de probabilité à exactement zéro en raison des non-observateurs, envisagez de construire dans un modèle d'obstacle .
Mais au moment où vous essayez d'intégrer toutes les fonctionnalités que vous pouvez identifier à partir de vos données et de créer un modèle toujours plus sophistiqué, vous devriez peut-être vous demander pourquoi vous faites cela? Y aurait-il un avantage à un modèle plus simple, par exemple qu'il serait plus facile de travailler avec des mathématiques ou d'avoir moins de paramètres à estimer? Si vous craignez qu'une telle simplification ne vous permette de saisir toutes les propriétés qui vous intéressent, il se peut fort bien qu'aucune distribution "standard" ne fasse exactement ce que vous voulez. Cependant, nous ne sommes pas limités à travailler avec des distributions nommées dont les propriétés mathématiques ont été élucidées précédemment. Envisagez plutôt d'utiliser vos données pour construire une fonction de distribution empirique. Cela capturera tout le comportement qui était présent dans vos données, mais vous ne pouvez plus lui donner un nom comme "normal" ou "gamma", ni appliquer des propriétés mathématiques qui ne concernent qu'une distribution particulière. Par exemple, la règle "95% des données se situe à moins de 1,96 écart-type de la moyenne" s'applique aux données normalement distribuées et peut ne pas s'appliquer à votre distribution; notez cependant que certaines règles s'appliquent à toutes les distributions, par exemple l'inégalité de Chebyshev garantit au moins75% de vos données doivent se situer dans les deux écarts-types de la moyenne, quel que soit le biais. Malheureusement, la distribution empirique héritera également de toutes les propriétés de votre ensemble de données résultant purement d'une erreur d'échantillonnage, pas seulement celles possédées par la population sous-jacente, vous pouvez donc trouver un histogramme de votre distribution empirique avec quelques bosses et creux que la population elle-même ne fait pas . Vous voudrez peut-être étudier les fonctions de distribution empirique lissées , ou mieux encore, augmenter la taille de votre échantillon.
En résumé: bien que la distribution normale ait une asymétrie nulle, le fait que vos données soient asymétriques n'exclut pas la distribution normale en tant que modèle utile, même si cela suggère qu'une autre distribution peut être plus appropriée. Vous devez tenir compte d'autres propriétés des données lors du choix de votre modèle, en plus de l'inclinaison, et tenir compte également des fins pour lesquelles vous allez utiliser le modèle. Il est sûr de dire que votre véritable population de temps de visionnage ne suit pas exactement une distribution célèbre et nommée, mais cela ne signifie pas qu'une telle distribution est vouée à être inutile comme modèle. Cependant, à certaines fins, vous préférerez peut-être simplement utiliser la distribution empirique elle-même, plutôt que d'essayer de lui ajuster une distribution standard.