Qu'est-ce que le Big Data?


44

On m'a posé à plusieurs reprises la question:

Qu'est-ce que le Big Data?

À la fois par les étudiants et mes parents qui attirent l'attention sur les statistiques et ML.

J'ai trouvé ce CV-post . Et je sens que je suis d’accord avec la seule réponse possible.

La page Wikipedia contient également quelques commentaires, mais je ne suis pas sûr d’être vraiment d’accord avec tout ce qu’il contient.

EDIT: (j’ai le sentiment que la page Wikipedia n’explique pas suffisamment les méthodes pour y remédier et le paradigme que je mentionne ci-dessous) .

J'ai récemment assisté à une conférence d' Emmanuel Candès , où il a présenté le paradigme du Big-Data:

Recueillez d'abord les données Posez des questions plus tard

C'est la principale différence par rapport à la recherche fondée sur des hypothèses, dans laquelle vous formulez d'abord une hypothèse, puis collectez des données pour en dire quelque chose.

Il s'est beaucoup intéressé aux questions de quantification de la fiabilité des hypothèses générées par le snooping de données. La principale chose que j’ai tirée de son exposé est que nous devons vraiment commencer à contrôler le FDR et il a présenté la méthode d’ imitation pour le faire.

Je pense que CV devrait avoir une question sur ce qui est Big Data et quelle est votre définition à ce sujet. Je pense qu'il y a tellement de "définitions" différentes qu'il est difficile de vraiment comprendre ce qu'il en est, ou de l'expliquer à d'autres, s'il n'y a pas de consensus général sur son contenu.

Je pense que la "définition / paradigme / description" fournie par Candès est la chose la plus proche sur laquelle je suis d’accord, quelles sont vos pensées?

EDIT2: Je pense que la réponse devrait fournir plus que simplement une explication des données elles-mêmes. Ce devrait être une combinaison de données / méthodes / paradigme.

EDIT3: Je pense que cette interview avec Michael Jordan pourrait également ajouter quelque chose à la table.

EDIT4: J'ai décidé de choisir la réponse la plus votée comme étant la bonne. Bien que je pense que toutes les réponses ajoutent quelque chose à la discussion et j’ai le sentiment que c’est plutôt une question de paradigme quant à la façon dont nous générons des hypothèses et travaillons avec des données. J'espère que cette question servira de réservoir de références pour ceux qui cherchent ce qu'est le Big Data. J'espère que la page Wikipedia sera modifiée pour mettre davantage l'accent sur le problème de la comparaison multiple et du contrôle du FDR.


55
"Le Big Data, c'est comme le sexe chez les adolescentes: tout le monde en parle, personne ne sait vraiment comment le faire, tout le monde pense que tout le monde le fait, alors tout le monde prétend le faire." Simon Matthews
Alexander Lutsenko

4
cette citation n'est plus valide. Les gens font beaucoup de travaux extraordinaires récemment. Si vous regardez les compétitions sur Kaggle, les entreprises améliorent leur activité et gagnent beaucoup d’argent en ne dépensant pas beaucoup d’argent. Vous trouverez d'autres exemples d'applications Big Data ici: linkedin.com/pulse/ ...
Metariat

5
@ XuanQuangDO, je suis d'accord. Ne prenez pas cette citation au sérieux.
Alexander Lutsenko

6
@XuanQuangDO: eh bien, je suis sûr que certains adolescents ont des relations sexuelles extraordinaires, mais cela ne change rien au fait qu'il y a aussi beaucoup de tâtonnements incompétents ou égarés, que les gens vont se moquer impitoyablement ;-)
Steve Jessop

Réponses:


54

J'ai eu le plaisir d'assister à une conférence donnée par le Dr Hadley Wickham, de la renommée de RStudio. Il l'a défini de telle sorte que

  • Big Data: impossible d'insérer de la mémoire sur un ordinateur:> 1 To
  • Données moyennes: correspond à la mémoire sur un serveur: 10 Go - 1 To
  • Petites données: correspond à la mémoire d'un ordinateur portable: <10 Go

Hadley pense également que la plupart des données peuvent au moins être réduites à des problèmes gérables et qu’une très petite quantité est constituée de véritables données massives. Il appelle cela le "Big Data Mirage".

  • 90% Peut être réduit à un problème de données faible / moyen avec une sous-configuration / échantillonnage / synthèse
  • 9% Peut être réduit à un très grand nombre de petits problèmes de données
  • 1% est irréductiblement grand

Les diapositives peuvent être trouvés ici .


2
@ GuðmundurEinarsson, je viens de le modifier, merci pour cette suggestion.
Chris C

5
Bien que je ne pense pas que des limites claires existent, je pense que ce post est très perspicace. Lorsque je travaillais dans une société de logiciel, j’ai interagi avec de nombreux clients à la recherche de « solutions Big Data »; en réalité, ils ont manqué un SODIMM de 16 Go.
usεr11852 dit Rétablir Monic

2
De nos jours, avec les disques SSD de 1 To, le stockage non volatile n’est pas trop éloigné du stockage volatile. Je pense que je m'attendrais à ce que les données volumineuses dépassent 1 To, peut-être au moins 50 To ou quelque chose du genre.
Mehrdad

3
En tout respect pour vous et Hadley, les données des offres ne concernent pas uniquement le volume. Les données des offres sont généralement définies via 3V et, plus récemment, le modèle 4V (proposé par Gartner) - voir la réponse de Dawny33 ci-dessous. Cependant, certains experts (y compris de Gartner) en envisagent une autre, et avancent la dimension la plus importante, V, où V représente la valeur commerciale . Par exemple, reportez-vous à ce post et à ce post .
Aleksandr Blekh

2
@AleksandrBlekh Votre commentaire contient à la fois une discussion nuancée sur la controverse entourant les critères du "Big Data" entre experts et des références à l'appui de vos affirmations à ce sujet. Je pense que vous devriez envisager de le convertir en une réponse.
Silverfish

19

Un ensemble de données / flux est appelé Big Data, s'il répond aux quatre V

  • Le volume
  • Rapidité
  • Véracité
  • Variété

Sauf si et jusqu'à ce qu'il ne soit pas satisfait, le jeu de données ne peut pas être qualifié de Big Data.

Une réponse similaire à moi, pour référence.


Cela dit, en tant que scientifique de données; Je trouve le framework Map-Reduce vraiment sympa. Fractionner vos données, les mapper, puis les résultats de l’étape de mappage sont réduits en un seul résultat. Je trouve ce framework vraiment fascinant et comment il a profité au monde des données.

Et voici comment je résous quotidiennement le problème des données:

  1. Bases de données Columnar: Ce sont une aubaine pour les scientifiques de données. J'utilise Aws Red Shift comme magasin de données en colonnes. Il aide à exécuter des requêtes SQL complexes et joint moins pénible. Je trouve cela vraiment bien, en particulier lorsque mon équipe de développement pose des questions très complexes et que je n'ai pas besoin de dire: "Oui, j'ai lancé une requête; nous l'obtiendrions en un jour!"
  2. Spark et le cadre de réduction de la carte: les raisons ont été expliquées ci-dessus.

Et voici comment une expérience de données est effectuée:

  • Le problème à résoudre est identifié
  • Les sources de données possibles sont maintenant listées.
  • Les pipelines sont conçus pour transférer les données dans Redshift à partir de bases de données locales. Oui, Spark vient ici. C'est vraiment pratique pendant les DB -> S3 -> Redshift.
  • Ensuite, les requêtes et les analyses SQL sont effectuées sur les données dans Redshift.

Oui, il existe des algorithmes Big Data comme hyper loglog, etc. mais je n'ai pas trouvé le besoin de les utiliser.

Donc oui. Les données sont d'abord collectées avant de générer l'hypothèse.


5
Je suis d’accord avec ces choses, mais je pense que le terme Big Data recouvre quelque chose de plus que les données elles-mêmes. Ce sont aussi les méthodes qui lui sont appliquées et le paradigme de collecter d’abord les données avant de générer des hypothèses à ce sujet.
Gumeo

1
@ GuðmundurEinarsson J'étais pressé, donc je voulais vous donner la meilleure réponse en peu de temps. Donc, je l'ai maintenant édité et développé avec le flux de travail et les compréhensions de mes expériences quotidiennes avec de grandes données dans l'industrie.
Dawny33

1
Les quatre V sont inversés ici comme définissant le Big Data plutôt que d’être des propriétés remarquables importantes du Big Data. On peut faire beaucoup d'exemples de données volumineuses sans en avoir plusieurs 4 et certains sont même énumérés dans l'infographie IBM.
John

@ John Oui, les V changent beaucoup. Il y a aussi un argument pour un nouveau V ( Value )
Dawny33

1
Je ne dis pas qu'ils changent, je dis que vous inversez une description de certaines propriétés dans une définition incorrecte. C'est comme si quelqu'un leur décrivait des choses importantes au sujet d'un chien comme loyauté, rire et lécher, et que quelqu'un d'autre venait et disait que c'était la définition du chien. Cela dit, je pense que vous avez été plus sur la bonne voie en envisageant d’inverser la direction de l’analyse, mais il faut simplement l’attacher à la taille des données. Je pense qu'il y a beaucoup de bonnes façons de le faire et ce serait formidable si vous en développiez un.
John

14

Je pense que la seule définition utile du Big Data est celle qui répertorie toutes les informations relatives à un phénomène particulier. Ce que je veux dire par là, c'est que plutôt que de prélever un échantillon d'une population d'intérêt et de collecter des mesures sur ces unités, le big data collecte des mesures sur l'ensemble de la population d'intérêt. Supposons que vous soyez intéressé par les clients Amazon.com. Il est parfaitement possible pour Amazon.com de collecter des informations sur tous les achats de leurs clients, plutôt que de suivre uniquement certains utilisateurs ou uniquement certaines transactions.

Selon moi, les définitions qui dépendent de la taille de la mémoire des données elles-mêmes ont une utilité quelque peu limitée. Par cette métrique, étant donné un ordinateur suffisamment grand, aucune donnée n'est en réalité une donnée volumineuse. À la limite d'un ordinateur de très grande taille, cet argument peut sembler réducteur, mais considérons le cas de la comparaison de mon ordinateur portable grand public avec les serveurs de Google. Il est clair que j'aurais d'énormes problèmes de logistique en essayant de passer au crible un téraoctet de données, mais Google dispose des ressources nécessaires pour gérer cette tâche assez facilement. Plus important encore, la taille de votre ordinateur n'est pas une propriété intrinsèque des données . Par conséquent, définir les données uniquement en fonction de la technologie utilisée revient à mesurer la distance en fonction de la longueur de vos bras.

Cet argument n'est pas qu'un formalisme. La nécessité de schémas de parallélisation complexes et de plates-formes informatiques distribuées disparaît dès que vous disposez d'une puissance de calcul suffisante. Donc, si nous acceptons la définition selon laquelle le Big Data est trop volumineux pour tenir dans la RAM (ou bloque Excel, ou autre), alors, après la mise à niveau de nos machines, le Big Data cesse d'exister. Cela semble idiot.

Mais regardons quelques données sur le Big Data, et je l'appellerai "Big Metadata". Cet article de blog observe une tendance importante: la RAM disponible augmente plus rapidement que la taille des données, et affirme de manière provocante que "Une grande RAM mange des Big Data" - c'est-à-dire qu'avec une infrastructure suffisante, vous n'avez plus de problème de Big Data, vous venez avoir des données, et vous revenez au domaine des méthodes d'analyse conventionnelles.

De plus, les différentes méthodes de représentation ayant des tailles différentes, il n’est pas clair ce que cela signifie de définir le "big data" en référence à sa taille en mémoire. Si vos données sont construites de manière à stocker une grande quantité d’informations redondantes (c’est-à-dire que vous choisissez un codage inefficace), vous pouvez facilement dépasser le seuil de ce que votre ordinateur peut facilement gérer. Mais pourquoi voudriez-vous une définition pour avoir cette propriété? À mon avis, si le jeu de données est constitué ou non de "données volumineuses", cela ne devrait pas dépendre de savoir si vous avez fait des choix efficaces dans la conception de la recherche.

104107observations, et c'est parfaitement bien. Cela implique également que les mégadonnées, telles que je les définit, peuvent ne pas nécessiter une technologie spécialisée au-delà de ce que nous avons développé dans les statistiques classiques: les échantillons et les intervalles de confiance sont toujours des outils inférentiels parfaitement utiles et valides lorsque vous devez extrapoler. Les modèles linéaires peuvent fournir des réponses parfaitement acceptables à certaines questions. Mais les mégadonnées telles que je les définis peuvent nécessiter une nouvelle technologie. Peut-être devez-vous classer les nouvelles données dans une situation où vous avez plus de prédicteurs que de données d'apprentissage ou dans lesquels vos prédicteurs augmentent avec la taille de vos données. Ces problèmes nécessiteront une technologie plus récente.


En passant, je pense que cette question est importante car elle explique implicitement pourquoi les définitions sont importantes - c’est-à-dire pour qui définissez-vous le sujet. Une discussion sur l'addition pour les élèves de première année ne commence pas par la théorie des ensembles, elle commence par une référence au comptage d'objets physiques. D'après mon expérience, le terme "big data" est principalement utilisé dans la presse populaire ou dans les communications entre personnes qui ne sont pas des spécialistes des statistiques ou de l'apprentissage automatique (supports marketing sollicitant des analyses professionnelles, par exemple), Exprimez l’idée que les pratiques informatiques modernes signifiaient qu’il existait une mine d’informations disponibles pouvant être exploitées. C’est presque toujours dans le contexte des données révélant des informations sur les consommateurs qui sont, peut-être si pas privées, pas immédiatement évidentes.

Ainsi, la connotation et l'analyse entourant l'usage courant du "big data" emporte également l'idée que les données peuvent révéler des détails obscurs, cachés ou même privés de la vie d'une personne, à condition d'appliquer une méthode inférentielle suffisante. Quand les médias rapportent le big data, c'est généralement vers cela qu'ils se dirigent - cette dégradation de l'anonymat - définir ce que sont les "big data" semble quelque peu erroné à cet égard, car la presse populaire et les non-spécialistes ne se soucient pas du bien-fondé du hasard. les forêts et les machines à vecteurs de soutien, etc., et ils ne comprennent pas non plus les défis de l'analyse des données à différentes échelles. Et c'est bon.La préoccupation de leur point de vue est centrée sur les conséquences sociales, politiques et juridiques de l’ère de l’information. Une définition précise des médias ou des non-spécialistes n’est pas vraiment utile car leur compréhension n’est pas précise non plus. (Ne me croyez pas suffisant - j'observe simplement que tout le monde ne peut pas être expert en tout.)


7
Cette. "D'après mon expérience, le terme" big data "est principalement utilisé dans la presse populaire ou dans les communications entre des personnes qui ne sont pas des spécialistes des statistiques ou de l'apprentissage automatique (supports marketing sollicitant des analyses professionnelles, par exemple)"
Momo

2
Je pense que vous avez frappé le clou avec votre dernier paragraphe. Je pense qu’il existe un fossé très net entre la compréhension de la presse populaire et ce que les spécialistes de la statistique / ML / sciences de la science pensent de l’expression «big data». Je pense simplement qu'il faut un consensus plus clair sur ce que c'est réellement. Une raison à cela est d'avoir une référence telle que les gens ne peuvent pas manipuler le terme ou en faire un usage abusif alors que ce n'est évidemment pas applicable.
Gumeo

1
Je pense que je commence à être de plus en plus d’accord avec vous. Je pense toujours que le CV a besoin d'une question de référence, dans laquelle les personnes intéressées et sur le sujet doivent donner leur contribution. Je cherchais des questions ici et j’ai senti que cette discussion manquait.
Gumeo

1
Je pense que c'est une conversation précieuse, et je suis heureux que vous ayez posé la question! Et je suis content que vous ayez trouvé mes commentaires utiles.
Réintégrer Monica le

1
J'aime cette réponse pour plusieurs raisons. Premièrement, je pense qu'il est vraiment important de souligner que le "big data" a peu à voir avec les algorithmes utilisés pour l'analyser. La plupart d'entre eux ont entre 20 et 30 ans (forêt aléatoire, régression linéaire, etc.) et fonctionnent parfaitement. Certains industriels pensent que le "big data" s'accompagne de nouveaux algorithmes sophistiqués, car ils ne savaient probablement même pas que l'apprentissage automatique existait depuis de nombreuses années. Deuxièmement, le "big data" n’est pas une question de taille. Si vous avez un serveur disponible avec 128 Go de RAM et que vous pouvez tout mettre en mémoire, c’est génial. (suite)
skd

7

entrez la description de l'image ici

En recoupant l’énorme littérature sur le Big Data, j’ai rassemblé jusqu’à 14 termes en "V", dont 13 sur 11 dimensions:

  • Validité,
  • Valeur,
  • Variabilité / Variance,
  • Variété,
  • Rapidité,
  • Véracité / véracité,
  • Viabilité,
  • Virtualité,
  • Visualisation,
  • Volatilité,
  • Le volume.

Le 14ème terme est Vacuity. Selon un récent article provocateur, le Big Data n’existe pas . Ses points principaux sont les suivants:

  • Le «Big Data» n'est pas gros
  • La plupart des «données volumineuses» ne sont pas réellement utiles
  • [Nous devrions être] Tirer le meilleur parti des petites données

Une définition appropriée du Big Data évoluerait avec le matériel, les logiciels, les besoins et les connaissances, et ne devrait probablement pas dépendre d'une taille fixe. D'où la définition saisissable du Big Data: la prochaine frontière en matière d'innovation, de concurrence et de productivité , juin 2011:

Les "données volumineuses" désignent des ensembles de données dont la taille dépasse les capacités des outils logiciels de base de données classiques pour capturer, stocker, gérer et analyser.


1
L'article référencé "vacuité" semble terriblement faible. Cela implique que 30 Go de données / jour ne sont pas énormes (et que la taille est l'unique composant de la définition). En outre, certains affirment que, parce que les entreprises affirment que leurs données sont beaucoup plus volumineuses, elles ne sont pas volumineuses. Il n'y a pas de définition du grand donné nulle part. Et tous les exemples utilisés pour suggérer "pas grand" ont beaucoup de V énumérés ici.
Jean

La "vacuité" ne s'applique pas à la taille seulement. En effet, dans la dernière ligne, la définition de «grand» est censée évoluer avec l’état actuel des pratiques. Ce qui était grand dans le passé peut être considéré comme petit quelques années plus tard. Ici, j’utilisais le terme pour le cas où "Big Data" est utilisé comme mantra magique avec peu de substance, comme illustré dans le dessin ci-dessus.
Laurent Duval

1
Quelle est la probabilité que 14 critères commencent tous par une lettre V? Nous sommes tous des gens soucieux des statistiques ici, allez!
Aksakal

En gros, je conviens que cela visait uniquement à montrer qu'un terme comme Big data appartiendrait davantage au domaine du marketing qu'aux statistiques. Cependant, je voulais partager ma "collection" des termes que j'ai lus. Il a commencé avec 3V, puis 5V, et parfois 7 , etc. Ces termes peuvent vaguement traits d'aide au comptant sur une des données a
Laurent Duval

4

Les gens semblent se concentrer sur un gros qualificatif dans le Big Data. Cependant, la taille n'est qu'un des composants de ce terme (domaine). Il ne suffit pas que votre ensemble de données soit volumineux pour appeler votre problème (domaine) une grande quantité de données, vous avez également besoin que ce soit difficile à comprendre, à analyser et même à traiter. Certains qualifient cette fonctionnalité de non structurée , mais ce n'est pas seulement la structure mais aussi la relation floue entre différents éléments et données.

Examinons les ensembles de données selon lesquels des physiciens des hautes énergies travaillent dans des endroits tels que le CERN . Ils travaillaient avec des données de taille en pétaoctets depuis des années avant que le terme Big Data ne soit inventé. Pourtant, même maintenant, ils n'appellent pas ces données massives pour autant que je sache. Pourquoi? Comme les données sont plutôt régulières, ils savent quoi en faire. Ils ne sont peut-être pas encore en mesure d'expliquer toutes les observations et travaillent donc sur de nouveaux modèles, etc.

Nous appelons maintenant Big Data les problèmes liés aux ensembles de données dont la taille peut être générée en quelques secondes à partir du LHC au CERN. La raison en est que ces ensembles de données sont généralement constitués d'éléments de données provenant d'une multitude de sources ayant des formats différents, de relations peu claires entre les données et d'une valeur incertaine pour l'entreprise. Cela pourrait ne représenter que 1 To mais il est si difficile de traiter tout l'audio, les vidéos, les textes, la parole, etc. Ainsi, en termes de complexité et de ressources, cela dépasse les pétaoctets des données du CERN. Nous ne savons même pas s'il existe des informations utiles discernables dans nos ensembles de données.

Par conséquent, la résolution de problèmes Big Data implique l'analyse, l'extraction d'éléments de données de valeur inconnue, puis leur liaison. "Analyser" une image peut être un gros problème en soi. Vous recherchez des images de vidéosurveillance dans les rues de la ville pour savoir si les gens deviennent plus en colère et si cela a un impact sur les accidents de la route impliquant des piétons. Il y a une tonne de vidéos, vous trouvez les visages, essayez de jauger leurs humeurs par des expressions, puis associez cela au nombre de jeux de données d'accidents, de rapports de police, etc., tout en contrôlant les conditions météorologiques (précitipotation, température) et les embouteillages. Vous avez besoin des outils de stockage et d’analyse qui prennent en charge ces grands ensembles de données et qui permettent de relier efficacement les données entre eux.

Le Big Data est un problème d'analyse complexe dont la complexité provient à la fois de la taille même et de la complexité de la structure et du codage de l'information qu'il contient.


Bonne entrée. Le contraste que vous donnez entre le problème de données du LHC et celui de la vidéosurveillance est quelque chose que les gens oublient souvent.
Gumeo

3

Je pense que la raison pour laquelle les gens s'embrouillent à propos du Big Data est qu'ils n'en voient pas les avantages. La valeur des Big Data (technique) ne concerne pas seulement la quantité de données que vous pouvez collecter, mais également la modélisation prédictive, qui est finalement plus importante:

  1. La modélisation prédictive a complètement changé la façon dont nous effectuons les statistiques et les prévisions, elle nous donne une meilleure idée de nos données, car de nouveaux modèles, de nouvelles techniques peuvent mieux détecter les tendances, les bruits des données, peuvent capturer une base de données "multi". Plus nous avons de dimentions dans notre base de données, plus nous aurons de chances de créer le bon modèle. La modélisation prédictive est au cœur de la valeur du Big Data.
  2. Le Big Data (en termes de taille de données) est l’étape préliminaire et sert à servir la modélisation prédictive en: enrichissant la base de données en ce qui concerne: 1. le nombre de prédicteurs (plus de variables), 2. le nombre d’observations.

Davantage de prédicteurs, car nous sommes maintenant en mesure de capturer des données qui étaient impossibles auparavant (en raison de la puissance matérielle limitée, de la capacité limitée de traitement des données non structurées). Plus de prédicteurs signifient plus de chances d'avoir les prédicteurs significatifs, à savoir un meilleur modèle, une meilleure prédiction, une meilleure décision pour l'entreprise.

Davantage d'observations non seulement rend le modèle plus robuste au fil du temps, mais aide également le modèle à apprendre / détecter tous les modèles possibles pouvant être présentés / générés dans la réalité.


3

La difficulté du Big Data par rapport à son antonyme (vraisemblablement de petites données?) Est qu’il s’agit d’un continuum. Les spécialistes des données volumineuses se sont tournés vers l’autre côté du spectre, les petits opérateurs des données se sont tournés vers l’autre, mais il n’ya pas de ligne claire dans le sable sur laquelle tout le monde peut s’entendre.

Je regarderais les différences de comportement entre les deux. Dans les petites situations de données, vous avez un "petit" jeu de données et vous cherchez à extraire autant d'informations que possible de chacun de vos points de données. Obtenez plus de données, vous pouvez obtenir plus de résultats. Cependant, obtenir plus de données peut coûter cher. Les données collectées sont souvent contraintes de s’adapter à des modèles mathématiques, tels que la factorisation partielle de tests pour dépister des comportements intéressants.

Dans les situations de données volumineuses, vous avez un "grand" jeu de données, mais votre jeu de données a tendance à être moins contraint. En général, vous ne devez pas convaincre vos clients d’acheter un carré latin de meubles, simplement pour faciliter l’analyse. Au lieu de cela, vous avez tendance à avoir des tas de données mal structurées. Pour résoudre ces problèmes, l'objectif ne consiste généralement pas à "sélectionner les meilleures données et à en extraire tout ce que vous pouvez," comme on pourrait le tenter naïvement si on est habitué aux petites données. L’objectif a tendance à ressembler davantage à "si vous pouvez obtenir un petit smidgen de chaque point de donnée, la somme sera énorme et profonde."

Entre eux se trouvent les ensembles de données de taille moyenne, avec une structure correcte. Ce sont des "problèmes vraiment difficiles", nous avons donc tendance à nous organiser en deux camps: l'un avec de petites données en serrant tout le contenu, l'autre avec le big data essayant de laisser chaque point de données briller de son côté. droite. À mesure que nous avancerons, je m'attends à voir davantage de processus de petites données essayant de s'adapter à de plus grands ensembles de données, et davantage de processus de grandes données essayant de s'adapter pour tirer parti de données plus structurées.


Votre caractérisation de petites données ressemble beaucoup au livre d’analyse de Bem. Consultez les critiques de cette analyse, car il s’agit d’une manière inappropriée de traiter de petits ensembles de données autres que pour une exploration privée sur laquelle baser la collecte future de données.
John

@John, je devrai peut-être les regarder. Les critiques sont-elles suffisantes pour que je ne puisse même pas utiliser la caractérisation comme point pour décrire un continuum?
Cort Ammon

C'est vraiment trop long d'entrer ici, mais le message essentiel est que vous ne tirez pas tout ce que vous pouvez sur chaque point de données avec de petites données. Peut-être google Gelman et Forking Paths; ou degrés de liberté d'expérimentateur. Vous devez penser différemment aux analyses de données volumineuses et volumineuses, et pas seulement à des points sur un continuum.
John

3

Je dirais que trois éléments sont essentiels pour définir les mégadonnées: la direction de l'analyse, la taille des données par rapport à la population et la taille des données en ce qui concerne les problèmes de calcul.

La question elle-même pose que les hypothèses sont développées après que les données existent. Je n'utilise pas le terme "collecté" parce que je pense que le mot "collecté" implique un objectif et que les données n'existent souvent pas à ce jour. La collecte se produit souvent dans le Big Data en mettant en parallèle des données existantes au service d'une question.

Un deuxième élément important est que ce n'est pas n'importe quelle donnée pour laquelle une analyse post-hoc, ce que l'on pourrait appeler une analyse exploratoire avec des jeux de données plus petits, est appropriée. Il doit avoir une taille suffisante pour que les estimations ainsi recueillies soient suffisamment proches des estimations de la population pour que de nombreux problèmes d'échantillonnage plus petits puissent être ignorés. À cause de cela, je crains un peu que des efforts soient actuellement déployés pour obtenir des corrections comparatives multiples. Si vous avez la population entière ou une approximation que vous avez de bonnes raisons de croire valable, de telles corrections devraient être discutables. Bien que je sache qu'il arrive que des problèmes surviennent parfois qui transforment les "données massives" en un petit échantillon (par exemple, de grandes régressions logistiques), cela revient à comprendre ce qu'est un grand échantillon pour une question spécifique. La plupart des questions de comparaison multiples doivent plutôt être tournées vers des questions de taille d'effet. Et, bien sûr, l'idée d'utiliser des tests avec alpha = 0,05, comme beaucoup le font encore avec le Big Data, est simplement absurde.

Et enfin, les petites populations ne sont pas admissibles. Dans certains cas, la population est petite et il est possible de collecter toutes les données nécessaires pour l’examiner très facilement et permettre de respecter les deux premiers critères. Les données doivent être suffisamment importantes pour devenir un problème de calcul. En tant que tel, nous devons, à certains égards, admettre que «Big Data» peut être un mot à la mode transitoire et peut-être un phénomène perpétuellement à la recherche d’une définition stricte. Certaines des choses qui font que le «big data» est grand disparaîtront maintenant dans quelques années et les définitions comme celle de Hadley, basée sur la capacité de l'ordinateur, sembleront étranges. Mais à un autre niveau, les problèmes de calcul ne concernent pas la capacité informatique ni peut-être une capacité informatique impossible à résoudre. Je pense que dans ce sens les problèmes de définition "

On peut noter que je n’ai pas fourni d’exemples ni de définitions précises de ce qu’est un problème informatique complexe pour ce domaine (il existe de nombreux exemples en général dans comp sci, et certains applicables, dans lesquels je n’entrerai pas). Je ne veux pas en faire car je pense que cela devra rester un peu ouvert. Au fil du temps, les œuvres rassemblées par de nombreuses personnes se rassemblent pour rendre ces choses faciles, plus souvent par le développement de logiciels que de matériel. Peut-être que le champ devra mûrir plus complètement afin de rendre cette dernière exigence plus solidement délimitée, mais les bords seront toujours flous.


Merci pour votre contribution! Je pense que vous fournissez des informations précieuses pour ce fil. Je pense que la taille des données concernant la population a été quelque peu négligée ici.
Gumeo

1

Wikipedia fournit une définition assez claire

Les mégadonnées sont un terme large pour désigner des ensembles de données si volumineux ou complexes que les applications de traitement de données traditionnelles sont inadéquates. (source https://en.wikipedia.org/wiki/Big_data )

autre définition simple que je connais est

Données qui ne correspondent pas à la mémoire de l'ordinateur.

Malheureusement, je ne me souviens pas de référence pour cela. Tout le reste émerge de ces définitions - vous devez gérer de grandes quantités de données.


0

J'ajouterais que les données volumineuses sont une référence au travail sur un ensemble de données volumineuses (des millions et / ou des milliards de lignes) ou à la recherche d'informations / de schémas sur des ressources de données étendues que vous pouvez maintenant collecter partout.

En utilisant notre site, vous reconnaissez avoir lu et compris notre politique liée aux cookies et notre politique de confidentialité.
Licensed under cc by-sa 3.0 with attribution required.