Comment faire une analyse de corrélation «bière et couches»

J'ai des données équivalentes à:

shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...

Je voudrais faire une analyse de cet ensemble de données pour obtenir une matrice de corrélation qui aurait une implication similaire à: si vous avez acheté x, vous êtes susceptible d'acheter y.

En utilisant python (ou peut-être autre chose que MATLAB), comment puis-je m'y prendre? Quelques lignes directrices de base ou des pointeurs vers où je devrais regarder aideraient.

Merci,

Edit - Ce que j'ai appris:

Ces types de problèmes sont connus sous le nom de découverte de règles d'association. Wikipédia a un bon article couvrant certains des algorithmes courants pour le faire. L'algorithme classique pour le faire semble être Apriori, dû à Agrawal et. Al.
Cela m'a amené à l' orange , un package d'exploration de données interfacé python. Pour Linux, la meilleure façon de l'installer semble provenir de la source en utilisant le setup.py fourni
Orange lit par défaut les entrées des fichiers, formatées de plusieurs manières prises en charge.
Enfin, un simple apprentissage des règles d'association Apriori est simple en orange.

— Azarias R
source

Si vous recherchez un package R, arulescela vaut le coup d'œil. "Règles d'association" est peut-être un bon terme de recherche

— Karsten W.

Voir également l' algorithme Apriori pour l'approche "standard" de ce problème.

— Cardinal

En plus des liens qui ont été donnés dans les commentaires, voici quelques conseils supplémentaires:

Règles d'association et jeux d'éléments fréquents
Enquête sur l'exploitation minière fréquente - consultez le tableau 1, p. 4

À propos de Python, je suppose que vous avez maintenant une idée de ce que vous devriez rechercher, mais le package d'exploration de données Orange propose un package sur les règles d'association et les ensembles d'éléments (bien que pour ce dernier, je ne trouve aucune référence sur le site Web).

Éditer:

Je suis récemment tombé sur pysuggest qui est

un moteur de recommandation Top-N qui implémente une variété d'algorithmes de recommandation. Les systèmes de recommandation Top-N, une technologie de filtrage d'informations personnalisée, sont utilisés pour identifier un ensemble de N éléments qui intéresseront un certain utilisateur. Ces dernières années, les meilleurs systèmes de recommandation N ont été utilisés dans un certain nombre d'applications différentes, notamment pour recommander des produits qu'un client achètera probablement; recommander des films, des programmes télévisés ou de la musique qu'un utilisateur trouvera agréable; identifier les pages Web qui seront intéressantes; ou même suggérer d'autres moyens de rechercher des informations.

— chl
source

Combien de produits, je me demande, doivent être impliqués avant qu'une matrice de corrélation simple soit insuffisante?

— rolando2