J'ai des données équivalentes à:
shopper_1 = ['beer', 'eggs', 'water',...]
shopper_2 = ['diapers', 'beer',...]
...
Je voudrais faire une analyse de cet ensemble de données pour obtenir une matrice de corrélation qui aurait une implication similaire à: si vous avez acheté x, vous êtes susceptible d'acheter y.
En utilisant python (ou peut-être autre chose que MATLAB), comment puis-je m'y prendre? Quelques lignes directrices de base ou des pointeurs vers où je devrais regarder aideraient.
Merci,
Edit - Ce que j'ai appris:
Ces types de problèmes sont connus sous le nom de découverte de règles d'association. Wikipédia a un bon article couvrant certains des algorithmes courants pour le faire. L'algorithme classique pour le faire semble être Apriori, dû à Agrawal et. Al.
Cela m'a amené à l' orange , un package d'exploration de données interfacé python. Pour Linux, la meilleure façon de l'installer semble provenir de la source en utilisant le setup.py fourni
Orange lit par défaut les entrées des fichiers, formatées de plusieurs manières prises en charge.
Enfin, un simple apprentissage des règles d'association Apriori est simple en orange.
arules
cela vaut le coup d'œil. "Règles d'association" est peut-être un bon terme de recherche