J'ai un pandas
bloc de données et j'aimerais pouvoir prédire les valeurs de la colonne A à partir des valeurs des colonnes B et C.Voici un exemple de jouet:
import pandas as pd
df = pd.DataFrame({"A": [10,20,30,40,50],
"B": [20, 30, 10, 40, 50],
"C": [32, 234, 23, 23, 42523]})
Idéalement, j'aurais quelque chose comme ols(A ~ B + C, data = df)
mais quand je regarde les exemples des bibliothèques d'algorithmes, scikit-learn
il semble que cela alimente les données du modèle avec une liste de lignes au lieu de colonnes. Cela m'obligerait à reformater les données en listes à l'intérieur de listes, ce qui semble aller à l'encontre de l'objectif d'utiliser des pandas en premier lieu. Quelle est la manière la plus pythonique d'exécuter une régression OLS (ou un algorithme d'apprentissage automatique plus généralement) sur des données dans une trame de données pandas?
formula
, j'ai tapé accidentellement à laformulas
place et j'ai eu une erreur étrange:TypeError: from_formula() takes at least 3 arguments (2 given)