J'ai un pandasbloc de données et j'aimerais pouvoir prédire les valeurs de la colonne A à partir des valeurs des colonnes B et C.Voici un exemple de jouet:
import pandas as pd
df = pd.DataFrame({"A": [10,20,30,40,50],
"B": [20, 30, 10, 40, 50],
"C": [32, 234, 23, 23, 42523]})
Idéalement, j'aurais quelque chose comme ols(A ~ B + C, data = df)mais quand je regarde les exemples des bibliothèques d'algorithmes, scikit-learnil semble que cela alimente les données du modèle avec une liste de lignes au lieu de colonnes. Cela m'obligerait à reformater les données en listes à l'intérieur de listes, ce qui semble aller à l'encontre de l'objectif d'utiliser des pandas en premier lieu. Quelle est la manière la plus pythonique d'exécuter une régression OLS (ou un algorithme d'apprentissage automatique plus généralement) sur des données dans une trame de données pandas?
formula, j'ai tapé accidentellement à laformulasplace et j'ai eu une erreur étrange:TypeError: from_formula() takes at least 3 arguments (2 given)