Exemple de comment sélectionner une ou des colonnes de données dans une DataFrame avec pandas ?
Créer une DataFrame avec Pandas
Soit par exemple le fichier csv suivant train.csv (que l'on peut télécharger sur kaggle). Pour lire le fichier il existe la fonction pandas read_csv():
>>> import pandas as pd>>> df = pd.read_csv('train.csv')>>> df.shape(1460, 81)
Obtenir le noms des colonnes
>>> df.columnsIndex(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street','Alley', 'LotShape', 'LandContour', 'Utilities', 'LotConfig','LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType','HouseStyle', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd','RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'MasVnrType','MasVnrArea', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual','BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1','BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'Heating','HeatingQC', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF','LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath','HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual','TotRmsAbvGrd', 'Functional', 'Fireplaces', 'FireplaceQu', 'GarageType','GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'GarageQual','GarageCond', 'PavedDrive', 'WoodDeckSF', 'OpenPorchSF','EnclosedPorch', '3SsnPorch', 'ScreenPorch', 'PoolArea', 'PoolQC','Fence', 'MiscFeature', 'MiscVal', 'MoSold', 'YrSold', 'SaleType','SaleCondition', 'SalePrice'],dtype='object')
Sélectionner une colonne de données
>>> df['SalePrice']0 2085001 1815002 2235003 1400004 2500005 1430006 3070007 2000008 1299009 11800010 12950011 34500012 14400013 27950014 15700015 13200016 14900017 9000018 15900019 13900020 32530021 13940022 23000023 12990024 15400025 25630026 13480027 30600028 20750029 68500...1430 1921401431 1437501432 645001433 1865001434 1600001435 1740001436 1205001437 3946171438 1497001439 1970001440 1910001441 1493001442 3100001443 1210001444 1796001445 1290001446 1579001447 2400001448 1120001449 920001450 1360001451 2870901452 1450001453 845001454 1850001455 1750001456 2100001457 2665001458 1421251459 147500Name: SalePrice, Length: 1460, dtype: int64
Sélectionner plusieurs colonnes de données
>>> mycolumns = ['GrLivArea','SalePrice']>>> df[mycolumns]GrLivArea SalePrice0 1710 2085001 1262 1815002 1786 2235003 1717 1400004 2198 2500005 1362 1430006 1694 3070007 2090 2000008 1774 1299009 1077 11800010 1040 12950011 2324 34500012 912 14400013 1494 27950014 1253 15700015 854 13200016 1004 14900017 1296 9000018 1114 15900019 1339 13900020 2376 32530021 1108 13940022 1795 23000023 1060 12990024 1060 15400025 1600 25630026 900 13480027 1704 30600028 1600 20750029 520 68500... ... ...1430 1838 1921401431 958 1437501432 968 645001433 1792 1865001434 1126 1600001435 1537 1740001436 864 1205001437 1932 3946171438 1236 1497001439 1725 1970001440 2555 1910001441 848 1493001442 2007 3100001443 952 1210001444 1422 1796001445 913 1290001446 1188 1579001447 2090 2400001448 1346 1120001449 630 920001450 1792 1360001451 1578 2870901452 1072 1450001453 1140 845001454 1221 1850001455 1647 1750001456 2073 2100001457 2340 2665001458 1078 1421251459 1256 147500[1460 rows x 2 columns]
References
| Links | Site |
|---|---|
| Selecting Subsets of Data in Pandas: Part 1 | medium.com |
