Prise en main de Pandas - Le guide ultime#

Pandas est une libraire Open Source sous licence BSD. Il s'agit d'une librairie de manipulaion et d'analyse de données en python. Elle est la plus populaire et intuitive et facile à prendre.

Installer Pandas#

Si vous travaillez avec Anaconda, Pandas est déjà installé sinon Pandas est disponible sur le répertoire PyPi

!pip install pandas

Importer Pandas#

Pandas n'est pas une librairie native en Python, il faut l'installer au préalable. Si vous ne l'avez pas encore installée avez pas Pour importer Pandas if suffit de faire ceci import pandas mais il est plus courant de faire ceci import pandas as pd

import pandas as pd

Vous pouvez vérifier la version de Pandas

print(pd.__version__)

pandas.Series#

Les limites trouvent leurs limites lorsqu'il s'agit de faire des analyses statistiques, il est certes possible d'avoir les minimum et maximun mais il n'est pas possible de connaitre la moyenne par exemple L'objet pandas.Series nous permet de nous affranchir de ces limites, il est donc possible de calculer les indicateurs statistiques sur les données à svaoir la moyenne, la variance entre autres.

names = ["Esso", "Lendjina", "Yemi", "Adboul", "Tracy", "Adjo", "Yacuba", "Degnon"]
countries = ["Togo", "Haïti", "Nigeria", "Burkina", "Ivory Cost", "Togo", "Niger", "Benin"]
sexes = ['M', 'F', 'M', 'M', 'F', 'F', 'F', 'F']
ages = [22, 18, 20,19, 31, 23, 26, 17]
heights = [1.73, 1.43, 1.52, 1.82, 1.45, 1.61, 1.90, 1.52]

Statistique descriptive#

La statistique descriptive est une branche de la Statistique, elle
Nous pouvons calculer des indicateurs sur ces données, ce qui n'est pas possible avec les listes natives en python

pd_ages = pd.Series(ages) # convert list into a pandas.Series

mean = pd_ages.mean() # Moyenne
median = pd_ages.median() # Médiane
variance = pd_ages.var(ddof=0) # Variancce
no_biais_variance = pd_ages.var() # Variance non biasée
pd_ages.std(ddof=0) # Écart-tye
pd_ages.std() # Écart-tye non biaisé

4.65985898008574

pd_heights = pd.Series(heights)

pandas.DataFrame#

Les limites trouvent leurs limites lorsqu'il s'agit de faire des analyses statistiques, il est certes possible d'avoir les minimum et maximun mais il n'est pas possible de connaitre la moyenne par exemple L'objet pandas.Series nous permet de nous affranchir de ces limites, il est donc possible de calculer les indicateurs statistiques sur les données à svaoir la moyenne, la variance entre autres.

data = pd.DataFrame({"name": names, "country": countries, "sex": sexes, "age": ages, "height": heights})
data # show the table

	name	country	sex	age	height
0	Esso	Togo	M	22	1.73
1	Lendjina	Haïti	F	18	1.43
2	Yemi	Nigeria	M	20	1.52
3	Adboul	Burkina	M	19	1.82
4	Tracy	Ivory Cost	F	31	1.45
5	Adjo	Togo	F	23	1.61
6	Yacuba	Niger	F	26	1.90
7	Degnon	Benin	F	17	1.52

data.describe()

	age	height
count	8.000000	8.000000
mean	22.000000	1.622500
std	4.659859	0.175479
min	17.000000	1.430000
25%	18.750000	1.502500
50%	21.000000	1.565000
75%	23.750000	1.752500
max	31.000000	1.900000

Afficher les 4 premières lignes du tableau#

data.head(n=4)

	name	country	sex	age	height
0	Esso	Togo	M	22	1.73
1	Lendjina	Haïti	F	18	1.43
2	Yemi	Nigeria	M	20	1.52
3	Adboul	Burkina	M	19	1.82

Afficher les 4 dernières lignes du tableau#

data.tail(n=4)

	name	country	sex	age	height
4	Tracy	Ivory Cost	F	31	1.45
5	Adjo	Togo	F	23	1.61
6	Yacuba	Niger	F	26	1.90
7	Degnon	Benin	F	17	1.52

Afficher 4 lignes du tableau choisies au hazard#

data.sample(n=4)

	name	country	sex	age	height
6	Yacuba	Niger	F	26	1.90
7	Degnon	Benin	F	17	1.52
3	Adboul	Burkina	M	19	1.82
1	Lendjina	Haïti	F	18	1.43

Importer des données#

En général, les données sur lesquelles l'on souhaite travailler sont stockées dans un fichier externe, la libraire Pandas permet d'importer des données depuis un fichier externe. Plusieurs extensions de fichiers sont prises en charge par Pandas, à savoir .csv le plus utilisé, .excel, .pickle

dt = pd.read_csv('datasets/iris.csv')

Exporter des données#

dt.to_csv("backups/")

Visualisation#

Références#

Pour avoir plus de détails, merci de consulter la documentation officielle Numpy Docs