Pandas est une libraire Open Source sous licence BSD. Il s'agit d'une librairie de manipulaion et d'analyse de données en python. Elle est la plus populaire et intuitive et facile à prendre.
Si vous travaillez avec Anaconda, Pandas est déjà installé sinon Pandas est disponible sur le répertoire PyPi
!pip install pandas
Pandas n'est pas une librairie native en Python, il faut l'installer au préalable. Si vous ne l'avez pas encore installée avez pas Pour importer Pandas if suffit de faire ceci import pandas mais il est plus courant de faire ceci import pandas as pd
import pandas
import pandas as pd
Vous pouvez vérifier la version de Pandas
print(pd.__version__)
Les limites trouvent leurs limites lorsqu'il s'agit de faire des analyses statistiques, il est certes possible d'avoir les minimum et maximun mais il n'est pas possible de connaitre la moyenne par exemple L'objet pandas.Series nous permet de nous affranchir de ces limites, il est donc possible de calculer les indicateurs statistiques sur les données à svaoir la moyenne, la variance entre autres.
names = ["Esso", "Lendjina", "Yemi", "Adboul", "Tracy", "Adjo", "Yacuba", "Degnon"] countries = ["Togo", "Haïti", "Nigeria", "Burkina", "Ivory Cost", "Togo", "Niger", "Benin"] sexes = ['M', 'F', 'M', 'M', 'F', 'F', 'F', 'F'] ages = [22, 18, 20,19, 31, 23, 26, 17] heights = [1.73, 1.43, 1.52, 1.82, 1.45, 1.61, 1.90, 1.52]
La statistique descriptive est une branche de la Statistique, elle Nous pouvons calculer des indicateurs sur ces données, ce qui n'est pas possible avec les listes natives en python
pd_ages = pd.Series(ages) # convert list into a pandas.Series
mean = pd_ages.mean() # Moyenne median = pd_ages.median() # Médiane variance = pd_ages.var(ddof=0) # Variancce no_biais_variance = pd_ages.var() # Variance non biasée pd_ages.std(ddof=0) # Écart-tye pd_ages.std() # Écart-tye non biaisé
4.65985898008574
pd_heights = pd.Series(heights)
data = pd.DataFrame({"name": names, "country": countries, "sex": sexes, "age": ages, "height": heights}) data # show the table
data.describe()
data.head(n=4)
data.tail(n=4)
data.sample(n=4)
En général, les données sur lesquelles l'on souhaite travailler sont stockées dans un fichier externe, la libraire Pandas permet d'importer des données depuis un fichier externe. Plusieurs extensions de fichiers sont prises en charge par Pandas, à savoir .csv le plus utilisé, .excel, .pickle
.csv
.excel
.pickle
dt = pd.read_csv('datasets/iris.csv')
dt.to_csv("backups/")
Pour avoir plus de détails, merci de consulter la documentation officielle Numpy Docs