Apache Spark#
Spark est une plateforme open-source de traitement de données volumineuses. Le développement de Spark est piloté par la fondation Apache Spark et béneficie d'une grande communauté de contributeurs open source.
- SQL
- Streaming
- GraphX
- MLlib
Spark propose plusieurs API pour travailler depuis les langages de programmation
- Java
- Scala
- Python
- R
PySpark#
PySpark est l'API Python pour Apache Spark. Il vous permet d'effectuer un traitement de données à grande échelle en temps réel dans un environnement distribué à l'aide de Python. Il propose également un shell PySpark pour analyser vos données de manière interactive.

Ce guide ultime couvre spécifiquement l'API Python de Spark à savoir PySpark. Dans la prochaine, nous verrons comment installer PySpark et mettre place l'environnement de travail.
Commentaires