Apache Spark# Spark est une plateforme open-source de traitement de données volumineuses. Le développement de Spark est piloté par la fondation Apache Spark et béneficie d'une grande communauté de contributeurs open source. SQL Streaming GraphX MLlib Spark propose plusieurs API pour travailler depuis les langages de programmation Java Scala Python R PySpark# PySpark est l'API Python pour Apache Spark. Il vous permet d'effectuer un traitement de données à grande échelle en temps réel dans un environnement distribué à l'aide de Python. Il propose également un shell PySpark pour analyser vos données de manière interactive. Ce guide ultime couvre spécifiquement l'API Python de Spark à savoir PySpark. Dans la prochaine, nous verrons comment installer PySpark et mettre place l'environnement de travail.