Authorship: Youssef Jmal, Sofyan Guillermet-Laouad


title: Lab 3

Liens GitHub

Résumé (2–3 lignes)

Ce lab analyse l’impact du format et du layout des données sur les performances Spark. Les mêmes requêtes analytiques sont comparées entre CSV et Parquet, avec partitionnement et stratégies de jointure différentes. Les coûts I/O et shuffle sont mesurés et expliqués à l’aide des plans d’exécution et de la Spark UI.