Authorship: Youssef Jmal, Sofyan Guillermet-Laouad
title: Lab 3
Liens GitHub
- Repo : https://github.com/YoussefJ04/lab3
- lab-practice : https://github.com/YoussefJ04/lab3/tree/main/labpractice
- lab-assignment: https://github.com/YoussefJ04/lab3/tree/main/assignment
Résumé (2–3 lignes)
Ce lab analyse l’impact du format et du layout des données sur les performances Spark. Les mêmes requêtes analytiques sont comparées entre CSV et Parquet, avec partitionnement et stratégies de jointure différentes. Les coûts I/O et shuffle sont mesurés et expliqués à l’aide des plans d’exécution et de la Spark UI.