Authorship: Youssef Jmal, Sofyan Guillermet-Laouad
title: Lab 1
Liens GitHub
- Repo : https://github.com/YoussefJ04/lab1
- lab-practice : https://github.com/YoussefJ04/lab1/tree/main/labpractice
- lab-assignment: https://github.com/YoussefJ04/lab1/tree/main/assignment
Résumé (2–3 lignes)
Ce lab a permis de valider l’environnement PySpark local et de comparer deux approches de calcul (RDD vs DataFrame) sur un même problème de type Top-N. L’analyse des plans d’exécution et des métriques Spark UI met en évidence les différences de lecture, de projection et de shuffle, et montre l’avantage des DataFrames pour des traitements analytiques optimisés.