Authorship: Youssef Jmal, Sofyan Guillermet-Laouad


title: DE1 Project

Liens GitHub

Résumé (2–3 lignes)

Ce projet met en œuvre un lakehouse local complet (bronze, silver, gold) autour d’un jeu de données réel, avec PySpark et Parquet. Les données sont nettoyées, typées et transformées en tables analytiques, puis optimisées via des choix de partitionnement et de layout. Les gains de performance sont démontrés par la comparaison de plans d’exécution et de métriques issues de la Spark UI.