Authorship: Youssef Jmal, Sofyan Guillermet-Laouad
title: DE1 Project
Liens GitHub
Résumé (2–3 lignes)
Ce projet met en œuvre un lakehouse local complet (bronze, silver, gold) autour d’un jeu de données réel, avec PySpark et Parquet. Les données sont nettoyées, typées et transformées en tables analytiques, puis optimisées via des choix de partitionnement et de layout. Les gains de performance sont démontrés par la comparaison de plans d’exécution et de métriques issues de la Spark UI.