Différences

Ci-dessous, les différences entre deux révisions de la page.

--- formations:masters:ue:m1:tbd8 [2025/08/22 09:42] – supprimée - modification externe (Date inconnue) 127.0.0.1
+++ formations:masters:ue:m1:tbd8 [2025/08/22 09:42] (Version actuelle) – ↷ Page déplacée de formations:masters:ue:cours:m1:tbd8 à formations:masters:ue:m1:tbd8 treinen
@@ Ligne 1: / Ligne 1: @@
+~~NOTOC~~
+====== Technologies Big Data ======
+===== Description =====
+Le cours présente les technologies modernes pour le traitement de données massives.
+Il se concentre sur les principes du traitement de données distribuées, et s'appuie sur l’utilisation de librairies de calcul dans le cloud.
+===== Syllabus =====
+  - Introduction au Big Data : limites des systèmes classiques de traitement des données
+  - Traitement (centralisé) de jeux de données de moyenne taille
+    * numpy et pandas
+  - Introduction au traitement des données distribuées
+    * Hadoop et Map Reduce
+  - Traitement distribué de données massives en mémoire centrale : Spark
+  - Modèles de données distribuées de Spark : RDDs, Dataframes
+  - Spark SQL
+  - Structure interne et optimisation de Spark
+===== Pré-requis =====
+Connaissance des langages SQL et Python. Avoir suivi au moins un cours de bases de données relationnelles.