Méthodes algorithmiques pour l'accès à l'information numérique (MAAIN)

Description

La quantité d'information disponible sur internet et sa faible structuration rendent nécessaire des algorithmes efficaces pour trouver l'information pertinente, la comparer, la classer, etc. Ce module étudie les algorithmes au cœur des moteurs de recherche et des systèmes de recommandation. La théorie vue en cours est appliquée en TP pour créer un vrai moteur de recherche sur une quantité importante de pages web, une des difficultés étant de manipuler plusieurs giga-octets de données.

Syllabus

Sujets centraux

  1. Structures de données pour les moteurs de recherche
  2. Collecteur : schéma Mercator
  3. Algorithme de hachage minimal
  4. Mesures de fréquence et de pertinence (TF, IDF)
  5. Pagerank
  6. WAND
  7. Algorithmes de recommandation

Sujets potentiellement traités

Pré-requis