Poste IR : statistique et sciences des données – LMRS, ROUEN

Projet AStERiCs: Apprentissage Statistique à l’Echelle pour la Représentation et la Classification non-supervisées

Contexte et présentation générale du projet :

La disponibilité des données en masse révolutionne les questions relatives à leur traitement, analyse, exploitation et valorisation par les acteurs du numérique (académiques, entreprises, acteurs politiques, etc). La problématique principale est celle de l’élaboration de modèles originaux et génériques permettant représentation et classification de données massives, et celle du développement d’algorithmes efficaces optimisés à l’échelle pour les obtenir. Ce contexte de traitement et d’analyse à grande échelle rompt en effet avec la façon selon laquelle se posait classiquement la question de la construction et de l’inférence des modèles à partir de données brutes; la plupart de ceux de l’état de l’art se trouvent en effet inopérants à l’échelle, aussi bien d’un point de vue théorique, que pratique : problèmes d’inférence d’un très grand nombre de paramètres (fléau de la dimension), et/ou incapacité en temps et/ou en mémoire de mettre en œuvre des algorithmes centralisés classiques pour de très gros volumes de données, etc.

AStERiCs est un projet de recherche fondamentale financé dans le cadre du dispositif RIN (Réseaux d’Intérêts Normands)-Recherche dont l’objectif structurel est de fédérer la recherche scientifique en Normandie dans le domaine de la science statistique des données, en s’appuyant sur une démarche scientifique pluridisciplinaire impliquant modélisation mathématique, inférence, représentation et classification de données issues d’environnements complexes, hétérogènes, dynamiques et incertains. AStERiCs vise à élaborer un cadre scientifique et technique, complet, pour traiter, analyser, exploiter et valoriser des données massives, complexes, hétérogènes, dynamiques et peu ou non- annotées. Le but est de transformer des données en connaissances sous forme de représentations précises des informations liées aux données, de catégorisations pertinentes de telles informations, jusqu’à la valorisation de celles-ci en révélant/restaurant le modèle générateur des données. Le projet AStERiCs traite ainsi le problème de la grande échelle, sous tous ses aspects de modélisation et d’inférence. Plus précisément, les axes de recherche traitent des grands thèmes suivants : Statistique, Apprentissage, Analyse de données, Classification, Optimisation, Traitement du signal, Grande dimension.

Descriptif du poste :
Ingénieur de Recherche (IGR) 14 mois :

L’un des objectifs majeurs du projet est la création d’une plateforme scientifique et technique ouverte et à visibilité internationale autour de l’apprentissage non-supervisé sur masses de données (BigData). Celle-ci proposera une architecture complète (pré-traitement, représentation, classification/catégorisation, visualisation) et considérera au moins les aspects suivants des données en masse : données de grande dimension, de gros volume, hétérogènes, non-annotées, dynamiques. Elle proposera des algorithmes originaux de traitement, d’analyse et d’exploitation de données hétérogènes de différents types (continues, longitudinales/fonctionnelles, discrètes, signaux/images) avec un calcul déporté et de haute performance (le CRIANN sera sollicité dans le cadre du projet pour avoir des ressources de calcul distribué haute performance). Elle proposera trois niveaux d’accessibilité (i) entreprise (ii) intermédiaire (e.g. étudiant) et (iii) chercheur, selon les besoins respectifs.

La personne recrutée participera en collaboration avec le reste du personnel du projet à la création de cette plateforme selon les étapes suivantes. La première concerne le prototypage d’algorithmes déjà développés par le LMRS, leur intégration dans cette plateforme sur diverses applications réelles, ainsi que leur promotion auprès d’entreprises régionales. Il s’agit d’algorithmes de classification non-supervisée à base de modèles à variables latentes pour des données discrètes (e.g. génomiques) et de traitement de données fonctionnelles par des méthodes non-paramétriques. La deuxième étape consiste à participer à intégrer les algorithmes qui seront développés dans le cadre du projet à la plateforme. Cette seconde tâche sera menée en collaboration principalement avec le LMNO sur les modèles de mélanges distribués régularisés avec des applications en veille environnementale/séquences génomiques.

Les principales missions techniques sont : (i) Prototypage d’algorithmes d’apprentissage non-supervisé (ii)

Cloud computing distribué haute performance (iii) Intégration et interfaçage web.

Profil recherché :

  • Être titulaire d’un doctorat en mathématiques appliquées ou en informatique avec une spécialisation confirmée en apprentissage statistique non-supervisé et analyse de données complexes
  • Avoir une expérience en statistique non-paramétrique et modèles à variables latentes sur données massives ◦ Avoir un goût pour les applications et une expérience dans le prototype de code et l’intégration logicielle ◦ Maîtriser la programmation Matlab/R/Python et les environnements big data (Hadoop/Spark, MapReduce) ◦ Compétences souhaitées: cloud computing, systèmes OLAP, technos web

Laboratoire d’accueil : UMR CNRS LMRS

En plus des missions décrites plus haut, les personnes recrutées participeront aux tâches suivantes :

  • Travail collaboratif avec les différents membres du projet
  • Rédaction de rapports et articles de recherche
  • Manifestations scientifiques organisées autour du thème du projet

Informations complémentaires :

Date de commencement prévue : janvier 2019
Rémunération : environ 2100 euros net/mois
Contact : faicel.chamroukhi_at_unicaen.fr ; Envoyez votre CV complet.