Présentation de la société : ORANGE SA

Vous serez accueilli sur le site d'Orange Innovation à Lannion, fort d'environ 1000
employés. Vous serez co-encadré au sein de deux équipes de recherche, spécialisées
respectivement en apprentissage statistique et en traitement automatique des
langues. Vous y bénéficierez d'un environnement stimulant : présence de nombreux
chercheurs, doctorants et data scientists ; interconnexions avec les problématiques
applicatives du groupe ; disponibilité de grandes infrastructures de calcul

Missions

Échantillonnage de données par bandits pour l'entrainement des LLMs F/H

Positionnement

L'allocation optimale de l'effort d'entraînement entre plusieurs jeux de données est aujourd'hui un enjeu central pour l'apprentissage des LLMs. De récents travaux (Ye et al., 2024 ; Zhu et al., 2025 ; Belenki et al., 2025 ; Liu et al., 2025) ont montré que l'optimisation automatique de ces mélanges, via des modèles prédictifs ou régressifs, permet d'améliorer significativement les résultats, tout en révélant la complexité des interactions entre domaines. Cependant, ces méthodes d'estimation de poids sont généralement a priori (avant l'entraînement) et via des proxys des modèles (et non les réels modèles destinés à être entraînés) . Les dynamiques d'apprentissage, notamment inhérente au modèle réel, ne sont pas prises en compte

Profil recherché

Votre rôle :

Vous participerez à un projet de recherche appliquée visant à optimiser l'échantillonnage de données pour l'entraînement de grands modèles de langage (LLMs) .

Votre mission consistera à :
. Étudier les approches connexes dans la littérature scientifique
. Formaliser le problème d'allocation adaptative de l'effort d'entraînement entre plusieurs jeux de données dans le cadre des approches de bandits
. Analyser les limitations du cadre bandit classique (exploration coûteuse, feedback biaisé, non-stationnarité, interactions entre sources, etc.)
. Développer et tester des algorithmes d'échantillonnage adaptatif, en commençant par des cas relaxés sur données synthétiques et des modèles de faible dimension, puis en montant en complexité (jeux de données images, puis corpus textuels pour LLM)

Votre profil :

Vous préparez un Bac+5 en Machine learning / Mathématiques appliquées et recherchez un stage de 6 mois à temps plein à partir de février / mars 2026.

(Pour information, nous ne proposons pas de stage alterné.)

Vos compétences techniques
. Solide formation en mathématiques appliquées, probabilités/statistiques et optimisation
. Maîtrise de Python et des librairies de data science (NumPy, PyTorch…)
. Connaissances en apprentissage automatique et deep learning

Vos qualités personnelles
. Intérêt pour la recherche appliquée et la validation expérimentale
. Curiosité scientifique, rigueur et autonomie
. Goût pour le travail en équipe et la communication de résultats
. Esprit d'initiative et capacité d'adaptation à des problématiques complexes

ORANGE SA : MACHINE LEARNING / MATHÉMATIQUES APPLIQUÉES (F/H)

ORANGE SA : MACHINE LEARNING / MATHÉMATIQUES APPLIQUÉES (F/H)

Inscrivez-vous !

Présentation de la société : ORANGE SA

Missions

Profil recherché