Stage Junior NLP Engineer - F/H

ChapsVisionFrance18 days ago

OtherEngineering, Information Technology

Track This Job

Add this job to your tracking list to:

Monitor application status and updates
Change status (Applied, Interview, Offer, etc.)
Add personal notes and comments
Set reminders for follow-ups
Track your entire application journey

Save This Job

Add this job to your saved collection to:

Access easily from your saved jobs dashboard
Review job details later without searching again
Compare with other saved opportunities
Keep a collection of interesting positions
Receive notifications about saved jobs before they expire

AI-Powered Job Summary

Get a concise overview of key job requirements, responsibilities, and qualifications in seconds.

Pro Tip: Use this feature to quickly decide if a job matches your skills before reading the full description.

💻 PRESENTATION DE CHAPSVISION

Fondé en 2019, ChapsVision est un éditeur de logiciels en pleine croissance, membre du NEXT40 de la French Tech parmi les 40 start-ups françaises les plus prometteuses.

Avec 1200 collaborateurs et plus de 1000 clients grands comptes et régaliens, nous avons pour ambition de devenir un leader européen du traitement souverain de la donnée.

Notre objectif est de poursuivre notre développement en renforçant nos équipes pour concevoir, commercialiser, déployer et supporter des produits innovants de plus en plus ambitieux.

Parallèlement, notre engagement social se manifeste à travers la fondation HappyCap, adossée au groupe, qui vise à soutenir les enfants atteints de troubles de développement mental et cognitif et leurs familles.

👋 CONTEXTE DU POSTE

Vous rejoignez l’équipe R&D en Intelligence Artificielle de ChapsVision, en charge du développement de technologies de pointe autour des LLMs, des agents autonomes et de l’évaluation de systèmes complexes.

Dans un contexte où l’observabilité et l’évaluation des agents IA deviennent critiques, vous contribuerez à la conception d’outils permettant d’analyser leurs traces, détecter les échecs d’exécution et qualifier la qualité des décisions.

Votre travail s'appuiera sur l’état de l’art récent en évaluation des agents et LLM

💡 VOS FUTURES MISSIONS

Réaliser un état de l’art complet sur les méthodes d’évaluation d’agents et de systèmes LLM
- Concevoir un outil générique capable d’ingérer et d’analyser des traces d’exécution d’agents (actions, logs, états internes)
Produire des métriques actionnables : qualité du raisonnement, bonne utilisation des outils, erreurs d’exécution ou d’intention
Définir et expérimenter des critères d’évaluation qualitatifs et quantitatifs
(Optionnel) Proposer des méthodes d’automatisation via génération de jeux de tests, self-play ou simulation
(Optionnel) Utiliser les résultats d’évaluation pour améliorer automatiquement les agents (prompt optimization, LoRA…)

🤝 LES COMPÉTENCES ET QUALITÉS QUE NOUS RECHERCHONS

Intérêt fort pour les LLMs, agents autonomes, observabilité ou évaluation IA
Solides compétences en Python
Connaissances en NLP ou machine learning
Curiosité, rigueur, autonomie
Connaissances Linux / bash appréciées

🎁 CE QUE NOUS OFFRONS À NOS STAGIAIRES

Carte SWILE : 10€ / jour pris en charge à 60%

Transport en commun : Pris en charge à 50%

Télétravail : 3 jours/semaine maximum avec une indemnité de 26 euros par mois

📞 NOTRE PROCESS DE RECRUTEMENT

Un entretien téléphonique avec l’un de nos recruteurs techniques pour faire connaissance.

Un échange avec votre futur tuteur pour évaluer vos compétences et discuter du déroulement de votre futur stage.

Tous nos postes sont ouverts aux personnes en situation de handicap.

Bibliographie :

1. Yehudai et al. (2025). A Survey on the Evaluation of LLM-Based Agents.
Link: https://arxiv.org/abs/2503.16416
A broad and modern survey covering evaluation dimensions for single and multi-agent systems, datasets, metrics, and open challenges in observability.
2. Mohammadi et al. (2025). Evaluation and Benchmarking of LLM Agents: A Survey.
Link: https://arxiv.org/abs/2507.21504
Focuses on benchmarks, evaluation frameworks, agent behaviors, and failure analysis across real-world tasks.
3. Xia et al. (2024). Evaluation-Driven Development of LLM Agents: A Process Model and Reference Architecture.
Link: https://arxiv.org/html/2411.13768v2
Introduces the term Evaluation-Driven Development (EDD) and proposes an engineering framework where evaluation is a first-class citizen for designing and iteratively improving agents.
4. Zheng et al. (2023). LLM-as-a-Judge: Guiding LLMs to Judge the Quality of Generated Text.
Link: https://arxiv.org/abs/2306.05685
Foundational work on using LLMs as evaluators—highly relevant for scoring agent outputs, traces, and behaviors.
5. Shinn, Cassano & Gopinath (2023). Reflexion: Language Agents with Verbal Reinforcement Learning.
Link: https://arxiv.org/abs/2303.11366
A milestone in agent architectures; introduces self-evaluation loops, making it useful to understand multi-turn agent execution errors and evaluation needs.

Key Skills

Ranked by relevance

Ready to apply?

Join ChapsVision and take your career to the next level!

Application takes less than 5 minutes

Apply