ChapsVision
Stage Junior NLP Engineer - F/H
ChapsVisionFrance18 days ago
OtherEngineering, Information Technology

đŸ’» PRESENTATION DE CHAPSVISION

Fondé en 2019, ChapsVision est un éditeur de logiciels en pleine croissance, membre du NEXT40 de la French Tech parmi les 40 start-ups françaises les plus prometteuses.

Avec 1200 collaborateurs et plus de 1000 clients grands comptes et régaliens, nous avons pour ambition de devenir un leader européen du traitement souverain de la donnée.

Notre objectif est de poursuivre notre développement en renforçant nos équipes pour concevoir, commercialiser, déployer et supporter des produits innovants de plus en plus ambitieux.

ParallÚlement, notre engagement social se manifeste à travers la fondation HappyCap, adossée au groupe, qui vise à soutenir les enfants atteints de troubles de développement mental et cognitif et leurs familles.

👋 CONTEXTE DU POSTE

Vous rejoignez l’équipe R&D en Intelligence Artificielle de ChapsVision, en charge du dĂ©veloppement de technologies de pointe autour des LLMs, des agents autonomes et de l’évaluation de systĂšmes complexes.

Dans un contexte oĂč l’observabilitĂ© et l’évaluation des agents IA deviennent critiques, vous contribuerez Ă  la conception d’outils permettant d’analyser leurs traces, dĂ©tecter les Ă©checs d’exĂ©cution et qualifier la qualitĂ© des dĂ©cisions.

Votre travail s'appuiera sur l’état de l’art rĂ©cent en Ă©valuation des agents et LLM

💡 VOS FUTURES MISSIONS

  • RĂ©aliser un Ă©tat de l’art complet sur les mĂ©thodes d’évaluation d’agents et de systĂšmes LLM
  • - Concevoir un outil gĂ©nĂ©rique capable d’ingĂ©rer et d’analyser des traces d’exĂ©cution d’agents (actions, logs, Ă©tats internes)
  • Produire des mĂ©triques actionnables : qualitĂ© du raisonnement, bonne utilisation des outils, erreurs d’exĂ©cution ou d’intention
  • DĂ©finir et expĂ©rimenter des critĂšres d’évaluation qualitatifs et quantitatifs
  • (Optionnel) Proposer des mĂ©thodes d’automatisation via gĂ©nĂ©ration de jeux de tests, self-play ou simulation
  • (Optionnel) Utiliser les rĂ©sultats d’évaluation pour amĂ©liorer automatiquement les agents (prompt optimization, LoRA
)

đŸ€ LES COMPÉTENCES ET QUALITÉS QUE NOUS RECHERCHONS

  • IntĂ©rĂȘt fort pour les LLMs, agents autonomes, observabilitĂ© ou Ă©valuation IA
  • Solides compĂ©tences en Python
  • Connaissances en NLP ou machine learning
  • CuriositĂ©, rigueur, autonomie
  • Connaissances Linux / bash apprĂ©ciĂ©es


🎁
CE QUE NOUS OFFRONS À NOS STAGIAIRES

  • Carte SWILE : 10€ / jour pris en charge Ă  60%
  • Transport en commun : Pris en charge Ă  50%
  • TĂ©lĂ©travail : 3 jours/semaine maximum avec une indemnitĂ© de 26 euros par mois

📞 NOTRE PROCESS DE RECRUTEMENT

  1. Un entretien tĂ©lĂ©phonique avec l’un de nos recruteurs techniques pour faire connaissance.
  1. Un échange avec votre futur tuteur pour évaluer vos compétences et discuter du déroulement de votre futur stage.

Tous nos postes sont ouverts aux personnes en situation de handicap.

Bibliographie :

1. Yehudai et al. (2025). A Survey on the Evaluation of LLM-Based Agents.
Link: https://arxiv.org/abs/2503.16416
A broad and modern survey covering evaluation dimensions for single and multi-agent systems, datasets, metrics, and open challenges in observability.
2. Mohammadi et al. (2025). Evaluation and Benchmarking of LLM Agents: A Survey.
Link: https://arxiv.org/abs/2507.21504
Focuses on benchmarks, evaluation frameworks, agent behaviors, and failure analysis across real-world tasks.
3. Xia et al. (2024). Evaluation-Driven Development of LLM Agents: A Process Model and Reference Architecture.
Link: https://arxiv.org/html/2411.13768v2
Introduces the term Evaluation-Driven Development (EDD) and proposes an engineering framework where evaluation is a first-class citizen for designing and iteratively improving agents.
4. Zheng et al. (2023). LLM-as-a-Judge: Guiding LLMs to Judge the Quality of Generated Text.
Link: https://arxiv.org/abs/2306.05685
Foundational work on using LLMs as evaluators—highly relevant for scoring agent outputs, traces, and behaviors.
5. Shinn, Cassano & Gopinath (2023). Reflexion: Language Agents with Verbal Reinforcement Learning.
Link: https://arxiv.org/abs/2303.11366
A milestone in agent architectures; introduces self-evaluation loops, making it useful to understand multi-turn agent execution errors and evaluation needs.

Key Skills

Ranked by relevance