-
ChapsVision

Stage Junior NLP Engineer - F/H

ChapsVision
France · Other · Not Applicable

💻 PRESENTATION DE CHAPSVISION

Fondé en 2019, ChapsVision est un éditeur de logiciels en pleine croissance, membre du NEXT40 de la French Tech parmi les 40 start-ups françaises les plus prometteuses.

Avec 1200 collaborateurs et plus de 1000 clients grands comptes et régaliens, nous avons pour ambition de devenir un leader européen du traitement souverain de la donnée.

Notre objectif est de poursuivre notre développement en renforçant nos équipes pour concevoir, commercialiser, déployer et supporter des produits innovants de plus en plus ambitieux.

Parallèlement, notre engagement social se manifeste à travers la fondation HappyCap, adossée au groupe, qui vise à soutenir les enfants atteints de troubles de développement mental et cognitif et leurs familles.

👋 CONTEXTE DU POSTE

Vous rejoignez l’équipe R&D en Intelligence Artificielle de ChapsVision, en charge du développement de technologies de pointe autour des LLMs, des agents autonomes et de l’évaluation de systèmes complexes.

Dans un contexte où l’observabilité et l’évaluation des agents IA deviennent critiques, vous contribuerez à la conception d’outils permettant d’analyser leurs traces, détecter les échecs d’exécution et qualifier la qualité des décisions.

Votre travail s'appuiera sur l’état de l’art récent en évaluation des agents et LLM

💡 VOS FUTURES MISSIONS

  • Réaliser un état de l’art complet sur les méthodes d’évaluation d’agents et de systèmes LLM
  • - Concevoir un outil générique capable d’ingérer et d’analyser des traces d’exécution d’agents (actions, logs, états internes)
  • Produire des métriques actionnables : qualité du raisonnement, bonne utilisation des outils, erreurs d’exécution ou d’intention
  • Définir et expérimenter des critères d’évaluation qualitatifs et quantitatifs
  • (Optionnel) Proposer des méthodes d’automatisation via génération de jeux de tests, self-play ou simulation
  • (Optionnel) Utiliser les résultats d’évaluation pour améliorer automatiquement les agents (prompt optimization, LoRA…)

🤝 LES COMPÉTENCES ET QUALITÉS QUE NOUS RECHERCHONS

  • Intérêt fort pour les LLMs, agents autonomes, observabilité ou évaluation IA
  • Solides compétences en Python
  • Connaissances en NLP ou machine learning
  • Curiosité, rigueur, autonomie
  • Connaissances Linux / bash appréciées


🎁
CE QUE NOUS OFFRONS À NOS STAGIAIRES

  • Carte SWILE : 10€ / jour pris en charge à 60%
  • Transport en commun : Pris en charge à 50%
  • Télétravail : 3 jours/semaine maximum avec une indemnité de 26 euros par mois

📞 NOTRE PROCESS DE RECRUTEMENT

  1. Un entretien téléphonique avec l’un de nos recruteurs techniques pour faire connaissance.
  1. Un échange avec votre futur tuteur pour évaluer vos compétences et discuter du déroulement de votre futur stage.

Tous nos postes sont ouverts aux personnes en situation de handicap.

Bibliographie :

1. Yehudai et al. (2025). A Survey on the Evaluation of LLM-Based Agents.
Link: https://arxiv.org/abs/2503.16416
A broad and modern survey covering evaluation dimensions for single and multi-agent systems, datasets, metrics, and open challenges in observability.
2. Mohammadi et al. (2025). Evaluation and Benchmarking of LLM Agents: A Survey.
Link: https://arxiv.org/abs/2507.21504
Focuses on benchmarks, evaluation frameworks, agent behaviors, and failure analysis across real-world tasks.
3. Xia et al. (2024). Evaluation-Driven Development of LLM Agents: A Process Model and Reference Architecture.
Link: https://arxiv.org/html/2411.13768v2
Introduces the term Evaluation-Driven Development (EDD) and proposes an engineering framework where evaluation is a first-class citizen for designing and iteratively improving agents.
4. Zheng et al. (2023). LLM-as-a-Judge: Guiding LLMs to Judge the Quality of Generated Text.
Link: https://arxiv.org/abs/2306.05685
Foundational work on using LLMs as evaluators—highly relevant for scoring agent outputs, traces, and behaviors.
5. Shinn, Cassano & Gopinath (2023). Reflexion: Language Agents with Verbal Reinforcement Learning.
Link: https://arxiv.org/abs/2303.11366
A milestone in agent architectures; introduces self-evaluation loops, making it useful to understand multi-turn agent execution errors and evaluation needs.

Key Skills

Ranked by relevance

linux bash
Login to Apply
Posted
Nov 26, 2025
Type
Other
Level
Not Applicable
Location
Paris

Industries

Software Development

Categories

Engineering Information Technology

Related Jobs

3 roles aligned with this opportunity

View all jobs
View Job Details
Majestic Labs ai
Related

DevOps Engineer

2026-05-21

Other
Not Applicable
United States
Software Development
Engineering
View Job Details
EPAM Systems
Related

DevOps Engineer

2026-05-27

Full-time
Associate
Argentina
Software Development
Engineering
View Job Details
Scaleway
Related

Software Engineer - Developer

2026-05-28

Full-time
Not Applicable
France
Software Development
Engineering