Contexte
Dans le cadre du développement d’une solution de reconnaissance vocale automatisée (speech-to-text) basée sur l’IA, nous recherchons un(e) Ingénieur(e) Machine Learning spécialisé(e) en NLP et traitement audio. Votre rôle consistera à améliorer la qualité des transcriptions, résoudre des problèmes d’alignement temporel, et concevoir des pipelines robustes pour la reconnaissance vocale, y compris la gestion de spécificités linguistiques (acronymes, accents, ponctuation...).
Missions
- Développer, entraîner et optimiser des modèles de speech-to-text (ASR) à l’aide de frameworks ML/NLP.
- Diagnostiquer et corriger les désynchronisations entre audio et texte (timestamps).
- Mettre en place des processus de prétraitement audio et de nettoyage de texte.
- Intégrer des fonctions avancées telles que :
- Reconnaissance d'acronymes, abréviations, entités nommées.
- Détection automatique de locuteurs ou de traits vocaux.
- Collaborer avec les linguistes, annotateurs et équipes produit pour améliorer la qualité des données d'entraînement.
- Participer à la veille technologique sur les modèles vocaux récents (ex : Whisper, Wav2Vec2, NeMo...).
- Documenter les choix techniques, pipelines et résultats.
Compétences requises
Techniques :
- Excellente maîtrise de Python et des bibliothèques ML (TensorFlow, PyTorch, Hugging Face Transformers, etc.)
- Expérience en traitement du signal audio : librosa, torchaudio, pydub, etc.
- Connaissances solides en NLP : tokenisation, alignement texte-parole, modèles de langage.
- Maîtrise de systèmes ASR : Whisper, Kaldi, DeepSpeech, Wav2Vec2, etc.
- Expérience avec les jeux de données vocaux (Common Voice, LibriSpeech, etc.).
Bonus :
- Connaissances en linguistique computationnelle.
- Expérience avec des outils d’annotation vocale (ex : ELAN, Praat, Label Studio).
- Familiarité avec l'évaluation de la qualité de transcription (WER, CER, alignement temporel).
Soft Skills :
- Autonomie, rigueur et esprit analytique.
- Capacité à vulgariser des concepts techniques complexes.
- Esprit collaboratif et goût pour l’innovation.
Profil recherché
- Diplôme Bac+5 minimum en informatique, mathématiques appliquées, traitement du signal ou domaine connexe.
- Une expérience professionnelle ou projet significatif dans le domaine du speech-to-text ou traitement audio/NLP.
Key Skills
Ranked by relevance
Related Jobs
3 roles aligned with this opportunity
AI Software Engineer (m/f/d) - Berlin
2026-05-21
Data Scientist (m/w/d)
2026-05-28
Data Scientist (Python & SQL) - Freelance AI Trainer
2026-05-28
- Posted
- Jul 18, 2025
- Type
- Full-time
- Level
- Mid-Senior
- Location
- Geneva Metropolitan Area
- Company
- CLEEVEN
Industries
Categories
Related Jobs
3 roles aligned with this opportunity
AI Software Engineer (m/f/d) - Berlin
2026-05-21
Data Scientist (m/w/d)
2026-05-28
Data Scientist (Python & SQL) - Freelance AI Trainer
2026-05-28