Podcast BlaBlaCar : Déployer un projet GenAI qui rapporte 1 million par an

Author: Unknown

Date: 09/09/2025

Ce que j'ai retenu du podcast:

  • BlaBlaCar fait plein de modération manuelle, via une boite externe, sur les textes des profils, des messages échangés, et sur les photos de profil

  • Cela leur coûte une blinde

  • Ils ont monté un projet de modération automatique par IA sur la modération texte

  • Le système est en deux étapes: d'abord utilisation de GenAI pour labelliser le texte ("embedding"), puis utilisation d'un algo maison de machine learning ("Sphinx") pour décider d'accepter ou pas, sur la base des labels (et peut-être d'autres meta-datas)

  • Ils n'ont pas fait la prise de décision par GenIA car cela ne permet pas ni maîtrise fine, ni compréhension de la décision

  • Ils ont préféré utiliser de la GenAI pour la labellsaition plutôt que partir sur du NLP à monter soi-même.

  • Pour labelliser, ils sont passés par les API de Google puis ont arrêté car temps de réponse trop long. Régulièrement, pendant plusieurs heures, jusqu'à 8 secondes de délai. Délai jugé trop long pour les échanges de message temps réel type chat (ca donne une idée de la pression mise sur leur presta actuel de modération). Ils ont donc hébergé eux-même cette partie GenAI. Solution open-source chinoise, Qwen, d'Alibaba.

  • En labellisant l'historique, ils ont pu comparer la qualité par rapport à la modération manuelle.

  • Ils peuvent se permettre, grâce à ce jeu de données, de tester d'autres solutions d'embedding/labellisation.

  • Ils peuvent créer de nouveaux labels, réentrainer le modèle Sphinx et comparer la non régression / amélioration de la modération.

  • Deux facteurs de succès:

    • Le gain financier qui a fait que le projet a eu des soutiens internes

    • Ils ont fait en sorte d'utiliser en interne la mêmes API que l'API de modération externe. Cela permet du coup de basculer de l'un à l'autre sans problème, et facilite l'A/B testing

Ressource partagée: Les Rules of Machine Learning de Google: "C'est un document qui décrit les bonnes pratiques à suivre pour faire un projet de Machine Learning en production et qui nous a beaucoup inspiré chez BlaBlaCar pour faire de la prise de décision à l'échelle."

Source:

Tags: notes-diverses entreprise genai data podcast ia