Ce que Levelia cherche à mesurer

Levelia ne cherche pas à produire un QI de l'IA. La plateforme mesure la capacité d'un candidat à produire un résultat utile avec l'IA générative dans le contexte réel d'un poste.

L'enjeu pour les équipes RH n'est pas de savoir si un candidat a déjà ouvert ChatGPT, mais s'il sait cadrer une tâche, choisir le bon niveau d'autonomie, vérifier ce qui sort et livrer un résultat défendable.

  • Compréhension du brief et du contexte métier
  • Capacité à guider l'outil sans sur-dépendance
  • Vérification, jugement et maîtrise des risques
  • Qualité finale du livrable et niveau de preuve

Comment une campagne devient comparable

Une campagne Levelia fige son protocole: cadrage du poste, parties activées, durée, prompts de scoring et structure du rapport. L'objectif est que deux candidats comparés dans une même campagne soient évalués sur un cadre stable.

Cette approche répond au besoin des grandes entreprises: comités de sélection, trace d'audit et comparabilité inter-candidats sans improvisation au moment de la décision.

  • Cadrage du poste à partir de la mission et du référentiel métier
  • Versioning des prompts et des critères de lecture
  • Même durée et mêmes règles pour l'ensemble de la campagne
  • Historique des modifications avant activation

Ce que contient le rapport

Le rapport ne livre pas une note opaque. Il donne un score global, huit dimensions lisibles, des preuves rattachées aux observations et un badge vérifiable qui permet d'attester l'émission.

L'objectif est d'aider la discussion entre RH, manager et comité, pas de masquer la décision derrière un calcul automatique.

  • Score global et sous-scores dimensionnels
  • Preuves et artefacts associés à la notation
  • Notice de prudence et rappel du rôle de la décision humaine
  • Badge signé et vérifiable publiquement

Pourquoi cette méthode est adaptée aux grandes entreprises

Les grandes entreprises ne cherchent pas seulement un test. Elles ont besoin d'un dispositif qu'un responsable RH, un juriste, un DPO et un manager opérationnel peuvent lire sans ambiguïté.

C'est pour cela que Levelia privilégie la stabilité du protocole, la lisibilité du scoring et des surfaces publiques de preuve comme la vérification du badge et la documentation de conformité.

Comment les huit dimensions ont été construites

Les huit dimensions (PRM · VRF · ITR · CTX · ETH · JGM · INT · AUT) ne sortent pas d'une idée générale sur l'IA. Elles viennent d'un travail itératif: cartographie des usages réels de l'IA générative dans les métiers tertiaires, confrontation aux pratiques observées en entreprise, et stabilisation du vocabulaire en dialogue avec des professionnels RH et métier.

Chaque dimension a une définition explicite, un critère d'observation et des indices positifs et négatifs associés. Ce n'est pas une échelle subjective déguisée: c'est une grille d'observation rattachée à du travail réel, auditable par les équipes qui consultent le rapport.

  • Cartographie amont des situations d'usage réelles en entreprise
  • Vocabulaire stabilisé en dialogue avec des professionnels RH et métier
  • Chaque dimension dispose d'indicateurs d'observation documentés
  • Itération continue avec les partenaires du programme pilote fondateur
  • Révisions versionnées et journalisées — rien ne change en silence

Comment fonctionne concrètement la notation

La notation combine ce que le candidat livre (la sortie du travail) et la manière dont il l'a produit (comment il a échangé avec l'IA, ce qu'il a vérifié, les arbitrages qu'il a posés). Le dispositif technique s'appuie sur un LLM captif — le candidat n'a pas accès à des outils externes pendant l'épreuve — et sur une série de prompts de lecture versionnés, figés au moment précis où la campagne est activée.

Ce choix de conception est délibéré: l'objectif est que deux candidats évalués dans la même campagne soient lus avec exactement la même grille, indépendamment du jour où ils passent l'épreuve.

  • LLM captif durant l'épreuve, aucun outil externe autorisé
  • Prompts de lecture versionnés et figés à l'activation de la campagne
  • Historique complet des modifications disponible pour audit
  • Capture intégrale des échanges candidat ↔ IA pour la traçabilité
  • Séparation stricte entre le prompt qui produit et le prompt qui note

Reproductibilité et comparabilité

La reproductibilité inter-candidats au sein d'une même campagne est notre contrainte centrale. Tant que les prompts et le protocole restent figés, deux candidats sont évalués selon la même grille, avec les mêmes critères de lecture. C'est cette stabilité qui rend le rapport défendable en comité.

La comparabilité inter-campagnes — par exemple entre deux recrutements distincts — est un objectif plus complexe que nous ne prétendons pas résoudre complètement aujourd'hui. Les grandes dimensions sont stables, mais les protocoles varient selon les métiers. C'est un des chantiers co-construits avec les partenaires fondateurs.

Ce que nous ne prétendons pas

Levelia ne prétend pas offrir aujourd'hui une validation psychométrique au sens strict du terme: corrélation avec la performance au poste mesurée sur plusieurs cohortes, invariance différentielle formelle, validité critérielle construite sur plusieurs années. Ces travaux exigent des volumes de données de terrain qu'aucun acteur ne peut présenter honnêtement à l'échelle de quelques mois.

Ce que nous revendiquons en revanche: un dispositif stable, reproductible au sein d'une campagne, auditable, explicable dimension par dimension, et qui aide une décision humaine à rester défendable face à un candidat, un juriste ou un DPO. C'est ce qui manque aux équipes RH aujourd'hui — et c'est ce que nous construisons avec nos partenaires.