Pratique du « prompt engineering socratique par l’humain »

Ouvrez LinkedIn un matin quelconque. Vous tomberez sur dix posts qui vous expliquent comment « écrire le prompt parfait ». La structure est toujours la même : un rôle, un contexte, une instruction, un format de sortie. Copy-paste, envoi, récupération. L’utilisateur commande, la machine exécute. Et si cette logique était déjà obsolète ?

Pas obsolète au sens où elle ne fonctionne plus. Elle fonctionne. Mais elle laisse entre 25 et 50 % de la valeur sur la table. Ce n’est pas moi qui le dis. Ce sont des chercheurs du MIT, de Stanford, de l’EMNLP et de NeurIPS.

La thèse que je défends ici est simple : un expert humain qui questionne un LLM à la manière de Socrate — par itérations, par reformulations, par mise en contradiction — obtient des résultats que l’instruction directe n’atteint pas. Et cette pratique, que j’appelle le « prompt engineering socratique », commence à disposer d’un corpus scientifique sérieux.

Socrate ne donnait pas d’instructions. Il posait des questions.

Petit rappel pour ceux qui ont séché la philo en terminale. La maïeutique, chez Socrate, ce n’est pas un cours magistral. C’est l’art d’« accoucher les esprits » par le questionnement. L’interlocuteur n’est pas un réceptacle. C’est un être qui possède déjà un savoir — enfoui, mal structuré, parfois contradictoire — et que la question juste révèle.

Transposons. Un LLM comme GPT-4, Claude ou Gemini possède des milliards de paramètres. Il « sait » beaucoup de choses, mais cette connaissance est latente, distribuée, et profondément dépendante de la manière dont on l’interroge. Donnez-lui une instruction plate, il produira une réponse plate. Posez-lui une série de questions qui le forcent à expliciter ses raisonnements, à confronter ses propres contradictions, à affiner progressivement — et le résultat change radicalement. Ce n’est pas de la poésie. C’est mesuré.

74 % de succès là où l’instruction directe échoue

En novembre 2024, à l’EMNLP (la plus grande conférence mondiale en NLP), une équipe a publié un papier qui aurait dû faire du bruit : Socratic Human Feedback (SoHF). Chidambaram et ses collègues y documentent une expérience précise : des développeurs experts sont invités à piloter GPT-4, Gemini Ultra et Claude 3,5 Sonnet sur des problèmes de programmation que ces modèles avaient initialement échoués.

Leur méthode ? Pas d’instruction unique. Un dialogue structuré en cinq phases socratiques : définition, elenchus (réfutation), maïeutique, dialectique, contre-factuel. Trente transcriptions analysées, codées, quantifiées.

Résultat : 74 % des problèmes initialement insolubles ont été résolus par le dialogue socratique. L’humain ne donne pas la solution. Il questionne. Et le modèle, guidé par ces questions, trouve ce qu’il ne trouvait pas seul.

(Précision importante : l’étude porte sur 30 transcriptions. C’est exploratoire, pas un essai randomisé contrôlé avec 10 000 sujets. La science avance pas à pas. Mais la direction est nette.)

Questionner > instruire : la preuve par quatre

SoHF n’est pas un cas isolé. Quatre autres travaux convergent.

INTERACT (ACL 2025). Kendapadi, Zaman, Menon et Srivastava ont testé un cadre où un LLM « étudiant » pose des questions à un LLM « enseignant » de manière itérative. Sur 1 347 contextes (paroles de chansons, articles de presse, résumés de films, papiers scientifiques, images), le questionnement itératif améliore la performance de 25 %. Un modèle « froid », sans contexte préalable, rejoint les baselines en seulement cinq tours de dialogue. Poser des questions fonctionne mieux que recevoir passivement de l’information. Même entre machines.

MIT Sloan (2025, N = 1 900). Manning, TuYe, Alsobay (MIT), Zhang (Stanford), Suri (Microsoft) et Nicolaides (Chypre) ont mené une expérience randomisée sur DALL-E 2 vs DALL-E 3. Le résultat est vertigineux : seulement 50 % des gains de performance proviennent de l’amélioration du modèle. L’autre moitié ? L’adaptation de l’utilisateur. Les participants attribués à DALL-E 3 rédigeaient spontanément des prompts 24 % plus longs. Ce que l’humain fait avec l’outil compte autant que l’outil lui-même.

NeurIPS 2025 Workshop. Javaji, Gauri et Zhu ont mesuré l’impact du multitour sur la qualité des sorties. Leur constat : un feed-back vague (« améliore ça ») plafonne ou dégrade la qualité après quelques tours. En revanche, un guidage ciblé améliore la qualité de façon fiable, tour après tour, sur 12 tours de conversation. Le type de question posée compte plus que le nombre d’échanges.

Analyse de conversations réelles (décembre 2025). Sur les datasets LMSYS-Chat-1M et WildChat, des chercheurs ont étudié 66 371 conversations et échantillonné 378 dialogues multitours. 68 % des conversations avec un LLM sont multitours. Et parmi les stratégies gagnantes : poser des questions ciblées (16,9 %), pointer les erreurs (22,8 %), ajouter des instructions spécifiques (16,5 %). Ce n’est pas du labo : c’est la pratique réelle de centaines de milliers d’utilisateurs.

Le paradoxe socratique appliqué aux LLM

Voici ce qui est fascinant. La méthode socratique fonctionne, et ce quelle que soit la direction de l’interaction.

Quand un LLM se questionne lui-même (Maieutic Prompting, Jung et al., NeurIPS 2022), la précision augmente de 20 %. Quand un LLM joue le rôle du questionneur socratique face à un humain (Instruct, Not Assist, EMNLP 2024), les étudiants progressent mieux qu’avec les tuteurs traditionnels. Quand un LLM questionne un autre LLM (INTERACT, ACL 2025), les performances montent de 25 %. Et quand un humain questionne le LLM (SoHF, EMNLP 2024), 74 % des échecs sont récupérés.

Quatre configurations, quatre améliorations. La constante, ce n’est ni le modèle ni l’humain. C’est le questionnement stratégique.

Dit autrement : la maïeutique n’est pas un artefact culturel grec. C’est un mécanisme cognitif universel — et il s’applique aux systèmes d’IA avec la même efficacité qu’aux humains.

Ce que ça change pour un praticien

Je forme des dirigeants de PME à l’utilisation de l’IA depuis 2023. Ce que j’observe sur le terrain confirme ces résultats, parfois brutalement.

Ceux qui rédigent un prompt unique, même très bien structuré, obtiennent un résultat « correct ». Propre, utilisable, oubliable. Ceux qui engagent un dialogue — qui reformulent, qui challengent, qui demandent au modèle de justifier ses choix, qui posent la question inverse — obtiennent autre chose. Quelque chose qui n’existait pas avant l’échange.

Le prompt unique, c’est une commande passée au drive. Le dialogue socratique, c’est une conversation avec un chef cuisinier. Le menu est le même. Le plat, non.

La différence est particulièrement marquée dans les domaines où l’expertise métier de l’humain est irremplaçable : rédaction SEO stratégique, positionnement de marque, contenu YMYL (Your Money Your Life), analyse concurrentielle. L’IA possède le savoir général. L’expert possède le filtre. Le questionnement socratique est le pont entre les deux.

Les cinq gestes du prompt engineering socratique

Si je devais résumer la pratique en cinq gestes, ce seraient ceux-ci.

Définir avant d’instruire. Avant de demander quoi que ce soit, demandez au modèle ce qu’il comprend du problème. « Comment définirais-tu X dans ce contexte ? » Force l’explicitation. Corrige les dérives de cadrage dès le départ.
Réfuter (elenchus). Prenez la réponse du modèle et retournez-la. « Et si c’était l’inverse ? », « Quel contre-exemple invaliderait ta proposition ? » Le modèle a été entraîné à être agréable. Forcez-le à être rigoureux.
Accoucher (maïeutique proprement dite). Au lieu de dire « ajoute des chiffres », demandez « quelles données soutiendraient ou infirmeraient cette affirmation ? » La question ouverte génère un espace de réponse plus riche que l’instruction fermée.
Dialectiser. Présentez deux thèses contradictoires et demandez une synthèse. « Certains disent que X améliore le taux de conversion, d’autres que X l’effondre. Quelle est ta position argumentée ? » Le modèle produit alors une pensée structurée, pas une opinion par défaut.
Contre-factualiser. « Qu’est-ce qui se passerait si on supprimait complètement cette étape ? », « Imagine que le budget soit zéro : que garderais-tu ? » Le contre-factuel pousse le modèle hors des sentiers battus. C’est souvent là que les idées les plus utiles émergent.

Ces cinq gestes correspondent exactement aux cinq phases identifiées dans l’étude SoHF. Ce n’est pas un hasard. La recherche formalise ce que les praticiens expérimentés font déjà intuitivement.

Ce qui manque encore

Soyons honnêtes. Le corpus est récent (2024–2025), souvent exploratoire, et concentré sur des domaines spécifiques — principalement la génération de code et la génération d’images.

Il n’existe pas encore, à ma connaissance, d’essai randomisé contrôlé comparant « prompt unique optimisé » vs « dialogue socratique » sur un échantillon large, dans des domaines variés (rédaction marketing, stratégie SEO, production de contenu E-E-A-T). SoHF porte sur 30 transcriptions. La direction est claire, mais l’échelle reste modeste.

De même, personne n’a encore formalisé un « protocole socratique optimal » utilisable par un non-spécialiste. Les cinq gestes que j’ai décrits ci-dessus sont une synthèse praticien, pas une méthodologie validée.

C’est peut-être le sujet d’un papier qui attend son auteur.

Le prompt engineer de demain ne promptera plus

L’ironie, c’est que le terme même de « prompt engineering » est trompeur. Il suggère une ingénierie de la commande. Une optimisation de l’instruction. Un monde où le meilleur prompt est celui qui donne la meilleure réponse d’un seul coup.

Or, tout ce que la recherche nous montre va dans le sens opposé. Le modèle le plus utile n’est pas celui qu’on commande le mieux. C’est celui qu’on questionne le mieux. L’étude MIT Sloan est limpide : investir dans un outil plus puissant ne sert à rien si l’utilisateur n’adapte pas sa manière de l’utiliser. Et la manière la plus efficace, c’est le dialogue.

Le vrai avantage compétitif n’est pas dans le choix du modèle. Il est dans la qualité de la conversation. Pas dans le prompt. Dans le processus.

On peut dire les choses autrement : Socrate avait raison, y compris face à une machine.

Sébastien GRILLOT

Sources et références

[1] Chidambaram et al. (2024), «Socratic Human Feedback (SoHF): Expert Steering Strategies for LLM Code Generation», EMNLP 2024 Findings. https://aclanthology.org/2024.findings-emnlp.908/

[2] Kendapadi, Zaman, Menon, Srivastava (2025), «INTERACT: Inter-Agents Communication for Teaching», ACL 2025, pp. 8992-9024. https://aclanthology.org/2025.acl-long.441/

[3] Manning, TuYe, Alsobay (MIT Sloan), Zhang (Stanford), Suri (Microsoft), Nicolaides (Chypre) (2025), «User Adaptation to AI : Randomized Experiment on DALL-E 2 vs DALL-E 3», MIT Sloan. https://mitsloan.mit.edu/

[4] Javaji, Gauri, Zhu (2025), «Another Turn, Better Output? Multi-Turn Interaction Analysis», NeurIPS 2025 Workshop. https://openreview.net/forum?id=nPgh13kzhW

[5] « Decoding Human-LLM Collaboration in Coding » (décembre 2025). Analyse de 66 371 conversations LMSYS-Chat-1M et WildChat. https://arxiv.org/

[6] Jung et al. (2022), «Maieutic Prompting: Logically Consistent Reasoning with Recursive Explanations», NeurIPS 2022. https://proceedings.neurips.cc/paper_files/paper/2022/

[7] Kargupta, Agarwal, Hakkani-Tur, Han (2024), «Instruct, Not Assist: LLM-based Multi-Turn Planning and Hierarchical Questioning for Socratic Code Debugging», EMNLP 2024 Findings, pp. 9475-9495. https://aclanthology.org/2024.findings-emnlp.553/

[8] «Beyond Single-Turn: A Survey on Multi-Turn Interactions with LLMs» (juillet 2025). https://arxiv.org/abs/2504.04717

[9] «Conversational User-AI Intervention» (mars 2025), arXiv:2503.16789. https://arxiv.org/abs/2503.16789

[10] GitHub Developer Survey 2024, Stack Overflow Developer Survey 2024.

Sources consultées en janvier 2026.