Longtemps limitées à des plans courts et souvent figés, les vidéos générées par intelligence artificielle franchissent une nouvelle étape avec Kling 3.0, développé par la plateforme chinoise Kuaishou et lancé début février 2026. Son mode « Multishot » introduit une logique de mise en scène proche du cinéma avec changements d’angles, mouvements de caméra et construction narrative sur plusieurs plans. L’outil marque surtout une évolution vers une véritable grammaire de réalisation virtuelle, où la vidéo ne se décrit plus image par image, mais se pense comme un montage.
Comment fonctionne le mode « Multishot » pour créer des séquences de cinéma ?
Le mode « Multishot » a été conçu pour rompre avec la génération vidéo en plan unique. Au lieu de produire une scène continue et statique, Kling assemble plusieurs plans successifs dans une même séquence, avec des cadrages et des mouvements différents.
Dans l’interface « Generate », l’utilisateur active simplement l’option « Multishot ». La durée de la vidéo passe alors de quelques secondes à une séquence comprise entre 3 et 15 secondes. Le changement est important. Il ne s’agit plus de décrire une image animée, mais d’organiser une scène comme un découpage.
Le véritable contrôle arrive avec l’option « Custom Multishot ». Chaque plan devient un segment indépendant ajouté manuellement. Pour chacun, une description précise définit l’angle, l’action ou le mouvement de caméra. Une séquence classique peut débuter par un plan large pour situer l’action, enchaîner sur un mouvement de suivi, puis terminer par une révélation en gros plan.
La durée se règle plan par plan. Trois segments de cinq secondes composent ainsi une scène complète de quinze secondes, structurée comme une mini-séquence de film. Kling conserve l’état visuel de la scène entre les plans, ce qui aide à maintenir la position des personnages et la continuité des actions malgré les changements de caméra. L’outil accepte des instructions en français, même si les dialogues générés restent aujourd’hui majoritairement limités à d’autres langues.
Quels réglages influencent le résultat final ?
Avant la génération, plusieurs paramètres techniques entrent en jeu. L’utilisateur choisit la qualité de sortie en 720 p ou 1080 p, le nombre de versions produites et l’activation éventuelle de l’audio. Le coût en crédits s’ajuste automatiquement selon ces choix.
Mais le facteur déterminant reste l’image de départ. Importer une image initiale, souvent créée avec Midjourney, fixe le style visuel, le cadrage et même le format de la vidéo. Sans cette base, les résultats deviennent plus instables. Certains créateurs utilisent également une image de fin afin d’orienter la conclusion du plan.
Ce workflow image initiale puis découpage multi-plans constitue aujourd’hui la méthode la plus fiable pour obtenir un rendu réellement cinématographique.
Quels sont les différents mouvements de caméra disponibles en Multishot ?
Le mode « Multishot » introduit une véritable grammaire de mise en scène en variant angles et mouvements au sein d’une même séquence.
- Tracking shot
Mouvement de suivi qui accompagne un personnage ou une action en déplacement. - Close reveal
Fin de séquence en plan serré destinée à révéler un détail ou une réaction. - Plan large
Point de départ fréquent pour installer le décor et situer l’action. - Point de vue (POV)
La scène adopte la vision d’un personnage ou d’un animal, par exemple une poursuite vue successivement par un chat puis par une souris. - Effet de rotation
Mouvement circulaire, accentuant la tension dramatique. - Variation d’angles
Passage d’un plan d’ensemble à des cadrages plus inattendus, comme un gros plan sur un regard.
L’usage d’un prompteur spécialisé aide à organiser ces enchaînements selon une logique narrative claire, proche du découpage d’un film.
Comment Kling gère-t-il la cohérence visuelle sur 15 secondes ?
La cohérence ne repose pas uniquement sur l’IA. Elle découle surtout de la préparation en amont. L’image de départ agit comme une référence esthétique permanente. Tous les plans générés s’alignent sur son style graphique.
Le mode « Custom Multishot » joue ici un rôle clé. Chaque plan possède ses propres instructions tout en restant inscrit dans le même univers visuel. Cette logique rappelle un storyboard simplifié. Kling maintient également les relations spatiales entre objets et personnages, ce qui limite les ruptures visuelles fréquentes dans les générations vidéo plus anciennes.
Pour des vidéos plus longues, certains créateurs enchaînent plusieurs blocs de quinze secondes en utilisant des images de départ cohérentes entre elles. Le montage final conserve alors une unité visuelle proche d’un court métrage.
Quel est l’intérêt à utiliser un prompteur dédié ?
Rédiger des prompts cinématographiques précis devient vite complexe. Des outils de type prompteur, comme le Kling Director, servent d’assistant de mise en scène.
Ils structurent automatiquement la séquence en générant les descriptions nécessaires pour chaque plan. L’utilisateur obtient une architecture prête à copier dans l’interface, avec suggestions d’angles de caméra, de mouvements et de durées.
Ce type d’outil agit comme un guide pédagogique. Il aide à organiser un enchaînement logique de plans, améliore le rythme de la scène et facilite les corrections lors des itérations. Si un élément disparaît ou manque à l’écran, il suffit d’ajuster la description du segment concerné. Au-delà du gain de temps, le prompteur transforme surtout l’usage de Kling en apprentissage progressif du langage cinématographique appliqué à l’IA.
Kling Director
https://poe.com/Kling-Director-3
Peut-on générer des dialogues en français avec Kling ?
Kling comprend les instructions écrites en français sans difficulté. La version actuelle introduit la génération audio synchronisée et le lip sync, avec plusieurs langues disponibles pour la voix. Le français ne fait toutefois pas encore partie des langues prises en charge pour les dialogues, qui restent principalement en anglais.
Tiphaine TOUZEIL






















