Ces technologies promettent de transformer la manière dont les créateurs abordent la production vidéo, mais lequel de ces outils est le plus performant ? Ce comparatif se concentre sur l’img-to-video à partir d’images réalistes, en utilisant le même prompt pour chaque outil afin d’assurer une comparaison équitable. Les résultats sont-ils à la hauteur des promesses annoncées par ces plateformes ?
L’évaluation révèle que chaque outil a ses propres forces et faiblesses. Luma se distingue par sa fidélité à l’image source, mais peine à obtenir un résultat de qualité dès la première tentative.
En revanche, Kling et Gen-3 parviennent souvent à produire des vidéos de haute qualité dès la première itération, ce qui les rend très attractifs pour les utilisateurs soucieux de l’efficacité.
Kling se démarque par sa capacité à interpréter les prompts de manière fiable, bien que les expressions faciales soient parfois moins précises.
Gen -3, quant à lui, impressionne par sa capacité à minimiser les déchets, bien que sa fidélité à l’image source puisse être améliorée. Avec ces différences notables, la question demeure : quel outil répond le mieux aux besoins variés des créateurs de contenu ?
Nombre d’itérations avant un résultat de qualité
Luma nécessite en moyenne 2 à 4 itérations pour obtenir une vidéo de 5 secondes de bonne qualité. En revanche, Kling et Gen-3 produisent généralement un résultat de qualité dès la première tentative dans 90 % des cas, ce qui est très appréciable.
Déchets
Luma génère encore beaucoup de déchets, ce qui peut être frustrant. Kling a réussi à réduire les déchets, bien qu’ils soient encore présents, mais en quantité moindre par rapport à Luma. Gen -3 se distingue par des déchets quasi inexistants, ce qui est vraiment impressionnant.
Fiabilité au prompt
Avec Luma, il est rare d’obtenir un résultat précis dès le premier essai, nécessitant souvent 3-4 itérations. Kling, en revanche, est très fiable par rapport au prompt, notamment pour les mouvements de caméra, bien que les expressions soient moins fiables. Gen -3 est le plus fiable concernant le prompt, que ce soit pour les mouvements de caméra, les expressions ou même les ombres et lumières.
Qualité et fidélité à l’image
Luma est le plus fidèle à l’image source, conservant une très bonne qualité, probablement en raison de prises de risques moindres sur les mouvements de caméra et des personnages. Kling perd un peu en qualité, mais les mouvements de caméra et les expressions de haute qualité compensent cette perte. Gen -3 peut parfois perdre en fidélité par rapport à l’image source, mais comme Kling, les mouvements de caméra et les expressions de qualité compensent cette faiblesse.
Rapport Qualité/Prix
Luma coûte 23,99 $/mois pour 120 générations de 5 secondes (+30 générations offertes par mois), soit environ 12 minutes de vidéo par mois. En comptant en moyenne 3 itérations par vidéo pour un rendu précis, cela équivaut à environ 4 minutes de vidéo par mois.
Kling est proposé à 37 $/mois pour 3000 crédits. Chaque vidéo de 5 secondes en format pro coûte 35 crédits, ce qui équivaut à environ 7 minutes de vidéo par mois, avec généralement des one-shots.
Gen -3 coûte 35 $/mois pour 2250 crédits. Chaque vidéo de 5 secondes coûte 50 crédits, ce qui permet de produire environ 4 minutes de vidéo par mois en général avec des one-shots.
Yoni ATTLAN
Les avis de la communauté francophone
« Avec l’évolution rapide des outils d’IA, j’ai découvert Kling et ses résultats impressionnants. Gen-3 offre également des performances remarquables, mais le format unique proposé est un frein pour moi, car il rallonge mon process. Pour l’instant, Kling répond parfaitement à mes besoins et je compte bien l’utiliser encore un bon moment. » Yoni Attlan
« Le Text-to-video de Gen-3 est largement au-dessus des deux autres. De plus, le plan illimité Gen-3 même à 99 $/mois reste le meilleur, à mes yeux, pour les gens qui ont besoin de faire des deux. Toutefois, ma video pour le concours Kling a été faite avec le plan gratuit en one shot. Donc même avec du gratuit Kling on peut faire des choses sympas. » Ludovic Carli
« Luma Dream Machine prend plus de risques, produisant des plans beaucoup plus dynamiques. Dès lors il est normal qu’il ait autant de déchets. Mais celui que j’apprécie le plus est Kling. En effet, son ergonomie avec une interface extrêmement bien pensée, la possibilité d’avoir des essais gratuits quotidiens et des résultats relativement qualitatifs du premier coup font de Kling à mon avis la meilleure des trois solutions. Certes, Gen-3 sera probablement plus adapté pour un usage professionnel, avec en plus un potentiel énorme lorsqu’ils intégreront les fonctionnalités de Gen-2 lui donnant alors une finesse de contrôle inégalée. » Nicolas GenIArt
« Si l’on doit prendre un instantané aujourd’hui, il est clair que Kling est celui qui génère le moins de déchets. D’autant que Gen-3 n’est pas encore tout à fait stable et entraîne énormément de messages d’erreurs. Mais, ce n’est qu’une version alpha. À voir donc, quand l’outil sera totalement finalisé. » Pierrick Chevallier
L’avis d’Alexandre Tissier
Best AI Film Award au World Film Festival in Cannes – Remember the Future.
Luma Dream Machine a complètement bouleversé la hiérarchie des outils text/image-to-video, prouvant que n’importe quelle application peut débarquer du jour au lendemain avec une technologie hyper performante.
Les animations sont très fluides, le rendu de mouvements de l’eau est complètement « ouf » (encore plus que sur Gen-3, je trouve), les mouvements sont plus rapides que sur Gen-3, mais au détriment parfois d’hallucinations ou déformations improbables.
Le second keyframe a été une superbe innovation et laisse présager de nouvelles fonctions à venir. En revanche leur UX de l’outil n’est vraiment pas optimal.
Runway Gen-3 nous a fait patienter avec un text-to-video très performant, mais n’aimant pas travailler sans image de base que je maîtrise, je n’ai pas creusé plus que ça.
Leur image-to-video est vraiment incroyable, surtout la finesse de maîtrise par le prompt associé qui permet vraiment d’ajuster la vitesse ou le style de mouvement.
Leur UX est vraiment pratique, les générations sont rapides. Les animations sont en revanche plus lentes que sur Dream Machine, pour éviter les déformations ou hallucinations j’imagine.
Kling : c’est celle que j’ai la moins testée, car le watermark me dérangeait, pas de plan payant permettant de le retirer à l’époque. Je vois que cela est possible depuis, super nouvelle.
Le rendu est juste incroyable, à confirmer, mais peut-être encore plus que sur les autres applications. Mais n’étant pas expert sur cette application, difficile d’en être sûr.
Les prompts du comparatif
Prompt vidéo 1
Close-up shot, girl speaking, monitors display an action game.
Prompt vidéo 2
Slow zoom-in, a woman, gently swaying to music.
Prompt vidéo 3
Dramatic zoom-out, woman have a serene expression. Sunlight glistens on water.
Prompt vidéo 4
Aerial drone shot, descending toward the woman, capturing the sunset, her smile.
Prompt vidéo 5
POV shot, woman adjusting her green cap, smiling. Camera tilts up to her face, natural light illuminates her.