Odyssée créative de Patrick Foch avec Midjourney et Runway

Les règles du Jeu : établir un cadre créatif

En préalable à cet article qui tient plus du retour d’expérience que d’une analyse exhaustive de l’état de l’art, je me dois de préciser les règles que je me suis auto-imposé en me lançant dans ce projet de publicité fictive.

Utilisation exclusive des solutions Midjourney (pour la création des images fixes) et de Runway ou Pika (pour les animations). Bien sûr, Stable Diffusion et d’autres offrent d’autres possibilités, Haiper vient d’arriver sur le marché, mais l’idée était de m’appuyer sur les solutions techniques que je tente de maîtriser
Interdiction d’utiliser les références visuelles ou styles des autres. Les URL en guise de prompt ou les sref fonctionnent très bien, mais l’idée était vraiment de me confronter à mon propre univers et à la rigueur qu’impose la rédaction d’un bon prompt.

En ce temps fort reculé (il y a à peine une quinzaine de jours), Midjourney n’avait pas encore révélé sa nouvelle magnifique fonction de consistance de personnages… L’un des enjeux de ce petit projet était donc, avant l’arrivée du paramètre cref, de créer une certaine continuité visuelle tout au long des 18 plans du film.

Il fallait trouver une thématique, un annonceur fictif. Je conviens aisément qu’un parfum était plus inspirant qu’un pneumatique. Alors sans doute suis-je tombé dans une certaine facilité en me lançant dans un projet aussi libre, quoique…

L’idée était de trouver du plaisir à prompter et à me confronter à ma connaissance de l’IA générative tout en continuant à développer une esthétique autour de laquelle je tourne depuis un moment (images contrastées, un peu froides, contrastes des peaux, photoréalismes autour de personnes aux peaux noires et blanches, sensualité, poésie…).

Odyssée créative de Patrick Foch avec Midjourney et Runway

En tant que réalisateur, la création d’une belle image fixe vient évidemment toucher une corde sensible, mais ma vraie finalité, le véritable objectif de mon métier et de ce projet se trouve du côté de l’image animée.

Premières impressions : une euphorie prématurée

Globalement, la première surprise a été d’arriver à quelque chose de correct en une simple grosse journée. Dans l’euphorie, j’avais presque le sentiment que cette première version très rapidement produite cochait toutes les cases…

Cependant, les retours de quelques proches, plus ou moins connaisseurs de ce que l’IA autorise, m’ont poussé à reprendre, plan par plan. Pour eux, et j’en conviens, il s’agissait d’un très bon moodboard/storyboard, mais pas d’un film suffisamment abouti pour être ainsi diffusé.

Et, avec le recul, entre la version 1 et v 6 du projet, tout a été revu, repensé, réorchestré. La différence avec une production classique de film publicitaire est qu’une nouvelle version n’est pas une simple mise à jour du montage ou la récupération d’un plan qui nous avait échappé dans les rushes.

Non, avec l’IA, faire une nouvelle version, c’est potentiellement, régénérer 3 ou 10 visuels de substitution pour une image que l’on veut améliorer puis régénérer 4, 5 ou 8 animations du visuel retenu. Ainsi une v 2 ne ressemble plus vraiment à une v 1.

Ensuite, il faut savoir stopper un tel projet pour ne pas tomber dans la recherche de l’ultime perfection. L’absolue qualité engendre souvent, voire toujours, plus de temps passé, plus de retard dans la livraison… Sur un film classique, après le tournage, les images existent et nous devons composer avec ce qui a été tourné. Les retakes (tournage supplémentaire pour améliorer un plan) sont rarissimes.

Avec l’IA, la chose créative est sans fin. En effet, créer un nouveau plan de A à Z n’est pas bien compliqué, il faut donc s’imposer un planning sous peine de ne jamais terminer le film, car il est, par principe et par facilité de création, sans cesse améliorable. Côté financier aussi, je ne compte plus les « 2 hours for $8.00 » » ajoutés à mon forfait de base Midjourney pour aller plus loin…

Midjourney v6 : au cœur de la création

La génération des images fixes sur Midjourney est, à ce jour, la partie la plus satisfaisante d’un tel projet tant l’application est devenue mature (et ergonomique dans la version alpha).

Fidèle de Midjourney depuis sa version 3, les progrès sont incroyables et générer des images fixes hyperqualitatives, alignées sur la direction artistique que j’avais en tête a été le meilleur moment. Toutefois il est bien des choses que je n’ai pas pu ou su bien gérer.

Bien entendu, certains prompt engineers me diront « mais il te suffisait de taper ça pour avoir ce que tu voulais »… Et ils auront probablement raison. Pour reprendre l’article de Werner Manesse, écrire un prompt est un art et je n’ai pas, à ce jour, le sentiment de le maîtriser totalement.

À l’inverse, je pense que nombreux sont les artistes IA à revendiquer une maîtrise de leur style alors que je pense qu’ils n’en ont qu’un contrôle partiel et se satisfont de cela. Travailler avec ces outils impose une vraie tolérance entre ce que l’on a en tête et ce que l’on finit par obtenir.

La technologie vs l’artiste IA

Ça ne veut pas dire que je n’aime pas ce qui sort de cet échange un peu surréaliste avec l’IA, que je ne suis pas souvent surpris, car l’image obtenue est supérieure à celle que j’imaginais ou promptais mais il me semble important de souligner les nécessaires compromis qu’imposent ces technologies.

Ainsi créer deux personnages très différents l’un de l’autre dans une même scène, se débrouiller pour les faire interagir, se toucher, s’enlacer s’embrasser sans perdre la consistance des deux a été très complexe.

Ainsi créer des prises de vues en hauteur avec simplement les deux personnages nageant l’un vers l’autre, mais à une certaine distance m’a été impossible.

Ainsi les placer dans un environnement précis (eau blanche ou eau noire, roses noires ou blanches flottant autour d’eux, montagnes environnantes à dominante neigeuse ou de roche noire) a là aussi été d’une complexité inattendue.

En fait, la difficulté s’est révélée progressivement et, à l’évidence, faire un film avec un personnage unique sur un fond graphique simple et épuré aurait été plus simple. Mais l’idée n’était pas à la simplicité.

Ainsi aussi, mettre de la rigueur dans les cadrages, faire créer par Midjourney une image que l’on a clairement, précisément en tête, reste difficile.

Mon petit bilan d’expérience c’est que Midjourney excelle dans le portrait, un visage, pas trop distant, un décor, une image plus ou moins centrée, rien à redire.

Deux personnages, en plan plus lointain, avec une volonté de décadrage ou de point de vue spécifique et le prompt se rallonge, se rallonge, se rallonge et se dilue jusqu’à perdre certaines informations clés.

La version 6 a clairement fait progresser la compréhension des prompts, mais il y a encore un peu de travail. Alors peut-être une solution se trouverait du côté des solutions du type Krea ou Vizcom dans lesquelles un simple gribouillis, un bonhomme bâton, peut servir de base de compréhension à l’image que nous cherchons à créer.

En tous les cas, maintenant que les ingénieurs de Midjourney ont intégré le cref, mon rêve serait qu’ils ajoutent des fonctionnalités de ce type-là pour que les prompts ne se fassent que l’écho du contenu que l’on imagine et que des outils parallèles viennent décrire la nature technique du plan (son cadrage, la pose des personnages, la distance qui les sépare, la taille de certains éléments…).

Quoi qu’il en soit, je suis arrivé à mes 18 images de bases après plusieurs centaines de générations et de variations. Pas de miracle me concernant, c’est par la quantité, l’itération et le compromis que je suis parvenu à une certaine qualité.

Runway : entre magie et limites

La seconde phase du projet consistait donc à animer tout ceci. Et là, clairement, même si ces outils sont fantastiques, même s’il faut entendre que nous sommes à l’aube d’une révolution technologique, la frustration est, à ce jour, significative.

Runway (et Pika) ont réussi à mettre de la magie dans des images fixes certes. Mais le contrôle reste extrêmement faible. Une fois encore, je me dois de préciser que je ne prétends pas à la maîtrise totale de ces outils, mais la dégradation de l’image source est très importante et à tous les niveaux. Il y a une dégradation de qualité, de résolution. Admettons, on peut toujours tenter de « rattraper ça en postprod » (certains se reconnaîtront)… mais aussi une perte sensible d’intentions.

Passer à l’animation a été extrêmement contraignant et laborieux, j’ai eu le sentiment de lancer d’innombrables générations, de jouer mille et une fois à la loterie sans la moindre idée du résultat qui m’attendait.

Si avec Midjourney, nous avons le sentiment de progresser de prompt en prompt, d’affiner l’image en rajoutant ou enlevant un mot, je crains qu’à l’inverse, Runway ne soit jamais meilleur sur des images relativement complexes que lorsqu’on le laisse faire.

J’ai fini la plupart de mes plans en écrivant « woman » ou « women » et sans autre paramètre, car dès que je tentais des choses plus sophistiquées « woman swims » ou simplement « blink » pour avoir un clignement d’œil, le plan devenait inexploitable. Quant aux brushes d’animation, ils ont été ici ou là d’une bonne utilité. C’est une technologie prometteuse.

Ici aussi, la nature même des images et des interactions que j’avais en tête n’était pas très « runway compatible ». Faire flotter des roses à la surface de l’eau, mais chacune avec une direction potentiellement différente, créer du mouvement sur ce liquide, tout en faisant bouger les cheveux d’un personnage et créant un petit mouvement de caméra, c’est clairement, à ce jour, d’une grande complexité.

Sans doute, un personnage seul sur un décor simple aurait donné de meilleurs résultats. Je ne peux pas réellement dire qu’au terme de ce projet j’ai le sentiment d’avoir réellement contrôlé Runway. Les paramètres d’animation de caméra sont eux aussi encourageants, mais pas encore totalement aboutis. Autant j’imagine assez aisément ce que Midjourney peut améliorer, autant Runway a du pain sur la planche pour donner un véritable contrôle sur les animations.

Bien sûr, les effets très « slowmotions » fonctionnent. Bien sûr nous arrivons à faire bouger de petites choses dans le cadre, mais il faut admettre que nous n’avons pas à ce jour, une réelle maîtrise de ce que nous créons. Une fois encore c’est par la multiplicité des générations que nous arrivons ici ou là à trouver deux ou trois secondes exploitables pour que, mis bout à bout, tout ceci fasse un petit film.

Réflexions sur l’avenir : améliorer l’animation IA

Peut-être des outils comme ceux que l’on trouve dans Adobe After Effects par exemple. Un système de « marionnette » dans lequel nous animerions un avatar ultra simplifié de notre personnage et qui se répercuterait sur notre image ? Il pourrait en être ainsi du corps ou du visage. Ces outils, ces « rigs » existant dans le monde de la postproduction, dans la 3D, pourquoi pas dans l’IA ?

Stable Diffusion s’appuie pour partie et pour autant que je comprenne, sur ce genre de « moteurs ». Il analyse le mouvement issu d’une vidéo (une danse tik-tok par exemple) et est capable de l’injecter sur une image donnée.

Ainsi peut-être aurons-nous des outils pour guider un peu mieux les mouvements de nos personnages. Et puis, peut-être aussi, faut-il que Runway améliore la compréhension des prompts comme Midjourney l’a fait entre les versions 5.2 et 6…

Avec Sora qui s’annonce, il me semble urgent pour les concurrents que sont Runway, Pika et Haiper de faire leur révolution.

Entendez bien que je suis dans une véritable euphorie doublée d’une immense curiosité vis-à-vis de tous ces outils, mais l’objectif avec ce film, et désormais avec ce petit article, était de faire un point en ce mois de mars 2024 de ce qu’il est raisonnablement et objectivement possible de faire.

Il y a donc un bilan excitant et passionnant, mais d’un autre côté, un état de fait : certaines choses ne sont pas encore réellement matures ou suffisamment abouties pour intégrer des workflows de production professionnelle sauf à accepter de nombreux compromis. En même temps, tout ceci était simplement impensable il y a 6 mois et sera oublié dans 6 mois !

Bilan et perspectives : un futur en mouvement

L’exercice que je me suis imposé, comme bien d’autres l’ont fait par le monde, a eu le mérite de me confronter à la réalité de ces outils. En sortant du simple visionnage plus ou moins critique de ce que faisaient les autres, j’ai pu toucher du doigt ce que ma connaissance des outils et leurs potentiels respectifs autorisaient et interdisaient à un instant donné.

Finalement, ce projet m’aura pris plus ou moins une semaine de travail. Les vérités d’aujourd’hui seront totalement obsolètes demain, c’est là l’extraordinaire excitation qu’il y a à accompagner l’évolution de ces technologies. Je me dois de dire aussi que tout ceci n’enlève rien à l’inquiétude que ces technologies génèrent vis-à-vis des métiers créatifs (et pas seulement). Nous sommes à la veille d’un véritable immense chamboulement qui va laisser bien des corporations dans la difficulté.

Comme d’autres, j’ai fait le choix d’apprendre et de comprendre, d’anticiper et intégrer ces outils à mon propre cheminement créatif et technique sans savoir si mon propre métier ne serait pas le premier à souffrir de cette révolution.

Patrick FOCH