En préambule du clip « Ça va beaucoup trop vite » de Big Flo & Oli, il était dit précisé qu’aucun être humain « n’a participé à la création de ces images, que ce soit sur le graphisme ou sur la réalisation ». Ce phantasme du « full IA » et de « tout se fait en quelques minutes » entretient l’idée que l’intelligence artificielle est destinée à nous remplacer.
Cependant, il est essentiel de reconnaître que l’IA, aussi avancée soit-elle, agit sous la supervision et selon les directives humaines. Elle excelle dans l’automatisation des tâches répétitives et dans l’analyse de grands volumes de données, mais elle ne possède pas la capacité de faire preuve de créativité intrinsèque. Elle stimule l’innovation, sans nécessairement conduire à une substitution de l’humain par l’IA.
Et non, rien ne se fait en 5 minutes, et pour illustrer ce propos, Hedy Magroun, co-fondateur de Brewster Studio, nous invite dans les coulisses de la création de sa publicité « Perfume ». Les images parlent d’elles-mêmes, démontrant le processus complexe et le dévouement nécessaire derrière chaque seconde de film.
Un travail de longue haleine
Chaque étape de la réalisation a été précédée d’une exploration minutieuse de plusieurs techniques afin de tenter d’atteindre les meilleurs rendus possibles. Au final, ce projet s’est étalé sur plusieurs semaines.
Le travail avec MidJourney se concentre principalement sur les ajustements du prompt, en peaufinant les paramètres pour capturer l’image désirée. Cette série a été conçue avant l’introduction de la fonctionnalité –cref, qui assure la cohérence des visages. Il sera nécessaire de s’y repencher lors d’un prochain projet.
Une fois les images choisies, Magnific AI entre en scène pour les améliorer et leur ajouter davantage de réalisme. Si Midjourney assure déjà une bonne qualité, Magnific la sublime !
Vient ensuite la sélection des animations. Cette étape vise à donner vie aux images initiales avec Stable Vidéo diffusion, l’objectif étant d’obtenir une animation agréable sans altérer l’image. Pour y parvenir, dix vidéos de chaque image sont générées avec divers réglages, et les meilleures sont sélectionnées. Cette opération est exécutée la nuit sous forme de lot automatisé, et le résultat, parfois décevant, est découvert le matin. La résolution atteint alors 1024×576 avec une seconde d’animation.
Passons à la phase la plus captivante. Pour améliorer la qualité de la vidéo, elle est mixée avec l’image originale. Un mélange subtil est réalisé avec AnimDiff sur l’image d’origine pour en extraire des détails sur un modèle sélectionné et, après de nombreux ajustements, des rendus satisfaisants sont obtenus. La taille de l’image est augmentée lors de ce processus, aboutissant à la première passe. Selon les images, cela peut suffire, mais généralement, la plupart des séquences nécessitent trois passes, la plus difficile ayant demandé de sept à huit passes.
Zoé HITZA