Certes les premiers « teasers » d’OpenAI générés à partir d’un simple prompt sont tout bonnement époustouflants. Ils creusent clairement le fossé avec les outils de Pika Labs, Runway, Pixverse. Plus de consistance des personnages et des décors, plus de fluidité, plus de réalisme, des séquences plus longues… De quoi déclencher l’enthousiasme de ceux qui bataillaient à faire des mouvements de caméra et des animations de quelques secondes.
Je pense que les gens ne sont vraiment pas prêts à voir comment Sora va révolutionner le monde de l’audiovisuel, c’est de la folie totale !
Pierrick Chevallier, expert en IA & Design
Toutefois, à chaque présentation de bande-annonce générée par Sora, une petite sonnette retentit. Comment est-il possible d’obtenir ces vidéos à partir de prompts aussi succincts et aussi peu détaillés ? La capacité de transformer des textes en séquences visuelles implique une compréhension profonde du langage, des contextes et des éléments visuels spécifiques à une scène.
Il est donc essentiel de décrire de manière concise, mais précise les éléments clés de la séquence souhaitée. Cela inclut la position et le mouvement de la caméra, l’angle de vue, l’éclairage, les particules présentes dans la scène, les caractéristiques et le comportement du ou des sujets, ainsi que les interactions entre eux.
Chaque détail, comme l’orientation de la lumière ou le type de mouvement de la caméra (panoramique, inclinaison, zoom, etc.), contribue à la construction de l’ambiance et du message de la vidéo. La précision dans la formulation du prompt aide l’IA à visualiser et à matérialiser la scène de manière plus fidèle à l’intention originale.
Ici rien de tout ça. « A giant, towering cloud in the shape of a man looms over the earth. The cloud man shoots lighting bolts down to the earth. »
Le résultat est certes impressionnant. Mais c’est l’IA qui a décidé de tout, sans aucune indication. Soit il manque des boutons de réglage, des paramètres comme dans Runway, soit Sora est très largement survendue.
On parle beaucoup de technologies, de logiciels, de temps de calculs et de serveurs, mais dans la réalité, lorsque l’on parle d’IA, on parle de comportements humains. Donc de raison, de passions, d’impatience et d’espoirs.
Jean-Philippe Timsits, expert digital
Laissons de côté pour l’heure d’autres considérations comme le temps de calcul pour produire autant de « frames ». C’est juste faramineux, mais cela expliquerait pourquoi Sam Altman, le patron d’OpenAI, cherche la modique somme de 7000 milliards de dollars auprès d’investisseurs dans le but de développer le secteur de l’intelligence artificielle par la construction de nouvelles usines de semi-conducteurs.
La présentation de Sora tombe à pic comme pour dire « Regardez ce qu’il sera possible de faire. Seule l’imagination est la limite. Et voyez l’impact que cela aura sur de nombreux secteurs, de l’Entertainment à la publicité ! »
Le futur c’est demain, aime-t-on à dire en parlant de l’IA. En attendant, j’ai hâte de voir comme les « experts auto-proclamés » vont nous vendre des formations sur « Gagne 20 000 €/mois en créant des vidéos de folie avec Sora ».
Zoé HITZA