GPT Image 2.0 prend la lumière, Nano Banana 2 garde les mains dans le moteur

Le marché de l’image générée par IA sort enfin de sa phase la plus folklorique. Pendant longtemps, la bataille portait surtout sur l’effet waouh, la prouesse isolée, l’image bluffante arrachée après dix prompts et un peu de chance. Depuis quelques jours, le débat a changé de nature. Avec GPT Image 2.0, OpenAI ne vend plus seulement un générateur plus esthétique. La firme vend un outil censé produire des visuels directement exploitables, avec texte lisible, formats variés, cohérence de série et raisonnement sur la demande avant génération. En face, Google pousse Nano Banana 2 comme un modèle rapide, très intégré à Gemini et Search, plus structuré dans les workflows, plus convaincant sur la cohérence d’éléments multiples et l’édition fluide. Le duel devient enfin intéressant, parce qu’il dépasse la simple beauté d’image.

Les chiffres publics donnent un avantage clair à OpenAI, avec une nuance que beaucoup préfèrent escamoter. Sur LM Arena, GPT Image 2 medium trône en tête du classement text-to-image avec un score de 1507, contre 1271 pour Gemini 3.1 Flash Image Preview, autrement dit Nano Banana 2. L’écart est énorme. Sur Artificial Analysis, le paysage paraît plus serré. En édition d’image, GPT Image 1.5 high reste premier autour de 1256, GPT Image 2 high suit autour de 1242, puis Nano Banana Pro autour de 1238 et Nano Banana 2 autour de 1222. Ces deux tableaux ne racontent donc pas la même histoire. Sur l’un, OpenAI écrase la concurrence. Sur l’autre, OpenAI reste devant, mais Google n’a rien d’un figurant.

Cette divergence oblige à sortir du réflexe marketing. Un benchmark n’est pas une vérité révélée, surtout quand les snapshots produits ne sont pas strictement les mêmes partout. Toute lecture sérieuse doit partir de là. OpenAI mène aujourd’hui. Mais le degré de domination dépend encore de la plateforme d’évaluation et de la tâche observée.

OpenAI a compris où se trouvait la valeur

Le point le plus solide en faveur de GPT Image 2.0 concerne le texte dans l’image. Pendant des mois, les générateurs ont produit des affiches séduisantes et illisibles, des infographies inutilisables, des panneaux qui ressemblaient à des alphabets frappés par un AVC. OpenAI promet précisément de sortir de cette impasse, avec une amélioration du rendu typographique, du multilingue, des compositions éditoriales et des sorties en plusieurs formats. « Le modèle est désormais plus crédible pour fabriquer des magazines, posters, livrets, graphiques ou visuels sociaux avec du texte réellement exploitable », explique Nicolas Fensch, fondateur de la communauté GenIArt.

L’autre force d’OpenAI tient à l’empilement des fonctions. GPT Image 2.0 s’appuie sur une logique de génération avec réflexion, capable d’utiliser le web, de raisonner sur la structure de l’image, de partir de fichiers fournis et de produire jusqu’à huit images cohérentes dans un même ensemble. Là se niche la vraie rupture. Le marché ne récompense plus seulement la plus belle image isolée. Il récompense le système qui transforme une intention éditoriale en minisérie visuelle cohérente, sans repartir de zéro à chaque itération. Pour un média, une équipe design, une agence ou un service marketing, l’intérêt concret se trouve là.

Google n’a pas disparu du match, loin de là

Nano Banana 2 souffre d’un problème d’image publique. Le nom amuse, OpenAI monopolise l’attention, et les benchmarks les plus relayés lui sont moins favorables. Pourtant, Google garde plusieurs angles d’attaque sérieux. Son discours officiel met en avant une montée en fidélité, une édition avancée plus rapide et une meilleure connaissance du monde, le tout dans Gemini 3.1 Flash Image. La promesse est moins glamour qu’OpenAI, mais elle colle à un besoin réel. Beaucoup d’utilisateurs cherchent d’abord un outil rapide, stable, intégré à leur environnement et bon en itération successive.

Google insiste aussi sur deux arguments très concrets. D’un côté, Nano Banana 2 améliore le rendu du texte et la localisation, avec génération de texte lisible et traduction dans l’image. De l’autre, le modèle revendique une cohérence de sujet allant jusqu’à cinq personnages et quatorze objets dans un même workflow. Ces chiffres relèvent du discours produit, bien sûr, mais ils indiquent où Google place le combat. Moins sur le poster spectaculaire que sur la scène complexe, contrainte, riche en éléments à tenir ensemble.

Paméla Fontaine, artiste digital IA, insiste justement sur cette dimension plus méthodique. « La logique spatiale, la gestion du détail, la composition de scènes denses et l’appui sur la recherche web… tout y est. Dans l’image générée, beaucoup de modèles échouent moins par manque de style que par incapacité à tenir un espace, une hiérarchie d’objets, un axe narratif ou des contraintes précises. » Google semble avoir travaillé cette couche. Le problème, pour la firme, tient au fait que cette qualité se voit moins immédiatement dans une démonstration grand public qu’une belle image typographiquement propre.

Le vrai sujet n’est plus la qualité brute

La bataille entre OpenAI et Google dit quelque chose de plus large sur l’état du secteur. Le marché de l’image générée sort doucement de sa crise d’adolescence. Le sujet ne porte plus seulement sur la capacité à produire une image bluffante. Il porte sur la capacité à livrer un visuel directement utilisable dans un flux de production, avec texte propre, logique spatiale, continuité entre variantes, fidélité aux consignes et intégration à un environnement logiciel déjà existant. Sous cet angle, GPT Image 2,0 marque un tournant, parce qu’il avance sur plusieurs de ces terrains en même temps.

Google, lui, résiste par une autre voie. Nano Banana 2 s’inscrit dans une stratégie de produit plus diffuse, moins spectaculaire, mais très rationnelle. L’entreprise pousse l’intégration, l’appui sur des données externes, la vitesse, le contrôle et la circulation entre recherche, assistant et création visuelle. Le résultat paraît moins flamboyant sur les gros titres, mais il reste très compétitif pour des usages quotidiens, surtout quand la rapidité d’exécution et la cohérence de scènes complexes priment sur la finition éditoriale pure.

Les limites à ne pas enterrer sous le tapis

Tout ce tableau reste provisoire. Les premiers retours sur GPT Image 2.0 datent de quelques jours. Les tests presse sont utiles, mais ils restent des tests à chaud. Les classements Arena mesurent des préférences agrégées, pas une vérité universelle. Enfin, les discours officiels des entreprises sélectionnent évidemment leurs cas les plus flatteurs.

« Reste à voir comment le modèle va évoluer. Aux États-Unis, les acteurs du secteur ont souvent tendance à lancer des modèles très permissifs au départ, avant de resserrer les règles ensuite. En Europe et notamment en France, le réflexe est plutôt inverse. La régulation arrive plus tôt, parfois avant même que les usages aient vraiment émergé », souligne Nicolas Fensch. OpenAI le reconnaît dans sa documentation de sécurité, en parlant d’un saut important dans les capacités du modèle. Ce progrès visuel n’a rien d’innocent. Il enrichit la création, mais il alourdit en parallèle le risque de faux convaincants, de manipulations et d’usages abusifs. Un média sérieux ne peut pas applaudir la performance sans écrire cette phrase dans le même mouvement.

Notre avis

Le signal du moment reste assez clair. OpenAI a pris une longueur d’avance sur le segment le plus visible et le plus stratégique, celui de l’image publiable avec vrai texte, vraie cohérence éditoriale et vraie valeur immédiate pour des équipes de contenu. Les classements publics, le lancement produit et les premiers tests presse convergent sur ce point.

Google n’a pourtant rien d’un figurant. Nano Banana 2 conserve un profil solide pour la vitesse, le contrôle, la cohérence d’ensembles complexes et l’intégration dans un écosystème déjà omniprésent. Pour beaucoup d’usages quotidiens, cet avantage pratique comptera autant que le prestige du meilleur rendu.

« Si je devais donner un avis tranché, la formule la plus honnête tient ainsi. OpenAI domine la séquence actuelle sur l’image éditoriale prête à l’emploi. Google reste dans la course sur l’usage réel. Et le vrai vainqueur ne sera sans doute pas celui qui génère la plus belle image du moment, mais celui qui réduira le plus brutalement la distance entre une intention et un visuel publiable », conclut Paméla Fontaine.

Augustin GARCIA