La generació d’imatges amb intel·ligència artificial ha deixat de ser una curiositat tecnològica per convertir-se en una capa operativa del treball creatiu. El 2026, els equips de màrqueting, les agències i els departaments de disseny d’empreses B2B ja no es plantegen si han d’incorporar aquestes eines, sinó quines són les més adequades per a cada projecte, quins riscos legals assumeixen i com integrar-les en els seus fluxos de treball sense perdre qualitat ni coherència visual.
Aquesta guia analitza els models líders del mercat —FLUX, Midjourney V7, GPT Image 1.5, Adobe Firefly, Ideogram v3, Imagen 4 de Google i Stable Diffusion 3.5— des d’una perspectiva pràctica. No pretenem descriure cada funció tècnica, sinó ajudar professionals del disseny i la comunicació a triar amb criteri. A Smart Team treballem cada dia amb aquestes tecnologies aplicades a projectes reals de branding, web i continguts, i aquest article recull l’enfocament que fem servir quan avaluem noves incorporacions al nostre stack creatiu.
Per què la generació d’imatges amb IA ja no és un joc d’early adopters
Un mercat en plena expansió
El mercat de generadors d’imatges amb IA va passar de 430 milions de dòlars el 2025 a una previsió de 510 milions el 2026, amb un creixement anual compost del 17,4 %, i s’espera que arribi als 970 milions cap al 2030, segons les projeccions del sector. Dins de l’ecosistema més ampli d’IA generativa, l’escala encara és més gran: s’estima un creixement des de 22.330 milions el 2025 fins a prop de 678.000 milions el 2035.
Aquestes xifres no són anecdòtiques: reflecteixen que les empreses estan reassignant pressupostos tradicionalment dedicats a fotografia d’estoc, producció audiovisual lleugera i conceptualització visual cap a eines basades en models generatius. Per a un equip B2B, això es tradueix en decisions de compra recurrents que convé prendre amb dades, no amb entusiasme.
Com a referència independent per seguir l’evolució dels models, la comparativa de Gradually AI sobre els millors models de generació d’imatges ofereix una visió actualitzada del panorama competitiu i resulta útil abans d’iniciar qualsevol procés d’avaluació interna.
De l’experiment al flux de treball professional
Els primers generadors d’imatges eren eines lúdiques. Produïen resultats imprevisibles, amb anatomies impossibles, tipografies il·legibles i textures plàstiques. En dos anys, el salt ha estat radical: avui parlem de models capaços de respectar la identitat de marca, inserir text llegible dins una imatge, mantenir la consistència d’un personatge al llarg d’una sèrie i oferir resolució apta per a impressió.
Aquest salt qualitatiu ha empès els models líders cap a tres fronts simultanis: la fotorealitat extrema, la coherència visual entre peces d’una mateixa campanya i la seguretat legal del contingut generat. Les empreses que encara veuen la IA visual com una joguina estan perdent, a la pràctica, marges de productivitat que els seus competidors ja estan capturant.
FLUX: la referència tècnica en fotorealisme
FLUX 1.1 Pro i FLUX 2 Pro
FLUX, desenvolupat per Black Forest Labs, s’ha consolidat com la referència tècnica quan es parla de fotorealisme pur. FLUX 1.1 Pro ocupa la part alta dels benchmarks tècnics del sector, amb temps de generació d’aproximadament 4,5 segons per imatge, una xifra competitiva per a entorns de producció on el temps d’iteració és crític.
L’evolució cap a FLUX 2 Pro ha reforçat dos aspectes clau: l’adherència al prompt —és a dir, la capacitat del model per seguir instruccions complexes sense reinterpretar-les— i la qualitat fotogràfica en escenes amb il·luminació complexa, pells humanes i materials reflectants. Per a fotografia de producte, retrats corporatius generats o escenes arquitectòniques, FLUX 2 Pro és una de les opcions més sòlides del mercat.
També existeix FLUX.1 Schnell, una versió optimitzada per a velocitat i, sobretot, entrenada sobre contingut llicenciat. Això la converteix en una alternativa interessant quan la prioritat és la seguretat jurídica en entorns corporatius que no poden assumir riscos de copyright.
Integració amb Adobe Firefly
Adobe ha integrat FLUX dins del seu hub de models de Firefly, una decisió estratègica que permet als equips creatius combinar la potència tècnica de FLUX amb l’ecosistema de Creative Cloud. La integració oficial de FLUX a Adobe Firefly detalla com accedir al model des de Photoshop, Illustrator i Express sense canviar d’entorn de treball, una cosa especialment rellevant per a agències que ja tenen processos consolidats sobre Adobe.
Midjourney V7: el rei de l’estètica
Omni Reference i consistència visual
Midjourney V7, llançat l’abril de 2025, manté el lideratge estètic que ha caracteritzat la plataforma des de les primeres versions. En tests estandarditzats, V7 va millorar el fotorealisme en un 77 % dels casos respecte a V6, i ha incorporat una funció clau per al treball professional: Omni Reference, que permet mantenir la consistència d’un subjecte o un estil visual al llarg de múltiples generacions.
Aquesta capacitat resol un dels grans problemes històrics de la IA generativa en campanyes comercials: la dificultat per mantenir la mateixa cara, la mateixa peça de roba o el mateix ambient cromàtic entre diverses peces. Amb Omni Reference, una marca pot encarregar una sèrie de dotze visuals amb el mateix personatge protagonista i obtenir coherència sense retocs manuals exhaustius.
Draft Mode: l’economia de l’exploració
L’altra novetat rellevant de V7 és el Draft Mode, que genera imatges fins a deu vegades més ràpid i amb aproximadament la meitat del cost en GPU. En termes pràctics, això transforma la fase d’exploració creativa: un director d’art pot revisar cinquanta variants en el temps que abans li costava revisar-ne cinc, i descartar direccions sense penalització econòmica.
El model de subscripció de Midjourney se situa entre 10 i 120 dòlars al mes segons el nivell d’ús. Per a equips d’agència que generen centenars d’imatges setmanals, els plans superiors solen amortitzar-se amb escreix enfront del cost de fotografia tradicional, tot i que convé recordar que Midjourney no ofereix el mateix nivell de garantia legal sobre el contingut que Firefly o FLUX.1 Schnell.
GPT Image 1.5: la generació conversacional d’OpenAI
De DALL-E 3 a GPT Image 1.5
El desembre de 2025, OpenAI va substituir definitivament DALL-E 3 dins de ChatGPT per GPT Image 1.5, el seu nou model natiu multimodal. DALL-E 3 quedarà completament retirat el 12 de maig de 2026. L’evolució no és només tècnica: marca un canvi de paradigma en la manera d’interactuar amb el model. La presentació oficial de la generació d’imatges 4o per part d’OpenAI explica com el model raona sobre la imatge que produirà en lloc de limitar-se a executar un prompt.
El preu per imatge via API se situa entre 0,04 i 0,12 dòlars segons resolució i qualitat, una forquilla competitiva per a aplicacions que necessiten integrar generació d’imatges dins d’un producte o una web transaccional.
Edició iterativa en llenguatge natural
La gran aportació de GPT Image 1.5 és l’edició conversacional. En lloc d’escriure un nou prompt des de zero cada vegada que es vol canviar un detall, l’usuari dialoga amb el model: «fes el cel una mica més ataronjat», «allunya el pla», «canvia la jaqueta per una de blau marí». El model manté el context de la imatge anterior i executa ajustaments incrementals.
Aquesta dinàmica apropa el procés creatiu a una conversa amb un dissenyador humà i redueix dràsticament la corba d’aprenentatge per a perfils no tècnics. Per a equips de màrqueting sense formació específica en prompt engineering, GPT Image 1.5 és probablement l’opció més accessible del mercat.
Adobe Firefly: seguretat comercial i ecosistema professional
Entrenament amb contingut llicenciat
Adobe Firefly ocupa una posició singular en el mercat. El seu argument central no és el millor fotorealisme ni la millor estètica, sinó la seguretat comercial: Firefly s’entrena exclusivament sobre contingut llicenciat —imatges d’Adobe Stock, contingut de domini públic i material amb permisos explícits—. Adobe ofereix, a més, indemnització legal per a clients empresarials que facin servir les imatges generades en campanyes comercials.
Per a sectors regulats —banca, salut, farmacèutic, administració pública— o per a marques que exigeixen contractes amb clàusules estrictes de propietat intel·lectual, aquest factor no és secundari. Un sol conflicte legal per una imatge amb drets controvertits pot superar el cost de diversos anys de subscripció a Firefly.
Hub multi-model
Firefly ha evolucionat de ser un model únic a operar com un hub que integra models de tercers —FLUX.2, Gemini 3 de Google— sota una capa de drets comercials clara. Això permet a l’usuari triar el motor més adequat per a cada tasca sense abandonar l’entorn Adobe, mantenint la traçabilitat legal del contingut generat.
La integració nativa amb Photoshop, Illustrator, Express i Premiere converteix Firefly en una opció especialment còmoda per a equips que ja tenen Creative Cloud com a estàndard. La fricció per adoptar-lo és mínima, i la corba d’aprenentatge es limita al domini dels prompts.
Ideogram v3 i Imagen 4: els especialistes
Ideogram: tipografia sense errors
Un dels talons d’Aquil·les històrics de la IA generativa és el text dins de la imatge: cartells amb lletres inventades, logotips il·legibles, titulars amb errors ortogràfics. Ideogram v3 és, avui per avui, el model que millor resol aquest problema. Si una marca necessita generar un visual amb un eslògan, un nom de producte o un text legal sense marge d’error ortogràfic, Ideogram hauria d’entrar en l’avaluació.
Els seus casos d’ús típics són cartelleria, peces per a xarxes socials amb copy integrat, mockups de packaging i maquetació de portades. No competeix en fotorealisme amb FLUX ni en estètica amb Midjourney, però en el seu nínxol és clarament el referent.
Imagen 4 de Google: velocitat i precisió textual
Imagen 4, el model de Google dins del seu ecosistema Gemini i Vertex AI, combina dues fortaleses poc habituals: renderització de text d’alta qualitat i velocitat de generació. Per a empreses ja integrades a l’ecosistema Google Workspace o Google Cloud, Imagen 4 ofereix continuïtat tècnica i cost raonable, a més d’una API robusta per a integracions a mida.
A la pràctica, Ideogram i Imagen 4 són complementaris: Ideogram brilla en peces on la tipografia és l’element principal, mentre que Imagen 4 funciona bé en fluxos massius on cal generar centenars d’imatges amb text correcte en un temps acotat.
Stable Diffusion 3.5: flexibilitat i control total
Codi obert i desplegament local
Stable Diffusion 3.5 ocupa un espai propi: és un model de codi obert que es pot descarregar, executar en infraestructura pròpia i personalitzar mitjançant entrenaments addicionals. Per a empreses amb requisits estrictes de privacitat, amb datasets interns que no poden sortir del perímetre corporatiu, o amb necessitats de personalització extrema, cap model propietari ofereix la mateixa flexibilitat.
El cost d’ús, un cop amortitzat el hardware, tendeix a zero, cosa que el converteix en l’opció més econòmica per a volums alts. A canvi, exigeix capacitat tècnica interna: perfils de machine learning, administradors de sistemes amb GPU, coneixements de fine-tuning i d’integració amb pipelines de producció.
Per a qui és Stable Diffusion
Stable Diffusion no és l’opció adequada per a un equip de màrqueting que vol generar cinc imatges al mes. És l’opció correcta per a una empresa tecnològica que integra generació d’imatges dins del seu producte, per a un portal editorial amb milers d’articles al mes o per a un fabricant que vol entrenar el model amb el seu catàleg intern per generar visuals fidels als seus productes reals.
Com triar el model adequat per a la teva empresa
Taula comparativa ràpida
A tall de síntesi operativa, aquesta taula resumeix els punts forts, el rang de preus i el cas d’ús recomanat per a cada model analitzat:

Criteris de decisió: realisme, estètica, text, seguretat legal, pressupost
La decisió no es redueix a triar «el millor» model, perquè no n’existeix un de superior en totes les dimensions. Hi ha cinc criteris que convé ponderar segons el projecte: el nivell de fotorealisme exigit —FLUX 2 Pro o Imagen 4 Ultra—, l’estètica distintiva —Midjourney V7—, la presència de text a la imatge —Ideogram v3 o Imagen 4—, el risc legal assumible —Adobe Firefly i FLUX.1 Schnell a la zona més segura— i el pressupost disponible.
Segons la nostra experiència a Smart Team, la majoria de projectes B2B no es resolen amb un únic model, sinó amb una combinació: Firefly per a peces comercials sensibles, Midjourney per a conceptualització i moodboards, Ideogram per a visuals amb text, GPT Image 1.5 per a iteració ràpida amb client i Stable Diffusion quan hi ha necessitats de personalització extrema. Un stack híbrid sol oferir millors resultats que una aposta monolítica.
La IA visual esdevé un avantatge competitiu al B2B
La generació d’imatges amb IA ha deixat de ser una promesa per convertir-se en una capa d’infraestructura creativa. Els models actuals resolen problemes que fa dos anys semblaven llunyans: fotorealisme convincent, tipografia correcta, consistència entre peces i seguretat legal del contingut. Els preus, a més, s’han democratitzat fins al punt que qualsevol empresa pot incorporar aquestes eines sense inversions prohibitives.
La pregunta rellevant per a un equip B2B ja no és si fer servir IA visual, sinó com articular-la dins d’un flux de treball professional que combini models propietaris, codi obert, revisió humana i criteri de marca. Qui domini aquesta combinació aconseguirà reduir temps, ampliar capacitat creativa i, sobretot, proposar idees que abans quedaven fora del pressupost.
A Smart Team acompanyem empreses en aquesta transició integrant IA visual dins de processos consolidats de disseny i comunicació. Si la teva organització està avaluant com fer el salt, pots conèixer el nostre enfocament al servei de disseny gràfic de Smart Team, on combinem criteri humà i eines d’IA per generar resultats mesurables.
Politóloga con experiencia en consultoría, comunicación corporativa y gestión de proyectos públicos y privados. Especialista en estrategia, marketing digital y transformación organizativa. Centro en la innovación y la creación de narrativas que conecten tecnología, personas y organizaciones.
Agenda una reunió de 30 minuts
Vols saber com podem generar més leads per a la teva empresa a Barcelona?
Deixeu-nos el vostre correu i telèfon i agendarem una trucada sense compromís per donar-vos un diagnòstic personalitzat sobre la vostra estratègia de Màrqueting actual.





