Bijgewerkt: 1 november 2024

Fotorealistische beelden met tekst via Google's Imagen AI

Nieuws -> Technologie

Bron: Google Research
27-05-2022

Google Research presenteert Imagen, een tekst-naar-beeld diffusiemodel met een ongekende graad van fotorealisme en een diep niveau van taalbegrip. Imagen bouwt voort op de kracht van grote transformator-taalmodellen in het begrijpen van tekst en scharniert op de kracht van diffusiemodellen in high-fidelity beeldgeneratie.

Onze belangrijkste ontdekking is dat generieke grote taalmodellen (b.v. T5), vooraf getraind op corpora met alleen tekst, verrassend effectief zijn in het coderen van tekst voor beeldsynthese: het vergroten van de grootte van het taalmodel in Imagen verhoogt zowel de sample-getrouwheid als de beeld-tekst uitlijning veel meer dan het vergroten van de grootte van het beeldverspreidingsmodel.

Foto Amstelveen
(Bron Google Research - 2022)

Als u op de website van Imagen op een tekst klikt, zoals fuzzy panda, raccoon of red shirt enz. wordt van de tekst een foto gegenereerd en in de bestaande compositie geplakt. De gegevensvereisten van tekst-naar-beeld modellen hebben onderzoekers ertoe gebracht zwaar te steunen op grote, meestal niet-gecurateerde, web-scraped datasets het proces, waarbij bots [een autonoom programma op het internet of een ander netwerk] worden gebruikt om inhoud en gegevens van een website te halen


Imagen behaalt een nieuwe state-of-the-art FID-score van 7,27 op de COCO-dataset, zonder ooit op COCO te trainen, en menselijke beoordelaars vinden dat Imagen-monsters op gelijke voet staan met de COCO-data zelf in beeld-tekst uitlijning. Om tekst-naar-beeld modellen grondiger te beoordelen, introduceren we DrawBench, een uitgebreide en uitdagende benchmark voor tekst-naar-beeld modellen.

Met DrawBench vergelijken we Imagen met recente methoden, waaronder VQ-GAN+CLIP, Latente Diffusie Modellen, en DALL-E 2, en vinden we dat menselijke beoordelaars Imagen verkiezen boven andere modellen in vergelijkingen naast elkaar, zowel in termen van kwaliteit van het monster als in termen van uitlijning van beeld-tekst.


Amstelveenweb.com is niet verantwoordelijk voor de inhoud van de nieuwsberichten.