CogView3-čínský model text-to-image není špatný
Nedávné pokroky v generování textu na obrázek byly řízeny difúzními modely, ale jednofázové modely čelí výzvám v oblasti výpočetní efektivity a zpřesňování detailů obrazu. K vyřešení tohoto problému autoři navrhují CogView3, kaskádový rámec, který zlepšuje šíření textu do obrázku tím, že nejprve vytvoří obrázky s nízkým rozlišením a poté použije super-rozlišení založené na přenosu. Tento přístup vede ke konkurenceschopným výstupům z textu na obrázek, zatímco…