Model multimodal ini menghasilkan gambar dari perintah teks ... "Pelepasan ini tidak hanya mengurangi konflik antara peran encoder visual dalam pemahaman dan pembuatan tetapi juga meningkatkan ...