L'azienda sottolinea anche che il modello é in grado di comprendere non solo ciò che l'utente ha richiesto nel prompt ma anche come gli oggetti e le persone "esistono nel mondo fisico" Il modello, apparentemente molto più avanzato rispetto a Lumiere di Google, ha anche "una profonda comprensione del linguaggio", cosa che gli consente di interpretare accuratamente le istruzioni e generare "personaggi avvincenti che esprimono emozioni vibranti".