La maggior parte dei rilevatori funziona monitorando i volti nei video e inviando i dati ricavati a una rete neurale che ha il compito di determinare se un video é autentico o meno andando ad osservare elementi che non vengono riprodotti alla perfezione nei deepfake, come ad esempio il battito delle ciglia.
Il team ha mostrato come gli strumenti di rilevamento possano essere aggirati inserendo in ogni fotogramma di un video degli input chiamati "esempi contraddittori", ossia immagini manipolate che possono causare errori nei sistemi di intelligenza artificiale.