Attaque par exemples contradictoires (adversarial examples attack)
Les attaques par exemples contradictoires visent à soumettre des entrées malicieuses ou corrompues au système d’IA en phase de production.
Exemple : une image qui aurait été modifiée de façon à tromper un classifieur d’image et ainsi attribuer à une image de panda, l’étiquette de singe.
Ces entrées apparaissent, pour un humain, quasiment identiques à leurs copies non altérées.
À la suite de cette attaque, qui peut être vue comme l’équivalent d’une illusion d’optique, le comportement du système d’IA est profondément altéré.