Attaque par exemples contradictoires (adversarial examples attack)


Les attaques par exemples contradictoires visent à soumettre des entrées malicieuses ou corrompues au système d’IA en phase de production.

Exemple : une image qui aurait été modifiée de façon à tromper un classifieur d’image et ainsi attribuer à une image de panda, l’étiquette de singe.

Ces entrées apparaissent, pour un humain, quasiment identiques à leurs copies non altérées.

À la suite de cette attaque, qui peut être vue comme l’équivalent d’une illusion d’optique, le comportement du système d’IA est profondément altéré.