Best-of-N – Une technique redoutable pour contourner la sécurité des LLM
Vous pensiez que les grands modèles de langage comme GPT-4 ou Claude étaient bien protégés contre les demandes malveillantes ? Que nenni les amis ! Une nouvelle technique baptisée Best-of-N vient de démontrer qu’il suffit parfois de répéter la même requête avec de légères variations pour faire tomber leurs barrières de sécurité.
La technique Best-of-N, mise au point par les chercheurs d’Anthropic (qui développent Claude), repose sur un principe très simple : modifier aléatoirement le format d’une requête jusqu’à obtenir la réponse souhaitée. Ces modifications peuvent être très basiques :
Source: Korben