Konkret haben die Forschenden einen Bereich in den sogenannten Modellaktivierungen identifiziert, der für das ‘Verweigerungsverhalten” zuständig ist also dafür, wann die KI bestimmte Anfragen ablehnt.
First seen on infopoint-security.de
Jump to article: www.infopoint-security.de/sophos-entwickelt-llm-salting-technik-zum-schutz-vor-jailbreak-pompts/a42603/
![]()

