OpenAI: „Instructional Hierarchy“-Protokoll soll Jailbreaking-Vorfälle in GPT-4o Mini verhindern
OpenAI hat sein Large Language Model (LLM) GPT-4o Mini mit verbesserten Sicherheitsfunktionen ausgestattet, um Missbrauch zu verhindern.
Ein zentrales Element der neuen Sicherheitsmaßnahmen ist die Technik namens „Instructional Hierarchy“. Diese soll sicherstellen, dass sogenannte „Prompt-Ingenieure“ das KI-Modell nicht manipulieren können, um es zu schädlichen Handlungen zu verleiten.
Erhöhte Resistenz gegen Manipulationen
Mit der Einführung der Instructional Hierarchy verspricht OpenAI eine signifikante Steigerung der Widerstandsfähigkeit des Modells gegen Prompt-Injektionen und das Extrahieren von System-Prompts. Diese Technik soll die Robustheit des Modells um beeindruckende 63% verbessern.
Instructional Hierarchy etabliert eine hierarchische Struktur für die Anweisungen, denen das KI-Modell folgen soll. Bei widersprüchlichen Anweisungen priorisiert das Modell stets die Anweisung mit der höchsten Priorität.
Durch diese Priorisierung wird verhindert, dass das Modell auf Anfragen reagiert, die schädliche Inhalte wie Bauanleitungen für Sprengstoffe oder Hacking-Tipps generieren könnten.
Herausforderungen und zukünftige Verbesserungen
OpenAI erkennt an, dass die Instructional Hierarchy noch nicht perfekt ist und es Fälle geben könnte, in denen das Modell niedrigpriorisierte Anweisungen ignoriert. Daher arbeitet das Unternehmen kontinuierlich an Verbesserungen, um die Effektivität dieser Technik weiter zu erhöhen.
Instructional Hierarchy hat das Potenzial, die Robustheit von LLM-Systemen erheblich zu verbessern und somit einen sichereren Einsatz der Technologie zu gewährleisten.
Quelle(n):
Gadgets360
Links mit einem * sind Partner-Links. Durch einen Klick darauf gelangt ihr direkt zum Anbieter. Solltet ihr euch dort für einen Kauf entscheiden, erhalte ich eine kleine Provision. Für euch ändert sich am Preis nichts. Danke für eure Unterstützung!
Um über alle News auf dem Laufenden zu bleiben, folge mir auf Google News oder Telegram, WhatsApp, Mastodon, Threads, Bluesky oder auf Facebook oder abonniere meinen RSS-Feed!