Niemand weiß, wie KI sicher getestet werden kann

(SeaPRwire) – Beth Barnes und drei ihrer Kollegen sitzen im Kreis auf einem feuchten Rasen auf dem Campus der University of California, Berkeley. Sie beschreiben ihre Versuche, KI-Chatbots zu befragen.

„Sie sind in gewisser Weise diese riesigen fremden Intelligenzen“, sagt Barnes, 26, die Gründerin und CEO von Model Evaluation and Threat Research (METR) ist, einer Non-Profit-Organisation für KI-Sicherheit. „Sie wissen so viel darüber, ob das nächste Wort ‚ist‘ oder ‚war‘ sein wird.“ Wir spielen nur ein bisschen an der Oberfläche herum, und darunter gibt es Meilen und Meilen“, sagt sie und deutet auf die potenziell riesigen Tiefen der Fähigkeiten großer Sprachmodelle. (Große Sprachmodelle wie GPT-4 von OpenAI und Claude von Anthropic werden mit der Vorhersage des nächsten Wortes für eine riesige Menge an Text trainiert und können Fragen beantworten und grundlegende Reasoning- und Planungsaufgaben durchführen.)

Die Forscher von METR sehen aus wie Berkeley-Studenten – die vier auf der Wiese sind in den Zwanzigern und tragen Jeans oder Jogginghosen. Aber anstatt Vorlesungen zu besuchen oder in der Bibliothek durchzuarbeiten, verbringen sie ihre Zeit damit, die neuesten und leistungsfähigsten KI-Systeme zu untersuchen, um herauszufinden, ob sie – wenn man richtig fragt – etwas Gefährliches tun könnten. Während sie erklären, wie sie versuchen herauszufinden, ob die aktuelle Generation von Chatbots oder die nächste eine Katastrophe verursachen könnte, zupfen sie am Gras. Sie mögen jung sein, aber niemand hat so viel darüber nachgedacht, wie man Gefahr von KIs hervorrufen kann wie sie.

Zwei der weltweit prominentesten KI-Unternehmen – OpenAI und Anthropic – haben mit METR zusammengearbeitet, als Teil ihrer Bemühungen, KI-Systeme auf Sicherheit zu testen. Das partnerte mit METR als Teil seiner Bemühungen, mit Sicherheitstests von KI-Systemen zu beginnen, und Präsident Barack Obama nannte METR als zivilgesellschaftliche Organisation, die sich den Herausforderungen stellt, die von KI ausgehen, in seiner Rede anlässlich der Amtseinführung von US-Präsident Joe Biden.

„Es fühlt sich manchmal an, als würden wir versuchen, die Erfahrung eines Sprachmodells zu verstehen“, sagt Haoxing Du, eine METR-Forscherin, die das Einfühlen in einen Chatbot beschreibt, ein Unterfangen, das sie und ihre Kollegen augenzwinkernd als Modellpsychologie bezeichnen.

Da die Diskussionen über die Gefahren, die leistungsstarke zukünftige KI-Systeme darstellen könnten, lauter geworden sind, haben Gesetzgeber und Führungskräfte offenbar einen scheinbar einfachen Plan entwickelt: Testen Sie die KI-Modelle, um zu sehen, ob sie tatsächlich gefährlich sind. Aber Barnes und viele andere KI-Sicherheitsforscher sagen, dass dieser Plan womöglich auf Sicherheitstests setzt, die noch nicht existieren.

Wie man eine KI testet

Im Sommer 2022 entschied sich Barnes, OpenAI zu verlassen, wo sie drei Jahre lang als Forscherin an einer Reihe von Sicherheits- und Prognoseprojekten gearbeitet hatte. Dies war zum Teil eine pragmatische Entscheidung – sie fühlte, dass es eine neutrale Drittorganisation geben sollte, die KI-Bewertungen entwickelt. Aber Barnes sagt auch, dass sie eine der am offensten kritischen OpenAI-Mitarbeiterinnen war und dass sie sich von außen wohler und effektiver für Sicherheitspraktiken einsetzen würde. „Ich denke, ich bin ein sehr offener und ehrlicher Mensch“, sagt sie. „Ich bin nicht sehr gut darin, politische Dinge geschickt zu handhaben und Meinungsverschiedenheiten nicht allzu offensichtlich werden zu lassen.“

Sie gründete METR im selben Jahr allein. Ursprünglich hieß es ARC Evals und war Teil der KI-Sicherheitsorganisation Alignment Research Center (ARC), aber es wurde im Dezember 2023 unabhängig zu METR. Es hat jetzt 20 Mitarbeiter, einschließlich Barnes.

Obwohl METR die einzige Sicherheitstest-Organisation ist, die mit führenden KI-Unternehmen wie OpenAI zusammengearbeitet hat, arbeiten Forscher in Regierungen, Non-Profit-Organisationen und der Industrie an Bewertungen, die verschiedene potenzielle Gefahren testen, wie z.B. ob ein KI-Modell bei einem Cyberangriff oder der Freisetzung von Biowaffen helfen könnte. Der anfängliche Schwerpunkt von METR lag darauf, zu bewerten, ob ein KI-Modell sich selbst replizieren kann, indem es seine Intelligenz nutzt, um Geld zu verdienen und mehr Rechenressourcen zu erwerben und diese Ressourcen dann nutzt, um mehr Kopien von sich selbst herzustellen, was letztendlich zu einer Ausbreitung im Internet führen würde. Seitdem hat sich der Fokus erweitert auf die Bewertung, ob KI-Modelle autonom handeln können, indem sie das Internet navigieren und komplexe Aufgaben ohne Aufsicht ausführen.

METR konzentriert sich darauf, weil es weniger spezialisiertes Fachwissen erfordert als z.B. Biosicherheitstests und weil METR besonders besorgt ist über den Schaden, den ein KI-System anrichten könnte, wenn es vollständig unabhängig handeln und daher nicht einfach ausgeschaltet werden könnte, sagt Barnes.

Die Bedrohung, auf die METR sich zunächst konzentrierte, beschäftigt auch Regierungsbeamte. Die von der Biden-Regierung von 15 führenden KI-Unternehmen eingeforderten Verpflichtungen umfassen die Verantwortung, neue Modelle auf die Fähigkeit zu testen, “Kopien von sich selbst zu erstellen oder sich ‘selbst zu replizieren’.”

Derzeit würde eine State-of-the-Art-KI wie Googles Gemini oder OpenAIs GPT-4 auf die Frage, wie sie Kopien von sich selbst im Internet verteilen würde, eine vage und lustlose Antwort geben, auch wenn die Sicherheitsschutzmechanismen, die KI-Systemen typischerweise das Beantworten problematischer Prompts verhindern, außer Kraft gesetzt wären. Barnes und ihr Team glauben, dass heute auf dem Markt keine KI existiert, die sich selbst replizieren kann, aber sie sind sich nicht sicher, ob dies anhält. “Es scheint ziemlich schwierig zu sein, zuversichtlich zu sein, dass es innerhalb von fünf Jahren nicht passieren wird”, sagt Barnes.

METR möchte in der Lage sein, festzustellen, ob eine KI damit beginnt, die Fähigkeit zur Selbstreplikation und autonomen Handeln zu erwerben, lange bevor sie dies tatsächlich kann. Um dies zu erreichen, versuchen die Forscher, dem Modell so viele Vorteile wie möglich zu verschaffen. Dazu gehört der Versuch, die Prompts zu finden, die die bestmögliche Leistung erbringen, dem KI Werkzeuge zur Verfügung zu stellen, die bei der Aufgabe der Selbstreplikation helfen würden, und es weiter auf Aufgaben zu trainieren, die es erfüllen müsste, um sich zu replizieren, wie z.B. die Durchsuchung großer Dateien nach relevanten Informationen. Auch wenn METR dem KI alle möglichen Vorteile verschafft, sind aktuelle KI-Modelle erfreulich schlecht darin.

Wenn eine KI, die alle diese Vorteile genießt, dennoch auf Basis der METR-Tests nicht annähernd in der Lage ist, sich zu replizieren oder autonom zu handeln – ist METR relativ zuversichtlich, dass das Modell sich nicht selbst versorgen könnte, wenn es in die Welt entlassen würde – und auch nicht, wenn es etwas leistungsfähiger wäre. Allerdings wird METR wahrscheinlich seine Einschätzungen anzweifeln, je fähiger Modelle werden, sagt Barnes.

Begeisterung für Bewertungen

Bei seiner Rede im Weißen Haus, bevor er seine Verordnung im Oktober unterzeichnete, sagte Präsident Biden, dass Unternehmen der Regierung “über die groß angelegten KI-Systeme berichten müssen, an denen sie arbeiten, und stichhaltige unabhängige Testergebnisse vorlegen müssen, um zu beweisen, dass sie für das amerikanische Volk keine Sicherheits- oder nationale Sicherheitsrisiken darstellen.” Bidens Verordnung beauftragte das National Institute of Standards and Technology (NIST) damit, Richtlinien für die Tests von KI-Systemen zu erstellen, um sicherzustellen, dass sie sicher sind. Sobald die Richtlinien ausgearbeitet sind, müssen Unternehmen die Ergebnisse ihrer Tests an die Regierung melden. Auch der EU-KI-Akt verlangt von Unternehmen, die besonders leistungsstarke KI-Systeme erstellen, diese auf Sicherheit zu testen.

Die Bletchley-Erklärung, die von 29 Ländern einschließlich der USA und Chinas auf dem Gipfel im November unterzeichnet wurde, besagt, dass Akteure, die die leistungsstärksten KI-Systeme entwickeln, die Verantwortung haben, sicherzustellen, dass ihre Systeme “durch Systeme für Sicherheitstests, durch Bewertungen und durch andere geeignete Maßnahmen” sicher sind.

Es sind nicht nur Regierungen, die von der Idee der Sicherheitstests begeistert sind. Sowohl OpenAI als auch Anthropic haben detaillierte Pläne für zukünftige KI-Entwicklung veröffentlicht, die die Verifizierung vorsehen, dass ihre Systeme sicher sind, bevor sie eingesetzt oder leistungsfähigere Systeme aufgebaut werden.

Sicherheitstests sollen also eine Schlüsselrolle in den Strategien von Unternehmen und Regierungen für eine sichere KI-Entwicklung spielen. Aber niemand, der an der Entwicklung dieser Bewertungen beteiligt ist, behauptet, sie seien wasserdicht. “Die Bewertungen sind noch nicht bereit”, sagt Chris Painter, METRs Politikdirektor. “Es gibt reale und materielle Umsetzungsfragen darüber, ob die Tests mit der Fidelity bereit sein werden, die in einem Jahr möglicherweise benötigt wird. Und der Fortschritt bei KI wird im nächsten Jahr weitergehen.”

Der Artikel wird von einem Drittanbieter bereitgestellt. SeaPRwire (https://www.seaprwire.com/) gibt diesbezüglich keine Zusicherungen oder Darstellungen ab.

Branchen: Top-Story, Tagesnachrichten

SeaPRwire liefert Echtzeit-Pressemitteilungsverteilung für Unternehmen und Institutionen und erreicht mehr als 6.500 Medienshops, 86.000 Redakteure und Journalisten sowie 3,5 Millionen professionelle Desktops in 90 Ländern. SeaPRwire unterstützt die Verteilung von Pressemitteilungen in Englisch, Koreanisch, Japanisch, Arabisch, Vereinfachtem Chinesisch, Traditionellem Chinesisch, Vietnamesisch, Thailändisch, Indonesisch, Malaiisch, Deutsch, Russisch, Französisch, Spanisch, Portugiesisch und anderen Sprachen.