Die drei wichtigsten AI-Innovationen von 2023

Chatbot looking out of a smartphone display. Text bubbles floating around. Pink background.

(SeaPRwire) –   Auf vielen Ebenen war 2023 das Jahr, in dem die Menschen begannen zu verstehen, was KI wirklich ist – und was sie leisten kann. Es war das Jahr, in dem Chatbots zum ersten Mal wirklich viral gingen, und das Jahr, in dem Regierungen begannen, KI-Risiken ernst zu nehmen. Diese Entwicklungen waren weniger neue Innovationen als vielmehr Technologien und Ideen, die nach einer langen Reifephase ins Rampenlicht rückten.

Es gab aber auch reichlich neue Innovationen. Hier sind drei der größten aus dem vergangenen Jahr:

Multimodality

“Multimodality” mag sich wie Fachjargon anhören, aber es lohnt sich zu verstehen, was es bedeutet: Es ist die Fähigkeit eines KI-Systems, viele verschiedene Datenarten zu verarbeiten – nicht nur Text, sondern auch Bilder, Video, Audio und mehr.

In diesem Jahr hatten die Öffentlichkeit zum ersten Mal Zugang zu leistungsstarken multimodalen KI-Modellen. OpenAIs GPT-4 war das erste dieser Modelle und erlaubte es Nutzern, Bilder sowie Text-Eingaben hochzuladen. GPT-4 kann den Inhalt eines Bildes “sehen”, was alle Arten von Möglichkeiten eröffnet, zum Beispiel danach zu fragen, was man zum Abendessen machen kann, basierend auf einem Foto des Inhalts des eigenen Kühlschranks. Im September erweiterte OpenAI die Möglichkeit für Nutzer, mit ChatGPT per Sprache sowie Text zu interagieren.

Googles DeepMind-Modell Gemini, das im Dezember angekündigt wurde, kann ebenfalls mit Bildern und Audio arbeiten. Ein von Google veröffentlichtes Demonstrationsvideo zeigte das Modell, wie es eine Ente anhand einer Strichzeichnung auf einem Post-it identifizierte. In demselben Video generierte Gemini nachdem es ein Bild von pinker und blauer Wolle gezeigt bekam und gefragt wurde, was man daraus herstellen könnte, ein Bild eines pinken und blauen Kraken-Kuscheltiers.

“Ich denke, der nächste Meilenstein, an den sich die Menschen erinnern werden, ist es, [KI-Systeme] viel umfassender multimodal zu machen”, sagte Shane Legg, Mitbegründer von Google DeepMind, in einem Interview im Oktober. “Es sind noch frühe Tage in diesem Übergang, und wenn Sie anfangen, viel Video und andere Dinge wie das wirklich zu verdauen, werden diese Systeme ein viel fundierteres Verständnis der Welt entwickeln.” In einem Interview mit TIME im November sagte Sam Altman, CEO von OpenAI, dass Multimodality in den neuen Modellen des Unternehmens einer der wichtigsten Dinge sein werde, auf die man im nächsten Jahr achten solle.

Das Versprechen der Multimodality besteht nicht nur darin, dass Modelle nützlicher werden. Es bedeutet auch, dass die Modelle auf umfangreichere neue Datensätze – Bilder, Video, Audio – trainiert werden können, die mehr Informationen über die Welt enthalten als nur Text. Viele führende KI-Unternehmen sind der Überzeugung, dass diese neuen Trainingsdaten zu leistungsfähigeren oder mächtigeren Modellen führen werden. Es ist ein Schritt auf dem Weg, den viele KI-Wissenschaftler hoffen, zur “künstlichen allgemeinen Intelligenz”, der Art von System, das mit menschlicher Intelligenz mithalten kann und neue wissenschaftliche Entdeckungen machen sowie wirtschaftlich wertvolle Arbeit verrichten kann.

Verfassungskonforme KI

Eine der größten offenen Fragen bei der KI ist, wie sie an menschliche Werte ausgerichtet werden kann. Wenn diese Systeme intelligenter und mächtiger werden als Menschen, könnten sie unvorstellbaren Schaden für unsere Spezies anrichten – manche sagen sogar die totale Auslöschung -, es sei denn, sie werden auf eine Weise eingeschränkt, die das menschliche Wohlergehen in ihren Mittelpunkt stellt.

Das Verfahren, das OpenAI verwendet hat, um ChatGPT auszurichten (um die Gefahren früherer Modelle zu vermeiden), hat gut funktioniert – aber es erforderte eine große Menge an menschlicher Arbeit durch eine Technik namens “Verstärkendes Lernen mit menschlichem Feedback” oder RLHF. Menschliche Bewerter beurteilten die Antworten der KI und gaben ihr das computationelle Äquivalent zu einem Leckerli, wenn die Antwort hilfreich, harmlos und konform mit OpenAIs Liste von Inhaltsregeln war. Indem die KI belohnt wurde, wenn sie gut war, und bestraft wurde, wenn sie schlecht war, entwickelte OpenAI einen effektiven und relativ harmlosen Chatbot.

Da das RLHF-Verfahren jedoch stark von menschlicher Arbeit abhängt, gibt es große Fragezeichen bezüglich der Skalierbarkeit. Es ist teuer. Es ist von den Vorurteilen oder Fehlern einzelner Bewerter abhängig. Es wird fehleranfälliger, je komplexer die Liste der Regeln ist. Und es sieht unwahrscheinlich aus, bei KI-Systemen zu funktionieren, die so mächtig sind, dass sie Dinge tun, die Menschen nicht mehr nachvollziehen können.

Verfassungskonforme KI – erstmals im Dezember 2022 von Forschern des führenden KI-Labors Anthropic beschrieben – versucht, diese Probleme anzugehen, indem es die Tatsache nutzt, dass KI-Systeme nun in der Lage sind, Natürlichsprache zu verstehen. Die Idee ist ganz einfach. Erstens schreibt man eine “Verfassung”, die die Werte festlegt, an die sich Ihre KI halten soll. Dann trainiert man die KI darauf, Antworten auf der Grundlage zu bewerten, wie gut sie mit der Verfassung übereinstimmen, und motiviert das Modell, Antworten auszugeben, die besser abschneiden. Anstatt Verstärkendes Lernen mit menschlichem Feedback ist es Verstärkendes Lernen mit KI-Feedback.

“Mit verfassungskonformer KI schreibt man explizit die normativen Prämissen nieder, mit denen das Modell die Welt angehen sollte”, sagte Jack Clark, Leiter für Politik bei Anthropic, im August gegenüber TIME. “Dann trainiert das Modell an dieser Verfassung.” Es gibt immer noch Probleme, wie sicherzustellen, dass die KI sowohl den Buchstaben als auch den Geist der Regeln verstanden hat, aber die Technik ist ein vielversprechender Beitrag zu einem Feld, in dem neue Ausrichtungsstrategien rar gesät sind.

Natürlich beantwortet verfassungskonforme KI nicht die Frage, an welche Werte KI ausgerichtet werden sollte. Aber Anthropic experimentiert damit, diese Frage zu demokratisieren. Im Oktober führte das Labor ein Experiment durch, bei dem eine repräsentative Gruppe von 1.000 Amerikanern half, Regeln für einen Chatbot auszuwählen. Dabei stellte sich heraus, dass es zwar eine Polarisierung gab, aber dennoch möglich war, eine tragfähige Verfassung auf der Grundlage von Aussagen zu entwerfen, bei denen sich die Gruppe einig war. Solche Experimente könnten den Weg ebnen für eine Zukunft, in der normale Menschen viel mehr Einfluss auf die Gestaltung von KI haben als heute, wo eine kleine Zahl von Silicon-Valley-Führungskräften die Regeln aufstellt.

Text-zu-Video

Ein auffälliges Ergebnis der Milliarden Dollar, die in diesem Jahr in KI geflossen sind, war der rasche Aufstieg von Text-zu-Video-Tools. Letztes Jahr hatten Text-zu-Bild-Tools ; jetzt bieten mehrere Unternehmen die Möglichkeit, Sätze in sich ständig verbessernde bewegte Bilder umzuwandeln.

Eines dieser Unternehmen ist Anthropic, ein in Brooklyn ansässiges KI-Videounternehmen, das Filmemachen für jeden zugänglich machen möchte. Sein neuestes Modell Gen-2 ermöglicht es Nutzern nicht nur, ein Video aus Text zu generieren, sondern auch den Stil eines vorhandenen Videos auf der Grundlage eines Textprompts zu verändern (zum Beispiel eine Aufnahme von Cerealien auf einem Tisch in eine nächtliche Stadtlandschaft zu verwandeln), ein Verfahren, das es Video-zu-Video nennt.

“Unsere Mission ist es, Werkzeuge für menschliche Kreativität zu entwickeln”, sagte Anthropics CEO Dario Amodei TIME im Mai. Er räumt ein, dass dies Auswirkungen auf Jobs in der Kreativbranche haben wird, in der KI-Werkzeuge schnell bestimmte Formen von technischem Fachwissen überflüssig machen, aber er glaubt, dass die Welt danach besser ist. “Unsere Vision ist eine Welt, in der die menschliche Kreativität verstärkt und verbessert wird, und es weniger um das Handwerk, das Budget, die technischen Spezifikationen und das Wissen geht, das man hat, sondern mehr um die eigenen Ideen.”

Ein weiteres Startup im Bereich Text-zu-Video ist Pika AI, das laut Berichten Millionen neuer Videos pro Woche erstellt. Das von zwei Stanford-Abbrechern gegründete Unternehmen ging im April an den Start, hat aber bereits Finanzmittel in Höhe von zwischen 200 und 300 Millionen US-Dollar eingeworben, wie das Wall Street Journal berichtete. Als nicht an professionelle Filmemacher, sondern an normale Nutzer gerichtet, bietet Pika kostenlose Werkzeuge an.

Der Artikel wird von einem Drittanbieter bereitgestellt. SeaPRwire (https://www.seaprwire.com/) gibt diesbezüglich keine Zusicherungen oder Darstellungen ab.

Branchen: Top-Story, Tagesnachrichten

SeaPRwire liefert Echtzeit-Pressemitteilungsverteilung für Unternehmen und Institutionen und erreicht mehr als 6.500 Medienshops, 86.000 Redakteure und Journalisten sowie 3,5 Millionen professionelle Desktops in 90 Ländern. SeaPRwire unterstützt die Verteilung von Pressemitteilungen in Englisch, Koreanisch, Japanisch, Arabisch, Vereinfachtem Chinesisch, Traditionellem Chinesisch, Vietnamesisch, Thailändisch, Indonesisch, Malaiisch, Deutsch, Russisch, Französisch, Spanisch, Portugiesisch und anderen Sprachen.