Von Apple-Forschenden wurde eine Studie vorgelegt, nach der alle großen und derzeit angebotenen Large Language Models (LLM), die für KI-Chatbots eingesetzt werden, kein wirkliches Logikvermögen haben. Zwar sind sie gut darin, die Logik ihres Trainingsmaterials nachzuahmen, aber es gibt kein echtes Verständnis für die gestellte Anfrage und damit auch stark alternierende Ergebnisse bei kleinen, nicht relevanten Änderungen. Für die Untersuchung wurde ein neuer Benchmark-Test entwickelt – GSM-Symbolic. Dieser soll wesentlich besser sein als der bisher großflächig genutzte Test GSM8K. Getestet wurden offene und geschlossene Modelle wie OpenAI GPT, Meta Llama, etc.
Kapitel in diesem Beitrag:
Logikleistung sinkt um bis zu 65% bei nicht relevanten Änderungen
Im Studien-Paper, das ihr euch bei arxiv.org anschauen und runterladen könnt, wird aufgezeigt, dass für den Test der Logikleistung von Sprachmodellen großer KI-Anbieter vor allem mathematische Probleme genutzt wurden. Es wurden also Variablen in die Anfrage eingebaut, die am Ende zu einem eindeutigen, überprüfbaren Ergebnis führen sollten – ähnlich wie bei Textaufgaben im Mathe-Unterricht. Genauso wie bei diesen waren aber auch Namen, Szenarien und andere Inhalte enthalten. Diese waren nicht wichtig für das Ergebnis, hatten aber dennoch einen Einfluss.
Während bei der Eingabe von eindeutigen Prompts die KI-Chatbots durchaus in der Lage waren, die richtige Lösung zu liefern, da ließen sie sich aber auch leicht davon abbringen. Je nach Modell kam es zu einem bis zu 65-prozentigen Leistungseinbruch bei der Fähigkeit, die objektiv richtige Antwort auszugeben. Dabei wurden keine für die Rechenaufgabe relevanten Daten verändert, sondern lediglich Namen, Szenarien oder andere, eigentlich nicht relevante Angaben. So ging es bei einem Beispiel um die Anzahl von Kiwis, die falsch ausgegeben wurde, wenn auf einmal die Größe einzelner Kiwis hinzugefügt wurde.
Fazit: Aktuelle KI-Modelle sind nicht für die kritische Problemlösung geeignet
Zwar haben sich Sprachmodelle wie OpenAIs GPT oder Metas Llama in den letzten Jahren stark weiterentwickelt. Dennoch sind sie noch nicht in der Lage, echte Logik walten zu lassen. Die Apple-Studie zeigt entsprechend auf, dass die Modelle derzeit noch sehr anfällig für Inhalte und Daten sind, die nichts mit der eigentlichen Problemlösung zu tun haben. Dabei wird darauf hingewiesen, dass GSM8K und GSM-Symbolic recht einfache Tests sind, die keine höhere Mathematik abfragen, sondern Grundschulfähigkeiten.
Abschließend heißt es in der Zusammenfassung (frei übersetzt): „Wir glauben, dass weitere Forschungen notwendig sind, um KI-Modelle zu entwickeln, die in der Lage sind, formale Schlussfolgerungen zu ziehen und über die Mustererkennung hinaus zu robusteren und generalisierbaren Problemlösungsfähigkeiten zu gelangen. Dies bleibt eine entscheidende Herausforderung für die Branche, wenn wir danach streben, Systeme mit menschenähnlichen kognitiven Fähigkeiten oder allgemeiner Intelligenz [gemeint ist ‚Artificial General Intelligence‘] zu schaffen.“
Meine Tipps & Tricks rund um Technik & Apple
Ähnliche Beiträge
Johannes hat nach dem Abitur eine Ausbildung zum Wirtschaftsassistenten in der Fachrichtung Fremdsprachen absolviert. Danach hat er sich aber für das Recherchieren und Schreiben entschieden, woraus seine Selbstständigkeit hervorging. Seit mehreren Jahren arbeitet er nun u. a. für Sir Apfelot. Seine Artikel beinhalten Produktvorstellungen, News, Anleitungen, Videospiele, Konsolen und einiges mehr. Apple Keynotes verfolgt er live per Stream.