Apple-Studie: Logikvermögen von KI-Modellen ist sehr schwach

Von Apple-Forschenden wurde eine Studie vorgelegt, nach der alle großen und derzeit angebotenen Large Language Models (LLM), die für KI-Chatbots eingesetzt werden, kein wirkliches Logikvermögen haben. Zwar sind sie gut darin, die Logik ihres Trainingsmaterials nachzuahmen, aber es gibt kein echtes Verständnis für die gestellte Anfrage und damit auch stark alternierende Ergebnisse bei kleinen, nicht relevanten Änderungen. Für die Untersuchung wurde ein neuer Benchmark-Test entwickelt – GSM-Symbolic. Dieser soll wesentlich besser sein als der bisher großflächig genutzte Test GSM8K. Getestet wurden offene und geschlossene Modelle wie OpenAI GPT, Meta Llama, etc.

Eine Apple-Studie zeigt, dass große KI-Modelle noch starke Probleme dabei haben, Grundschulaufgaben zu lösen. Nicht relevante Informationen führen zu falschen Ergebnissen.
Eine Apple-Studie zeigt, dass große KI-Modelle noch starke Probleme dabei haben, Grundschulaufgaben zu lösen. Nicht relevante Informationen führen zu falschen Ergebnissen.

Logikleistung sinkt um bis zu 65% bei nicht relevanten Änderungen

Im Studien-Paper, das ihr euch bei arxiv.org anschauen und runterladen könnt, wird aufgezeigt, dass für den Test der Logikleistung von Sprachmodellen großer KI-Anbieter vor allem mathematische Probleme genutzt wurden. Es wurden also Variablen in die Anfrage eingebaut, die am Ende zu einem eindeutigen, überprüfbaren Ergebnis führen sollten – ähnlich wie bei Textaufgaben im Mathe-Unterricht. Genauso wie bei diesen waren aber auch Namen, Szenarien und andere Inhalte enthalten. Diese waren nicht wichtig für das Ergebnis, hatten aber dennoch einen Einfluss.

Während bei der Eingabe von eindeutigen Prompts die KI-Chatbots durchaus in der Lage waren, die richtige Lösung zu liefern, da ließen sie sich aber auch leicht davon abbringen. Je nach Modell kam es zu einem bis zu 65-prozentigen Leistungseinbruch bei der Fähigkeit, die objektiv richtige Antwort auszugeben. Dabei wurden keine für die Rechenaufgabe relevanten Daten verändert, sondern lediglich Namen, Szenarien oder andere, eigentlich nicht relevante Angaben. So ging es bei einem Beispiel um die Anzahl von Kiwis, die falsch ausgegeben wurde, wenn auf einmal die Größe einzelner Kiwis hinzugefügt wurde.

Fazit: Aktuelle KI-Modelle sind nicht für die kritische Problemlösung geeignet

Zwar haben sich Sprachmodelle wie OpenAIs GPT oder Metas Llama in den letzten Jahren stark weiterentwickelt. Dennoch sind sie noch nicht in der Lage, echte Logik walten zu lassen. Die Apple-Studie zeigt entsprechend auf, dass die Modelle derzeit noch sehr anfällig für Inhalte und Daten sind, die nichts mit der eigentlichen Problemlösung zu tun haben. Dabei wird darauf hingewiesen, dass GSM8K und GSM-Symbolic recht einfache Tests sind, die keine höhere Mathematik abfragen, sondern Grundschulfähigkeiten.

Abschließend heißt es in der Zusammenfassung (frei übersetzt): „Wir glauben, dass weitere Forschungen notwendig sind, um KI-Modelle zu entwickeln, die in der Lage sind, formale Schlussfolgerungen zu ziehen und über die Mustererkennung hinaus zu robusteren und generalisierbaren Problemlösungsfähigkeiten zu gelangen. Dies bleibt eine entscheidende Herausforderung für die Branche, wenn wir danach streben, Systeme mit menschenähnlichen kognitiven Fähigkeiten oder allgemeiner Intelligenz [gemeint ist ‚Artificial General Intelligence‘] zu schaffen.

Meine Tipps & Tricks rund um Technik & Apple

Hat dir der Artikel gefallen und helfen dir die Anleitungen im Blog? Dann würde ich mich freuen, wenn du das Blog über eine Steady-Mitgliedschaft unterstützen würdest.

Kommentar verfassen

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Im Sir Apfelot Blog findest du Ratgeber, Anleitungen und Testberichte zu Apple Produkten wie iPhone, iPad, Apple Watch, AirPods, iMac, Mac Pro, Mac Mini und Mac Studio.

Specials
Shopping
  •  
  •  

Meine Tipps & Tricks rund um Technik & Apple