Apple-Studie: Logikvermögen von KI-Modellen ist sehr schwach

Von Apple-Forschenden wurde eine Studie vorgelegt, nach der alle großen und derzeit angebotenen Large Language Models (LLM), die für KI-Chatbots eingesetzt werden, kein wirkliches Logikvermögen haben. Zwar sind sie gut darin, die Logik ihres Trainingsmaterials nachzuahmen, aber es gibt kein echtes Verständnis für die gestellte Anfrage und damit auch stark alternierende Ergebnisse bei kleinen, nicht relevanten Änderungen. Für die Untersuchung wurde ein neuer Benchmark-Test entwickelt – GSM-Symbolic. Dieser soll wesentlich besser sein als der bisher großflächig genutzte Test GSM8K. Getestet wurden offene und geschlossene Modelle wie OpenAI GPT, Meta Llama, etc.

Mac-Tipp: Große Dateien finden und löschen mit Daisy Disk (Werbung)

Eine Apple-Studie zeigt, dass große KI-Modelle noch starke Probleme dabei haben, Grundschulaufgaben zu lösen. Nicht relevante Informationen führen zu falschen Ergebnissen.

Kapitel in diesem Beitrag:

1 Logikleistung sinkt um bis zu 65% bei nicht relevanten Änderungen
2 Fazit: Aktuelle KI-Modelle sind nicht für die kritische Problemlösung geeignet
3 Ähnliche Beiträge
4 Sir Apfelot Wochenschau KW 13, 2025
5 Nintendo Today! – Neue News-App für Nintendo-Fans
6 Lumon Terminal Pro – Apple listet neuen Computer als Werbeaktion
7 Apple WWDC25 – Ankündigung für 9. bis 13. Juni 2025
8 Update für AirPods Max: Lossless, 3D-Audio, Head Tracking und Kabelwiedergabe!
9 Komoot verkauft: Kommt jetzt die Abo-Pflicht?
10 Sir Apfelot Wochenschau KW 12, 2025
11 Verschlüsselte Nachrichten: iOS 19, macOS 16 und watchOS 12 mit RCS 3.0

Logikleistung sinkt um bis zu 65% bei nicht relevanten Änderungen

Im Studien-Paper, das ihr euch bei arxiv.org anschauen und runterladen könnt, wird aufgezeigt, dass für den Test der Logikleistung von Sprachmodellen großer KI-Anbieter vor allem mathematische Probleme genutzt wurden. Es wurden also Variablen in die Anfrage eingebaut, die am Ende zu einem eindeutigen, überprüfbaren Ergebnis führen sollten – ähnlich wie bei Textaufgaben im Mathe-Unterricht. Genauso wie bei diesen waren aber auch Namen, Szenarien und andere Inhalte enthalten. Diese waren nicht wichtig für das Ergebnis, hatten aber dennoch einen Einfluss.

Während bei der Eingabe von eindeutigen Prompts die KI-Chatbots durchaus in der Lage waren, die richtige Lösung zu liefern, da ließen sie sich aber auch leicht davon abbringen. Je nach Modell kam es zu einem bis zu 65-prozentigen Leistungseinbruch bei der Fähigkeit, die objektiv richtige Antwort auszugeben. Dabei wurden keine für die Rechenaufgabe relevanten Daten verändert, sondern lediglich Namen, Szenarien oder andere, eigentlich nicht relevante Angaben. So ging es bei einem Beispiel um die Anzahl von Kiwis, die falsch ausgegeben wurde, wenn auf einmal die Größe einzelner Kiwis hinzugefügt wurde.

Fazit: Aktuelle KI-Modelle sind nicht für die kritische Problemlösung geeignet

Zwar haben sich Sprachmodelle wie OpenAIs GPT oder Metas Llama in den letzten Jahren stark weiterentwickelt. Dennoch sind sie noch nicht in der Lage, echte Logik walten zu lassen. Die Apple-Studie zeigt entsprechend auf, dass die Modelle derzeit noch sehr anfällig für Inhalte und Daten sind, die nichts mit der eigentlichen Problemlösung zu tun haben. Dabei wird darauf hingewiesen, dass GSM8K und GSM-Symbolic recht einfache Tests sind, die keine höhere Mathematik abfragen, sondern Grundschulfähigkeiten.

Abschließend heißt es in der Zusammenfassung (frei übersetzt): „Wir glauben, dass weitere Forschungen notwendig sind, um KI-Modelle zu entwickeln, die in der Lage sind, formale Schlussfolgerungen zu ziehen und über die Mustererkennung hinaus zu robusteren und generalisierbaren Problemlösungsfähigkeiten zu gelangen. Dies bleibt eine entscheidende Herausforderung für die Branche, wenn wir danach streben, Systeme mit menschenähnlichen kognitiven Fähigkeiten oder allgemeiner Intelligenz [gemeint ist ‚Artificial General Intelligence‘] zu schaffen.“