Leipzig Benchmark

Wie beurteilt man die Fähigkeiten künstlicher Intelligenz, komplexe mathematische Probleme zu lösen? Eine Gruppe von 49 Mathematikern hat jetzt einen Fragenkatalog entwickelt, eine Liste von 100 mathematischen Problemen auf Forschungsniveau, mit denen man künstliche Intelligenzen testen kann, um künftige Entwicklungen zu bewerten.

Über den aktuellen Stand liest man auf https://www.mis.mpg.de/de/news/benchmarks-in-leipzig:

Nachdem in der ersten Phase fünf moderne Sprachmodelle die Aufgaben bearbeitet hatten, blieben 41 Fragen ungelöst. Nach weiteren 20 Durchläufen mit den drei leistungsstärksten Modellen in der zweiten Phase reduzierte sich diese Zahl auf 16. In der dritten und letzten Phase wurden zwei sogenannte „Deep-Think“-Modelle jeweils dreimal getestet. Am Ende blieben nur noch zwei Aufgaben ungelöst.

Die Liste der Probleme findet man auf dem ArXiv. Bedingung für die Aufnahme eines Problems war, dass es eine eindeutige, wohl definierte und nicht leicht zu erratende Lösung hat. Entsprechend den Interessen der Autoren sind algebraische Geometrie und algebraische Kombinatorik stark vertreten, es gibt aber auch zahlreiche Aufgaben aus ganz anderen Gebieten. Die beiden auch nach der dritten Phase von aktuellen LLMs ungelösten Probleme sind die folgenden:

Screenshot

Leipzig Benchmark

Mathlog

Neueste Beiträge