Die Details in diesem Paper über A Language-based Approach to Measuring Scholarly Impact sind in meinen Augen zwar teuflisch kompliziert (bei Gleichungen die so aussehen

i-80ee095ff7e995d917008e7a1a86c5da-impact-thumb-200x18.jpg

und Begriffen wie “variational Kalman filter” habe ich meine sichere Schwimmtiefe längst verlassen …) – aber im Prinzip ist es auch wieder ganz einfach, was sich die beiden Princeton-Computerwissenschaftler David M. Blei und Sean Gerrish ausgedacht (und auf der International Conference on Machine Learning im Juni in Haifa, Israel präsentiert) hatten, um den Impact eines Papers über die Zählung von Nennungen in Literaturverzeichnissen hinaus zu messen: Je bahnbrechender eine Arbeit war, desto wahrscheinlicher ist es, dass deren Formulierungen oder Beispiele in nachfolgenden Arbeiten übernommen werden. Oder, um Gerrish zu zitieren

There might be a paper that introduces the laser, for instance, which is then mentioned in subsequent articles. The premise is that one article introduces the language that will be adopted and used in the future.

Genau diesen sprachlichen “Impact-Faktor” wollen Gerrish und Blei messen.

Und diese Idee finde ich ganz bestechend. Denn erstens bedeutet nicht jede Zitierung in einem anderen Paper automatisch, dass eine Arbeit ebenso maßgeblich dabei war wie diverse andere; außerdem gibt es eine Wirkung über den Horizont der akademischen Publikation hinaus – in Presseartikeln, Blogposts und manchmal auch juristischen Dokumenten (diese Aufstellung habe ich dem Gerrish-Blei-Paper entlehnt) werden zwar wissenschaftliche Arbeiten reflektiert, aber nicht notwendiger Weise in einer Form zitiert, die sich dann in einen Impact Factor übersetzen lässt.

Und zweitens ist die Methode nicht nur für wissenschaftliche Publikationen geeignet (Gerrish und Blei hatten ihre Algorithen an Veröffentlichungen in Nature, den Proceedings of the National Academy of Sciences und der Association for Computational Linguistics Anthology , einer digitalen Literatursammlung zum Thema Computerlinguistik, getestet), sondern im Prinzip eine Suchmaschine für alles, was auch nur irgendwo publiziert und elektronisch verfügbar ist. In David Bleis Worten:

The point is being able to manage the explosion of information made possible by computers and the Internet. We’re trying to make sense of how concepts move around. Maybe you want to know who coined a certain term like ‘quark,’ or search old news stories to find out where the first 1960s antiwar protest took place.”

flattr this!

Kommentare (2)

  1. #1 kommentarabo
    22. Oktober 2010

  2. #2 Thilo
    23. Oktober 2010

    Kann man ja mal machen und ist vielleicht auch ganz interessant und witzig. Das jetzt als verbesserten Impact Factor mit Aussagekraft über die Bedeutung eines Papers zu verkaufen kann aber doch eigentlich kaum ernstgemeint sein. Die wenigsten Arbeiten führen neue Begriffe ein oder beeinflussen signifikant, wie oft ein Begriff in den nächsten Jahren verwendet wird, würde ich sagen.
    Und eine Erklärung wie

    We also removed
    terms whose statistics did not vary over the course
    of the collection, as such terms would not be useful for assessing
    change in language (a random sample of such nonvarying
    terms from Nature is “ordinarily”, “shake”, “centimetre”,
    “traffic”, and “themselves”).

    klingt für mich eher nach Satire.