Als Beginn der Gruppen- wie der Körpertheorie gilt die Idee von Galois, die Auflösbarkeit eines Polynoms auf die Auflösbarkeit der Galois-Gruppe der entsprechenden Körpererweiterung von Q zurückzuführen. Darauf aufbauend beschäftigt sich die algebraische Zahlentheorie seit dem Ende des 19. Jahrhunderts vor allem mit den endlichen Körpererweiterungen der rationalen Zahlen.
Die Galois-Gruppen aller endlichen Körpererweiterungen von Q lassen sich zusammenfassen in der absoluten Galois-Gruppe Gal(\overline{\bf Q}/{\bf Q}). Stetige Darstellungen dieser proendlichen Gruppe – sogenannte Galois-Darstellungen – sind ein wichtiges Thema der Zahlentheorie. Zum Beispiel kann man das quadratische Reziprozitätsgesetz über die Lösbarkeit der Gleichungen x^2\equiv p\ mod\ q und x^2\equiv q\ mod\ p wie folgt in die Sprache der Galois-Darstellungen übersetzen. Für q^*=(-1)^{(q-1)/2}q besteht die Galois-Gruppe Gal({\bf Q}(\sqrt{q^*})/{\bf Q}) aus zwei Elementen, der Identität und dem Automorphismus σ mit \sigma(\sqrt{q^*})=-\sqrt{q^*}. Man zeigt, dass für eine Primzahl p der Frobenius-Automorphismus Frob_p\in Gal({\bf Q}(\sqrt{q^*})/{\bf Q}) entweder id oder σ ist, je nachdem ob sich das Ideal (p) in der Körpererweiterung zerlegen läßt oder nicht, also ob q* ein Quadrat modulo p ist oder nicht. Das quadratische Reziprozitätsgesetz ist damit äquivalent zu der Behauptung, dass die kanonische Galois-Darstellung Gal({\bf Q}(\sqrt{q^*})/{\bf Q})\to\left\{\pm 1\right\}=GL(1,{\bf Z}) den Frobenius-Automorphismus Frobp auf das Legendre-Symbol \left(\frac{p}{q}\right) abbildet, und diese Behauptung läßt sich mit Gruppen- und Körpertheorie beweisen.

Artins berühmtes Reziprozitätsgesetz von 1927 besagt, dass alle Elemente einer Galois-Gruppe sich als Frobenius-Automorphismen Frobp gewisser Idealklassen p realisieren lassen und dass man bei abelschen Erweiterungen für jeden Charakter λ der Galois-Gruppe einen Hecke-Charakter χ mit \rho(Frob_p)=\chi(p) für alle p hat. Er zeigte dies, indem er die L-Funktion von Galois-Darstellungen definierte und im Fall von Charakteren (1-dimensionalen Darstellungen) die Gleichheit L(s,\rho)=L(s,\chi) mit der Heckeschen L-Funktion bewies. Für höher-dimensionale Darstellungen ist es bis heute offen, ob die L-Reihe auf ganz C fortgesetzt werden kann (Artins Vermutung).
Die höherdimensionale Verallgemeinerung der Artin-Reziprozität soll das Langlands-Programm sein, das die L-Reihen n-dimensionaler Galois-Darstellungen mit den L-Reihen geeigneter automorpher Darstellungen von GL(n,AQ) identifizieren möchte. Für n=2 bewiesen das 1970 Jacquet und Langlands, als Anwendung konnte Langlands die Vermutung Artins für L-Reihen 2-dimensionaler Galois-Darstellungen beweisen.

Schon zuvor hatte André Weil unter der Annahme von Artins Vermutung für 2-dimensionale Galois-Darstellungen bewiesen, dass die aus den Koeffizienten der L-Reihe einer irreduziblen Galois-Darstellung nach GL(2,C) mit Führer N gebildete Funktion f eine Neuform zu Γ0(N) ist, deren L-Reihe mit der der Darstellung übereinstimmt.
Umgekehrt fanden Deligne und Serre, dass es zu jeder solchen Neuform eine Darstellung mit derselben L-Reihe gibt. (Die Grundidee ist, dass man einer Neuform eine abelsche Varietät zuordnen kann, die als “Motiv” hinter den verschiedenen Erscheinungen steht. Für eine Primzahl p wirkt dann die absolute Galois-Gruppe auf den pn-Teilungspunkten der abelschen Varietät.) Für GL(2) reduziert sich die Langlands-Vermutung damit auf Artins Vermutung.

John Tate hatte 1966 für p-teilbare Gruppen und abelsche Varietäten A den Modul T_p(A)=\lim A_{p^n} eingeführt und den Isomorphismus Hom_K(A,B)\otimes{\bf Z}_p\simeq Hom_{G(K)}(T_p(A),T_p(B)) für die Darstellungen der absoluten Galois-Gruppe G(K) auf diesen „Tate-Moduln“ vermutet. Das wurde ein wesentlicher Schritt zum Beweis der Mordell-Vermutung und wurde in diesem Zusammenhang 1983 von Faltings bewiesen. Auch beim Beweis des großen Satzes von Fermat war die zu einer elliptischen Kurve assoziierte Darstellung \rho_l\colon Gal(\overline{\bf Q},{\bf Q}) \to GL(2,{\bf Z}_l)\subset GL(2,{\bf Q}_l) der absoluten Galois-Gruppe auf dem Tate-Modul wesentlich.

Ramanujan hatte 1916 einige erstaunliche Kongruenzen der in der Theorie elliptischer Modulfunktionen als Fourierkoeffizienten der Diskriminante \Delta(q)=q\Pi_n(1-q^n)^{24}=\Sigma_n\tau(n)q^n definierten τ-Funktion gefunden. Einige davon waren kurz danach von Mordell bewiesen worden, offen blieb die Vermutung \vert\tau(p)\vert\le p^{\frac{11}{2}}. In der Entwicklung als Euler-Produkt der zugehörigen Zetafunktion \sum_{n=0}^\infty \tau(n)n^{-s}=\Pi_p\frac{1}{H_p(P^{-s})} kommen die Funktionen H_p(x)=1-\tau(p)x+p^{11}x^2 vor und Serre vermutete Ende der 60er Jahre, dass es für eine Primzahl l und die Vereinigung der nur in l verzweigten Erweiterungen Kl/Q einen stetigen Homomorphismus \rho\colon Gal(K_l,{\bf Q})\to GL(2,{\bf Q}_l) gibt, der für jede Primzahl p≠l den Frobenius-Automorphismus Frobp auf eine Matrix mit charakteristischem Polynom Hp(x) abbildet. Für l=2,3,5,7,23,691 ist GL(2,Ql) auflösbar und aus der Vermutung lassen sich alle bekannten Kongruenzen modulo Potenzen von l herleiten. Für l=11 konnte Serre die Vermutung aus einer Arbeit Shimuras herleiten und bekam damit insbesondere das (neue) Resultat, dass es keine Kongruenzen der τ-Funktion modulo 11 gibt.
Serre vermutete dann allgemeiner zu jeder Modulform \sum_{n=0}^\infty a_nq^n vom Gewicht k+2 und jeder Primzahl l die Konstruktion einer Darstellung \rho_l\colon Gal(\overline{\bf Q},{\bf Q})\to GL(2,{\bf Q}_l), die nur in l verzweigt ist und wieder die Frobenius-Automorphismen auf Matrizen mit charakteristischem Polynom 1-a_px+p^{k+1}x^2 abbildet. Das wurde von Deligne bewiesen, die Konstruktion bestand darin, die l-adische Kohomologie (mit geeigneten Koeffizienten) des Modulraums elliptischer Kurven zu betrachten. Die spektakulärste Anwendung dieser Konstruktion war, dass die Ramanujan-Vermutung aus den Weil-Vermutungen folgen würden. Letztere (und damit auch die Ramanujan-Vermutung) wurden dann 1974 von Deligne bewiesen. Allgemein weiß man durch tiefe Sätze von Shimura, Deligne, Mazur und Langlands, dass man jeder Eigenform eines auf einem Raum von Modulformen wirkenden Hecke-Operators eine Galois-Darstellung (sogar über einem endlichen Körper der Ordnung ln) zuordnen kann.

Delignes zu Modulformen assoziierte Darstellungen sind ungerade (d.h. komplexe Konjugation wird auf Multiplikation mit -1 abgebildet) und absolut irreduzibel (irreduzibel und nur an endlich vielen Stellen verzweigt). 1973 stellte Serre dann in einem Brief an Tate die Modularitätsvermutung auf: jede (absolut irreduzible, stetige und ungerade) Galois-Darstellung über einem endlichen Körper soll auf diese Weise durch eine Darstellung im Raum der Spitzenformen (in der Charakteristik des endlichen Körpers und mit Koeffizienten im endlichen Körper) gegeben sein. Die Wirkung der Galois-Gruppe ist durch Hecke-Operatoren und es gelten gewisse Formeln für Spur und Determinante.

Diese Vermutung ist stärker als die Modularität elliptischer Kurven. Letztere wurde in dem für den großen Satz von Fermat benötigten Spezialfall 1995 von Wiles-Taylor und allgemein dann 2001 von Breuil-Conrad-Diamond-Taylor bewiesen. Die Vermutung Serres ist aber allgemeiner und auch wichtiger dank zahlreicher zahlentehoretischer Anwendungen.

Es war bereits sehr lange durch tiefe Sätze von Shimura, Deligne, Mazur und Langlands bekannt, dass man jeder Hecke-Eigenform eine solche Darstellung zuordnen kann, Serres Modularitätsvermutung behauptete nun die Umkehrung. Sei ρ eine absolut irreduzible, stetige und ungerade (d.h. komplexe Konjugation wird auf -id abgebildet) zweidimensionale Darstellung von Gal(\overline{\bf Q},{\bf Q}) über einem endlichen Körper F = \mathbb{F}_{l^r} Charakteristik l, dann soll ρ durch eine Darstellung im Raum der Spitzenformen zur Kongruenzuntergruppe \Gamma_0 (N) der Stufe N=N(ρ), Gewicht k=k(ρ), und Nebentypus \chi : \mathbb{Z}/N\mathbb{Z} \rightarrow F^*\ festgelegt sein, wobei Modulformen in Charakteristik l mit Koeffizienten der Fourierentwicklung in F betrachtet werden. Die Wirkung der absoluten Galoisgruppe in dieser Darstellung soll durch die Hecke-Operatoren gegeben sein, linearen Abbildungen im Raum der Spitzenformen dieses Typs. Es gibt eine normierte Hecke-Eigenform, sie ist simultane Eigenfunktion aller Heckeoperatoren, mit der Fourierentwicklung f = q+a_2q^2+a_3q^3+\cdots\ . Für alle Primzahlen p, die Nl nicht teilen, soll Spur(\rho(Frob_p))=a_p und det(\rho(Frob_p))=p^{k-1} \chi(p) sein. Das heißt, Spur und Determinante – und damit im Wesentlichen die Wirkung der Frobeniusabbildung in der betrachteten Darstellung – werden durch die Hecke-Eigenform festgelegt.

Serre vermutete sogar und zeigte dies explizit an Beispielen, dass sich die Parameter der Darstellung ρ wie Stufe, Gewicht und Nebentypus explizit berechnen lassen. Das ist die 1987 von ihm formulierte starke Serre-Vermutung. Für l≥5 (Diamond) und mit wenigen Ausnahmen auch für l=3 folgt die starke Serre-Vermutung aus der schwachen.

Für l=2,N=1 bewies Tate die Serre-Vermutung 1973 in seinem Antwortbrief an Serre zwei Monate später. Seinen Beweis konnte Serre auch für l=3,N=1 anwenden. Es gab danach lange keine Fortschritte bis schließlich 2005 Chandrasekhar Khare die Vermutung für N=1 und beliebige Primzahlen l bewies, aufbauend auf gemeinsamer Arbeit mit Wintenberger, in der sie kurz zuvor l=5 und l=7 für N=1 behandelt hatten. In zwei 2007 geschriebenen und 2009 in Inventiones Mathematicae veröffentlichten Arbeiten „Serre’s modularity conjecture“ I, II bewiesen Khare und Wintenberger dann die allgemeine Vermutung mit Ausnahme einiger Fälle, die aber gleichzeitig von Kisin gelöst wurden.