Kalibrierung von Wahrscheinlichkeiten: Platt-Scaling für Fußball-Modelle

Das Kernproblem

Modellentwickler haben das gleiche Problem wie ein Schiedsrichter, der ständig das Spielfeld vergrößert: Die Roh‑Wahrscheinlichkeiten passen einfach nicht zu den realen Ergebnissen. Ein 70 % Siegversprechen klingt gut, liefert aber bei 10 Spielen nur vier Siege. Hier entsteht die Diskrepanz – das Modell ist über‑optimistisch, die Kalibrierung fehlt. Und das schlägt sich sofort in den Wettquoten nieder.

Wie Platt-Scaling funktioniert

Platt-Scaling ist die schnelle Spritze, die du deinem Modell gibst, um es wieder auf die Linie zu bringen. Im Kern ein logistisches Regressionsmodell, das die vorhergesagten Scores (logits) in eine neue Wahrscheinlichkeitsschiene drückt. Du nimmst die logits, fütterst sie in ein Sigmoid‑Fit, lässt die Parameter α und β über einen kleinen Validierungs‑Datensatz laufen, und plötzlich spiegelt die Ausgabe das wahre Auftreten wider. Keine Magie, nur Statistik, die dir das Spielfeld verkleinert, bis die Zahlen passen.

Mathematischer Kern

Formel: p̂ = 1 / (1 + exp(−α·z − β)), wobei z die Logit‑Ausgabe des ursprünglichen Modells ist. α streckt, β schiebt. Der Trick: Du trainierst α und β nicht auf das gesamte Dataset, sondern auf ein separates Hold‑out‑Set, damit das Scaling nicht über‑fitten kann. Das Ergebnis ist ein linearer Adjustierer, der in Sekunden zu implementieren ist und massive Verbesserungen bringt – besonders bei unbalancierten Klassen wie „Unentschieden“.

Praxis im Fußball‑Predictor

Stell dir vor, du hast ein XGBoost‑Modell, das für jedes Match ein Sieg‑Score liefert. Du nimmst die letzten 200 Spiele, rechnest die logits, lässt sie durch eine Logistik‑Regression laufen – fertig. Die neuen Wahrscheinlichkeiten alignen sich mit den historischen Treffern. Auf fussballvorhersagen-de.com haben wir das getestet, die Brier‑Score‑Verbesserung war sofort sichtbar. Der Unterschied: vorher war das Modell ein Draufgänger, jetzt ein Taktiker.

Typische Fallen

Zu wenig Validierungsdaten – das führt zu rauschigen α/β‑Werten. Zu große Lernrate beim Fit – das sprengt das Skalierungsfenster. Und das Allerneuer: manche Teams verändern ihr Spielstil drastisch, dann muss das Scaling regelmäßig neu getuned werden, sonst bleibt es ein Relikt aus der vergangenen Saison.

Der schnelle Fix

Hier ist der Deal: Nimm dein existierendes Modell, extrahiere die Logits, trainiere ein zweistufiges logistisches Regressionsnetz auf die letzten 100 Ergebnisse, wende α und β an, und prüfe sofort den Brier‑Score. Wenn er sinkt, hast du gewonnen. Wenn nicht, reduziere das Hold‑out‑Set, wiederhole. Das ist die einzige Praxis, die ich jedem empfehle, der seine Fußball‑Wahrscheinlichkeiten ernst nimmt. Und das war’s.