Wenn über Künstliche Intelligenz gesprochen wird, dann dominieren in der öffentlichen Debatte meist zwei Ebenen. Auf der einen Seite die algorithmische und gesellschaftliche Ebene, also Fragen der Modelle, der Trainingsdaten und der Auswirkungen auf Arbeit, Politik und Kultur. Auf der anderen Seite die Marketingebene, die mit dem Begriff „KI“ alles und nichts zugleich bezeichnet. Was fast immer fehlt, ist die physikalische Perspektive: Was passiert eigentlich auf der Ebene von Rechenoperationen, Energie und Thermodynamik, wenn grosse, mehrstufige Analysen angestossen werden? Es geht im Kern um drei Ebenen.
- Was macht ein grosses Sprachmodell auf algorithmischer Ebene, wenn es Texte verarbeitet.
- Welche Grössenordnung an Rechenaufwand wird bei einer einzelnen, aufwendig orchestrierten Aufgabe bewegt.
- Wie verhält sich dieser reale Aufwand zu den fundamentalen physikalischen Grenzen, die uns die Thermodynamik der Informationsverarbeitung vorgibt.
KI ist in dieser Sichtweise keine Magie, sondern sehr viel lineare Algebra auf sehr viel Silizium, eingebettet in die Rahmenbedingungen der Physik.
Ein grosses Sprachmodell, lässt sich physikalisch betrachtet erstaunlich schlicht beschreiben. Es ist eine gewaltige Folge von Matrizenmultiplikationen mit nichtlinearen Aktivierungen, realisiert auf spezialisierter Hardware, die Gleitkommaoperationen in grosser Parallelität ausführt.
Auf der logischen Ebene arbeitet ein LLM mit Symbolen, also Tokens, die Wörter, Wortteile oder Zeichenketten repräsentieren. Jedes Token wird in einen hochdimensionalen Vektor eingebettet. Diese Vektoren werden über viele Schichten hinweg transformiert. In jeder Schicht werden lineare Transformationen und Attention-Mechanismen angewendet, anschliessend folgen nichtlineare Funktionen. Das Ergebnis nach vielen solchen Schritten ist eine Wahrscheinlichkeitsverteilung über das nächste Token.
Physikalisch relevant ist dabei nicht die Abstraktion als „Verstehen“, sondern die Anzahl und Art der elementaren Operationen. Jede Matrixmultiplikation entspricht Millionen bis Milliarden von Gleitkommaoperationen. Jedes Token, das in Kontext gesehen oder erzeugt wird, verursacht eine gewisse Anzahl FLOPs, also Floating Point Operations. Für grosse Modelle im zwei- bis dreistelligen Milliardenparameterbereich liegen veröffentlichte Grössenordnungen in der Gegend von ungefähr 1012 bis 1013 FLOPs pro 1’000 Tokens, abhängig von Architektur und Optimierungen.
Wenn ich also wissen möchte, wie „teuer“ eine Session in physikalischer Hinsicht ist, muss ich zunächst abschätzen, wie viele Tokens durch das Modell laufen, und diesen Tokenhaushalt anschliessend in FLOPs und dann in eine Energiemenge übersetzen.
Ein Beispiel einer typischen komplexen Anfrage. Eine Laufzeit im Bereich von deutlich über einer halben Stunde, mehrere Dutzend externe Quellen, etwas über hundert eigenständige Suchläufe und am Ende ein ausführlicher, strukturiert aufgebauter Ergebnisbericht. Wichtiger als die exakte Zahl ist die Natur dieses Prozesses. Es handelt sich nicht um einen einmaligen Prompt, auf den das Modell einmalig antwortet. Es ist eine Orchestrierung aus vielen Teilschritten.
Im Hintergrund laufen in so einer Session mehrere Schichten von Logik.
Notwendig ist eine Steuerlogik, die entscheidet, welche Suchbegriffe sinnvoll sind, welche Treffer weiterverfolgt werden, wo inhaltliche Lücken bestehen und an welcher Stelle nachjustiert werden muss. Diese Logik wird ebenfalls durch Modellaufrufe realisiert, die jedoch keine direkt sichtbaren Antworten erzeugen, sondern interne Entscheidungen.
Daneben laufen Such- und Rankingprozesse. Eine Suchanfrage wird als kurzer Text eingebettet, mit einem grossen Korpus von Dokumentrepräsentationen verglichen und gerankt. Die vielversprechenden Kandidaten werden abgerufen, bereinigt und in Textabschnitte zerlegt. Diese Abschnitte werden erneut eingebettet und nach Relevanz sortiert, bevor gezielt diejenigen Passagen an das eigentliche Sprachmodell übergeben werden, die für die Analyse relevant sind.
Das eigentliche Lesen und Verstehen im funktionalen Sinn besteht dann aus mehreren Durchgängen, in denen das Modell die ausgewählten Passagen verarbeitet, Kernaussagen extrahiert, Widersprüche und Konsistenzen zwischen den Quellen erkennt und interne Notizen aufbaut. Am Abschluss steht die Synthese, in der das Modell den Ergebnisbericht in der vom Nutzer gewünschten Sprache und Struktur formuliert.
All diese Schritte verursachen Rechenaufwand. Die Steuerlogik, die Textsuche mit Embeddings, das Ranking und die eigentliche Textverarbeitung sind jeweils rechenintensiv, wenn auch mit unterscheidlicher Intensität. Der Löwenanteil an FLOPs entfällt auf das grosse Sprachmodell, aber die Such- und Rankingmodelle im Hintergrund tragen einen nichttrivialen Anteil bei.
Um eine etwas belastbare Grössenordnung zu erhalten, beginne ich mit einer konservativen Abschätzung des Tokenvolumens.
Für die Steuerlogik einer längeren Session mit mehreren Dutzend internen Schritten nehme ich als Untergrenze an, dass pro Schritt vielleicht 500 bis 1’500 Tokens verarbeitet werden, inklusive Prompt, Zwischennotizen und Antwort des Modells. Bei etwa 100 bis 200 solchen Schritten ergibt sich ein Bereich von grob 100’000 bis 300’000 Tokens allein für Planung, Kontrolle und Metastruktur.
Hinzu kommt das Lesen der Quellen. Wenn ich rund 100 Seiten relevanter Inhalte betrachte, ist klar, dass nicht jeder Satz vollständig durch das Modell läuft. In der Praxis werden aber pro Seite mehrere längere Ausschnitte extrahiert. Mit etwa 1’000 bis 2’000 Tokens pro Seite, multipliziert mit einem Sicherheitsfaktor für Zweit- und Drittpass, lande ich wiederum im Bereich von etwa 100’000 bis 200’000 Tokens.
Der eigentliche Ergebnisbericht, den ich später auf dem Bildschirm sehe, bewegt sich in der Grössenordnung von einigen Tausend bis vielleicht fünfzehn Tausend Tokens, inklusive interner Überarbeitungen. Im Vergleich zu den vorgelagerten Schritten ist das energetisch nicht dominant.
In der Summe ergibt sich somit ein Tokenbudget, das konservativ in der Bandbreite von ungefähr 200’000 bis 500’000 Tokens liegt, die im Verlauf einer solchen Tiefenrecherche durch ein grosses Sprachmodell laufen.
Wenn ich diese Zahl nun mit der typischen Grössenordnung von 1012 bis 1013 FLOPs pro 1’000 Tokens kombiniere, erhalte ich eine FLOP Abschätzung.
Ich dividiere die Tokenzahl durch 1’000, weil sich die FLOPs auf 1’000 Tokens beziehen. Für 200’000 Tokens ergibt sich ein Faktor 200, für 500’000 Tokens ein Faktor 500. Multipliziere ich diese Faktoren nun mit der FLOP Bandbreite, erhalte ich:
Unterer Rand: 200 multipliziert mit 1012 FLOPs führt zu 2 x 1014 FLOPs.
Oberer Rand: 500 multipliziert mit 1013 FLOPs führt zu 5 x 1015 FLOPs.
Damit lande ich für eine einzelne, umfangreiche Session in einer Grössenordnung von etwa 1014 bis einige 1015 Gleitkommaoperationen, allein für das grosse Sprachmodell. Die Such- und Rankingmodelle im Hintergrund fügen noch einmal etwa 1013 bis 1014 FLOPs hinzu, verschieben die Grössenordnung aber nicht um einen vollen Faktor zehn.
Für die physikalische Intuition ist interessant, dass wir uns damit im Bereich von hundert Billionen bis wenigen Billiarden elementaren Gleitkommaoperationen bewegen, und zwar für eine einzige, zwar aufwendige, aber zeitlich klar begrenzte Session.
Rechenoperationen sind an sich nur eine abstrakte Einheit. Physikalisch relevant wird es, wenn ich sie in eine Energiemenge übersetze. Hier gibt es zwei Perspektiven. Die erste ist das fundamentale thermodynamische Minimum, das aus dem Landauer Prinzip folgt. Die zweite ist der real erreichbare Energieaufwand auf heutiger Hardware.
Das Landauer Prinzip besagt, dass jede irreversibel löschende Operation an einem Bit einen minimalen Energieeinsatz von
\({\Large
W = k_b T \ln 2
}
\)
erfordert. Bei Raumtemperatur, also etwa 300 Kelvin, liegt dieser Wert bei ungefähr 2.87 x 10-21 Joule pro Bit. Das ist eine sehr kleine Zahl, aber eben nicht Null.
Um die FLOPs mit dieser Grenze abzugleichen, muss ich eine Annahme treffen, wie viele elementare Bit Operationen einer Gleitkommaoperation entsprechen. Je nach Architektur und Datentyp ist das variabel. Für eine grobe Abschätzung kann ich annehmen, dass eine FLOP effektiv etwa zehn elementare Bit Operationen mit sich bringt. Das ist nicht präzise, aber ausreichend, um die Grössenordnung zu fassen.
Wenn ich nun die 1014 bis 1015 FLOPs mit jeweils zehn Bit Operationen belege, lande ich bei etwa 1015 bis 1016 elementaren Bit Operationen. Multipliziere ich diese mit dem Landauer Minimum von 2.87 mal 10-21 Joule pro Bit, erhalte ich:
Unterer Rand: 1015 Bit Operationen führen zu etwa 2.9 x 10-6 Joule.
Oberer Rand: 1016 Bit Operationen führen zu etwa 2.9 x 10-5 Joule.
Das Landauer Prinzip sagt mir also, dass die fundamentale untere Grenze für die Energie, die physikalisch notwendig ist, um diese Menge an Bit Operationen irreversibel auszuführen, zwischen einigen Mikrojoule und einigen Dutzend Mikrojoule liegt.
Die reale Hardware liegt weit darüber. Ein moderner Beschleunigerchip mit hoher Rechenleistung liefert Grössenordnungen von einigen 10 bis 100 TeraFLOPs pro Sekunde bei Leistungsaufnahmen im Bereich von 600 bis 1’000 Watt. Das bedeutet, dass pro FLOP ein Energieeinsatz in der Bandbreite von etwa 10-11 bis 10-12 Joule anfällt.
Wenn ich diese Skala auf meine 1014 bis 1015 FLOPs anwende, komme ich zu:
Unterer Rand: 1014 FLOPs x 10-12 Joule pro FLOP ergeben etwa 100 Joule.
Oberer Rand: 1015 FLOPs x 10-11 Joule pro FLOP ergeben etwa 10’000 Joule.
Damit liegt die reale Energiekosten einer solchen Session im Bereich von einigen Hundert bis ca. Zehntausend Joule elektrische Energie, je nach Auslastung, Effizienz und Parallelisierung. Im Vergleich zum Landauer Minimum ist das ein Faktor von etwa 107 bis 108. Diese Lücke spiegelt wider, wie weit reale digitale Hardware im Jahr 2025 noch von den fundamentalen thermodynamischen Grenzen entfernt ist. Zugleich ist es angesichts der vielen praktischen Verluste, der Taktfrequenzen, der Signalwege und der nötigen Fehlertoleranz nicht überraschend.
Für die Intuition hilft ein thermischer Vergleich. Etwa 4’000 Joule reichen aus, um einen Liter Wasser um knapp ein Grad Celsius zu erwärmen. Natürlich kommt dazu noch der Overhead der Kühlung, der Netzteileffizienz, der Infrastruktur und die Tatsache, dass der Rechencluster parallel viele Nutzer bedient. Dennoch zeigt die Betrachtung, dass die physikalischen Kosten einer einzelnen, grossen KI Aufgabe zwar deutlich über dem Landauer Minimum, aber im absoluten Massstab erstaunlich kompakt sind.
Aus physikalischer Sicht ist noch ein weiterer Aspekt interessant. Die KI, die am Ende einen konsistenten, durchargumentierten Bericht liefert, ist kein monolithischer Block, der einmal in Gang gesetzt wird und dann deterministisch durchläuft. Es handelt sich um eine Orchestrierung aus mehreren Modulen, die jeweils eigene Rechenpfade darstellen.
Die Steuerlogik besteht aus vielen relativ kurzen Modellaufrufen, in denen Entscheidungen getroffen werden, welche Suchrichtungen weiterverfolgt werden, welche Quellen untauglich sind und an welcher Stelle Umformulierungen oder Perspektivenwechsel nötig sind. Diese Aufrufe verursachen vergleichsweise wenig FLOPs pro Aufruf, summieren sich aber im Verlauf einer halben Stunde und mehr zu einer beträchtlichen Gesamtzahl an relevanten Tokens.
Die Such- und Rankingebene arbeitet mit eigenen, meist kleineren Modellen, die Textanfragen und Dokumente in Embeddingräume abbilden. Dort werden Ähnlichkeiten über Distanzmassen in hohen Dimensionen berechnet. Aus Sicht der Physik entstehen hier grosse Mengen an Vektoroperationen, deren energetischer Fussabdruck zwar kleiner ist als jener der grossen Sprachmodelle, aber wegen der Häufigkeit der Aufrufe nicht vernachlässigt werden darf.
Das grosse Sprachmodell selbst bearbeitet jeweils nur Ausschnitte, die vom Ranking vorgängig als relevant eingeschätzt wurden. Damit wird verhindert, dass blind komplette Webseiten, PDFs oder gar ganze Bücher Seite um Seite durch das Modell geschoben werden. Aus technischer Sicht ist dies ein Optimierungsschritt, aus physikalischer Sicht jedoch auch eine Reduktion der Rechenarbeit, die ansonsten geleistet werden müsste.
Diese modulare Architektur hat eine unmittelbare physikalische Konsequenz. Physikalische Kosten lassen sich nicht nur durch effizientere Hardware reduzieren, sondern auch durch kluge Orchestrierung, die irrelevante Berechnungen vermeidet. In einer sauberen Architektur werden die energetisch teuren Operationen, also die langen Durchläufe durch ein grosses Modell, gezielt eingesetzt, während einfachere Subaufgaben an günstigere Modelle oder klassische Suchalgorithmen delegiert werden.
Die bisherige Betrachtung fokussiert auf eine einzelne, wenn auch rechenintensive, Session. In der Praxis stellt sich natürlich die Frage, wie sich diese Zahlen bei grossem Nutzungsvolumen und im Training verhalten.
Beim Training grosser Modelle reden wir nicht mehr über 1014 bis 1015 FLOPs, sondern über 1023 bis 1025 FLOPs, je nach Modellgrösse und Anzahl Tokens im Trainingskorpus. Solche Trainingsläufe entsprechen dann dem Energieverbrauch kleinerer Kraftwerke über Wochen hinweg. Die Diskrepanz zwischen inferenzbezogenen und trainingsbezogenen Energiekosten ist erheblich. Für den Einzelnen ist jedoch primär relevant, was im Alltag bei der Nutzung anfällt.
Wenn ich mir bewusst mache, dass eine aufwendig orchestrierte Analyse im Bereich von einigen hundert bis einigen tausend Joule liegt, dann ordnet sich das in eine nachvollziehbare Grössenordnung ein. Ein kurz aufgekochter Wasserkocher liegt im Bereich von hunderttausenden Joule, ein Auto auf wenigen Kilometern Fahrt im Bereich von Megajoule bis Gigajoule.
Gleichzeitig muss man im Hinterkopf behalten, dass tausende bis Millionen von Nutzern parallel solche Anfragen stellen. Auf Systemebene summiert sich das zu relevanten Energiemengen, die in Rechenzentren, Kühlanlagen und Netzinfrastruktur umgesetzt werden. Die Physik verschwindet nicht, nur weil sie hinter einer bequemen Schnittstelle abstrahiert wird.
Die Diskussion über Nachhaltigkeit von KI dreht sich daher letztlich um Effizienzgewinne in drei Bereichen. Erstens in der Hardware, also der Verringerung der Energie pro FLOP durch bessere Fertigungstechnologien und spezialisierte Architekturen. Zweitens in der Algorithmik, also der Reduktion von FLOPs pro Token und von redundanter Berechnung. Drittens in der Orchestrierung, also der Vermeidung unnötiger Berechnungen, indem irrelevante Pfade früh abgeschnitten werden. Die fundamentale physikalische Untergrenze markiert dabei einen Fixpunkt, an dem man sich orientieren kann, den man aber in absehbarer Zeit nicht erreichen wird.
Mir ist wichtig zu betonen, dass diese physikalische Perspektive nichts darüber aussagt, ob ein System „wirklich versteht“ oder „bewusst“ ist. Sie sagt nur etwas darüber aus, welche materiellen Ressourcen eingesetzt werden, um bestimmte funktionale Leistungen zu erbringen.
Wenn ich sehe, dass bereits eine einzelne, gut orchestrierte Recherche Hunderttrillionen bis Billiarden Gleitkommaoperationen benötigt, relativiert sich die populäre Redeweise, KI sei lediglich „etwas Statistik“. Formal stimmt das zwar, es ist im Kern Wahrscheinlichkeitsrechnung und lineare Algebra. Aber die pure quantitative Dimension dieser Statistik ist beeindruckend. Es ist Statistik in einem Massstab, den kein biologisches neuronales System eins zu eins abbildet, sondern der seine eigene, technische Form von Informationsverarbeitung darstellt.
Die Physik erinnert mich zudem daran, dass jede Informationsverarbeitung untrennbar an Energieverbrauch, Entropieerzeugung und thermodynamische Irreversibilität gebunden ist. Auch wenn wir Modelle in abstrakten Informationsräumen beschreiben, bleibt die Realisierung auf Transistoren, Bitleitungen und Spannungsniveaus beschränkt. Es gibt keine kostenlose Information.
Wenn ich den Bogen noch einmal schliesse, dann lässt sich die Physik der KI auf eine knappe Essenz bringen. Ein grosses Sprachmodell ist eine hochgradig parallelisierte Maschine für lineare Algebra, deren Betrieb sich durch drei Grössen charakterisieren lässt: Zahl der Tokens, Anzahl der FLOPs und Energie pro FLOP. Auf dieser Basis kann ich für konkrete Szenarien, etwa eine längere Tiefenrecherche, in nachvollziehbarer Weise abschätzen, in welchem Bereich der physikalische Aufwand liegt.
Die Abschätzung führt zu dem Bild, dass eine solche Session Hunderttrillionen bis einige Billiarden FLOPs umfasst und dafür effektiv einige Dutzend bis einige Tausend Joule elektrische Energie benötigt. Das Landauer Prinzip zeigt, dass die fundamentale thermodynamische Untergrenze viele Grössenordnungen darunter liegt. Reale Hardware arbeitet also weit entfernt von der absoluten Effizienzgrenze, was angesichts der praktischen Anforderungen an Geschwindigkeit, Zuverlässigkeit und Fehlertoleranz kaum anders zu erwarten ist.
Für mich persönlich ist die physikalische Perspektive auf KI eine Art Gegenmittel gegen mystifizierende oder alarmistische Diskurse. Sie zeigt, dass wir es mit sehr grossen, aber im Kern verständlichen Rechenprozessen zu tun haben, die sich in bekannten physikalischen Kategorien ausdrücken lassen. Intelligenz im technischen Sinn, so wie sie in diesen Systemen implementiert ist, ist immer auch eine Frage von Rechenaufwand, Energie und thermodynamischen Grenzen.
