Was kostet ein Abo bei OpenAI und Co. wirklich?

Changed: 2026-01-20 01:07:46, Words: 971, Reading time: 5 min

Wir machen jetzt eine Berechnung wie viel ein Abo-Mitglied eigentlich an Firmen wie OpenAI oder Anthropic (wo ich ein Abo habe) im Monat zahlen müsste damit diese Breake Even erreichen.

Annahmen

Wir machen folgende Annahmen:

  1. Es wird ein Modell mit \(500\) Mrd. Parametern benutzt bei \(16 \, \text{Bit}\) Genauigkeit (FP16, also \(2 \, \text{Bytes}\)).

  2. Es werden Grafikkarten H200 von Nvidia mit je \(140 \, \text{GB}\) VRAM benutzt (Stückpeis \(20\text{k}\) bis \(40\text{k} \, \text{Dollar}\)). Wir gehen von Stückpreis \(35\text{k} \, \text{Dollar}\) aus. Denn so ein System, das Nvidia GDX H200 mit \(8\) solchen Grafikkarten, kostet \(283\text{k} \, \text{Dollar}\).

  3. Ein Abo bei Anthropic für \(18 \, \text{Euro}\) pro Monat (plus \(19\% \, \text{MwSt.}\)\(21.42 \, \text{Euro}\)) ergibt für einen Nutzer maximal \(10\) Stunden Rechenzeit im Monat (siehe weiter unten) bzw. nur \(20 \, \text{min/d}\).

Rechnung

Dir berechnen erst Zwischenschritt für Zwischenschritt bevor wir dann zur Endrechnung kommen.

Zwischenschritt: VRAM für das Modell

Heutige LLM-Modelle bei Anbietern wie OpenAI sind so groß dass sie nicht in eine einzige Grafikkarte passen. Sie müssen auf den VRAM mehrerer Grafikkarten verteilt werden.

  • \(N\): Ist die Anzahl der Parameter des eingesetzten Modells. Das sind \(500 \times 10^9\) Parameter laut Annahme \((1)\).

  • \(B\): Ist die Genauigkeit jedes Parameters. Bei FP16, also \(16 \, \text{Bit}\) Genauigkeit, sind das \(2 \, \text{Bytes}\) laut Annahme \((1)\).

(1)\[\begin{align} VRAM_{Modell} &= N \times B\\ &= 500 \times 10^9 \times 2 \, \text{Bytes}\\ &= 1000 \, \text{GB} \end{align}\]

Ergebnis: Um das Modell auch nur in den VRAM der Grafikkarten zu bekommen, werden \(1000 \, \text{GB}\) an VRAM benötigt. Bei \(140 \, \text{GB}\) pro Grafikkarte, sind das \(8\) Grafikkarten die benötigt werden.

Zwischenschritt: VRAM für den KV-Cache

Das Ablegen eines Modells im VRAM von Grafikkarten reicht nicht aus um es zu betreiben. Je nach Beschaffenheit (Anzahl Neuronen-Schichten) und gewünschter Kontext-Länge wir weiterer VRAM benötigt.

  • \(L\): Anzahl Layer des Modells, d.h. Neuronen-Schichten. Wir gehen von \(120\) aus.

  • \(T\): Kontextlänge (Tokens) die das Modell verkraftet bis es abstürzt. Wir gehen von \(200\text{k}\) aus, denn das ist das Mindeste was Anbieter wie Anthropic bieten.

  • \(H\): Hidden Size. Wir gehen von \(20\text{k}\) aus.

  • \(B\): Ist die Genauigkeit jedes Parameters. Bei FP16, also \(16 \, \text{Bit}\) Genauigkeit, sind das \(2 \, \text{Bytes}\) laut Annahme \((1)\).

(2)\[\begin{align} VRAM_{KV-Cache} &= 2\times L\times T\times H\times B\\ &= 2\times 120\times 200\text{k}\times 20\text{k}\times 2 \, \text{Bytes}\\ &= 1920 \, \text{GB} \end{align}\]

Ergebnis: Für die Inferenz wird also zusätzlich zu den \(VRAM_{Modell} = 1000 \, \text{GB}\) nochmal etwa zwei mal so viel für KV-Cache benötigt. Aber dadurch werden drei mal so viele Grafikkarten benötigt als wie für das reine Modell. Da wir in der vorhergehenden Rechnung ermittelt haben, dass das Modell \(8\) Grafikkarten zum Ablegen im VRAM benötigt, sind wir mit Faktor \(3\) bei Einberechnung des benötigten KV-Caches schon bei \(24\) Grafikkarten die nötig sind für die Inferenz.

Zwischenschritt: Rechenzeit eines Abo-Mitglieds

  • Session-Limit: Mein Abo für \(18 \, \text{Euro}\) im Monat hat gewisse Limits. Es bietet die 5-fache Nutzung ggü. den Free-Accounts. Das sind etwa \(50\) Prompts ggü. den \(10\) der Free-Accounts. Der Limit-Counter dafür läuft alle \(4.5 \, \text{Stunden}\) ab sobald man einen Chat begonnen hat. Ich kann aus eigener Erfahrung damit bestätigen dass dieses Limit realistisch gewählt wurde. Manchmal laufe ich in dieses Limit rein innerhalb dieser Zeit und manchmal nicht. Aber bei solchen Chats habe ich Programmierarbeit nebenher. Ich muss das Zeug des Chatbots mit einem Diff-Tool in den Code verschmelzen. Daher sind die \(4.5 \, \text{Stunden}\) keine reine Rechenzeit die Anthropic da einem bietet. Ich schätze dass das etwa nur \(10 \, \text{Minuten}\) an Rechenzeit in den \(4.5 \, \text{Stunden}\) des Session-Limits sind.

  • Wochen-Limit: Bei Anthropic gibt es noch einen Weiteren Counter der alle sieben Tage zurück gesetzt wird sobald man den ersten Prompt abgesetzt hat. Das heißt dass einem pro Tag ca. \(14\%\) auf brauchen kann. Und nach meiner Erfahrung ist das nach zwei Sessions schon erreicht, so dass man also maximal \(2\times 4.5\text{h} = 9\text{h}\) pro Tag zur Verfügung hat. Und damit auch pro Tag \(20 \, \text{Minuten}\) Rechenzeit.

Ergebnis: In \(30 \, \text{Tagen}\) sind das dann \(600 \, \text{Minuten}\) (\(10 \, \text{Stunden}\)) und im Jahr \(7200 \, \text{Minuten}\) (\(120 \, \text{Stunden}\)) Rechenzeit die Anthropic einem Abo-Mitglied für \(18 \, \text{Euro}\) bietet.

Endrechnung

  • Hardware-Preis: Da insgesamt \(24\) Grafikkarten gebraucht werden und jede \(35\text{k} \, \text{Dollar}\) kostet, ergibt sich ein Preis von \(840\text{k} \, \text{Dollar}\). Mit \(60\text{k} \, \text{Dollar}\) für Serverkosten können wir den Gesamtpreis der Hardware auf \(900\text{k} \, \text{Dollar}\) schätzen.

  • Strom-Preis: Bei einem US-Strompreis von \(8 \, \text{US-Cent}\) pro \(1 \, \text{kWh}\) und angenommenen \(1000 \, \text{W}\) pro Grafikkarte (plus CPU, RAM etc.) kommen wir auf \(24 \, \text{kW}\) für die Hardware. Bei \(10 \, \text{h/Mon}\) Nutzung sind das \(19.2 \, \text{Dollar/Mon}\) für Stromkosten (pro Abo-Mitglied).

  • Nutzungszeitraum: Normalerweise geht man bei Computern von vier Jahren Nutzungszeit aus. Aber die LLM-KI-Firmen gehen von etwa sechs Jahren aus. Daher werden in der nachfolgenden Rechnung die Hardwarekosten optimistisch durch sechs geteilt (\(900\text{k} \, \text{Dollar} \div 6\)).

(3)\[\begin{align} Abopreis_{realistisch} &= Preis\ pro\ Minute\times Rechenzeit\ im\ Monat\\ &= \frac{Hardwarekosten\ pro\ Jahr}{Minuten\ im\ Jahr}\times 600 \, \text{min/Mon}\\ &= \frac{900\text{k} \, \text{Dollar} \div 6}{365.25\times 24\times 60\ min}\times 600 \, \text{min/Mon}\\ &= 0.29 \, \text{Dollar/min}\times 600 \, \text{min/Mon}\\ &= 171.12 \, \text{Dollar/Mon} \end{align}\]

Ergebnis: Ein realistischer Abopreis wären demnach \(190,32 \, \text{Dollar/Mon}\) (\(171.12 \, \text{Dollar/Mon}\) plus \(19.2 \, \text{Dollar/Mon}\) für Strom). Das ist etwa das 10-fache der \(18 \, \text{Dollar/Mon}\) die Anthropic verlangt wenn man vernachlässigt dass von den \(18 \, \text{Dollar}\) noch Steuern, Gehälter, Versicherung, Gebäudekosten, Ersatzteile etc. weggehen. Dann ist das 20-fache eher realistisch was Anthropic verlangen sollte: \(361,43 \, \text{Dollar/Mon}\) (\(171.12 \, \text{Dollar/Mon}\) mal \(2\) plus \(19.2 \, \text{Dollar/Mon}\) für Strom).

Fazit

Privat würde wohl kaum jemand (mir inklusive) einen Monatspreis von \(200\) bis \(400 \, \text{Dollar/Mon}\) bezahlen. Die Leute sind schon unzufrieden dass sie mehrere Streaming-Abos zahlen sollen. Und mehr als \(100 \, \text{Euro/Mon}\) werden die meisten wohl derzeit nicht für Streaming bezahlen. Laut Statistik von OpenAI nutzen nur \(4.2\%\)[1] der Leute Chatbots für Programmierung. Dabei gildet Programmierung als die Killer-Applikation für LLMs, da Programmiersprachen auch Sprachen sind. Der Bedarf dafür ist allerdings winzig. OpenAI selbst behauptet dass \(30\%\) der Leute ChatGPT “arbeitsbezogen” nutzen würden[2]. Aber das ist nur ein Blog-Eintrag und keine wissenschaftliche Untersuchung. Ich selbst würde den Preis von \(200\) bis \(400 \, \text{Dollar/Mon}\) zwar bezahlen, aber nur wenn ich das dann auch beruflich nutzen könnte. Ich nutze mein Abo bei Anthropic nur für Programmierung, jeden Tag. Ich bin aber nicht sicher ob das auf Dauer so bleiben wird. Denn mit lokalen LLMs wie OpenAIs Off-Line-Modell gpt-oss-120b lässt sich auch programmieren. Ich nutze Aider für meine Experimente mit Offline-Programmierung. Und habe schon selbst eine Chat-App (wxWidgets in C++) für llama.cpp und eine Programmier-Oberfläche (Flask in Python) für Aider und LM Studio geschrieben.

Nachtrag: Rechnung für GLM 4.5 auf Nvidia GDX H200

Das Modell GLM 4.7 hat \(355\) Mrd. Parameter, Context-Größe bis \(200\text{k}\). Des Weiteren: \(L=96\), \(H=5120\) und kann mit BF16 → \(2 \, \text{Bytes}\) betrieben werden.

(4)\[\begin{align} VRAM_{Modell} &= N \times B\\ &= 355 \times 10^9 \times 2 \, \text{Bytes}\\ &= 710 \, \text{GB} \end{align}\]
(5)\[\begin{align} VRAM_{KV-Cache} &= 2\times L\times T\times H\times B\\ &= 2\times 96\times 200\text{k}\times 5120\times 2 \, \text{Bytes}\\ &= 393.21 \, \text{GB} \end{align}\]

Zusammen sind das \(1103.21 \, \text{GB}\) für das VRAM. Und das passt in den VRAM eines Nvidia GDX H200 (\(8\times 140 \, \text{GB} = 1120 \, \text{GB}\)) für \(283\text{k} \, \text{Dollar}\).

Wie viele Benutzer können mit diesem Computer an einem Arbeitstag mit KI Pair Programming machen? Nehmen wir die \(20 \, \text{min}\) (siehe oben) reiner Rechenzeit die Anthropic seinen Abo-Nutzern für \(18 \, \text{Euro/Mon}\) bei \(2\times 4.5\text{h} = 9\text{h}\) pro Tag erlaubt. Dann ergibt sich:

(6)\[\begin{align} Nutzer &= \frac{Arbeitsminuten\ pro\ Tag}{Rechenminuten\ eines\ Nutz.\ pro\ Tag}\\ &= \frac{8\times 60\text{min/d}}{20\text{min/d}}\\ &= 24 \end{align}\]

Das Problem dabei ist, dass es nicht stimmt. Denn um \(24 \, \text{Benutzer}\) gleichzeitig bedienen zu lassen, müsste man den KV-Cache auch mit \(24\) multiplizieren. Das wären \(VRAM = 710 \, \text{GB} + 24\times 393.21 \, \text{GB} = 10147.04 \, \text{GB}\). Und das hat dieser Computer mit \(8\times 140 \, \text{GB} = 1120 \, \text{GB}\) nicht. Das heißt die Antwort lautet: Nur \(1 \, \text{Benutzer}\) kann mit diesem Computer den ganzen Tag arbeiten. Bei \(283\text{k} \, \text{Dollar}\) und \(6 \, \text{Jahre}\) Nutzungszeit sind das \(47\text{k} \, \text{Dollar/a}\) wie viel dieser Computer für einen Benutzer kostet, stolze \(3930.55 \, \text{Dollar/Mon}\). Und das Abo bei Anthropic kostet \(18 \, \text{Dollar/Mon}\) bei einem mächtigeren Modell als GLM 4.5. Fragt sich nur wie lange noch.