Chris EichlerAI-first Product
& Marketing

KI-Hardware-Guide

Das ist die unbequeme Wahrheit, die dir kein Hardware-Affiliate-Artikel sagt: Für lokale KI ist nicht die schnellste Komponente der Engpass, sondern die kleinste. Ein Modell, das nicht in den Speicher passt, läuft nicht schneller, weil deine GPU teuer war. Es läuft gar nicht — oder es lagert auf die SSD aus und kriecht.

Also bevor du irgendwas in den Warenkorb legst: erst verstehen, was du eigentlich vorhast.


Die zwei Fragen, die alles entscheiden

Eine „beste KI-Hardware" gibt es nicht. Nur Hardware, die zu dem passt, was du damit machst. Und das fällt in zwei Lager:

Machst du LLMs? Chat, Coding-Assistent, RAG über deine eigenen Dokumente. Dann zählen RAM bzw. Unified Memory und Speicherbandbreite. Hier ist Apple Silicon überraschend stark. Ein Mac mit viel Unified Memory schlägt bei reiner LLM-Inference PCs, die auf dem Papier brutaler aussehen.

Machst du Bild und Video? Stable Diffusion, ComfyUI, Text-zu-Video. Dann brauchst du GPU-VRAM, und zwar von Nvidia. CUDA ist hier de facto Standard, und daran führt aktuell kein Weg vorbei. Apple kann das auch, aber langsamer und mit mehr Geduld.

Wer beides will, kauft einen PC mit dicker Nvidia-Karte und nimmt die LLM-Performance mit. Oder akzeptiert, dass kein einzelnes Gerät in beiden Disziplinen Weltklasse ist. Das ist kein Verkaufsargument. Das ist Physik.

Eine Daumenregel, die dir mehr bringt als jeder Benchmark: Die Parametergröße in Milliarden sollte etwa 50–75 % deines verfügbaren Speichers belegen, damit es flüssig läuft. Ein 13B-Modell will also realistisch 16–24 GB sehen. Rechne das durch, bevor du bestellst.


Mac: der LLM- und Workflow-Champion

Einsteiger — Mac mini M4 / MacBook Air M4

  • RAM: 16 GB
  • SSD: 512 GB

Das ist der ehrliche Einstieg, nicht das Spielzeug.

Damit laufen 7–8B-Modelle wie Mistral 7B oder Llama-2 7B sauber über Ollama oder LM Studio — sogar als lokaler KI-Server im LAN. Heißt: Chat, Dokumente zusammenfassen und übersetzen, Notizen- und Mailanalyse, leichte RAG-Workloads mit ein paar Zehntausend Dokumenten. Bild-KI geht auch, aber in niedriger Auflösung und mit Geduld — das Metal-Backend ist solide, aber es ist keine CUDA-Power.

Der Air ist mobil, thermisch aber etwas limitierter. Wenn du Dauerlast fährst, ist der mini die ruhigere Wahl.

Sweet Spot — Mac Studio M4 Max

  • RAM: 32 GB
  • SSD: 1–2 TB

Hier kaufen die meisten richtig — und genau hier solltest du landen, wenn du ernsthaft lokal arbeiten willst.

12–20B-Modelle (Qwen 14B, Mixtral 8x7B quantisiert) laufen gut, 20–30B mit spürbarer Latenz, aber nutzbar. Das reicht für einen ernsthaften lokalen Coding-Assistenten. Für RAG über große private Wissensbasen mit mehreren Hunderttausend Tokens aktiv im Kontext. Und sogar für mehrere parallele Dienste auf einer Maschine: ein LLM-Server, lokales Embedding und TTS im selben Netzwerk.

Wenn du nur eine Empfehlung aus diesem ganzen Artikel mitnimmst: Für lokale LLM-Arbeit ist der 32-GB-Mac das beste Preis-Leistungs-Verhältnis am Markt.

Profi — Mac Studio M3 Ultra

  • RAM: 64–128 GB
  • SSD: 2–4 TB

Das KI-Studio. Ein Hinweis, bevor du Geld auf den Tisch legst: Wenn du nicht sofort musst, warte bis Oktober — dann kommt der M5. Bei einer Maschine in dieser Preisklasse lohnt sich das Quartal Geduld.

30–70B-Modelle werden hier sinnvoll, und einzelne 100B-Modelle sind laut Praxisberichten ab ca. 80 GB RAM machbar — stark quantisiert, aber machbar. Schwergewichtige RAG-Anwendungen mit großem Kontext und vielen parallelen Sessions, ein Code-Assistent fürs ganze Team im LAN inklusive Refactoring großer Repos, komplexe Agent-Setups mit mehreren parallel laufenden Modellen — Planer, Tool-User, Kritiker.

Die Grenze, ehrlich gesagt: Für die schnellsten Bild- und Video-Modelle bleibt eine starke Nvidia-GPU vorn. Macs glänzen bei LLM-Inference und Workflow-Automation. Wenn dein Tag aus Video-Rendering besteht, ist der teure Mac das falsche Werkzeug.


PC: der Weg, wenn Bild und Video zählen

Einsteiger — der ehrliche Erstkontakt

  • CPU: Ryzen 7 5700X oder vergleichbarer Intel i5/i7
  • GPU: RTX 3060 12 GB VRAM oder RTX 4060 8 GB
  • RAM: 32 GB
  • SSD: 1 TB NVMe

Ein Tipp, der dich vor Frust bewahrt: Nimm die 3060 mit 12 GB, nicht die neuere 4060 mit 8 GB. Bei KI schlägt mehr VRAM die neuere Architektur fast immer. Die 4060 ist auf dem Papier moderner. Im Speicher-limitierten KI-Alltag ist sie das schlechtere Geschäft.

Damit laufen 7–13B-Modelle (ggf. quantisiert) im VRAM oder kombiniert GPU+RAM, und Stable Diffusion in 512×512 ist sehr gut nutzbar — erste komplexere ComfyUI-Pipelines inklusive. Lokaler Chat- und Coding-Assistent plus solide Bildgenerierung für Marketing-Assets, Mockups, Blog-Grafiken. Und der Einstieg in kleine Feintunings und LoRAs für eigene Bildstile.

Fortgeschritten — Creator-Maschine

  • CPU: Intel i7-14700K oder aktueller Ryzen 7/9
  • GPU: RTX 4070 Ti oder 4080, 12–16 GB VRAM
  • RAM: 64 GB
  • SSD: 2 TB NVMe (besser 2× 2 TB, OS und Daten getrennt)

13–34B-Modelle laufen gut, dazu mehrere parallele Instanzen kleinerer Modelle. 1024×1024-Bildgenerierung flüssig, aufwendige ComfyUI-Graphs mit ControlNet, Inpainting und Upscaling, und erste lokale Text-zu-Video-Experimente — nicht in Echtzeit, aber machbar. Das ist die Maschine für echte Content-Produktion: Thumbnails, Produktbilder, einfache Clips. Und für In-House-Tools wie einen Bild-Asset-Generator fürs Marketing plus LLM-Assistent mit RAG.

Profi — Workstation / KI-Rig

  • CPU: Ryzen 9 9950X oder Threadripper, alternativ Intel i9 aktueller Generation
  • GPU: RTX 4090 24 GB VRAM oder RTX 5090 32 GB (für ernsthaftes Training: zwei Karten)
  • RAM: 128 GB
  • SSD: 4 TB NVMe (besser 2× 2 TB, OS und Daten getrennt)

Das ist die Maschine, bei der der PC den Mac überholt. 24–32 GB VRAM heben Bild und Video auf ein anderes Level: hochauflösende ComfyUI-Pipelines, Video-Generierung ohne ständiges Auslagern, und vor allem das, was Macs nicht gut können — eigene Modelle und LoRAs lokal trainieren statt nur abspielen. LLMs bis 70B laufen quantisiert über GPU+RAM.

Eine Sache ehrlich gesagt: Ab hier zahlst du für VRAM, nicht für Cleverness. Eine zweite 4090 bringt dir beim Training mehr als jedes CPU-Upgrade. Und wenn du nur LLMs willst und kein Bild/Video — dann ist der Mac Studio in dieser Preisklasse die ruhigere, stromsparendere Wahl. Das Rig lohnt sich, wenn Pixel und Frames dein Tagesgeschäft sind.


Sonderfall: NVIDIA DGX Spark

Der DGX Spark (früher „Project DIGITS") passt in keine der beiden Schubladen — er ist eine eigene Kategorie über dem Profi-Tier. Nvidias Antwort auf den Mac Studio: ein Desktop-Würfel, gebaut fürs lokale Ausführen großer Modelle.

  • Chip: GB10 Grace-Blackwell-Superchip
  • Memory: 128 GB Unified Memory
  • Modelle: LLMs bis ~200B Parameter, zwei gekoppelte Geräte noch mehr
  • OS: DGX OS (Linux/ARM), nicht Windows
  • Preis: ca. 3.000–4.000 €

Konzeptionell ist das ein Mac Studio mit Nvidia-Software-Stack: viel kohärenter Speicher, kleiner Form-Faktor, niedriger Stromverbrauch, dafür CUDA-Ökosystem statt Metal.

Jetzt der ehrliche Teil, den die Keynote weglässt: Der Spark fasst riesige Modelle, aber er ist nicht schnell. Die Speicherbandbreite liegt bei rund 273 GB/s — deutlich unter der GDDR-Bandbreite einer 4090 oder 5090. Heißt konkret: große LLMs passen rein, aber die Token-Generierung kriecht im Vergleich zu einer dicken GPU. Für Bild- und Video-Tempo schlägt ihn eine 5090 klar. Seine Superkraft ist Kapazität bei wenig Strom, nicht Speed.

Kauf-Logik: Der Spark lohnt sich, wenn du sehr große Modelle lokal laufen lassen willst und mit moderatem Tempo lebst — Prototyping, Inference, Entwicklung gegen ein 70–200B-Modell ohne Cloud. Willst du Bild/Video oder Training in Tempo, nimm das 4090/5090-Rig. Willst du dasselbe wie der Spark, aber im Apple-Ökosystem, ist der Mac Studio die Alternative.

Die größeren Geschwister — DGX Station (bis 784 GB) und die DGX-Server mit 8 GPUs für 300k+ € — sind Datacenter-Hardware. Anderes Budget, anderes Thema, nicht „lokal" im Sinn dieses Artikels.


Was du dir wirklich merken solltest

Lokale KI ist kein Hardware-Wettrüsten. Es ist eine Passungsfrage.

Kauf nicht das teuerste Gerät, sondern das, dessen Speicher zu den Modellen passt, die du tatsächlich laufen lassen willst. Mach LLMs auf Apple Silicon, Bild und Video auf Nvidia. Überkauf nicht für ein „vielleicht später" — die Modelle und Tools werden schneller effizienter, als deine Hardware altert.

Und das Wichtigste: Lokal heißt nicht automatisch besser. Es heißt privat, kontrollierbar und unabhängig von API-Kosten. Wann sich das lohnt und wann ein API-Call die ehrlichere Lösung ist — das ist die nächste Frage. Die beantworten wir an anderer Stelle.

Inspiration zu KI-first Product Management & Marketing, direkt in dein Postfach.

Kein Spam, jederzeit abbestellbar

Chris Eichler