Essays

AI verlässt die Cloud: Daten zur Verlagerung auf On-Device-Computing (2024–2029)

June 14, 2026 · 6 min Lesezeit

In den letzten fünfzehn Jahren bewegte sich das Computing nur in eine Richtung — in die Cloud. Jetzt dreht sich der Vektor um: Ein immer größerer Teil der AI-Inferenz wird nicht mehr auf entfernten Servern ausgeführt, sondern direkt auf dem Gerät des Nutzers — auf dem Laptop, dem Smartphone oder im Browser. Dieser Artikel bietet eine neutrale Analyse darüber, wie real dieser Wandel tatsächlich ist: Was prognostizieren die führenden Analysehäuser und welche technischen sowie wirtschaftlichen Gründe stecken dahinter? Alle Zahlen sind mit Links zu den Originalquellen versehen.

Was bedeutet „On-Device-AI“

Um konkret zu werden, grenzen wir zunächst die Begriffe ab:

On-device (edge) inference — Das Modell wird direkt auf dem Gerät ausgeführt; es werden keine Daten an einen externen Server gesendet.
NPU (Neural Processing Unit) — Ein spezialisierter Bereich im Prozessor, der AI-Berechnungen bei geringem Stromverbrauch beschleunigt. Erst die Integration von NPUs in Standard-Hardware hat lokale AI praxistauglich gemacht.
SLM (Small Language Model) — Ein kompaktes Sprachmodell (mit einigen Milliarden Parametern), das auf einem Smartphone oder Laptop ohne Verbindung zu einem Rechenzentrum betrieben werden kann.

„AI verlässt die Cloud“ bedeutet keineswegs den Verzicht auf die Cloud, sondern eine Verschiebung des Schwerpunkts: Immer mehr Aufgaben werden lokal gelöst, während die Cloud für rechenintensive Spezialfälle reserviert bleibt.

Daten verlagern sich bereits an den Rand des Netzwerks

Der allgemeinste Indikator ist der Ort, an dem Daten überhaupt entstehen und verarbeitet werden. Noch im Jahr 2019 wurden weniger als 10% der Unternehmensdaten außerhalb traditioneller zentralisierter Rechenzentren oder der Cloud verarbeitet. Laut einer Prognose von Gartner wird dieser Anteil bis 2025 auf 75% ansteigen.

Anteil der Unternehmensdaten, die außerhalb traditioneller Rechenzentren erstellt und verarbeitet werden, %

Quelle: Gartner — What Edge Computing Means for Infrastructure and Operations Leaders. Vergleich von 2019 und der Prognose für 2025.

Dies ist der infrastrukturelle Hintergrund: Daten bewegen sich physisch näher an ihre Quelle — an den Menschen und seine Geräte. Die AI-Inferenz folgt den Daten nach derselben Logik wie jede andere Verarbeitung: Es ist günstiger und schneller, dort zu rechnen, wo die Daten entstehen, anstatt sie durch das Netzwerk zu jagen.

Hardware: AI-PC und NPU werden zum Standard

Der wichtigste praktische Treiber ist die massenhafte Verbreitung von NPUs in Consumer-Hardware. Sogenannte AI-PCs (Computer mit einem dedizierten neuronalen Beschleuniger) entwickeln sich innerhalb von zwei bis drei Jahren von einer Premium-Nische zur Standardkonfiguration.

Laut IDC-Daten machen AI-PCs im Jahr 2025 rund 40% der weltweiten PC-Auslieferungen aus und nähern sich bis 2027 der Marke von 60%. Counterpoint Research prognostiziert, dass Laptops mit NPU bereits im Jahr 2026 die Schwelle von der Hälfte aller weltweiten Auslieferungen überschreiten werden.

Anteil von AI-PCs (mit NPU) an den weltweiten PC-Auslieferungen, %

Quellen: IDC — Worldwide PC Forecast, Counterpoint Research — AI PCs to surpass half of global shipments in 2026, Computerworld.

Auslieferungen sind nur der aktuelle Fluss. Noch anschaulicher ist der Gerätebestand: Nach Schätzungen von IDC steigt der Anteil von AI-PCs an den aktiv genutzten Computern von 5% im Jahr 2023 auf 94% bis 2028. In wenigen Jahren wird ein „normaler“ Computer standardmäßig in der Lage sein, AI lokal auszuführen.

Anteil von AI-PCs an der aktiven PC-Gerätebasis, %

Quelle: IDC. Schätzung der installierten Basis für 2023 und Prognose für 2028.

Prozessoren und Smartphones: Lokale AI als Standard

Auf Chiplebene ist der Trend noch deutlicher. Gartner prognostiziert, dass bis 2029 integrierte On-Device-AI in mehr als 99% aller PC-Mikroprozessoren vorhanden sein wird — im Vergleich zu rund 15% im Jahr 2024. Das Vorhandensein eines neuronalen Beschleunigers ist somit keine Option mehr, sondern wird Teil der grundlegenden Prozessorarchitektur.

Anteil der PC-Mikroprozessoren mit integrierter On-Device-AI, %

Quelle: Gartner — Top Predictions for IT Organizations and Users. 2024 und Prognose für 2029.

Bei Smartphones zeigt sich derselbe Vektor. Gartner erwartet, dass kompakte Modelle bereits bis 2027 die Ausführung fortschrittlicher generativer AI direkt auf dem Telefon ohne Cloud-Anbindung ermöglichen werden. Und das ist nicht nur eine Prognose — die größten Plattformen liefern solche Produkte bereits aus:

Plattform	Was läuft auf dem Gerät
Apple Intelligence	Das Hauptmodell läuft lokal; nur ein Teil der rechenintensiven Aufgaben wird in die Cloud (Private Cloud Compute) ausgelagert
Microsoft Copilot+ PC	Eine PC-Klasse mit zwingend erforderlicher NPU; eine Reihe von AI-Funktionen wird lokal berechnet
Google Gemini Nano	Das Modell wird vollständig auf dem Gerät und offline ausgeführt; Android ist das erste Betriebssystem mit einem integrierten On-Device-Modell

Wenn drei Unternehmen, die die Plattformen für Milliarden von Menschen gestalten, Berechnungen gleichzeitig auf das Gerät verlagern, ist dies keine Nischenidee mehr, sondern die Richtung der gesamten Branche.

Warum dieser Wandel nachhaltig ist

Hinter diesem Trend stehen mehrere unabhängige Kräfte — und keine davon wirkt wie eine vorübergehende Erscheinung:

Datenschutz als Anforderung. Wenn die Inferenz lokal erfolgt, verlassen die Daten das Gerät nicht. Für Medizin, Finanzen, Recht und persönliche Notizen löst dies rechtliche und reputationsbezogene Fragen, anstatt nur den Komfort zu erhöhen. Google bezeichnet Gemini Nano explizit als die privateste Option, eben weil keine Daten an Server gesendet werden.
Wirtschaftlichkeit der Inferenz. Die Bezahlung für jede einzelne Anfrage auf fremden GPUs lässt sich schlecht skalieren. Ein Gerät, das der Nutzer bereits gekauft hat, führt Berechnungen ohne Grenzkosten pro Anfrage aus.
Latenz und Offline-Betrieb. Ein lokales Modell antwortet sofort und funktioniert ohne Netzwerk — entscheidend für Echtzeit-Assistenten.
Hardware-Bereitschaft. Die NPU in jedem neuen Laptop und Smartphone hat die wichtigste technische Hürde beseitigt: Noch vor fünf Jahren war das lokale Ausführen von Modellen teuer und langsam.

Was sich dadurch ändert

Der Wandel hin zur On-Device-AI verändert nicht nur, wo Modelle berechnet werden, sondern auch die Architektur der Produkte um sie herum. Wenn Daten nicht zwingend in die Cloud übertragen werden müssen, verliert auch eine zentrale Datenbank, in der die Daten aller Nutzer liegen, ihre Unausweichlichkeit. Eine solche Datenbank stellt immer ein doppeltes Risiko dar: einen Single Point of Failure und einen zentralen Angriffspunkt (für Angreifer, Datenlecks oder externe Zugriffsanfragen). Je mehr Berechnungen auf das Gerät verlagert werden, desto weniger Gründe gibt es, sensible Daten an einem Ort zu sammeln.

Für Nutzer und Unternehmen bedeutet dies eine einfache Sache: Datenschutz wird immer häufiger das Ergebnis der Systemarchitektur sein und nicht nur ein Versprechen in den Datenschutzrichtlinien. Und gewinnen werden Produkte, die für eine Welt konzipiert sind, in der die AI direkt beim Menschen lebt und nicht auf einem fremden Server.

Transparenz: Dieser Beitrag wurde vom Team von maxOS erstellt — wir entwickeln Tools für Online-Meetings mit On-Device-Verarbeitung, weshalb uns dieses Thema besonders am Herzen liegt. Die Daten im Artikel stammen aus den oben genannten unabhängigen Quellen; wir haben uns bemüht, sie unverfälscht wiederzugeben. Zum Thema: Wohin Ihre Stimme geht und warum wir für die Verbesserung lokaler Modelle bezahlen.