Эссе

ИИ уходит из облака: данные о сдвиге к вычислениям на устройстве (2024–2029)

14 июня 2026 г. · 5 мин чтения

Последние пятнадцать лет вычисления двигались в одну сторону — в облако. Сейчас вектор разворачивается: всё большая часть инференса ИИ выполняется не на удалённых серверах, а прямо на устройстве пользователя — ноутбуке, телефоне, в браузере. Этот материал — нейтральный разбор того, насколько сдвиг реален: что показывают прогнозы крупнейших аналитических агентств и какие технические и экономические причины за ним стоят. Все цифры снабжены ссылками на первоисточники.

Что значит «ИИ на устройстве»

Чтобы говорить предметно, разведём термины:

On-device (edge) inference — модель выполняется на самом устройстве; данные не отправляются на внешний сервер.
NPU (Neural Processing Unit) — специализированный блок в процессоре, ускоряющий ИИ-вычисления при низком энергопотреблении. Именно появление NPU в массовом железе сделало локальный ИИ практичным.
SLM (Small Language Model) — компактная языковая модель (единицы миллиардов параметров), способная работать на телефоне или ноутбуке без обращения к дата-центру.

«ИИ уходит из облака» — это не про отказ от облака вовсе, а про смещение центра тяжести: всё больше задач закрывается локально, а облако остаётся для тяжёлых случаев.

Данные уже сместились к краю сети

Самый общий индикатор — где вообще создаются и обрабатываются данные. Ещё в 2019 году вне традиционного централизованного дата-центра или облака обрабатывалось менее 10% корпоративных данных. По прогнозу Gartner, к 2025 году эта доля достигает 75%.

Доля корпоративных данных, создаваемых и обрабатываемых вне традиционного дата-центра, %

Источник: Gartner — What Edge Computing Means for Infrastructure and Operations Leaders. Сравнение 2019 года и прогноза на 2025.

Это инфраструктурный фон: данные физически перемещаются ближе к источнику — к человеку и его устройствам. ИИ-инференс следует за данными по той же логике, что и любая обработка: считать там, где данные рождаются, дешевле и быстрее, чем гонять их через сеть.

Железо: AI-PC и NPU становятся стандартом

Главный практический драйвер — массовое появление NPU в потребительском железе. Так называемые AI-PC (компьютеры с выделенным нейроускорителем) за два-три года превращаются из премиум-ниши в стандартную конфигурацию.

По данным IDC, AI-PC составляют около 40% мировых поставок ПК в 2025 году и приближаются к 60% к 2027-му. Counterpoint Research прогнозирует, что уже в 2026 году ноутбуки с NPU перешагнут отметку в половину глобальных поставок.

Доля AI-PC (с NPU) в мировых поставках персональных компьютеров, %

Источники: IDC — Worldwide PC Forecast, Counterpoint Research — AI PCs to surpass half of global shipments in 2026, Computerworld.

Поставки — это поток. Ещё нагляднее парк устройств: по оценке IDC, доля AI-PC среди используемых компьютеров вырастает с 5% в 2023 году до 94% к 2028-му. Через несколько лет «обычный» компьютер по умолчанию умеет выполнять ИИ локально.

Доля AI-PC в активном парке персональных компьютеров, %

Источник: IDC. Оценка установленной базы, 2023 и прогноз на 2028.

Процессоры и смартфоны: к локальному ИИ по умолчанию

На уровне кремния тенденция ещё жёстче. Gartner прогнозирует, что к 2029 году встроенный on-device ИИ будет присутствовать более чем в 99% микропроцессоров для ПК — против примерно 15% в 2024-м. То есть наличие нейроускорителя перестаёт быть опцией и становится частью базовой архитектуры процессора.

Доля микропроцессоров для ПК со встроенным on-device ИИ, %

Источник: Gartner — Top Predictions for IT Organizations and Users. 2024 и прогноз на 2029.

В смартфонах вектор тот же. Gartner ожидает, что уже к 2027 году компактные модели позволят запускать продвинутый генеративный ИИ прямо на телефоне без обращения к облаку. И это не только прогноз — крупнейшие платформы уже отгружают такие продукты:

Платформа	Что работает на устройстве
Apple Intelligence	Основная модель работает локально; в облако (Private Cloud Compute) уходит лишь часть тяжёлых задач
Microsoft Copilot+ PC	Класс ПК с обязательным NPU; ряд ИИ-функций считается локально
Google Gemini Nano	Модель выполняется полностью на устройстве и офлайн; Android — первая ОС со встроенной on-device-моделью

Когда три компании, формирующие платформы для миллиардов людей, одновременно переносят вычисления на устройство, это перестаёт быть нишевой идеей и становится направлением всей индустрии.

Почему этот сдвиг устойчив

За тенденцией стоят несколько независимых сил — и ни одна из них не выглядит временной:

Приватность как требование. Когда инференс идёт локально, данные не покидают устройство. Для медицины, финансов, юриспруденции и личных заметок это решает юридический и репутационный вопрос, а не просто добавляет удобства. Google прямо называет Gemini Nano самым приватным вариантом именно потому, что данные не уходят на серверы.
Экономика инференса. Оплата каждого запроса на чужих GPU плохо масштабируется. Устройство, которое пользователь уже купил, выполняет вычисления без предельной стоимости за запрос.
Латентность и офлайн. Локальная модель отвечает мгновенно и работает без сети — критично для ассистентов реального времени.
Готовность железа. NPU в каждом новом ноутбуке и телефоне снял главный технический барьер: ещё пять лет назад запускать модели локально было дорого и медленно.

Что это меняет

Сдвиг к on-device ИИ меняет не только то, где считают модели, но и архитектуру продуктов вокруг них. Если данные не обязаны уезжать в облако, то и единая централизованная база, где лежат данные всех пользователей, перестаёт быть неизбежной. А такая база — это всегда двойной риск: единая точка отказа и единая точка доступа (для атакующего, для утечки, для запроса извне). Чем больше вычислений уходит на устройство, тем меньше причин собирать чувствительные данные в одном месте.

Для пользователей и компаний это означает простую вещь: приватность всё чаще будет следствием архитектуры, а не обещания в политике конфиденциальности. И выигрывать будут продукты, которые спроектированы под мир, где ИИ живёт рядом с человеком, а не на чужом сервере.

Прозрачность: этот материал подготовлен командой maxOS — мы делаем инструменты для созвонов с обработкой на устройстве, поэтому тема нам близка. Данные в статье принадлежат независимым источникам, перечисленным выше; мы старались привести их без искажений. По теме: куда уходит ваш голос и почему мы платим за улучшение локальных моделей.