Эссе
ИИ уходит из облака: данные о сдвиге к вычислениям на устройстве (2024–2029)
14 июня 2026 г. · 5 мин чтения
Последние пятнадцать лет вычисления двигались в одну сторону — в облако. Сейчас вектор разворачивается: всё большая часть инференса ИИ выполняется не на удалённых серверах, а прямо на устройстве пользователя — ноутбуке, телефоне, в браузере. Этот материал — нейтральный разбор того, насколько сдвиг реален: что показывают прогнозы крупнейших аналитических агентств и какие технические и экономические причины за ним стоят. Все цифры снабжены ссылками на первоисточники.
Что значит «ИИ на устройстве»
Чтобы говорить предметно, разведём термины:
- On-device (edge) inference — модель выполняется на самом устройстве; данные не отправляются на внешний сервер.
- NPU (Neural Processing Unit) — специализированный блок в процессоре, ускоряющий ИИ-вычисления при низком энергопотреблении. Именно появление NPU в массовом железе сделало локальный ИИ практичным.
- SLM (Small Language Model) — компактная языковая модель (единицы миллиардов параметров), способная работать на телефоне или ноутбуке без обращения к дата-центру.
«ИИ уходит из облака» — это не про отказ от облака вовсе, а про смещение центра тяжести: всё больше задач закрывается локально, а облако остаётся для тяжёлых случаев.
Данные уже сместились к краю сети
Самый общий индикатор — где вообще создаются и обрабатываются данные. Ещё в 2019 году вне традиционного централизованного дата-центра или облака обрабатывалось менее 10% корпоративных данных. По прогнозу Gartner, к 2025 году эта доля достигает 75%.
Источник: Gartner — What Edge Computing Means for Infrastructure and Operations Leaders. Сравнение 2019 года и прогноза на 2025.
Это инфраструктурный фон: данные физически перемещаются ближе к источнику — к человеку и его устройствам. ИИ-инференс следует за данными по той же логике, что и любая обработка: считать там, где данные рождаются, дешевле и быстрее, чем гонять их через сеть.
Железо: AI-PC и NPU становятся стандартом
Главный практический драйвер — массовое появление NPU в потребительском железе. Так называемые AI-PC (компьютеры с выделенным нейроускорителем) за два-три года превращаются из премиум-ниши в стандартную конфигурацию.
По данным IDC, AI-PC составляют около 40% мировых поставок ПК в 2025 году и приближаются к 60% к 2027-му. Counterpoint Research прогнозирует, что уже в 2026 году ноутбуки с NPU перешагнут отметку в половину глобальных поставок.
Источники: IDC — Worldwide PC Forecast, Counterpoint Research — AI PCs to surpass half of global shipments in 2026, Computerworld.
Поставки — это поток. Ещё нагляднее парк устройств: по оценке IDC, доля AI-PC среди используемых компьютеров вырастает с 5% в 2023 году до 94% к 2028-му. Через несколько лет «обычный» компьютер по умолчанию умеет выполнять ИИ локально.
Источник: IDC. Оценка установленной базы, 2023 и прогноз на 2028.
Процессоры и смартфоны: к локальному ИИ по умолчанию
На уровне кремния тенденция ещё жёстче. Gartner прогнозирует, что к 2029 году встроенный on-device ИИ будет присутствовать более чем в 99% микропроцессоров для ПК — против примерно 15% в 2024-м. То есть наличие нейроускорителя перестаёт быть опцией и становится частью базовой архитектуры процессора.
Источник: Gartner — Top Predictions for IT Organizations and Users. 2024 и прогноз на 2029.
В смартфонах вектор тот же. Gartner ожидает, что уже к 2027 году компактные модели позволят запускать продвинутый генеративный ИИ прямо на телефоне без обращения к облаку. И это не только прогноз — крупнейшие платформы уже отгружают такие продукты:
| Платформа | Что работает на устройстве |
|---|---|
| Apple Intelligence | Основная модель работает локально; в облако (Private Cloud Compute) уходит лишь часть тяжёлых задач |
| Microsoft Copilot+ PC | Класс ПК с обязательным NPU; ряд ИИ-функций считается локально |
| Google Gemini Nano | Модель выполняется полностью на устройстве и офлайн; Android — первая ОС со встроенной on-device-моделью |
Когда три компании, формирующие платформы для миллиардов людей, одновременно переносят вычисления на устройство, это перестаёт быть нишевой идеей и становится направлением всей индустрии.
Почему этот сдвиг устойчив
За тенденцией стоят несколько независимых сил — и ни одна из них не выглядит временной:
- Приватность как требование. Когда инференс идёт локально, данные не покидают устройство. Для медицины, финансов, юриспруденции и личных заметок это решает юридический и репутационный вопрос, а не просто добавляет удобства. Google прямо называет Gemini Nano самым приватным вариантом именно потому, что данные не уходят на серверы.
- Экономика инференса. Оплата каждого запроса на чужих GPU плохо масштабируется. Устройство, которое пользователь уже купил, выполняет вычисления без предельной стоимости за запрос.
- Латентность и офлайн. Локальная модель отвечает мгновенно и работает без сети — критично для ассистентов реального времени.
- Готовность железа. NPU в каждом новом ноутбуке и телефоне снял главный технический барьер: ещё пять лет назад запускать модели локально было дорого и медленно.
Что это меняет
Сдвиг к on-device ИИ меняет не только то, где считают модели, но и архитектуру продуктов вокруг них. Если данные не обязаны уезжать в облако, то и единая централизованная база, где лежат данные всех пользователей, перестаёт быть неизбежной. А такая база — это всегда двойной риск: единая точка отказа и единая точка доступа (для атакующего, для утечки, для запроса извне). Чем больше вычислений уходит на устройство, тем меньше причин собирать чувствительные данные в одном месте.
Для пользователей и компаний это означает простую вещь: приватность всё чаще будет следствием архитектуры, а не обещания в политике конфиденциальности. И выигрывать будут продукты, которые спроектированы под мир, где ИИ живёт рядом с человеком, а не на чужом сервере.
Прозрачность: этот материал подготовлен командой maxOS — мы делаем инструменты для созвонов с обработкой на устройстве, поэтому тема нам близка. Данные в статье принадлежат независимым источникам, перечисленным выше; мы старались привести их без искажений. По теме: куда уходит ваш голос и почему мы платим за улучшение локальных моделей.