第 16 章 · 整个模型,端到端Local & edge inference

local & edge inference

深入阅读 · 第 16 章 完整模型——到底为什么要在自己的设备上跑一个小模型,以及你为此换走了什么。

本章刚刚把这个模型放在了 size ladder 的接近底部:852,985,920 个参数,远低于多数人说「large language model」时所指的那些 frontier 系统。这就引出一个合理的问题——既然一个托管 API 能伺候比它大 100× 的模型,为什么还要在自己的设备上跑一个小的?答案是:「小」和「在你自己的设备上」能换来数据中心给不了的东西,而这个选择是一笔两边都有赢面的实打实的 trade。

把这笔 trade 讲具体

在本地运行——也就是 在 edge 上,在用户手里已经拿着的那台设备上——在书里点名的四件事上取胜:latency(没有网络往返,省下几十到几百毫秒)、independence(无 server、无宕机,可离线)、privacy(数据永不离开设备)以及 cost(对开发者免费——是用户自己的硬件在干活)。它为这些付出的代价是能力与速度:edge 硬件只有 datacenter GPU 的一小部分,会因发热降频,hardware×software 的组合很碎片化,还会耗电。没有哪一侧赢下每一行——这正是 trade:

local & edge inference——把这笔 trade 讲具体
cloud datacenter
local / edge你在这里
latency
一次网络往返
on-device · 零往返
privacy
数据离开你的设备
数据永不离开设备
cost
按 token 计费的 API · 昂贵的 GPU
对开发者免费 · $0
model size / 能力
frontier · 100B+ 到万亿级
小模型 ≤~2B · quantized 100B+
可用性
只能联网用
可离线运行
hardware
datacenter H100
你的 VRAM / unified memory

没有哪一侧赢下每一行——这正是 trade。

edge 为何取胜(书里的四点)
  • zero network latency 省下几十甚至上百毫秒
  • independence 不依赖 internet、server,也不怕 downtime
  • privacy 终端用户的数据永不离开其设备
  • cost edge inference 对开发者免费
edge 要付出什么(书里的四点)
  • hardware 只有 datacenter GPU 速度与算力的一小部分
  • thermal constraints 手机、笔电在持续负载下会降频
  • fragmented support 无穷无尽的 hardware × software 组合
  • battery life 推理会耗尽笔电和手机的电池
它能跑在哪里?

逐档切换模型大小——能容纳它的最小一档会亮起。

0.8B3B8B70B400B🔒 你在这里
0.8Bphone

手机超过一两 billion 参数就吃力——这是 phone 的甜区。

🔒 你在这里: 0.8B bf16 · 这个浏览器 · WebGPU
capacity vs speed(书 p.90)
设备memorybandwidth约价格
NVIDIA RTX 509032 GB1,792 GB/s~$5,000内存更少、更快
Apple M3 Ultra512 GB unified819 GB/s~$10,000容量大得多、更慢

Apple 的 unified memory 以更慢的速度换来大得多的容量;5090 则用更少的内存换来更高的 bandwidth。

综合:答案是「两者皆是」

inference 的未来不是 local cloud,而是 两者协同:小模型与快查询跑在终端设备上,更吃 资源的工作负载交给 datacenter GPU。像 WebLLM 这样的浏览器库和其它跨平台标准 把这一切带向主流——本课程的 demo 正是如此。

你在这里——这个标签页就是 edge inference

这个浏览器标签页以 bf16batch 1WebGPU 上运行 Qwen3.5-0.8B。它为你换来 privacy(你的文字永不离开标签 页)、zero network latency$0 成本——代价是能力(一个 0.8B 模型,而非 frontier 模型)与速度(你的 GPU,而非 H100)。这就是这笔 trade,讲 得很具体。

cloud datacenter 与 local/edge inference 在六个维度(latency、privacy、cost、model size、可用性、hardware)上的对比,外加一个从 0.8B 到 400B 的逐档 model size 控件——它会点亮能容纳每个大小的最小一档:phone、你的笔电(bf16)、你的笔电(quantized)或只能上 cloud——以及一个锁定的「你在这里:0.8B bf16,在这个浏览器里通过 WebGPU 运行」标记,固定在最小一端。

哪个大小能跑在哪里

模型大小决定了下限。手机超过一两 billion 参数就吃力——而这正是这个模型舒舒服服待着的地方。一台笔电能以 bf16 跑一个 8B;要把 100B+ 的模型搬上高端桌面,就得用之前某个子章节的那根杠杆——quantization 正是把大模型塞进小内存的桥梁(通过 Ollama / llama.cpp),而 Mixture-of-Experts 也有帮助:每个 token 只激活其中一小片参数。再往上,一个几千亿到万亿参数的 frontier 模型就只能住在 cloud 上了;低端笔电和 Chromebook 根本跑不动任何有意义的本地模型。

而硬件本身也编码着一笔 trade。一块游戏 GPU 和一台工作站可以价位相近,却为相反的目标优化——capacity 对 speed——这就是上面 widget 里的第二张表:一块 32 GB、bandwidth 巨大的卡,对上一台 512 GB unified-memory 的机器——后者能装下大得多的模型,却把它们搬得更慢。

你在这里。这个浏览器标签页就是 edge inference:Qwen3.5-0.8B、bf16、batch 1,跑在 WebGPU 上——没有 server,没有 API key,不上传任何东西。它为你换来 privacy、zero network latency 和 $0 成本,代价是能力(一个 0.8B 模型,而非 frontier)与速度(你的 GPU,而非 H100)。inference 的未来不是 local cloud,而是 两者皆是——小模型与快查询跑在设备上,更重的工作负载交给数据中心——而这整门课,正是那个小模型、在设备上的那一半,活生生地跑在你眼前。