local & edge inference

深入阅读 · 第 16 章完整模型——到底为什么要在自己的设备上跑一个小模型，以及你为此换走了什么。

本章刚刚把这个模型放在了 size ladder 的接近底部：852,985,920 个参数，远低于多数人说「large language model」时所指的那些 frontier 系统。这就引出一个合理的问题——既然一个托管 API 能伺候比它大 100× 的模型，为什么还要在自己的设备上跑一个小的？答案是：「小」和「在你自己的设备上」能换来数据中心给不了的东西，而这个选择是一笔两边都有赢面的实打实的 trade。

把这笔 trade 讲具体

在本地运行——也就是 在 edge 上，在用户手里已经拿着的那台设备上——在书里点名的四件事上取胜：latency（没有网络往返，省下几十到几百毫秒）、independence（无 server、无宕机，可离线）、privacy（数据永不离开设备）以及 cost（对开发者免费——是用户自己的硬件在干活）。它为这些付出的代价是能力与速度：edge 硬件只有 datacenter GPU 的一小部分，会因发热降频，hardware×software 的组合很碎片化，还会耗电。没有哪一侧赢下每一行——这正是 trade：

local & edge inference——把这笔 trade 讲具体

cloud datacenter

local / edge你在这里

latency

一次网络往返

on-device · 零往返✓ 胜

privacy

数据离开你的设备

数据永不离开设备✓ 胜

cost

按 token 计费的 API · 昂贵的 GPU

对开发者免费 · $0✓ 胜

model size / 能力

frontier · 100B+ 到万亿级✓ 胜

小模型 ≤~2B · quantized 100B+

可用性

只能联网用

可离线运行✓ 胜

hardware

datacenter H100✓ 胜

你的 VRAM / unified memory

没有哪一侧赢下每一行——这正是 trade。

edge 为何取胜（书里的四点）

zero network latency — 省下几十甚至上百毫秒
independence — 不依赖 internet、server，也不怕 downtime
privacy — 终端用户的数据永不离开其设备
cost — edge inference 对开发者免费

edge 要付出什么（书里的四点）

hardware — 只有 datacenter GPU 速度与算力的一小部分
thermal constraints — 手机、笔电在持续负载下会降频
fragmented support — 无穷无尽的 hardware × software 组合
battery life — 推理会耗尽笔电和手机的电池

它能跑在哪里？

model size:

逐档切换模型大小——能容纳它的最小一档会亮起。

0.8B → phone

手机超过一两 billion 参数就吃力——这是 phone 的甜区。

🔒 你在这里: 0.8B bf16 · 这个浏览器 · WebGPU

capacity vs speed（书 p.90）

设备	memory	bandwidth	约价格
NVIDIA RTX 5090	32 GB	1,792 GB/s	~$5,000	内存更少、更快
Apple M3 Ultra	512 GB unified	819 GB/s	~$10,000	容量大得多、更慢

Apple 的 unified memory 以更慢的速度换来大得多的容量；5090 则用更少的内存换来更高的 bandwidth。

综合：答案是「两者皆是」

inference 的未来不是 local 或 cloud，而是 两者协同：小模型与快查询跑在终端设备上，更吃资源的工作负载交给 datacenter GPU。像 WebLLM 这样的浏览器库和其它跨平台标准把这一切带向主流——本课程的 demo 正是如此。

你在这里——这个标签页就是 edge inference

这个浏览器标签页以 bf16、batch 1 在 WebGPU 上运行 Qwen3.5-0.8B。它为你换来 privacy（你的文字永不离开标签页）、zero network latency 和 $0 成本——代价是能力（一个 0.8B 模型，而非 frontier 模型）与速度（你的 GPU，而非 H100）。这就是这笔 trade，讲得很具体。

哪个大小能跑在哪里

模型大小决定了下限。手机超过一两 billion 参数就吃力——而这正是这个模型舒舒服服待着的地方。一台笔电能以 bf16 跑一个 8B；要把 100B+ 的模型搬上高端桌面，就得用之前某个子章节的那根杠杆——quantization 正是把大模型塞进小内存的桥梁（通过 Ollama / llama.cpp），而 Mixture-of-Experts 也有帮助：每个 token 只激活其中一小片参数。再往上，一个几千亿到万亿参数的 frontier 模型就只能住在 cloud 上了；低端笔电和 Chromebook 根本跑不动任何有意义的本地模型。

而硬件本身也编码着一笔 trade。一块游戏 GPU 和一台工作站可以价位相近，却为相反的目标优化——capacity 对 speed——这就是上面 widget 里的第二张表：一块 32 GB、bandwidth 巨大的卡，对上一台 512 GB unified-memory 的机器——后者能装下大得多的模型，却把它们搬得更慢。

你在这里。这个浏览器标签页就是 edge inference：Qwen3.5-0.8B、bf16、batch 1，跑在 WebGPU 上——没有 server，没有 API key，不上传任何东西。它为你换来 privacy、zero network latency 和 $0 成本，代价是能力（一个 0.8B 模型，而非 frontier）与速度（你的 GPU，而非 H100）。inference 的未来不是 local或 cloud，而是 两者皆是——小模型与快查询跑在设备上，更重的工作负载交给数据中心——而这整门课，正是那个小模型、在设备上的那一半，活生生地跑在你眼前。