local & edge inference
深入阅读 · 第 16 章 完整模型——到底为什么要在自己的设备上跑一个小模型,以及你为此换走了什么。
本章刚刚把这个模型放在了 size ladder 的接近底部:852,985,920 个参数,远低于多数人说「large language model」时所指的那些 frontier 系统。这就引出一个合理的问题——既然一个托管 API 能伺候比它大 100× 的模型,为什么还要在自己的设备上跑一个小的?答案是:「小」和「在你自己的设备上」能换来数据中心给不了的东西,而这个选择是一笔两边都有赢面的实打实的 trade。
把这笔 trade 讲具体
在本地运行——也就是 在 edge 上,在用户手里已经拿着的那台设备上——在书里点名的四件事上取胜:latency(没有网络往返,省下几十到几百毫秒)、independence(无 server、无宕机,可离线)、privacy(数据永不离开设备)以及 cost(对开发者免费——是用户自己的硬件在干活)。它为这些付出的代价是能力与速度:edge 硬件只有 datacenter GPU 的一小部分,会因发热降频,hardware×software 的组合很碎片化,还会耗电。没有哪一侧赢下每一行——这正是 trade:
没有哪一侧赢下每一行——这正是 trade。
- zero network latency — 省下几十甚至上百毫秒
- independence — 不依赖 internet、server,也不怕 downtime
- privacy — 终端用户的数据永不离开其设备
- cost — edge inference 对开发者免费
- hardware — 只有 datacenter GPU 速度与算力的一小部分
- thermal constraints — 手机、笔电在持续负载下会降频
- fragmented support — 无穷无尽的 hardware × software 组合
- battery life — 推理会耗尽笔电和手机的电池
逐档切换模型大小——能容纳它的最小一档会亮起。
手机超过一两 billion 参数就吃力——这是 phone 的甜区。
| 设备 | memory | bandwidth | 约价格 | |
|---|---|---|---|---|
| NVIDIA RTX 5090 | 32 GB | 1,792 GB/s | ~$5,000 | 内存更少、更快 |
| Apple M3 Ultra | 512 GB unified | 819 GB/s | ~$10,000 | 容量大得多、更慢 |
Apple 的 unified memory 以更慢的速度换来大得多的容量;5090 则用更少的内存换来更高的 bandwidth。
inference 的未来不是 local 或 cloud,而是 两者协同:小模型与快查询跑在终端设备上,更吃 资源的工作负载交给 datacenter GPU。像 WebLLM 这样的浏览器库和其它跨平台标准 把这一切带向主流——本课程的 demo 正是如此。
这个浏览器标签页以 bf16、batch 1 在 WebGPU 上运行 Qwen3.5-0.8B。它为你换来 privacy(你的文字永不离开标签 页)、zero network latency 和 $0 成本——代价是能力(一个 0.8B 模型,而非 frontier 模型)与速度(你的 GPU,而非 H100)。这就是这笔 trade,讲 得很具体。
哪个大小能跑在哪里
模型大小决定了下限。手机超过一两 billion 参数就吃力——而这正是这个模型舒舒服服待着的地方。一台笔电能以 bf16 跑一个 8B;要把 100B+ 的模型搬上高端桌面,就得用之前某个子章节的那根杠杆——quantization 正是把大模型塞进小内存的桥梁(通过 Ollama / llama.cpp),而 Mixture-of-Experts 也有帮助:每个 token 只激活其中一小片参数。再往上,一个几千亿到万亿参数的 frontier 模型就只能住在 cloud 上了;低端笔电和 Chromebook 根本跑不动任何有意义的本地模型。
而硬件本身也编码着一笔 trade。一块游戏 GPU 和一台工作站可以价位相近,却为相反的目标优化——capacity 对 speed——这就是上面 widget 里的第二张表:一块 32 GB、bandwidth 巨大的卡,对上一台 512 GB unified-memory 的机器——后者能装下大得多的模型,却把它们搬得更慢。
你在这里。这个浏览器标签页就是 edge inference:Qwen3.5-0.8B、bf16、batch 1,跑在 WebGPU 上——没有 server,没有 API key,不上传任何东西。它为你换来 privacy、zero network latency 和 $0 成本,代价是能力(一个 0.8B 模型,而非 frontier)与速度(你的 GPU,而非 H100)。inference 的未来不是 local或 cloud,而是 两者皆是——小模型与快查询跑在设备上,更重的工作负载交给数据中心——而这整门课,正是那个小模型、在设备上的那一半,活生生地跑在你眼前。