Long-term Direction 01

端侧 AI 部署与模型编排

Edge AI Deployment & Model Orchestration

关注模型如何进入真实设备：算力、功耗、延迟、版本、灰度、监控和业务优先级共同构成端侧智能的工程边界。

Current notes Back to research

Writing System

把端侧部署从项目经验整理成工程判断。

每一次设备适配、性能压测和灰度发布，最终都应沉淀成可迁移的系统方法。

Insight

真实约束先于模型指标

端侧智能首先面对的是设备形态、功耗预算、镜头质量、网络条件和现场维护成本，离线指标必须放回这些约束中判断。

Latency Power Fleet

Understanding

模型编排是能力调度

模型不是孤立文件，而是设备能力、任务优先级、依赖链、版本策略和故障回退共同组成的动态系统。

Routing Fallback Versioning

Knowledge

Runtime 知识需要长期更新

模型格式、推理后端、量化方式、算子覆盖、日志规范和远程诊断都会随平台演进，需要持续建立知识索引。

Runtime Quantization Observability

Notes

近期札记

围绕端侧 AI 的部署、编排、监控和复盘持续追加。

2026.06

Insight

设备约束是第一性条件

同一个模型在不同芯片、摄像头、温度和业务节奏下会呈现完全不同的可用性，端侧部署要先建立约束画像，再谈模型选择。

Device Profile Benchmark Field Test

2026.06

Understanding

灰度发布是端侧系统的长期保险

端侧模型发布后的回收成本很高，灰度、回滚、分群和指标监控不是上线流程的附属品，而是系统可持续演进的前提。

Canary Rollback Metrics

2026.06

Knowledge

端侧部署知识索引

后续可按推理引擎、模型格式、量化压缩、算子兼容、调度策略、日志诊断和远程运维等主题逐步展开。

ONNX TFLite TensorRT NPU

Knowledge Map

知识地图

把未来需要持续补充的知识域先分层放好。

Runtime

推理运行时与 ABI

关注推理框架、设备驱动、算子支持、内存布局和版本兼容，判断模型能否稳定进入设备侧。

Model

模型格式与量化

沉淀 ONNX、TFLite、TensorRT、OpenVINO、NPU SDK 等链路中的转换、校准和精度验证方法。

Release

发布与可观测性

围绕灰度、回滚、日志、指标、远程诊断和异常样本回流，构建端侧系统的运维闭环。

Fleet

设备群体管理

把不同硬件批次、地区、业务版本和网络条件纳入调度策略，避免模型能力被平均化。

Writing Path

后续写作路径

从问题复盘、系统抽象和资料整理三个层面继续扩展。

Main Thread

从一次部署问题到长期工程体系

把现场发现的问题还原成模型、数据、设备、运行时、发布流程和组织协作之间的结构关系，避免只做局部修补。

Case Notes

典型问题复盘

记录延迟抖动、内存峰值、算子不兼容、识别退化、日志缺失和回滚困难等问题。

Reading Notes

端侧 AI 部署与模型编排

把端侧部署从项目经验整理成工程判断。

真实约束先于模型指标

模型编排是能力调度

Runtime 知识需要长期更新

近期札记

设备约束是第一性条件

灰度发布是端侧系统的长期保险

端侧部署知识索引

知识地图

推理运行时与 ABI

模型格式与量化

发布与可观测性

设备群体管理

后续写作路径

从一次部署问题到长期工程体系

典型问题复盘

相关资料摘录