1. 问题与挑战
现代 FPV 自动瞄准任务需要以高帧率和最小延迟实时处理视频流。 基于将视频传输到远程服务器进行处理的传统方法,对于主动防御系统来说具有不可接受的延迟。
将计算能力直接部署在炮塔上的必要性带来了严格的限制:
-
有限的功耗(低于 5 瓦)
-
计算模块尺寸迷你
-
在宽温范围(-40°C 至 +85°C)下工作
-
与批量生产兼容的成本
RV1106 硬件限制
对比:NVIDIA Jetson Nano(21 TOPS)功耗 5-10 瓦,价格 99 美元起
核心挑战
在 NPU 性能仅为 0.5 TOPS 的 SoC 上确保执行现代目标检测神经网络算法(YOLOv5-nano),同时保持不低于 25 FPS 的处理速度,以有效跟踪高速目标。
2. 架构范式“Cyclops-Hybrid”
“Cyclops-Hybrid”范式代表了一种在 SoC 不同单元间分配计算负载的创新方法。 我们开发了一种混合模型,而不是传统的仅在 NPU 上运行神经网络的方法,该模型:
流水线拆分
将神经网络拆分为在不同计算单元上执行的子任务
并行处理
同时利用 NPU、CPU 和 DSP 处理不同阶段
自适应过滤
基于场景分析的动态计算负载降低
“Cyclops-Hybrid”架构图
阶段 1:CPU
准备视频帧:缩放到 640×640,像素归一化,色彩空间转换。通过优化库在 CPU 上执行效率最高。
阶段 2:NPU
执行神经网络 YOLOv5-nano 的卷积层。专用 NPU 以最低功耗为乘法累加(MAC)运算提供最高效率。
阶段 3:DSP + CPU
结果处理:非极大值抑制(NMS),目标跟踪,误报过滤。DSP 高效处理向量运算,CPU 处理决策逻辑。
方法的创新性
我们并未尝试将整个神经网络在 NPU 上运行(由于内存和性能限制而无法实现),而是将网络拆分,将开始和结束层放在 CPU 和 DSP 上执行。 这使得处理超出 RV1106 NPU 标称能力 3 倍的模型成为可能。
3. 在 SoC Rockchip RV1106 上的实现
神经网络模型适配
为了在 RV1106 上实现,对 YOLOv5-nano 模型进行了深度优化:
-
INT8 量化:将权重和激活转换为 8 位整数格式,保持 95% 的准确率
-
棱柱拆分:分离开始和结束层以便在 CPU/DSP 上执行
-
内存优化:通过逐步加载权重将内存消耗从 450 MB 减少到 120 MB
-
流水线化:重叠 I/O 操作与计算以最小化空闲时间
流水线优化示例
// Cyclops-Hybrid 流水线伪代码
void cyclops_hybrid_pipeline(Frame input_frame) {
// 阶段 1:CPU - 预处理
Frame preprocessed = cpu_preprocess(input_frame);
// 阶段 2:NPU - 卷积层(与准备下一帧并行)
Tensor features = npu_conv_layers(preprocessed);
// 阶段 3:DSP/CPU - 后处理(与下一帧的 NPU 并行)
Detections detections = postprocess(features);
// 阶段 4:CPU - 跟踪与决策
TrackedObjects tracked = track_objects(detections);
return tracked;
}
流水线处理使得从捕获帧到获得目标坐标的延迟仅为 40 毫秒的情况下,达到 25 FPS。
优化方法对比
| 优化方法 | 速度 (FPS) | 内存 (MB) | 准确率 (mAP) | 适用性 |
|---|---|---|---|---|
|
基础 YOLOv5-nano (FP32)
|
2-3 FPS | 450 MB | 28.5% | 不适用 |
|
INT8 量化(完全在 NPU)
|
8-10 FPS | 220 MB | 27.1% | 有限 |
|
Cyclops-Hybrid (INT8)
|
25-28 FPS | 120 MB | 26.8% | 最优 |
4. 成果与效率
视频处理速度
平均功耗
检测准确率
实际条件下的性能
在实地测试中,基于 RV1106 和“Cyclops-Hybrid”架构的系统在不同条件下展示了稳定工作能力:
-
日间
在良好光照下,300 米距离内检测 30×30 cm 大小的无人机
-
低光照
在黄昏条件下工作,检测距离达 150 米
-
恶劣条件
在 -20°C 至 +60°C 温度和高达 95% 湿度下稳定工作
与同类产品对比
*Coral TPU 需要单独的主处理器,这会增加系统的总功耗和成本。
5. 集成至“猎手”综合系统
“Cyclops-Hybrid”架构已成为“猎手”综合系统中自动炮塔的关键组成部分。每个炮塔都配备了基于 RV1106 的计算模块,确保:
完全自主性
炮塔无需与中央服务器保持持续通信即可自主发现并跟踪目标,这在电子对抗条件下至关重要。
经济高效
计算模块成本低于 50 美元,使得无需大幅增加部署预算即可创建大规模防护系统。
基于 Cyclops-Hybrid 的炮塔架构
层级 1:传感器
层级 2:处理
RV1106
Cyclops-Hybrid 架构
最多检测 10 个目标
层级 3:执行
由于 RV1106 的低功耗,炮塔能够依靠 12V/100Ah 电池自主运行长达 72 小时
战略意义
基于国产组件开发完全自主的炮塔,对于确保安全领域的技术主权具有战略意义。 “Cyclops-Hybrid”架构使得无需依赖进口高性能计算平台即可创建有效的防护系统。
6. 结论与前景
已取得的成果
-
克服硬件限制
在形式性能仅为 0.5 TOPS 的 SoC 上实现了 25 FPS 的处理速度
-
能效
低于 3 瓦的功耗使系统适合电池自主运行
-
经济可行性
计算模块成本使得大规模部署防护系统成为可能
-
技术主权
使用国产及市售组件,不依赖受制裁平台
前景方向
架构扩展
将“Cyclops-Hybrid”方法适配于更强大的 SoC(RK3588、Jetson Orin Nano),以解决更复杂的任务,包括无人机类型分类和轨迹预测。
多模态检测
将热像仪和无线电探测器数据处理集成到统一处理流水线中,以提高复杂条件下的检测可靠性。
项目“侍从”
开发基于 FPGA 的专用协处理器以加速神经网络计算,这将使得在“猎手”综合系统中完全放弃进口解决方案成为可能。
结语
“Cyclops-Hybrid”架构范式表明,即使在存在严格硬件限制的情况下,也有可能创建有效的计算机视觉系统来解决关键任务。
所开发的解决方案不仅为“猎手”综合系统中的 FPV 自动瞄准系统提供了所需的特性,而且为在国产组件基础上创建大规模、高能效且经济可行的安全系统开辟了新的可能性。
相关材料与链接
发布日期与状态
本报告基于 2025 年 3 月的情况编制。开发处于积极测试和准备批量生产阶段。 所有技术特性均已通过实验室和实地测试确认。