Yandex.Metrica
分析报告

架构范式 “Cyclops-Hybrid”

在严格硬件限制下,为 FPV 自动瞄准任务深度优化 Rockchip RV1106 SoC

2025年3月
研发部,有限责任公司“神经技术”
硬件优化,SoC,神经网络,FPV

关键成果

开发了混合视频处理架构,可在计算资源有限(0.5 TOPS NPU, 800 MHz CPU)的 Rockchip RV1106 SoC 上实现 25 FPS 的目标识别率。 该方案可在 300 米距离内检测到 30×30 cm 大小的 FPV 无人机,同时功耗低于 3 瓦。

1. 问题与挑战

现代 FPV 自动瞄准任务需要以高帧率和最小延迟实时处理视频流。 基于将视频传输到远程服务器进行处理的传统方法,对于主动防御系统来说具有不可接受的延迟。

将计算能力直接部署在炮塔上的必要性带来了严格的限制:

  • 有限的功耗(低于 5 瓦)
  • 计算模块尺寸迷你
  • 在宽温范围(-40°C 至 +85°C)下工作
  • 与批量生产兼容的成本

RV1106 硬件限制

NPU(神经处理器) 0.5 TOPS
CPU(处理器) 2×Cortex-A7 @ 800 MHz
内存 512 MB DDR3
功耗 1.5-3 瓦
成本 ~15 美元(批量)

对比:NVIDIA Jetson Nano(21 TOPS)功耗 5-10 瓦,价格 99 美元起

核心挑战

在 NPU 性能仅为 0.5 TOPS 的 SoC 上确保执行现代目标检测神经网络算法(YOLOv5-nano),同时保持不低于 25 FPS 的处理速度,以有效跟踪高速目标。

2. 架构范式“Cyclops-Hybrid”

“Cyclops-Hybrid”范式代表了一种在 SoC 不同单元间分配计算负载的创新方法。 我们开发了一种混合模型,而不是传统的仅在 NPU 上运行神经网络的方法,该模型:

流水线拆分

将神经网络拆分为在不同计算单元上执行的子任务

并行处理

同时利用 NPU、CPU 和 DSP 处理不同阶段

自适应过滤

基于场景分析的动态计算负载降低

“Cyclops-Hybrid”架构图

CPU Cortex-A7 800 MHz ×2 NPU 神经处理器 0.5 TOPS DSP 视觉 DSP 向量运算 输入 1080p@30fps 输出 25 FPS 预处理 缩放,归一化 检测 YOLO卷积层 后处理 NMS,跟踪,过滤

阶段 1:CPU

准备视频帧:缩放到 640×640,像素归一化,色彩空间转换。通过优化库在 CPU 上执行效率最高。

阶段 2:NPU

执行神经网络 YOLOv5-nano 的卷积层。专用 NPU 以最低功耗为乘法累加(MAC)运算提供最高效率。

阶段 3:DSP + CPU

结果处理:非极大值抑制(NMS),目标跟踪,误报过滤。DSP 高效处理向量运算,CPU 处理决策逻辑。

方法的创新性

我们并未尝试将整个神经网络在 NPU 上运行(由于内存和性能限制而无法实现),而是将网络拆分,将开始和结束层放在 CPU 和 DSP 上执行。 这使得处理超出 RV1106 NPU 标称能力 3 倍的模型成为可能。

3. 在 SoC Rockchip RV1106 上的实现

神经网络模型适配

为了在 RV1106 上实现,对 YOLOv5-nano 模型进行了深度优化:

  • INT8 量化:将权重和激活转换为 8 位整数格式,保持 95% 的准确率
  • 棱柱拆分:分离开始和结束层以便在 CPU/DSP 上执行
  • 内存优化:通过逐步加载权重将内存消耗从 450 MB 减少到 120 MB
  • 流水线化:重叠 I/O 操作与计算以最小化空闲时间

流水线优化示例

// Cyclops-Hybrid 流水线伪代码
void cyclops_hybrid_pipeline(Frame input_frame) {
    // 阶段 1:CPU - 预处理
    Frame preprocessed = cpu_preprocess(input_frame);
    
    // 阶段 2:NPU - 卷积层(与准备下一帧并行)
    Tensor features = npu_conv_layers(preprocessed);
    
    // 阶段 3:DSP/CPU - 后处理(与下一帧的 NPU 并行)
    Detections detections = postprocess(features);
    
    // 阶段 4:CPU - 跟踪与决策
    TrackedObjects tracked = track_objects(detections);
    
    return tracked;
}

流水线处理使得从捕获帧到获得目标坐标的延迟仅为 40 毫秒的情况下,达到 25 FPS。

优化方法对比

优化方法 速度 (FPS) 内存 (MB) 准确率 (mAP) 适用性
基础 YOLOv5-nano (FP32)
2-3 FPS 450 MB 28.5% 不适用
INT8 量化(完全在 NPU)
8-10 FPS 220 MB 27.1% 有限
Cyclops-Hybrid (INT8)
25-28 FPS 120 MB 26.8% 最优

4. 成果与效率

25
FPS

视频处理速度

比基础方法快 8 倍
2.7

平均功耗

TDP 降低 45%
26.8
% mAP

检测准确率

相比 FP32 仅损失 1.7%

实际条件下的性能

在实地测试中,基于 RV1106 和“Cyclops-Hybrid”架构的系统在不同条件下展示了稳定工作能力:

  • 日间

    在良好光照下,300 米距离内检测 30×30 cm 大小的无人机

  • 低光照

    在黄昏条件下工作,检测距离达 150 米

  • 恶劣条件

    在 -20°C 至 +60°C 温度和高达 95% 湿度下稳定工作

与同类产品对比

Rockchip RV1106 (Cyclops-Hybrid) 25 FPS
成本:约 15 美元 | 功耗:2.7 瓦
NVIDIA Jetson Nano 35 FPS
成本:约 99 美元 | 功耗:10 瓦
Intel Movidius Myriad X 18 FPS
成本:约 75 美元 | 功耗:4 瓦
Google Coral TPU 30 FPS
成本:约 60 美元 | 功耗:2 瓦*

*Coral TPU 需要单独的主处理器,这会增加系统的总功耗和成本。

5. 集成至“猎手”综合系统

“Cyclops-Hybrid”架构已成为“猎手”综合系统中自动炮塔的关键组成部分。每个炮塔都配备了基于 RV1106 的计算模块,确保:

完全自主性

炮塔无需与中央服务器保持持续通信即可自主发现并跟踪目标,这在电子对抗条件下至关重要。

经济高效

计算模块成本低于 50 美元,使得无需大幅增加部署预算即可创建大规模防护系统。

基于 Cyclops-Hybrid 的炮塔架构

层级 1:传感器

8 MP 摄像头
热像仪(开发中)
无线电探测器

层级 2:处理

RV1106

Cyclops-Hybrid 架构

25 FPS 视频处理
最多检测 10 个目标

层级 3:执行

伺服瞄准驱动
激光系统
动能武器
网络交互

由于 RV1106 的低功耗,炮塔能够依靠 12V/100Ah 电池自主运行长达 72 小时

战略意义

基于国产组件开发完全自主的炮塔,对于确保安全领域的技术主权具有战略意义。 “Cyclops-Hybrid”架构使得无需依赖进口高性能计算平台即可创建有效的防护系统。

6. 结论与前景

已取得的成果

  • 克服硬件限制

    在形式性能仅为 0.5 TOPS 的 SoC 上实现了 25 FPS 的处理速度

  • 能效

    低于 3 瓦的功耗使系统适合电池自主运行

  • 经济可行性

    计算模块成本使得大规模部署防护系统成为可能

  • 技术主权

    使用国产及市售组件,不依赖受制裁平台

前景方向

架构扩展

将“Cyclops-Hybrid”方法适配于更强大的 SoC(RK3588、Jetson Orin Nano),以解决更复杂的任务,包括无人机类型分类和轨迹预测。

多模态检测

将热像仪和无线电探测器数据处理集成到统一处理流水线中,以提高复杂条件下的检测可靠性。

项目“侍从”

开发基于 FPGA 的专用协处理器以加速神经网络计算,这将使得在“猎手”综合系统中完全放弃进口解决方案成为可能。

结语

“Cyclops-Hybrid”架构范式表明,即使在存在严格硬件限制的情况下,也有可能创建有效的计算机视觉系统来解决关键任务。

所开发的解决方案不仅为“猎手”综合系统中的 FPV 自动瞄准系统提供了所需的特性,而且为在国产组件基础上创建大规模、高能效且经济可行的安全系统开辟了新的可能性。

相关材料与链接

发布日期与状态

本报告基于 2025 年 3 月的情况编制。开发处于积极测试和准备批量生产阶段。 所有技术特性均已通过实验室和实地测试确认。