大盘鸡产品支持数据盘买断？运营成本怎么办？来聊聊 VPS.Town 在 HKG-A2 采用的“多层级复用集群存储池 (HMCSP)”

大家好，我们是 VPS.Town。熟悉我们的朋友都知道，“大盘鸡”系列产品始终致力于在海量存储型VPS市场中，为用户提供卓越的性能与稳定性。此前，我们推出的 HKG-A2 节点产品线，特别是我们贯彻始终的“数据盘买断”模式，引发了业界的广泛关注，引得诸多同行朋友们纷纷加入到为用户提供优质服务中来。

最核心的问题聚焦于一点：

数据盘一次性付费，像在淘宝买了一块真正属于自己的硬盘一样，不用每个月付费

那么在TB级别的容量下，如何平衡高性能I/O与可控的买断成本？

今天，借此机会。
基于对现代云存储体系的深度反思、重构，我们将首次详细解读支撑“硬盘买断”这一切的底层技术—— 多层级复用集群存储 HMCSP （Hierarchical Multiplexing Cluster Storage Pool） 架构。

Prt.1 云存储的“不可能三角”

在存储系统的设计中，性能 (Performance)、容量 (Capacity) 与成本 (Cost) 构成了一个难以调和的“不可能三角”。

极致性能，意味着采用NVMe全闪存阵列，但这将导致单位容量成本极高，不适用于大容量场景，~~而且客户也不愿意买账~~。
海量容量，通常选择HDD机械硬盘，但其孱弱的随机I/O性能是虚拟化应用挥之不去的噩梦。

传统平衡方案，如HDD RAID阵列，虽能提升吞吐，却无法从根本上解决随机I/O的性能瓶颈，在高并发下性能曲线极不稳定。

对于“大盘鸡”产品而言，这一矛盾被推向了极致。用户既渴望TB级的海量空间，也无法容忍数据库、小程序等应用因磁盘I/O造成的卡顿。如何打破这一桎梏，是HMCSP架构设计的初衷。

Prt.2 HMCSP, 将 I/O 性能以“网络”为中心重构

在研发之初，我们曾陷入一个误区，认为存储的瓶颈只在于介质（SSD vs HDD）。但随着研究的深入，我们发现了一个被严重忽视的“隐形杀手”——虚拟化层的网络I/O开销。

传统的虚拟化平台 (此处特指我们在用的魔方云)，其网络依赖于OVS（Open vSwitch）等软件定义的虚拟交换机。这意味着，每一笔存储I/O，在离开虚拟机后，都需要在宿主机的CPU上进行多次数据包封装、校验和转发。在高并发存储场景下，CPU会耗费惊人的资源在网络数据包处理上，而不是业务计算上。

因此，我们得出一个颠覆性的结论：

在现代数据中心，存储性能的上限，首先取决于网络架构的效率，其次才是存储介质。

基于此，我们彻底抛弃了“以存储为中心”的传统思路，设计了以“网络”为中心的 HMCSP 架构。其核心思想是，通过硬件卸载，让存储I/O彻底绕开宿主机CPU的干预，实现从虚拟机到存储介质的“零拷贝、零干预”路径。

我们来看看。

直接结构协议 (Direct Fabric Protocol - DFP)
这是我们为 HMCSP 自研的、运行在虚拟机上层的 vNIC 驱动。DFP 驱动基于传统的 virtio-net 驱动。它的唯一使命，就是将虚拟机的块设备I/O请求，直接翻译成RDMA（远程直接内存访问）操作，并打包成我们私有的 DFP 格式，直接推送到 CEPH 主机服务器的傲腾持久性内存上。这样使得存储I/O可以绕过虚拟机的内核网络栈和宿主机的OVS，直接将数据从VM内存“推送”到Mellanox网卡的发送队列，进入到 CEPH 主机服务器的持久性内存中进行队列I/O操作。
硬件卸载引擎 (Hardware Offload Engine)
这是 HMCSP 架构的核心，也是硬件限制所在，只能选择Mellanox ConnectX 系列网卡。
我们用Rust写了一个小玩意儿，通过 DFP 推送，网卡的芯片直接解析DFP协议包，并将其还原为RDMA WRITE 或 READ 操作。这意味着，对端节点内存的写入确认，是由我方节点的网卡硬件直接完成的，宿主机CPU全程无感知，也是我们敢给CEPH上单路金牌CPU的原因。因此，一个写请求，会被网卡硬件同时复制到CEPH宿主机的多个傲腾持久性内存的Hot-Region中，我们借鉴了 CDN 系统，分组进行热点缓存和I/O操作。这种由硬件维护的内存一致性，提供了远超软件方案的稳定性和极低延迟。我们称之为分布式一致性内存 (Distributed Coherency DCPMM)。
High-GbE无损RDMA网络 (Lossless RDMA Fabric)
这一切都依赖于一个极其稳定和高速的物理网络。
为什么是100G？因为内存的速度远超万兆网络。要在多个节点间实现“内存级”的读写，只有100Gbps的带宽才能勉强跟上DRAM的步伐， ~~但我们给CEPH用的DCPMM，读写大概在20G/s左右，也差不多。~~ 那为什么必须是无损网络？ RDMA协议对丢包极其敏感。任何一次丢包都可能导致严重的性能下降，~~但有非阻塞式队列，问题不大~~。因此，支持PFC（优先流控）和ECN（显式拥塞通知）的100G交换机，是HMCSP架构稳定运行的条件，~~其实40G也够~~。
持久化与卸载
与之前的设计类似，我们依然会给 DCPMM 单独拿一条出来划成存储模式作为异步日志盘，并通过HDD阵列作为最终的容量层。不同的是，无论是写日志还是最终的数据卸载，所有操作都优先通过DFP协议在我们的100G网络上传输，确保了整个数据生命周期中的路径一致性和高性能。

Prt.3 从 HKG-A1 的“至暗时刻”到HMCSP的诞生

在详细阐述 HMCSP 的TCO（总拥有成本）优势之前，我们必须坦诚地分享一段我们自己的“弯路”，一段足以载入公司发展史的惨痛经历。

关注我们的老用户可能还记得，在2025年3月， VPS.Town 仅成立不到一个月，我们的HKG-A1可用区曾经历过两次艰难的紧急维护。

彼时，HKG-A1采用的正是业界看似成熟可靠的“大容量NVMe缓存 + Raid50 HDD阵列”方案。

我们曾相信，这足以应对挑战。

一些图片、原文和链接：
https://docs.vps.town/kb/2025-03-09-maintenance-announcement.html
https://docs.vps.town/kb/m02-maintenance-announcement.html
https://t.me/VPSTown_Notify/71
https://t.me/VPSTown_Notify/72
https://t.me/VPSTown_Notify/75
https://t.me/VPSTown_Notify/77
https://t.me/VPSTown_Notify/80
https://t.me/VPSTown_Notify/82
https://t.me/VPSTown_Notify/85

首先，这家之前有一次换硬盘，仅仅在第一天深夜发了一封标题是维护的邮件，然后第二天清晨酒就把客户数据扬了，中间只隔了11.5个小时，很多人睡了一觉醒来数据就没了
并且，老板极不负责任，善于推卸责任，每当有客户提起丢数据的话，就用“我换硬盘是为大家好，我给大家用更好的盘，你提丢数据的话就是与大家为敌，你再提这事我就不给大家准时开机了，那么大家的损失就是你造成的”来群殴提出质疑的客户
第三，丢数据的事出了以后老板没有任何道歉，并且在群里趾高气扬低表示要退款随时可以退，好走不送。但是结果客户私聊进行退款时却发现没有全额收到退款，本是商家的责任却要客户付违约金。此事曾在tg群中引起过激烈争吵。
我以前发过帖说某人云不好，没经客户同意迁移客户的服务器，但是现在看来人家至少提前7天多次通知了，邮件标题也不是什么维护，现在看来至少人家数据安全的观念还是规范的

现实是残酷的。

在高并发、读写混合的复杂场景下，这套架构的脆弱性被彻底暴露。我们遭遇了灾难性的问题，缓存层与持久化层的数据同步逻辑出现严重瓶颈，导致性能急剧下降，甚至有数据错乱的风险。

第一次维护（3月14日），我们尝试通过更换更大容量的缓存盘和升级网卡来“缓解”问题。但结果证明，这只是杯水车薪。
第二次维护（3月19日），我们被迫采取了最极端的手段：格式化数据盘，彻底重构存储方案。这对于一家视用户数据为生命的主机商而言，是不可想象的阵痛。

HKG-A1的危机，让我们付出了高昂的代价：连续数日的业务中断、大量的用户时长补偿、暂停销售导致的商业损失，以及对我们品牌声誉的严重冲击。

但也正是这次危机，成为了 HMCSP 架构诞生的核心动力。我们深刻地认识到，任何基于“缓存”的修补方案，都无法根治其与生俱来的“数据一致性”和“性能抖动”缺陷。

Prt.4 TCO，看得见的设备与看不见的成本

HKG-A1的失败，让我们对TCO（总拥有成本）有了全新的、血淋淋的理解。TCO绝不仅仅是硬件采购成本（CAPEX），更包含了那些看不见的、却可能致命的运营和风险成本（OPEX & Risk）。

传统NVMe缓存方案的TCO陷阱：

极高的风险成本：一次像HKG-A1那样的事故，其带来的补偿和商誉损失，可能远超数倍硬件的价值。
高昂的运维成本：工程师需要耗费大量精力去设计复杂的缓存策略、监控缓存命中率、处理缓存穿透和雪崩等一系列问题。
不可预测的性能：缓存的存在，使得性能模型变得极其复杂，难以向用户提供稳定的SLA承诺。

那我们 HMCSP 架构的核心，是用一次性的、可预期的网络硬件投入（CAPEX），去彻底消灭不可预期的、无底洞式的运营和风险成本（OPEX & Risk）。

软硬件融合开发：“内存优先”和“硬件卸载”的设计，从物理上消除了缓存层，也就根除了所有与“缓存一致性”相关的风险。架构的稳定性不再依赖于复杂的软件逻辑，而是由硬件和无损网络来保障。
运维成本最小化：系统不再有复杂的缓存策略需要调优。I/O路径是确定性的，性能是可预测的。这极大地解放了我们的运维团队。
长期运营买断制：正是因为HMCSP架构提供了前所未有的稳定性和数据安全性，我们才拥有了推出“数据盘买断”这一商业模式的底气。这是对我们技术架构的终极自信。

在我们看来，使用 CEPH 集群存储，不是一种“奢侈”，而是一种最经济、最负责任的选择。它是一份“保险”，确保我们不会再重蹈 HKG-A1 的覆辙。

最终，我们的用户用实际体验给出了答案：