大家好,我们是 VPS.Town。熟悉我们的朋友都知道,“大盘鸡”系列产品始终致力于在海量存储型VPS市场中,为用户提供卓越的性能与稳定性。此前,我们推出的 HKG-A2 节点产品线,特别是我们贯彻始终的“数据盘买断”模式,引发了业界的广泛关注,引得诸多同行朋友们纷纷加入到为用户提供优质服务中来。
最核心的问题聚焦于一点:
数据盘一次性付费,像在淘宝买了一块真正属于自己的硬盘一样,不用每个月付费
那么在TB级别的容量下,如何平衡高性能I/O与可控的买断成本?
今天,借此机会。
基于对现代云存储体系的深度反思、重构,我们将首次详细解读支撑“硬盘买断”这一切的底层技术—— 多层级复用集群存储 HMCSP (Hierarchical Multiplexing Cluster Storage Pool) 架构。
Prt.1 云存储的“不可能三角”
在存储系统的设计中,性能 (Performance)、容量 (Capacity) 与 成本 (Cost) 构成了一个难以调和的“不可能三角”。
极致性能,意味着采用NVMe全闪存阵列,但这将导致单位容量成本极高,不适用于大容量场景,而且客户也不愿意买账。
海量容量,通常选择HDD机械硬盘,但其孱弱的随机I/O性能是虚拟化应用挥之不去的噩梦。
传统平衡方案,如HDD RAID阵列,虽能提升吞吐,却无法从根本上解决随机I/O的性能瓶颈,在高并发下性能曲线极不稳定。
对于“大盘鸡”产品而言,这一矛盾被推向了极致。用户既渴望TB级的海量空间,也无法容忍数据库、小程序等应用因磁盘I/O造成的卡顿。如何打破这一桎梏,是HMCSP架构设计的初衷。
Prt.2 HMCSP, 将 I/O 性能以“网络”为中心重构
在研发之初,我们曾陷入一个误区,认为存储的瓶颈只在于介质(SSD vs HDD)。但随着研究的深入,我们发现了一个被严重忽视的“隐形杀手”——虚拟化层的网络I/O开销。
传统的虚拟化平台 (此处特指我们在用的 魔方云),其网络依赖于OVS(Open vSwitch)等软件定义的虚拟交换机。这意味着,每一笔存储I/O,在离开虚拟机后,都需要在宿主机的CPU上进行多次数据包封装、校验和转发。在高并发存储场景下,CPU会耗费惊人的资源在网络数据包处理上,而不是业务计算上。
因此,我们得出一个颠覆性的结论:
在现代数据中心,存储性能的上限,首先取决于网络架构的效率,其次才是存储介质。
基于此,我们彻底抛弃了“以存储为中心”的传统思路,设计了以“网络”为中心的 HMCSP 架构。其核心思想是,通过硬件卸载,让存储I/O彻底绕开宿主机CPU的干预,实现从虚拟机到存储介质的“零拷贝、零干预”路径。

我们来看看。
-
直接结构协议 (Direct Fabric Protocol - DFP)
这是我们为 HMCSP 自研的、运行在虚拟机上层的 vNIC 驱动。DFP 驱动基于传统的 virtio-net 驱动。它的唯一使命,就是将虚拟机的块设备I/O请求,直接翻译成RDMA(远程直接内存访问) 操作,并打包成我们私有的 DFP 格式,直接推送到 CEPH 主机服务器的傲腾持久性内存上。这样使得存储I/O可以绕过虚拟机的内核网络栈和宿主机的OVS,直接将数据从VM内存“推送”到Mellanox网卡的发送队列,进入到 CEPH 主机服务器的持久性内存中进行队列I/O操作。 -
硬件卸载引擎 (Hardware Offload Engine)
这是 HMCSP 架构的核心,也是硬件限制所在,只能选择Mellanox ConnectX 系列网卡。
我们用Rust写了一个小玩意儿,通过 DFP 推送,网卡的芯片直接解析DFP协议包,并将其还原为RDMA WRITE 或 READ 操作。这意味着,对端节点内存的写入确认,是由我方节点的网卡硬件直接完成的,宿主机CPU全程无感知,也是我们敢给CEPH上单路金牌CPU的原因。因此,一个写请求,会被网卡硬件同时复制到CEPH宿主机的多个傲腾持久性内存的Hot-Region中,我们借鉴了 CDN 系统,分组进行热点缓存和I/O操作。这种由硬件维护的内存一致性,提供了远超软件方案的稳定性和极低延迟。我们称之为分布式一致性内存 (Distributed Coherency DCPMM)。 -
High-GbE无损RDMA网络 (Lossless RDMA Fabric)
这一切都依赖于一个极其稳定和高速的物理网络。
为什么是100G? 因为内存的速度远超万兆网络。要在多个节点间实现“内存级”的读写,只有100Gbps的带宽才能勉强跟上DRAM的步伐,但我们给CEPH用的DCPMM,读写大概在20G/s左右,也差不多。那为什么必须是无损网络? RDMA协议对丢包极其敏感。任何一次丢包都可能导致严重的性能下降,但有非阻塞式队列,问题不大。因此,支持PFC(优先流控)和ECN(显式拥塞通知)的100G交换机,是HMCSP架构稳定运行的条件,其实40G也够。 -
持久化与卸载
与之前的设计类似,我们依然会给 DCPMM 单独拿一条出来划成存储模式作为异步日志盘,并通过HDD阵列作为最终的容量层。不同的是,无论是写日志还是最终的数据卸载,所有操作都优先通过DFP协议在我们的100G网络上传输,确保了整个数据生命周期中的路径一致性和高性能。
Prt.3 从 HKG-A1 的“至暗时刻”到HMCSP的诞生
在详细阐述 HMCSP 的TCO(总拥有成本)优势之前,我们必须坦诚地分享一段我们自己的“弯路”,一段足以载入公司发展史的惨痛经历。
关注我们的老用户可能还记得,在2025年3月, VPS.Town 仅成立不到一个月,我们的HKG-A1可用区曾经历过两次艰难的紧急维护。
彼时,HKG-A1采用的正是业界看似成熟可靠的“大容量NVMe缓存 + Raid50 HDD阵列”方案。
我们曾相信,这足以应对挑战。
一些图片、原文和链接:
https://docs.vps.town/kb/2025-03-09-maintenance-announcement.html
https://docs.vps.town/kb/m02-maintenance-announcement.html
https://t.me/VPSTown_Notify/71
https://t.me/VPSTown_Notify/72
https://t.me/VPSTown_Notify/75
https://t.me/VPSTown_Notify/77
https://t.me/VPSTown_Notify/80
https://t.me/VPSTown_Notify/82
https://t.me/VPSTown_Notify/85

首先,这家之前有一次换硬盘,仅仅在第一天深夜发了一封标题是维护的邮件,然后第二天清晨酒就把客户数据扬了,中间只隔了11.5个小时,很多人睡了一觉醒来数据就没了
并且,老板极不负责任,善于推卸责任,每当有客户提起丢数据的话,就用“我换硬盘是为大家好,我给大家用更好的盘,你提丢数据的话就是与大家为敌,你再提这事我就不给大家准时开机了,那么大家的损失就是你造成的”来群殴提出质疑的客户
第三,丢数据的事出了以后老板没有任何道歉,并且在群里趾高气扬低表示要退款随时可以退,好走不送。但是结果客户私聊进行退款时却发现没有全额收到退款,本是商家的责任却要客户付违约金。此事曾在tg群中引起过激烈争吵。
我以前发过帖说某人云不好,没经客户同意迁移客户的服务器,但是现在看来人家至少提前7天多次通知了,邮件标题也不是什么维护,现在看来至少人家数据安全的观念还是规范的
现实是残酷的。
在高并发、读写混合的复杂场景下,这套架构的脆弱性被彻底暴露。我们遭遇了灾难性的问题,缓存层与持久化层的数据同步逻辑出现严重瓶颈,导致性能急剧下降,甚至有数据错乱的风险。
第一次维护(3月14日),我们尝试通过更换更大容量的缓存盘和升级网卡来“缓解”问题。但结果证明,这只是杯水车薪。
第二次维护(3月19日),我们被迫采取了最极端的手段:格式化数据盘,彻底重构存储方案。这对于一家视用户数据为生命的主机商而言,是不可想象的阵痛。
HKG-A1的危机,让我们付出了高昂的代价:连续数日的业务中断、大量的用户时长补偿、暂停销售导致的商业损失,以及对我们品牌声誉的严重冲击。
但也正是这次危机,成为了 HMCSP 架构诞生的核心动力。 我们深刻地认识到,任何基于“缓存”的修补方案,都无法根治其与生俱来的“数据一致性”和“性能抖动”缺陷。
Prt.4 TCO,看得见的设备与看不见的成本
HKG-A1的失败,让我们对TCO(总拥有成本)有了全新的、血淋淋的理解。TCO绝不仅仅是硬件采购成本(CAPEX),更包含了那些看不见的、却可能致命的运营和风险成本(OPEX & Risk)。
传统NVMe缓存方案的TCO陷阱:
极高的风险成本: 一次像HKG-A1那样的事故,其带来的补偿和商誉损失,可能远超数倍硬件的价值。
高昂的运维成本: 工程师需要耗费大量精力去设计复杂的缓存策略、监控缓存命中率、处理缓存穿透和雪崩等一系列问题。
不可预测的性能: 缓存的存在,使得性能模型变得极其复杂,难以向用户提供稳定的SLA承诺。
那我们 HMCSP 架构的核心,是用一次性的、可预期的网络硬件投入(CAPEX),去彻底消灭不可预期的、无底洞式的运营和风险成本(OPEX & Risk)。
软硬件融合开发:“内存优先”和“硬件卸载”的设计,从物理上消除了缓存层,也就根除了所有与“缓存一致性”相关的风险。架构的稳定性不再依赖于复杂的软件逻辑,而是由硬件和无损网络来保障。
运维成本最小化: 系统不再有复杂的缓存策略需要调优。I/O路径是确定性的,性能是可预测的。这极大地解放了我们的运维团队。
长期运营买断制: 正是因为HMCSP架构提供了前所未有的稳定性和数据安全性,我们才拥有了推出“数据盘买断”这一商业模式的底气。这是对我们技术架构的终极自信。
在我们看来,使用 CEPH 集群存储,不是一种“奢侈”,而是一种最经济、最负责任的选择。它是一份“保险”,确保我们不会再重蹈 HKG-A1 的覆辙。
最终,我们的用户用实际体验给出了答案:
在HKG-A2可用区在后续的黑箱测试结束后,用户普遍反馈,数据盘的性能体验不仅没有异常,甚至比以往任何时候都更快。
总结而言,HMCSP 是 VPS.Town 深刻理解现代数据中心瓶颈、并付出惨痛代价后,选择的一条更艰难,但我们坚信是更正确的道路。
欢迎体验 VPS.Town HKG-A2 与即将到来的 HKG-A4 大盘鸡系列产品,感受HMCSP为您带来的澎湃动力。
VPS.Town x Wetem微腾创新
2025.9.20
@coldsword #2
我们有固定的硬件轮转周期,周期到了真的能 抽奖送/超低价格 包邮到你家。
硬盘是我们作为公司单位去采购,这不比你闲鱼收不知道N手的硬盘,不明机况的强?
@coldsword #2
服务器矿盘都要么,而且还是自己亲自用的
原来以为灵车 看起来好像越发靠谱了
蹲一个省流版
那如果我机器不想续费了,数据盘能寄给我么
+1 那如果我机器不想续费了,数据盘能寄给我么
前排
来了
@VPS-Town #5 哇,真要它真敢寄
@ddoki #8 垃圾佬最爱
@NodeSeeker-Geek #1 技术贴,不准省流