这是阅读论文 Examination of WAN traffic characteristics in a large-scale data center network 读书笔记
研究背景
网络流量和基础设施爆发性增长,使得网络拓扑结构愈发复杂,给网络测量和网络结构优化带来巨大挑战。大型云服务商使用在地理上分布的数据中心 DC,这些中心通过 WAN 相连。除去传统的 Web 和 Hadoop 服务外,DC 还提供 AI 和大数据分析。新服务可能会出现新的特征,并改变广域网流量模式。许多 DCN 设计是基于测量结果,因此对于 DC 的广域网流量特征检验是必要的。
数据获取
本文以百度 DC 作为参考
选择百度原因:
- 百度使用数十个地理分布的 DC,每条提供服务众多
- 每个 DC 包含多个集群,是最大网络服务提供商之一
- 近年推出 AI 等服务,服务类型复杂
研究维度
- 检查流量需求:资源分配设计很大程度取决流量需求
- 流量通信特点:承载广域网流量链路更高利用率需要进一步关注稳定性
- 分析服务流量:服务迁移和服务级广域网宽带分配需要深入了解服务级流量特性
DC 中心
- DC 通过核心交换机(Core Switch)和其他 DC 连接
- DC 内部存在多个集群,集群内部可通过 DC 交换机(DC Switch)进行数据交流
- 集群也可将数据传入 xDC 交换机(xDC Switch)传入广域网,实现和其他 DC 通信
因此,可以通过核心交换机获取数据中心间的流量
数据处理
- 网络流数据从核心交换机获取
- 通过网络流解码器Netflow decoder解码,转为 CSV 或 JSON 对象
- 经过网络集成器Netflow integrator,结合其他数据给数据打标签
- 保存到 Apache Doris大数据分析数据库 和 Baidu CFS百度内置文件系统 中
研究结果
- 尽管各类服务在 DC 中被高度复制,仍然有 20% 高优先级流量在 DC 间通过广域网流动
- 广域网流量链路利用率比数据中心高,体现了将 DC 间流量和 DC 内部流量用交换机分开必要性
- 大部分流量通信集中在少数 DC 连接上
- 广域网高优先级流量和数据中心间高优先级流量交换在一段时间内保持稳定,令整体观测具有可预测性
- 各种服务之间稳定性差距很大,交互模式部分影响稳定性
论文评价
- 只考虑百度一家,分析具有局限性
- 只关注了百度内部流量模式,不包含云服务产生流量
- AI 服务真的有必要分开了吗???流量分类方式存疑