JamesCurtis 2023-02-02 14:40 采纳率: 100%

已结题

Ceph读写性能问题，读入快，写出慢

大家好，我们需要将所有云环境迁移到Proxmox。目前我正在评估测试Proxmox+Ceph+OpenStack。

但是现在遇到以下困难：

VMware vSAN迁移到ceph时，我发现hdd+ssd在ceph中的表现非常糟糕，并且写性能非常差。性能远不及vSAN
全闪存结构中的ceph顺序写入性能还不如单块硬盘，甚至不如单块机械硬盘
在使用bcache中的hdd+ssd结构中，ceph的顺序写入性能远低于单块硬盘写入

测试服务器参数（这不重要）：

CPU：Dual Intel® Xeon® E5-2698Bv3

Memory： 8 x 16G DDR3

Dual 1 Gbit NIC：Realtek Semiconductor Co., Ltd. RTL8111/8168/8411

Disk：

1 x 500G NVME SAMSUNG MZALQ512HALU-000L1 (同时也是PVE中的 ssd-data Thinpool)

1 x 500G SATA WDC_WD5000AZLX-60K2TA0 (物理机系统盘)

2 x 500G SATA WDC_WD5000AZLX-60K2TA0

1 x 1T SATA ST1000LM035-1RK172

PVE：pve-manager/7.3-4/d69b70d4 (running kernel: 5.15.74-1-pve)

Network Configure：

enp4s0 (OVS Port) -> vmbr0 (OVS Bridge) -> br0mgmt (192.168.1.3/24,192.168.1.1)

enp5s0 (OVS Port,MTU=9000) -> vmbr1 (OVS Bridge,MTU=9000)

vmbr2 (OVS Bridge,MTU=9000)

测试虚拟机参数 x 3 (三台虚拟机是一样的参数)：

CPU：32 (1 sockets, 32 cores) [host]

Memory：32G

Disk：

1 x local-lvm:vm-101-disk-0,iothread=1,size=32G

2 x ssd-data:vm-101-disk-0,iothread=1,size=120G

Network Device：

net0: bridge=vmbr0,firewall=1

net1: bridge=vmbr2,firewall=1,mtu=1 (Ceph Cluster/Public Network)

net2: bridge=vmbr0,firewall=1

net3: bridge=vmbr0,firewall=1

Network Configure：

ens18 (net0,OVS Port) -> vmbr0 (OVS Bridge) -> br0mgmt (10.10.1.11/24,10.10.1.1)

ens19 (net1,OVS Port,MTU=9000) -> vmbr1 (OVS Bridge,MTU=9000) -> br1ceph (192.168.10.1/24,MTU=9000)

ens20 (net2,Network Device,Active=No)

ens21 (net3,Network Device,Active=No)

基准测试工具:

fio
fio-cdm (https://github.com/xlucn/fio-cdm)

对于fio-cdm，如果不填写任何参数，那么对应于fio的配置文件如下

使用 python fio-cdm -f - 可以得到

[global]
ioengine=libaio
filename=.fio_testmark
directory=/root
size=1073741824.0
direct=1
runtime=5
refill_buffers
norandommap
randrepeat=0
allrandrepeat=0
group_reporting

[seq-read-1m-q8-t1]
rw=read
bs=1m
rwmixread=0
iodepth=8
numjobs=1
loops=5
stonewall

[seq-write-1m-q8-t1]
rw=write
bs=1m
rwmixread=0
iodepth=8
numjobs=1
loops=5
stonewall

[seq-read-1m-q1-t1]
rw=read
bs=1m
rwmixread=0
iodepth=1
numjobs=1
loops=5
stonewall

[seq-write-1m-q1-t1]
rw=write
bs=1m
rwmixread=0
iodepth=1
numjobs=1
loops=5
stonewall

[rnd-read-4k-q32-t16]
rw=randread
bs=4k
rwmixread=0
iodepth=32
numjobs=16
loops=5
stonewall

[rnd-write-4k-q32-t16]
rw=randwrite
bs=4k
rwmixread=0
iodepth=32
numjobs=16
loops=5
stonewall

[rnd-read-4k-q1-t1]
rw=randread
bs=4k
rwmixread=0
iodepth=1
numjobs=1
loops=5
stonewall

[rnd-write-4k-q1-t1]
rw=randwrite
bs=4k
rwmixread=0
iodepth=1
numjobs=1
loops=5
stonewall

环境构建步骤:

# prepare tools
root@pve01:~# apt update -y && apt upgrade -y
root@pve01:~# apt install fio git -y
root@pve01:~# git clone https://github.com/xlucn/fio-cdm.git

# create test block
root@pve01:~# rbd create test -s 20G
root@pve01:~# rbd map test
root@pve01:~# mkfs.xfs /dev/rbd0
root@pve01:~# mkdir /mnt/test
root@pve01:/mnt# mount /dev/rbd0 /mnt/test

# start test
root@pve01:/mnt/test# python3 ~/fio-cdm/fio-cdm

环境测试:

Network Bandwidth

root@pve01:~# apt install iperf3 -y
root@pve01:~# iperf3 -s
-----------------------------------------------------------
Server listening on 5201
-----------------------------------------------------------
Accepted connection from 10.10.1.12, port 52968
[  5] local 10.10.1.11 port 5201 connected to 10.10.1.12 port 52972
[ ID] Interval           Transfer     Bitrate
[  5]   0.00-1.00   sec  1.87 GBytes  16.0 Gbits/sec                  
[  5]   1.00-2.00   sec  1.92 GBytes  16.5 Gbits/sec                  
[  5]   2.00-3.00   sec  1.90 GBytes  16.4 Gbits/sec                  
[  5]   3.00-4.00   sec  1.90 GBytes  16.3 Gbits/sec                  
[  5]   4.00-5.00   sec  1.85 GBytes  15.9 Gbits/sec                  
[  5]   5.00-6.00   sec  1.85 GBytes  15.9 Gbits/sec                  
[  5]   6.00-7.00   sec  1.70 GBytes  14.6 Gbits/sec                  
[  5]   7.00-8.00   sec  1.75 GBytes  15.0 Gbits/sec                  
[  5]   8.00-9.00   sec  1.89 GBytes  16.2 Gbits/sec                  
[  5]   9.00-10.00  sec  1.87 GBytes  16.0 Gbits/sec                  
[  5]  10.00-10.04  sec  79.9 MBytes  15.9 Gbits/sec                  
- - - - - - - - - - - - - - - - - - - - - - - - -
[ ID] Interval           Transfer     Bitrate
[  5]   0.00-10.04  sec  18.6 GBytes  15.9 Gbits/sec                  receiver

Jumbo Frames

root@pve01:~# ping -M do -s 8000 192.168.10.2
PING 192.168.10.2 (192.168.10.2) 8000(8028) bytes of data.
8008 bytes from 192.168.10.2: icmp_seq=1 ttl=64 time=1.51 ms
8008 bytes from 192.168.10.2: icmp_seq=2 ttl=64 time=0.500 ms
^C
--- 192.168.10.2 ping statistics ---
2 packets transmitted, 2 received, 0% packet loss, time 1002ms
rtt min/avg/max/mdev = 0.500/1.007/1.514/0.507 ms
root@pve01:~#

基准测试分类:

Physical Disk Benchmark，物理磁盘基准测试
Single osd, single server benchmark ，单个OSD单个服务器基准测试
Multiple OSDs, single server benchmarks，多个OSD单个服务器基准测试
Multiple OSDs, multiple server benchmarks，多个OSD多个服务器基准测试

基准测试结果（Ceph和系统没有进行过任何调优，没有使用bcache加速）

Benchmark Result (Ceph and the system have not been tuned or bcache accelerated. ):

1. Physical Disk Benchmark (Test sequence is 4)（测试顺序是4）

step.

root@pve1:~# lsblk
NAME                         MAJ:MIN RM   SIZE RO TYPE MOUNTPOINT
sda                            8:0    0 465.8G  0 disk 
├─sda1                         8:1    0  1007K  0 part 
├─sda2                         8:2    0   512M  0 part /boot/efi
└─sda3                         8:3    0 465.3G  0 part 
  ├─pve-root                 253:0    0    96G  0 lvm  /
  ├─pve-data_tmeta           253:1    0   3.5G  0 lvm  
  │ └─pve-data-tpool         253:3    0 346.2G  0 lvm  
  │   ├─pve-data             253:4    0 346.2G  1 lvm  
  │   └─pve-vm--100--disk--0 253:5    0    16G  0 lvm  
  └─pve-data_tdata           253:2    0 346.2G  0 lvm  
    └─pve-data-tpool         253:3    0 346.2G  0 lvm  
      ├─pve-data             253:4    0 346.2G  1 lvm  
      └─pve-vm--100--disk--0 253:5    0    16G  0 lvm  
sdb                            8:16   0 931.5G  0 disk 
sdc                            8:32   0 465.8G  0 disk 
sdd                            8:48   0 465.8G  0 disk 
nvme0n1                      259:0    0 476.9G  0 disk 
root@pve1:~# mkfs.xfs /dev/nvme0n1 -f
root@pve1:~# mkdir /mnt/nvme
root@pve1:~# mount /dev/nvme0n1 /mnt/nvme
root@pve1:~# cd /mnt/nvme/

result.

root@pve1:/mnt/nvme# python3 ~/fio-cdm/fio-cdm
tests: 5, size: 1.0GiB, target: /mnt/nvme 3.4GiB/476.7GiB
|Name        |  Read(MB/s)| Write(MB/s)|
|------------|------------|------------|
|SEQ1M Q8 T1 |     2361.95|     1435.48|
|SEQ1M Q1 T1 |     1629.84|     1262.63|
|RND4K Q32T16|      954.86|     1078.88|
|. IOPS      |   233119.53|   263398.08|
|. latency us|     2194.84|     1941.78|
|RND4K Q1 T1 |       55.56|      225.06|
|. IOPS      |    13565.49|    54946.21|
|. latency us|       72.76|       16.97|

2. Single osd, single server benchmark (Test sequence is 3)（测试顺序是3）

修改ceph.conf中osd_pool_default_min_size和osd_pool_default_size为1，然后systemctl restart ceph.target并修复所有报错

step.

root@pve01:/mnt/test# ceph osd pool get rbd size
size: 2
root@pve01:/mnt/test# ceph config set global  mon_allow_pool_size_one true
root@pve01:/mnt/test# ceph osd pool set rbd min_size 1
set pool 2 min_size to 1
root@pve01:/mnt/test# ceph osd pool set rbd size 1 --yes-i-really-mean-it
set pool 2 size to 1

result

root@pve01:/mnt/test# ceph -s
  cluster:
    id:     1f3eacc8-2488-4e1a-94bf-7181ee7db522
    health: HEALTH_WARN
            2 pool(s) have no replicas configured
 
  services:
    mon: 3 daemons, quorum pve01,pve02,pve03 (age 17m)
    mgr: pve01(active, since 17m), standbys: pve02, pve03
    osd: 6 osds: 1 up (since 19s), 1 in (since 96s)
 
  data:
    pools:   2 pools, 33 pgs
    objects: 281 objects, 1.0 GiB
    usage:   1.1 GiB used, 119 GiB / 120 GiB avail
    pgs:     33 active+clean
 
root@pve01:/mnt/test# ceph osd tree
ID  CLASS  WEIGHT   TYPE NAME       STATUS  REWEIGHT  PRI-AFF
-1         0.70312  root default                             
-3         0.23438      host pve01                           
 0    ssd  0.11719          osd.0       up   1.00000  1.00000
 1    ssd  0.11719          osd.1     down         0  1.00000
-5         0.23438      host pve02                           
 2    ssd  0.11719          osd.2     down         0  1.00000
 3    ssd  0.11719          osd.3     down         0  1.00000
-7         0.23438      host pve03                           
 4    ssd  0.11719          osd.4     down         0  1.00000
 5    ssd  0.11719          osd.5     down         0  1.00000
root@pve01:/mnt/test# python3 ~/fio-cdm/fio-cdm
tests: 5, size: 1.0GiB, target: /mnt/test 175.8MiB/20.0GiB
|Name        |  Read(MB/s)| Write(MB/s)|
|------------|------------|------------|
|SEQ1M Q8 T1 |     1153.07|      515.29|
|SEQ1M Q1 T1 |      447.35|      142.98|
|RND4K Q32T16|       99.07|       32.19|
|. IOPS      |    24186.26|     7859.91|
|. latency us|    21148.94|    65076.23|
|RND4K Q1 T1 |        7.47|        1.48|
|. IOPS      |     1823.24|      360.98|
|. latency us|      545.98|     2765.23|
root@pve01:/mnt/test#

3. Multiple OSDs, single server benchmarks (Test sequence is 2)（测试顺序是2）

修改crushmap中step chooseleaf firstn 0 type host，将host修改为osd

OSD tree

root@pve01:/etc/ceph# ceph osd tree
ID  CLASS  WEIGHT   TYPE NAME       STATUS  REWEIGHT  PRI-AFF
-1         0.70312  root default                             
-3         0.23438      host pve01                           
 0    ssd  0.11719          osd.0       up   1.00000  1.00000
 1    ssd  0.11719          osd.1       up   1.00000  1.00000
-5         0.23438      host pve02                           
 2    ssd  0.11719          osd.2     down         0  1.00000
 3    ssd  0.11719          osd.3     down         0  1.00000
-7         0.23438      host pve03                           
 4    ssd  0.11719          osd.4     down         0  1.00000
 5    ssd  0.11719          osd.5     down         0  1.00000

result

root@pve01:/mnt/test# python3 ~/fio-cdm/fio-cdm
tests: 5, size: 1.0GiB, target: /mnt/test 175.8MiB/20.0GiB
|Name        |  Read(MB/s)| Write(MB/s)|
|------------|------------|------------|
|SEQ1M Q8 T1 |     1376.59|      397.29|
|SEQ1M Q1 T1 |      442.74|      111.41|
|RND4K Q32T16|      114.97|       29.08|
|. IOPS      |    28068.12|     7099.90|
|. latency us|    18219.04|    72038.06|
|RND4K Q1 T1 |        6.82|        1.04|
|. IOPS      |     1665.27|      254.40|
|. latency us|      598.00|     3926.30|

4. Multiple OSDs, multiple server benchmarks (Test sequence is 1)（测试顺序是1）

OSD tree

root@pve01:/etc/ceph# ceph osd tree
ID  CLASS  WEIGHT   TYPE NAME       STATUS  REWEIGHT  PRI-AFF
-1         0.70312  root default                             
-3         0.23438      host pve01                           
 0    ssd  0.11719          osd.0       up   1.00000  1.00000
 1    ssd  0.11719          osd.1       up   1.00000  1.00000
-5         0.23438      host pve02                           
 2    ssd  0.11719          osd.2       up   1.00000  1.00000
 3    ssd  0.11719          osd.3       up   1.00000  1.00000
-7         0.23438      host pve03                           
 4    ssd  0.11719          osd.4       up   1.00000  1.00000
 5    ssd  0.11719          osd.5       up   1.00000  1.00000

result

tests: 5, size: 1.0GiB, target: /mnt/test 175.8MiB/20.0GiB
|Name        |  Read(MB/s)| Write(MB/s)|
|------------|------------|------------|
|SEQ1M Q8 T1 |     1527.37|      296.25|
|SEQ1M Q1 T1 |      408.86|      106.43|
|RND4K Q32T16|      189.20|       43.00|
|. IOPS      |    46191.94|    10499.01|
|. latency us|    11068.93|    48709.85|
|RND4K Q1 T1 |        4.99|        0.95|
|. IOPS      |     1219.16|      232.37|
|. latency us|      817.51|     4299.14|

结论

可以看到ceph的写入性能（106.43MB/s）与物理磁盘的写入性能（1262.63MB/s）之间的差距是巨大的，甚至RND4K Q1 T1的情况下直接变成了机械硬盘
一个或者多个osd以及一个或者多个机器对ceph的影响并不大（可能是我的集群数量不够）
三个节点构建的ceph集群，会导致磁盘read性能会下降到原来的一半，write性能下降到原来的四分之一甚至更多

附录

一些ssd基准测试结果

Micron_1 100_MTFDDAK1T0TB SCSI Disk Device

G:\fio>python "E:\Programing\PycharmProjects\fio-cdm\fio-cdm"
tests: 5, size: 1.0GiB, target: G:\fio 228.2GiB/953.8GiB
|Name        |  Read(MB/s)| Write(MB/s)|
|------------|------------|------------|
|SEQ1M Q8 T1 |      363.45|      453.54|
|SEQ1M Q1 T1 |      329.47|      404.09|
|RND4K Q32T16|      196.16|      212.42|
|. IOPS      |    47890.44|    51861.48|
|. latency us|    10677.71|     9862.74|
|RND4K Q1 T1 |       20.66|       65.44|
|. IOPS      |     5044.79|    15976.40|
|. latency us|      197.04|       61.07|

SAMSUNG MZALQ512HALU-000L1

root@pve1:/mnt/test# python3 ~/fio-cdm/fio-cdm
tests: 5, size: 1.0GiB, target: /mnt/test 3.4GiB/476.7GiB
|Name        |  Read(MB/s)| Write(MB/s)|
|------------|------------|------------|
|SEQ1M Q8 T1 |     2358.84|     1476.54|
|SEQ1M Q1 T1 |     1702.19|     1291.18|
|RND4K Q32T16|      955.34|     1070.17|
|. IOPS      |   233238.46|   261273.09|
|. latency us|     2193.90|     1957.79|
|RND4K Q1 T1 |       55.04|      229.99|
|. IOPS      |    13437.11|    56149.97|
|. latency us|       73.17|       16.65|

bcache

使用bcache加速后的hdd+ssd混合磁盘ceph架构的测试结果

可以看到read有明显提升，但是write仍然非常差劲

tests: 5, size: 1.0GiB, target: /mnt/test 104.3MiB/10.0GiB
|Name        |  Read(MB/s)| Write(MB/s)|
|------------|------------|------------|
|SEQ1M Q8 T1 |     1652.93|      242.41|
|SEQ1M Q1 T1 |      552.91|       81.16|
|RND4K Q32T16|      429.52|       31.95|
|. IOPS      |   104862.76|     7799.72|
|. latency us|     4879.87|    65618.50|
|RND4K Q1 T1 |       13.10|        0.45|
|. IOPS      |     3198.16|      110.09|
|. latency us|      310.07|     9077.11|

即便是一块磁盘上多个osd也无法解决write问题

详细测试数据：https://www.reddit.com/r/ceph/comments/xnse2j/comment/j6qs57g/?context=3

如果使用VMware vSAN，可以很轻松的让hdd加速到ssd的速度，而且几乎感知不到hdd的存在（并未详细对比，我只是凭感觉的）

其他专业的测试报告分析

我分析比较了几个报告，摘要如下

Proxmox-VE_Ceph-Benchmark-201802.pdf

Proxmox-VE_Ceph-Benchmark-202009-rev2.pdf

Dell_R730xd_RedHat_Ceph_Performance_SizingGuide_WhitePaper.pdf

micron_9300_and_red_hat_ceph_reference_architecture.pdf

pve 201802

从报告中得知，测试规模为 6 x Server，Each server 4 x Samsung SM863 Series, 2.5", 240 GB SSD, SATA-3 (6 Gb/s) MLC.

# Samsung SM863 Series, 2.5", 240 GB SSD
# from https://www.samsung.com/us/business/support/owners/product/sm863-series-240gb/
|Name        |  Read(MB/s)| Write(MB/s)|
|------------|------------|------------|
|SEQ?M Q? T? |      520.00|      485.00|
|RND4K Q? T? |           ?|           ?|
|. IOPS      |    97000.00|    20000.00|

报告结果显示

# 3 Node Cluster/ 4 x Samsung SM863 as OSD per Node
# rados bench 60 write -b 4M -t 16
# rados bench 60 read -t 16 (uses 4M from write)
|Name        |  Read(MB/s)| Write(MB/s)|
# 10 Gbit Network
|------------|------------|------------|
|SEQ4M Q? T16|     1064.42|      789.12|
# 100 Gbit Network
|------------|------------|------------|
|SEQ4M Q? T16|     3087.82|     1011.63|

可以看到网络带宽对性能的影响是巨大的。虽然10 Gbit Network下的性能不足，但是至少读写性能都逼近了带宽极限。然而看看我的测试结果，WRITE非常糟糕(296.25MB/s)

pve 202009

从报告中得知，测试规模为 3 x Server; Each server 4 x Micron 9300 Max 3.2 TB (MTFDHAL3T2TDR); 1 x 100 GbE DACs, in a full-mesh topology

# Micron 9300 Max 3.2 TB (MTFDHAL3T2TDR)
|Name        |  Read(MB/s)| Write(MB/s)|
|------------|------------|------------| 
|SEQ128KQ32T?|     3500.00|     3100.00| (MTFDHAL12T8TDR-1AT1ZABYY-Micron-LBGA-2022.pdf)
|RND4K Q512T?|     3340.00|      840.00| (根据公式估算,throughput ~= iops * 4k / 1000)
|. IOPS      |   835000.00|   210000.00| (MTFDHAL12T8TDR-1AT1ZABYY-Micron-LBGA-2022.pdf)
|------------|------------|------------| 
|RND4K Q1 T1 |            |      205.82| (从报告中得知)
|. IOPS      |            |    51000.00| (从报告中得知)
|. latency ms|            |        0.02| (从报告中得知)

报告结果显示

# MULTI-VM WORKLOAD (LINUX)
# 我不理解Thread和Job有什么区别，文档中也没有标识队列深度
|Name        |  Read(MB/s)| Write(MB/s)|
|------------|------------|------------|
|SEQ4M Q? T1 |     7176.00|     2581.00| (SEQUENTIAL BANDWIDTH BY NUMBER OF JOBS)
|RND4K Q1 T1 |       86.00|       28.99| (根据公式估算)
|. IOPS      |    21502.00|     7248.00| (RANDOM IO/S BY NUMBER OF JOBS)

同样的，RND4K Q1 T1 WRITE测试结果非常糟糕，只有7k iops，而物理磁盘拥有51k iops，这样的差距我感觉是无法接受的。

Dell R730xd report

从报告中得知，测试规模为 5 x Storage Server; Each Server 12HDD+3SSD, 3 x replication 2 x 10GbE NIC

# 从报告中摘抄的测试结果
# Figure 8  Throughput/server comparison by using different configurations
|Name        |  Read(MB/s)| Write(MB/s)|
|------------|------------|------------|
|SEQ4M Q64T1 |     1150.00|      300.00|

这样的情况下SEQ4M Q64T1测试结果中write只有大约300MB/s，这大概只是单块SAS的两倍，也就是2 x 158.16 MB/s (4M blocks)。这让我难以置信，它甚至快过于我的nvme磁盘。不过另一个重要事实是12*5=60块hdd只有300MB/s的顺序写入速度，这样的性能损耗是不是太大了？

Micron report

从报告中得知，测试规模为 3 x Storage Server；Each Server 10 x micron 9300MAX 12.8T，2 x replication ，2 x 100GbE NIC

# micron 9300MAX 12.8T (MTFDHAL12T8TDR-1AT1ZABYY) 物理磁盘测试 
|Name        |  Read(MB/s)| Write(MB/s)| (? 是未给出参数)
|------------|------------|------------|
|SEQ?M Q? T? |    48360.00|           ?| (从报告中摘抄)
|SEQ128KQ32T?|     3500.00|     3500.00| (MTFDHAL12T8TDR-1AT1ZABYY-Micron-LBGA-2022.pdf)
|RND4K Q512T?|     3400.00|     1240.00| (根据公式估算)
|. IOPS      |   850000.00|   310000.00| (MTFDHAL12T8TDR-1AT1ZABYY-Micron-LBGA-2022.pdf)
|. latency us|       86.00|       11.00| (MTFDHAL12T8TDR-1AT1ZABYY-Micron-LBGA-2022.pdf)
|------------|------------|------------|
|RND4K Q? T? |     8397.77|     1908.11| (根据公式估算)
|. IOPS      |  2099444.00|   477029.00| (从报告中摘抄，Executive Summary)
|. latency ms|        1.50|        6.70| (从报告中摘抄，Executive Summary)

在WRITE测试结果如下，

# (从报告中摘抄)
|Name        |  Read(MB/s)| Write(MB/s)|
|------------|------------|------------|
|RND4KQ32T100|           ?|           ?|
|. IOPS      |  2099444.00|   477029.00| (不知道是不是官网报告存在问题，这里居然没有任何性能损耗)
|. latency ms|        1.52|        6.71|

不得不说Micron官方的测试平台过于高端，不是我们中小型企业负担得起。

从结果中得知，WRITE接近于单块物理磁盘性能。那么是否说明，如果只使用单个节点单个磁盘，那么WRITE性能将会下降到477k / 30 = 15.9k iops ? 如果是的话，那这将是sata ssd的性能。

最后的最后，我想了解的问题是：

如何修复ceph中的write性能问题？ceph能不能做到和VMware vSAN同样的性能。
结果中看到全闪存磁盘的性能还不如hdd+ssd，那么如果不使用bcache的话，要怎么做才修复ceph全闪存盘下的性能问题？
对于hdd+ssd架构是否还有更好的方案？

写回答
好问题 0 提建议
追加酬金
关注问题
分享
邀请回答
编辑收藏删除
收藏举报

3条回答默认最新

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
Oops_GTC 2023-02-02 20:27
关注
1.增加OSD数量：在Ceph中，增加OSD数量可以提高写性能。
2.提高内存配置：Ceph需要充足的内存来维护元数据和缓存，因此提高内存配置可以提高写性能。
3.提高网络带宽：Ceph是一个网络存储系统，因此提高网络带宽可以提高写性能。
4.改变Ceph配置参数：改变Ceph的配置参数，如OSD的队列长度等可以提高写性能。
5.检查集群的平衡情况，确保集群中每一个OSD的负载均衡。
6.优化OSD的I/O设置，以提高写入性能，比如使用DirectIO。
7.调整PG数量，以确保每一个OSD上的PG数量适中。
8.增加副本数量，以提高写入的容错能力。
9.使用CEPH预分配的数据存储技术，避免碎片和损坏。

CEPH与VMware vSAN性能比较因人而异，在某些情况下CEPH可以达到与vSAN相当的性能，但在其他情况下则不能。CEPH的弹性和扩展性更高，但vSAN有着更强的管理能力和易用性。因此，应该根据个人的需求和环境来选择合适的存储技术。

对于hdd+ssd架构，更好的方案包括使用Cache Tiering（缓存分层），在普通硬盘上实现读写缓存，以加快访问速度。另一种方案是使用Hybrid Volumes（混合卷），通过将大量数据存储在硬盘上，而将热点数据存储在固态硬盘上，以提高性能。

本回答被题主选为最佳回答 , 对您是否有帮助呢?

解决无用
评论打赏
分享
举报编辑记录

评论

按下Enter换行，Ctrl+Enter发表内容

查看更多回答(2条)

报告相同问题？

关注问题

Ceph读写性能问题，读入快，写出慢云计算
2023-02-02 14:40

回答 3 已采纳 1.增加OSD数量：在Ceph中，增加OSD数量可以提高写性能。2.提高内存配置：Ceph需要充足的内存来维护元数据和缓存，因此提高内存配置可以提高写性能。3.提高网络带宽：Ceph是一个网络存储系统
cephfs创建pvc失败 kubernetes
2023-02-15 09:36

回答 3 已采纳参考一下ChatGPT的分析：可能是cephfs-provisioner的配置有问题，应该检查一下配置，比如ceph的集群信息，username，secret等是否正确。另外，也可以尝试重新部署ce
k8s挂载ceph失败，pod状态一直是ContainerCreating docker 云计算
2017-08-31 09:08

回答 7 已采纳从日志上看，你的mysql pod mount不上指定的pv 1、确认ceph集群可访问；ceph monitors主机上/etc/ceph/ceph.conf加上rbd_default_featu
CEPH文档
2021-08-18 18:04

叫什么名字？的博客提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言提示：这里可以添加本文要记录的大概内容： ...
ceph集群内存不足，关机添加内存，重启后集群挂了分布式运维
2022-11-03 16:37

回答 4 已采纳 ceph 节点维护最好是一个个节点维护，等集群数据同步完成后再维护另一个节点；合理设置副本数，只要 osd 异常数没有达到上限，数据也不会丢失；将异常的osd拉起来，看它能不能自动恢复；参考下这个看能
有了像DAOS 或者Ceph这种分布式对象存储系统，还需要数据库吗分布式数据库
2022-09-01 09:19

回答 1 已采纳需要数据库。以OLTP关系型数据库为例，比如MySQL，除了安全存储数据以外，还会保障业务数据的高并发情况下的快速访问，具有事务特性，表等数据对象更符合外部世界对象。
有没有人回答一下依赖包问题 ubuntu 服务器运维
2023-04-12 11:25

回答 2 已采纳一般会将依赖包放在 /var/cache/apt/archives目录下
1+X 云计算运维选择题分享
2024-06-04 23:57

嘚嘚不冷的博客 25的CIDR块掩码是支持的最小范围；...mysql主从复制是将部分的事物操作写到binlog,slave获取binlog读入自己的中继区，然后再进行。.bashjogout:退出shell时，要执行的命令；.bashjogout:退出shell时，要执行的命令；
k8s使用ceph集群做后端存储，rbd和cephfs的应用场景是什么？
2017-12-06 04:02

回答 2 已采纳 http://tonybai.com/2016/11/07/integrate-kubernetes-with-ceph-rbd/
pveceph osd删除异常无法加回 debian 服务器运维
2023-02-11 20:47

回答 2 已采纳如果您想要将该OSD重新加入到ceph集群，您需要以下步骤： 1.确保删除OSD的过程是正确的：在删除OSD之前，请确保已经对OSD执行了正确的删除操作，并且已经恢复了其他所有OSD，以确保ceph集
CentOS7安装了libstdc++还是装不了rpm，依然提示缺少libstdc++依赖，什么鬼？ centos linux
2019-11-07 09:09

回答 2 已采纳 centos安装或者编译软件的时候报错，比如说缺少xxx，但是你明明用yum安装了xxx软件，这个时候就要再用yum安装xxx-devel，你可以先用这个思路试试。
1+X 云计算平台运维与开发（初级）
2022-06-11 23:16

weixin_57833188的博客 A、得到正式验收、解散团队、写出经验教训、结束合同 B、写出经验教训、解散团队、得到正式验收、结束合同 C、得到正式验收、写出经验教训、解散团队、结束合同(正确答案) D、得到正式验收、结束合同、写出经验教训...
openstck cinder-volume 无法启动向大咖问开源
2021-03-18 11:31

回答 1 已采纳已自己解决。查看了日志中报错的ceph卷volume-c2d4fcb5-285e-4365-9d0e-66fec2c871d3，发现确实有问题，无法查看该卷信息，移动，复制均无法完成，然后删除了这个卷
1+x云计算练习题（220）
2020-11-12 09:08

梦里春风不是梦的博客 1.在OSI模型中，HTTP协议工作在第（7）层，交换机工作在第（2）层（B） A.7/3 B.7/2 C.6/3 D.6/2 2.Linux有三个查看文件的命令，若希望在查看... 写出经验教训、解散团队、得到正式验收、结束合同 C.得到正式验收、写...
云计算
2020-06-23 11:07

wql182的博客 A、得到正式验收、解散团队、写出经验教训、结束合同 B、写出经验教训、解散团队、得到正式验收、结束合同 C、得到正式验收、写出经验教训、解散团队、结束合同 (正确答案) D、得到正式验收、结束合同、写出...
没有解决我的问题, 去提问

问题事件

关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
系统已结题 2月19日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
已采纳回答 2月11日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
修改了问题 2月2日
关注

码龄粉丝数原力等级 --

被采纳

被点赞

采纳率
创建了问题 2月2日

悬赏问题

¥15 latex投稿显示click download
¥15 请问读取环境变量文件失败是什么原因？
¥15 在若依框架下实现人脸识别
¥15 网络科学导论，网络控制
¥100 安卓tv程序连接SQLSERVER2008问题
¥15 利用Sentinel-2和Landsat8做一个水库的长时序NDVI的对比，为什么Snetinel-2计算的结果最小值特别小，而Lansat8就很平均
¥15 metadata提取的PDF元数据，如何转换为一个Excel
¥15 关于arduino编程toCharArray()函数的使用
¥100 vc++混合CEF采用CLR方式编译报错
¥15 coze 的插件输入飞书多维表格 app_token 后一直显示错误，如何解决？

Ceph读写性能问题，读入快，写出慢

Ceph读写性能问题，读入快，写出慢

测试服务器参数（这不重要）：

测试虚拟机参数 x 3 (三台虚拟机是一样的参数)：

基准测试工具:

环境构建步骤:

环境测试:

基准测试分类:

基准测试结果（Ceph和系统没有进行过任何调优，没有使用bcache加速）

1. Physical Disk Benchmark (Test sequence is 4)（测试顺序是4）

2. Single osd, single server benchmark (Test sequence is 3)（测试顺序是3）

3. Multiple OSDs, single server benchmarks (Test sequence is 2)（测试顺序是2）

4. Multiple OSDs, multiple server benchmarks (Test sequence is 1)（测试顺序是1）

结论

附录

一些ssd基准测试结果

Micron_1 100_MTFDDAK1T0TB SCSI Disk Device

SAMSUNG MZALQ512HALU-000L1

bcache

其他专业的测试报告分析

pve 201802

pve 202009

Dell R730xd report

Micron report

最后的最后，我想了解的问题是：

3条回答 默认 最新

问题事件

悬赏问题

3条回答默认最新