从GlusterFS数组失败服务器恢复

推荐编辑

前段

增删GlusterFS服务器

文章显示单服务器失效时恢复方式如下:

添加新服务器并开IP地址取代它(低工作强度修复法)。
添加新服务器但保留失效服务器IP地址

完成后前一段glusterFS数组至少有两个节点并知道如何增删节点

预设条件

为了文章的目的,你必须运行四节点,完全复制Gluster卷

填充GlusterFS数组测试假数据

添加替换服务器

假设web03失效,但用IP地址添加新节点192.168.5替换这种方法比添加新服务器更容易,IP地址与失败服务器相同

文章显示两种灾难恢复形式

单节点下降,你加一个新的节点取代它
单节点下降重构并保留IP-结果证明更多工作修复

添加替换节点

假设web03会再次下降, 但你会添加一个新节点192.168.5替换它这种方法容易得多

使用运行服务器之一将新切入集群
```
root@gluster对等探针
```
交换新块失败块
```
root/srv/.bricks/
```

恢复系统

root:++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

获取进度信息愈合操作 :

root/gluster卷解析rick192.168.4:/srv/.bricks/www数项:23/wordpress/wp-admin/upload.ph

运行分布式系统时运行下列命令:

root@gluster量再平衡wwwfix-layout启动量再平衡:ID: 0a9719c1-cf04-4161-b3b0-cc6fd8dd9108 root@matt:~# gluster volume rebalance www status  Node      Rebalanced-files          size       scanned      failures       skipped         status run time in secs ---------      -----------   -----------   -----------   -----------   -----------   ------------   -------------- localhost                0        0Bytes             0             0             0      completed             1.00  localhost                0        0Bytes             0             0             0      completed             1.00  192.168.0.2              0        0Bytes             0             0             0      completed             1.00  192.168.0.4              0        0Bytes             0             0             0      completed             1.00  192.168.0.4              0        0Bytes             0             0             0      completed             1.00  192.168.0.5              0        0Bytes             0             0             0      completed             1.00  volume rebalance: www: success:

保留IP地址

服务器web03使用IP地址192.168.3崩溃完全无法恢复

恢复使用新服务器同IP地址向GlusterFS提供失败服务器并自愈并重平衡卷入GlusterFS

参考前几篇文章了解构建和配置替换服务器

变换 web03服务器失败

搭建新服务器,安装GlusterFS并准备磁盘砖

向服务器端点UUID失败服务器要获取UUID,运行运行服务器之一命令(如web01):

root@web01:~# grep 192.168.0.3 /var/lib/glusterd/peers/*/var/lib/glusterd/peers/ba502dc2-447f-466a-a732-df989e71b551:hostname1=192.168.0.3

文件名拷贝(即Web03UUID原创版)上例中为:ba502dc2-447f-466a-a732-df989e71b551.
分配失效服务器UUID到新服务器
1. 停止Gluster守护程序
  root+3服务glusterfs-server
  glusterfs-server停止/等待
2. 替换生成节点UUID光栅化配置文件 :
  root@web03:~# UUID=ba502dc2-447f-466a-a732-df989e71b551
  root/lib/glusterd/glusterd.info
  root@web03:~# cat /var/lib/glusterd/glusterd.info
  UUID=ba502dc2-447f-466a-a732-df989e71b551
  operating-version=2
注释 :上头ba502dc2-447f-466a-a732-df989e71b551UUID实例UUID需要从失败服务器中用UUID替换它(Web01所记住)。

重开服务器 :

root03服务glusterfs-server启动glusterfss-server启动/运行

重配置端点服务器

新建服务器上检查其他服务器可见度

root@web03:+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

等端服务器不可见时, 您必须明文加法 :

rootweb03:+++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++

运行gluster端点状态web03上再次命令响应应该是:状态:接受对等请求

重开守护程序一次, 端点服务器应可见性 :

glusterfs-server Startglusterfs-server启动/运行,进程9123root@web03:gluster同侪状态数

同步音量

检查卷状态 :
```
root@web03:#gluster卷状态
```

从对等服务器获取卷数 :

root@web03:gluster卷同步192.168.2继续吗?y量同步:成功

文件系统按序排列下例中,砖存储/srv/.bricks/www:
```
root03:#mkdir/srv/.bricks/
```
转到运行服务器中安装attr并获取正确的卷号ID
```
root@web02:#apt-get安装atr-yroot/bricks/srv/.bricks/
```
卷ID字符串复制到剪贴板举个例子,它就是0s42V5HW+LSuyzqotW1jgAhA==.

替换服务器上应用扩展属性

root@web03:#apt-get安装atr-yroot03:#stuttr-n可信.grusterfs.vs42V5HW+LSUYZQOTW

重开服务器并恢复系统

glusterfs-server停止/等待glusterfs-server启动/运行

获取进度信息愈合操作.新建服务器应按预期运行

root/gluster卷解析 wwwinfo集合Heal信息流成功brick192.168.0.1:/srv/.bricks/www项目数:0brick192.168.02:/srv/.bricks/www项数:0brick192.168.03:/srv/.bricks/

结论

学习从GlusterFS数组失败服务器恢复

更新 29天前