摘要:目前,DWS支持NBU介质备份的恢复。 本文介绍了如何对DWS和NBU备份进行故障排除。 本文来源于华为云社区《DWS对接NBU备份故障排除指南》,作者:唐伯虎点蚊香。

NetBackup是Veritas的软件产品,为各种平台提供完整、灵活的数据保护解决方案。 这些平台包括Microsoft Windows、UNIX和Linux等系统。 NetBackup允许备份、归档和恢复计算机上的文件、文件夹或目录、卷或分区。 目前,DWS支持NBU介质备份的恢复。 本文介绍了如何对DWS和NBU备份进行故障排除。

部署方式如果已有三节点DWS群集,roach(dws备份工具)会通过TCP将自身节点的群集数据发送到远程NBU Media Server计算机。 在每个NBU Media Server上同时安装nbu客户端并部署roach客户端组件。 后者接收来自集群中Roach进程的备份数据,通过XBSA接口将其传输到本机NBU客户端,完成NBU备份。 恢复过程也是如此,但数据流相反。

在DWS备份过程中,常见故障主要来自以下三个方面:

Roach agent :通过直接查看群集节点上的群集备份日志$GAUSSLOG/roach/,名为Roach client:的插件主要负责发送和接收数据,并在日志路径启动时提供- l papper

GS _ roachuploadmeta—media-destination ‘ nbu _ policy ‘—metadata-destination ‘/home/ruby/meta ‘

–media-destination是NBU策略名称

–backup-key指定任意的时间戳即可

–media-server是任何一个部署了roach client插件的ip地址

–client-port是为roach client开放的端口

–metadata-destination指定上载的文件路径。 测试上传文件名为metadata.tar.gz,位于/home/Ruby/meta目录下,而不是/home/Ruby目录下

如果备份成功,则说明连接的media server配置没有问题,如果备份失败,则说明NBU端配置有问题,因此必须按照以下说明找出原因。

定义故障排除的第一步是定义问题。 在NBU系统的安装、配置和运行过程中,如果出现与预期结果不同的正确结果,则可能存在故障; 在某些情况下,你需要知道正确的情况应该是什么样的。

NBU交付和使用中常见的故障主要分为种类:

一个是软件的安装和配置阶段,如软件安装不成功、对接不成功、某个模块的功能不能使用等,这一阶段的错误一般没有具体的错误代码,要结合交货者的经验和系统日志此类故障属于一次性故障,排除后不太可能再次出现。

二是系统部署完成后,数据备份业务上线,备份和恢复任务包括访问客户端失败、存储单元数据写入失败、客户端服务器丢失等这种故障控制台提供错误代码,维护人员可以根据错误进行初步定位。 这种故障是一种日常故障,与环境中的许多因素有关,如果备份系统本身以外的业务环境发生细微变化,就可能发生故障。

要在故障诊断过程中解决问题,需要知道发生了什么错误。

错误消息通常是一种指示故障发生在何处的手段。 所以,我们应该做的第一件事是寻找错误信息。 如果界面上没有显示错误消息,但怀疑还有问题,请检查报告和日志。 NetBackup提供了广泛的报告和日志工具,可提供直接指示解决方案的错误消息。 日志还显示正常运行的内容,以及出现问题时NetBackup正在执行的操作。

综上所述,NBU备份和恢复的故障排除步骤如下。

1 .验证服务器和客户端是否正在运行支持的操作系统或APP应用程序版本; 具体信息请参考NBU兼容性列表;

2、再现故障,获取故障信息; 获取信息的途径有错误代码、作业详细信息、日志等;

3、根据获取的信息进行故障定位和排除

使用故障排除方法状态代码的每个备份和恢复任务都是活动的,可以在“活动监视器”栏中进行监视。 任务监视显示任务的ID、执行的操作、状态、返回值、服务器和客户端是谁,以及通过哪个Policy和Schedule执行的。

具体可以显示任务多长时间取决于NetBackup全局属性的设置。 每个任务都具有以下状态:

Queued任务位于活动任务的队列中。 Done任务正在运行。 在activity运行期间,所有任务都已完成

务结果都对应着一个状态代码,0代表成功,非0代表故障。返回值是一个非常有用的参数,通过返回值,可以通过错误代码查找手册中建议的相关调整建议,这对于问题检查和性能调整是非常有用的。页面中获取位置如下:

以下链接提供了NBU备份任务status code list:

https://www.veritas.com/content/support/en_US/doc/44037985-127664609-0/v15096675-127664609

根据获取到的status code可以初步定位错误原因

使用Job details

与状态码类似,Job details与activity也是一对一;不同的是,Job details比状态码提供的信息更多,对于常见的故障,使用Job details可以完成故障的原因定位和排除。

双击一个activity,选择detailed status,在status一栏即可获取更多的细节信息。找到关键错误信息(通常是红色字体或红色字体的上下文),提炼出关键字,在google上搜索,互联网上有大量的相同错误场景和解决办法。

使用日志

以上使用状态码和Job details进行故障排除的办法停留在初级阶段,通常只对简单故障有效;对于复杂问题,如果解决不了则需要搜集日志进行分析。

在NBU系统中,日志级别共分为6级,分别为0-5,以下为日志级别对应的要记录的信息:

0:非常重要的少量诊断消息和调试消息

1:该级别增加详细的诊断消息和调试消息

2:增加进度消息

3:增加提示性转储消息

4:增加功能进入和退出消息

5:最详细的信息:记录所有信息

日志等级调整方式如下:

1、console界面调整

2、vi /usr/openv/netbackup/bp.conf, 在末尾调加如下配置

VERBOSE = 5

NBU系统针对每一个进程都有一个独立的目录来存放,但是在默认情况下不创建,所有如果想要搜集这些日志,工程师需要手动创建这些目录。目录格式为/usr/openv/netbackup/logs/进程名;以bpcd程序为例,执行以下命令创建子目录:

mkdir /usr/openv/netbackup/logs/bpcd

或者使用NBU提供的批量创建脚本,一键创建所有日志目录,执行以下命令:

sh /usr/openv/netbackup/logs/mklogdir

在搜集日志时,NBU针对性地为每个进程创建一个日志子目录,来实现进程级别的日志分析,那么我们需要先知道NBU常用的进程有哪些:

admin:管理命令。

bpbrm:NetBackup 备份和还原管理器。

bpcd:NetBackup client后台驻留程序或管理器。

bpdm:NetBackup 磁盘管理器。

bpdbm:NetBackup 数据库管理器。此进程仅在主服务器上运行。

bprd:NetBackup 请求管理器,对客户机和备份、恢复、归档等管理请求作出响应。

vnetd:Veritas 网络后台驻留程序。

bpbackup:在UNIX client上,当用户启动备份时,此程序与主服务器上的bprd通信。

在获取了日志之后,在各个文件中搜索fail、error、can not、freeze等关键字,进行故障原因定位

NBU常用维护命令

用命令行启动netbackup服务进程

/usr/openv/netbackup/热心的蜻蜓/bp.start_all

用命令行停止netbackup服务进程

/usr/openv/netbackup/热心的蜻蜓/bp.kill_all

用命令行清除host缓存

/usr/openv/netbackup/热心的蜻蜓/bpclntcmd -clear_host_cache # 清除缓存cd /usr/openv/var/host_cache/ # 清除临时文件rm –rf tmpmkdir tmpmv * tmp

用命令行检测master和client连通性

/usr/openv/netbackup/热心的蜻蜓/admincmd/bptestbpcd -client client_hostname

若可以连通,返回结果类似如下:

NBU master server与NBU client 通信问题

在client和master server上互相telnet对方的备份管理平面IP的1556、1372、13782三个端口,确认client服务器与master server通信正常

netstat –an | grep 1556netstat –an | grep 1372netstat –an | grep 13782

检查NBU服务及进程

/usr/openv/netbackup/热心的蜻蜓/./bpps -x

Media server不是认证的主机

此为client上对media server的信任配置问题。在console上点击host properties>client,找到故障客户端,双击client,在弹出界面点击servers一栏,在additional server配置中添加media server的主机名

存储单元不可用

出现“存储单元不可用”故障信息可能有以下几种情况:

1、存储单元已满

2、此存储单元上处于排队状态的备份任务过多

3、client与存储单元归属的media server无法通信

想了解GuassDB(DWS)更多信息,欢迎微信搜索“GaussDB DWS”关注微信公众号,和您分享最新最全的PB级数仓黑科技,后台还可获取众多学习资料哦~

点击关注,第一时间了解华为云新鲜技术~