Skip to content

运维监控指导手册

概述

版本

软件名称版本说明
chinlink-edi-core.jar25.1.1164.423畅链核心库
chinlink-edi-ultron.jar25.1.1164.1181畅链数据集成平台

应用场景

针对常见的运维监控诉求场景,给出现有的运维监控功能方案介绍,帮助客户快速实现对于畅链数据集成平台。 方案适用于已经完成部署的畅链数据集成平台,将会展开介绍畅链数据集成平台的日常维护、管理和监控方式。

功能简介

畅链数据集成平台对系统有一定的配置要求,如果配置不符合要求可能出现使用异常、宕机等风险,因此需要定期对环境及应用的配置情况进行检测,以确保应用的健康运行。 同时管理员需要关注应用的运行状况,及时通过运维手段规避风险或在问题发生后定位并进行排除,实现应用的持续高可用。

主要配置文件及说明

本章主要介绍畅链数据集成平台内的主要配置文件信息及其详细说明。

主配置文件位置

${CHINLINK_HOME}/application.yaml

文件内容

配置系统的主要内容,包括数据库,端口,日志等。

文件关键信息

application.yaml文件中,常见配置关键字与其内容对于关系如下。

关键字说明
spring.datasource.url数据库连接地址
spring.datasource.username数据库用户名
spring.datasource.password数据库密码
server.address服务器地址
server.port服务器端口

系统巡检

建议管理员对系统进行定期巡检,确保应用所在的环境及应用内配置合理,以保证应用的正常运行。 巡检内容包括端口检查、网络服务检查、存储服务检查、环境配置检查以及业务配置检查。

端口检查

畅链数据集成平台正常使用过程中,需要服务器开放一些端口,因此需要对这些端口进行检查是否开放,避免出现系统功能异常。

分类端口说明
Ultron 端口默认8480畅链数据集成平台端口
AS2 端口用户指定AS2服务端口
SFTP 端口用户指定SFTP服务端口
OFTP2 端口用户指定OFTP2服务端口
HTTP 端口用户指定HTTP服务端口

网络服务检查

使用telnet 命令检查端口是否开放。

bash
telnet 127.0.0.1 8480

使用tracert命令检查路由和丢包情况

bash
tracert 127.0.0.1

网络监控软件

可以使用 Uptime Kuma 作为端口监听的服务器来监控端口是否正常。具体的Uptime Kuma安装及使用方法,请参考官方网站。

存储服务检查

磁盘性能检查

检查原因:

磁盘读取性能及磁盘写入性能会对畅链数据集成平台的业务产生影响,因此需要关注磁盘的性能和使用情况。 若系统使用了高频并大文件的报文服务,那么对于磁盘的读写性能有一定的要求,建议磁盘的写入速度需要在100M/s以上,否则可能影响业务的正常运行。

检查方法

Windows系统
性能监视器(Performance Monitor)
  1. Win + R 打开运行窗口,输入 perfmon.msc 并回车。
  2. 在左侧导航栏中,展开 “性能监视器”,然后选择 “添加计数器”
  3. “添加计数器” 窗口中,找到与磁盘相关的计数器,例如: • PhysicalDisk% Disk Time(磁盘使用率) • LogicalDisk\Average Disk Queue Length(磁盘队列长度) • LogicalDisk\Read Bytes/sec(读取速度) • LogicalDisk\Write Bytes/sec(写入速度)
  4. 选择需要的计数器后点击 “添加”,然后点击 “确定”
  5. 系统会实时显示磁盘的读写性能数据。
资源监视器(Resource Monitor)
  1. Ctrl + Shift + Esc 打开任务管理器。
  2. 切换到 “性能” 选项卡,点击底部的 “打开资源监视器”
  3. 在资源监视器中,切换到 “磁盘” 选项卡,可以查看磁盘的读写速度、活动进程等信息。
Linux系统

iostat命令

安装 iostat

如果系统中没有安装 iostat,可以通过以下命令安装:

  • 对于基于 Debian/Ubuntu 的系统:
bash
sudo apt update
sudo apt install sysstat
  • 对于基于 CentOS/RHEL 的系统:
bash
sudo yum install sysstat
  • 对于基于 Fedora 的系统:
bash
sudo dnf install sysstat

安装完成后,确保启用 sysstat 服务以收集数据:

bash
sudo systemctl enable sysstat
sudo systemctl start sysstat
查询磁盘读取负载情况
bash
iostat -xm

以M为单位展示详细的磁盘读取负载情况,需要特别关注以下四个参数:

  • w_await:平均每次写I/O操作的等待时间
  • r_await:平均每次读I/O操作的等待时间
  • %util: 一秒中有百分之多少的时间用于 I/O 操作,即被io消耗的cpu百分比
  • %iowait:CPU等待输入输出完成时间的百分比

w_await和r_await这两个值越高,说明写入/读取需要等待的时间越长

%util和%iowait这两个值越高,说明当前系统的磁盘使用率非常高,且cpu大部分时间处于等I/O的状态,这个时候,往往说明I/O遇到了瓶颈,此时建议提升磁盘性能

磁盘剩余空间检查

检查原因

随着畅链数据集成平台的运行,可能会产生越来越多的日志、备份、缓存文件等,对于磁盘空间的占用也会渐渐变大,如果不关注磁盘剩余空间可能出现磁盘空间不足导致系统运行受影响,严重时甚至会导致宕机。

管理员需要关注db更新目录、data目录、备份目录、logs目录所在磁盘的剩余空间情况,如以上几个目录所在磁盘剩余空间较小时,建议进行磁盘清理或扩容,确保有充足的空间保证畅链数据集成平台的正常运行。

定期清理畅链数据集成平台中的过期或无效内容,保持磁盘空间的健康。

检查方法

使用磁盘工具检查所剩空间。

内存配置检查

建议值

频度(报文/每天)并发数(报文/分钟)推荐配置最低配置
1-10001-100单机:
CPU: 4核 2GHz
内存: 4G
单机:
CPU: 2核 2GHz
内存: 2G
1000-100001-100单机:
CPU: 8核 2GHz
内存: 16G
单机:
CPU: 4核 2GHz
内存: 8G
1000-10000100-1000双节点:
CPU: 8核 2GHz
内存: 16G
单机:
CPU: 4核 2GHz
内存: 8G

JER版本

建议使用JRE 17-LTS 及以上版本

基本维护

在应用日常的正常运行过程中,维护事务相对简单,在有需要的时候能够查看应用的运行日志,或查看应用的各项监控指标是否存在异常即可

日志查看

以下时畅链数据集成平台的几类日志:

日志类型存储位置说明
系统日志${CHINLINK_HOME}/data/logs系统日志,记录系统运行时的各种信息,如:启动、停止、异常等。
AS2 业务日志${CHINLINK_HOME}/data/projects/<database_id>/<project_id>/daemons/as2-daemon/logsAS2 业务日志,记录AS2业务运行时的各种信息,如:接收、发送、异常等。
OFTP2 业务日志${CHINLINK_HOME}/data/projects/<database_id>/<project_id>/daemons/oftp2-daemon/logsOFTP2 业务日志,记录OFTP2业务运行时的各种信息,如:接收、发送、异常等。
SFTP 业务日志${CHINLINK_HOME}/data/projects/<database_id>/<project_id>/daemons/sftp-daemon/logsSFTP 业务日志,记录SFTP业务运行时的各种信息,如:接收、发送、异常等。
HTTP 业务日志${CHINLINK_HOME}/data/projects/<database_id>/<project_id>/daemons/http-daemon/logsHTTP 业务日志,记录HTTP业务运行时的各种信息,如:接收、发送、异常等。
操作日志${CHINLINK_HOME}/data/projects/<database_id>/<project_id>/daemons/tasks/<group_id>/<task_id>/logs操作日志,记录操作运行时的各种信息,如:接收、发送、异常等。

如何通过畅链数据集成平台快捷运维

使用日志查看页面,查看当前日志

查看日志

监控指标

指标说明

运维人员主要需要关注以下各指标是否存在异常:

指标监控内容
内存通过命令行或可视化查看服务器的内存使用情况,是否出现内存占用过高(80%及以上)
CPU通过命令行或可视化查看服务器的CPU使用情况,是否出现CPU占用过高(80%及以上)
磁盘空间通过命令行或可视化查看畅链数据集成平台所在磁盘目录的磁盘空余情况,是否磁盘剩余空间过小(不足10GB)
网络通过命令行或可视化查看服务器的网络情况,是否出现网络延迟(延迟大于100ms)
报文状态通过畅链数据集成平台监控报文运行情况
监控信息

通过畅链数据集成平台监控报文运行情况

监控信息

通过 Uptime Kuma 软件监控网络连通情况

网络状态

异常维护

异常警告

如需畅链数据集成平台的异常及时感知,需实现畅链数据集成平台各项指标的监控告警,实现的方案有以下几点建议:

  • 如使用的是云服务器(如阿里云、华为云等),可使用云服务厂商提供的监控类云服务,对服务器的资源异常进行监控。
  • 服务器运行异常时将提醒运维人员。

管理员登录畅链数据集成平台,配置运行异常邮件服务,发送提醒给运维人员。

宕机处理

当应用出现异常时,宕机可能会随之发生,此时为了业务的可用,需要快速恢复应用,同时应尽量保存宕机时刻的日志信息,方便进行宕机原因定位及风险排除,避免再次出现类似异常。对于宕机,应进行以下运维动作:

  • 保证系统环境有jdk工具,当应用发生宕机时,及时导出dump文件

    • 首先,找到 Java 进程的 PID(进程 ID):
      bash
      jps -l
    • 然后使用 jmap 生成堆转储文件:
      bash
      jmap -dump:format=b,file=/path/to/dumpfile.hprof <pid>
  • 在宕机发生后自行通过dump分析宕机原因或联系技术支持协助定位,并尽快排除宕机风险。

  • 针对宕机场景,管理员登录畅链数据集成平台,配置自启动服务器,确保宕机重启后服务自动运行。

备份和升级

备份还原

畅链数据集成平台需要定期进行备份,以确保在用户误操作、版本回退等场景下能够及时恢复,备份及还原方式如下:

  • 使用导出功能导出项目配置文件

导出配置文件

  • 使用自动备份功能备份数据

自动备份数据

更新升级

畅链数据集成平台会持续不断的迭代更新,可能增加新的功能或针对历史版本存在的问题进行修复,为了能获得更好的功能体验,客户往往也要跟随更新版本,本章仅介绍小版本升级方式,大版本升级请联系畅链数据技术人员进行协助,升级前需确保已进行备份操作,保证升级过程或升级后出现异常可以及时恢复可用状态不至于造成损失,备份方法可参考上一节。

  • 人工更新安装包:用户可以获取 JAR 包后手动替换更新, linux 系统和 windows 系统下操作方式一致。
  • 替换服务器工程 ${CHINLINK_HOME}/setup/下的老包,重启服务器。
  • 在新系统中点击“升级”按钮,更新配置文件

更新配置文件