智算交维工程师-安徽招聘网

联系方式

联系人：中国联合网络通信有限公司安徽省分公司

联系电话：152****5633

打电话联系前先投递一份简历，面试成功率提高60%！

(联系我时，请说是在安徽易职邦上看到的)

职位描述

任职要求一、学历要求普通高等院校本科及以上学历，并具有相应学位二、专业要求计算机类、电子信息类相关专业三、专业技能 1.具备2年以上数据中心或智算/超算中心交付与运维经验，具备大规模（千卡级）GPU集群实际交付经验。 2.算力与硬件：熟悉 NVIDIA A/H/L 系列及国产 GPU（海光 DCU、寒武纪 MLU、壁仞 BR、沐曦 C500 等）驱动安装、环境配置与基础调优（CUDA/ROCm）。 3.系统与平台：精通Linux、国产操作系统系统运维，掌握Docker/Kubernetes容器化技术，熟悉虚拟化（如VMware）及分布式存储。熟悉Shell/Python/Go 脚本自动化，使用PXE/Redfish/IPMI 批量部署。 4.存储架构与运维：精通分布式/并行存储系统（如Ceph, Lustre, GPFS, NFS, HDFS, S3/Swift对象存储）的规划、部署、配置、监控、性能调优（含NVMe-oF）、高可用设计及日常运维管理;熟悉块存储、文件存储、对象存储的核心协议及操作; 具备大规模存储集群容量规划、数据保护及迁移方案设计与实施能力; 能针对存储运维需求进行脚本开发，实现自动化操作。 5.网络与通信：熟悉数据中心网络拓扑设计；熟练掌握IB/RoCEv2网络规划、部署与基础调优；熟悉NCCL/MPI通信优化；有NVIDIA/Mellanox交换机配置经验者优先。 6.工具与自动化：熟练掌握Ansible等自动化配置工具；精通Prometheus+Grafana、Zabbix/Nagios等监控告警系统的部署与应用。 7.集群管理：具备Kubernetes (Kubeflow)、Slurm等集群调度平台及NVIDIA GPU Operator的部署和运维经验。 8.文档能力：能够独立编写清晰、准确、实用的技术文档（SOP、交付手册、故障报告）。 9.认证优先：持有RHCE、CKA、HCIE（Datacom/Cloud Computing）、CCIE（DC）、CISP、或存储/云计算相关认证（如PureStorage, DDN, 云厂商存储专项），或国产GPU调优经验者优先。四、综合素质要求： 1. 具有较强进取心、开拓意识，良好的沟通能力和较强的团队协作意识岗位职责一、负责硬件上架、系统/容器/AI 软件部署和 GPU 调优，确保算力项目按期验收。二、对 GPU 单卡与集群算力、IB/RoCE 网络、并行存储进行基准测试并出具验收报告。三、实时跟踪 GPU、网络、存储关键指标，保障集群可用性，建立并执行故障响应流程，快速定位并恢复服务，沉淀运维知识库。四、负责不同存储系统的端到端管理，包括需求分析、方案设计（如混合存储架构规划）、集群部署（如千卡级GPU算力配套存储）、性能优化（如NVMe-oF协议调优）及全生命周期运维，保障数据可靠性与系统稳定性，支撑AI/智算业务的高效运行五、为产品测提供资源调度等调优支持，提升模型训练效率。六、输出部署手册、运维指南、故障 SOP，确保团队标准化作业。