欢迎访问安徽招聘网!本站为找工作者提供合肥人才市场招聘信息、安徽人才网发布最新宿州、淮北、阜阳、合肥、蚌埠、淮南、滁州、六安、马鞍山、铜陵、黄山等岗位招聘信息!


职位月薪: 面议
任职要求 一、学历要求 普通高等院校本科及以上学历,并具有相应学位 二、专业要求 计算机类、电子信息类相关专业 三、专业技能 1.具备2年以上数据中心或智算/超算中心交付与运维经验,具备大规模(千卡级)GPU集群实际交付经验。 2.算力与硬件:熟悉 NVIDIA A/H/L 系列及国产 GPU(海光 DCU、寒武纪 MLU、壁仞 BR、沐曦 C500 等)驱动安装、环境配置与基础调优(CUDA/ROCm)。 3.系统与平台:精通Linux、国产操作系统系统运维,掌握Docker/Kubernetes容器化技术,熟悉虚拟化(如VMware)及分布式存储。熟悉Shell/Python/Go 脚本自动化,使用PXE/Redfish/IPMI 批量部署。 4.存储架构与运维:精通分布式/并行存储系统(如Ceph, Lustre, GPFS, NFS, HDFS, S3/Swift对象存储)的规划、部署、配置、监控、性能调优(含NVMe-oF)、高可用设计及日常运维管理;熟悉块存储、文件存储、对象存储的核心协议及操作; 具备大规模存储集群容量规划、数据保护及迁移方案设计与实施能力; 能针对存储运维需求进行脚本开发,实现自动化操作。 5.网络与通信:熟悉数据中心网络拓扑设计;熟练掌握IB/RoCEv2网络规划、部署与基础调优;熟悉NCCL/MPI通信优化;有NVIDIA/Mellanox交换机配置经验者优先。 6.工具与自动化:熟练掌握Ansible等自动化配置工具;精通Prometheus+Grafana、Zabbix/Nagios等监控告警系统的部署与应用。 7.集群管理: 具备Kubernetes (Kubeflow)、Slurm等集群调度平台及NVIDIA GPU Operator的部署和运维经验。 8.文档能力: 能够独立编写清晰、准确、实用的技术文档(SOP、交付手册、故障报告)。 9.认证优先: 持有RHCE、CKA、HCIE(Datacom/Cloud Computing)、CCIE(DC)、CISP、或存储/云计算相关认证(如PureStorage, DDN, 云厂商存储专项),或国产GPU调优经验者优先。 四、综合素质要求: 1. 具有较强进取心、开拓意识,良好的沟通能力和较强的团队协作意识 岗位职责 一、负责硬件上架、系统/容器/AI 软件部署和 GPU 调优,确保算力项目按期验收。 二、对 GPU 单卡与集群算力、IB/RoCE 网络、并行存储进行基准测试并出具验收报告。 三、实时跟踪 GPU、网络、存储关键指标,保障集群可用性,建立并执行故障响应流程,快速定位并恢复服务,沉淀运维知识库。 四、负责不同存储系统的端到端管理,包括需求分析、方案设计(如混合存储架构规划)、集群部署(如千卡级GPU算力配套存储)、性能优化(如NVMe-oF协议调优)及全生命周期运维,保障数据可靠性与系统稳定性,支撑AI/智算业务的高效运行 五、为产品测提供资源调度等调优支持,提升模型训练效率。 六、输出部署手册、运维指南、故障 SOP,确保团队标准化作业。
微信扫一扫,及时了解投递状态
您目前还没有登录:立即登录任职要求 一、学历要求 普通高等院校本科及以上学历,并具有相应学位 二、专业要求 计算机类、电子信息类相关专业 三、专业技能 1.具备2年以上数据中心或智算/超算中心交付与运维经验,具备大规模(千卡级)GPU集群实际交付经验。 2.算力与硬件:熟悉 NVIDIA A/H/L 系列及国产 GPU(海光 DCU、寒武纪 MLU、壁仞 BR、沐曦 C500 等)驱动安装、环境配置与基础调优(CUDA/ROCm)。 3.系统与平台:精通Linux、国产操作系统系统运维,掌握Docker/Kubernetes容器化技术,熟悉虚拟化(如VMware)及分布式存储。熟悉Shell/Python/Go 脚本自动化,使用PXE/Redfish/IPMI 批量部署。 4.存储架构与运维:精通分布式/并行存储系统(如Ceph, Lustre, GPFS, NFS, HDFS, S3/Swift对象存储)的规划、部署、配置、监控、性能调优(含NVMe-oF)、高可用设计及日常运维管理;熟悉块存储、文件存储、对象存储的核心协议及操作; 具备大规模存储集群容量规划、数据保护及迁移方案设计与实施能力; 能针对存储运维需求进行脚本开发,实现自动化操作。 5.网络与通信:熟悉数据中心网络拓扑设计;熟练掌握IB/RoCEv2网络规划、部署与基础调优;熟悉NCCL/MPI通信优化;有NVIDIA/Mellanox交换机配置经验者优先。 6.工具与自动化:熟练掌握Ansible等自动化配置工具;精通Prometheus+Grafana、Zabbix/Nagios等监控告警系统的部署与应用。 7.集群管理: 具备Kubernetes (Kubeflow)、Slurm等集群调度平台及NVIDIA GPU Operator的部署和运维经验。 8.文档能力: 能够独立编写清晰、准确、实用的技术文档(SOP、交付手册、故障报告)。 9.认证优先: 持有RHCE、CKA、HCIE(Datacom/Cloud Computing)、CCIE(DC)、CISP、或存储/云计算相关认证(如PureStorage, DDN, 云厂商存储专项),或国产GPU调优经验者优先。 四、综合素质要求: 1. 具有较强进取心、开拓意识,良好的沟通能力和较强的团队协作意识 岗位职责 一、负责硬件上架、系统/容器/AI 软件部署和 GPU 调优,确保算力项目按期验收。 二、对 GPU 单卡与集群算力、IB/RoCE 网络、并行存储进行基准测试并出具验收报告。 三、实时跟踪 GPU、网络、存储关键指标,保障集群可用性,建立并执行故障响应流程,快速定位并恢复服务,沉淀运维知识库。 四、负责不同存储系统的端到端管理,包括需求分析、方案设计(如混合存储架构规划)、集群部署(如千卡级GPU算力配套存储)、性能优化(如NVMe-oF协议调优)及全生命周期运维,保障数据可靠性与系统稳定性,支撑AI/智算业务的高效运行 五、为产品测提供资源调度等调优支持,提升模型训练效率。 六、输出部署手册、运维指南、故障 SOP,确保团队标准化作业。
企业尚未更新
合肥-蜀山区
扫描二维码及时订阅职位
最新职位信息第一时间知晓
360行任你挑选
分秒必争直达HR
谁看我简历早知道
请使用微信【扫一扫】
关注「易职邦人事服务网」公众号完成登录
客服电话:400-765-0056
竭诚为您服务
服务时间08:00-24:00
微信小程序
面试通知
收藏
简历
足迹
微信求职
关注公众号
掌握最新求职动态
小程序
进入小程序
随时随地找工作