职位描述
- 云基础设施与自动化
- 在 GCP、Azure 以及偶尔的 OCI/AWS 上设计和管理可扩展、安全的基础设施。
- 主要使用 Terraform 以及偶尔使用 Terragrunt 和 Helm 实施和管理基础设施即代码(IaC)。
- CI/CD 管道
- 使用 GitHub Actions、Jenkins 和 GitHub Enterprise 设计和优化 CI/CD 工作流(可重用工作流、OIDC 联邦)。
- 确保微服务和人工智能工作负载的无缝部署管道,从代码提交到生产。
- 容器编排
- 使用 Portainer、Docker 镜像仓库、Kubernetes 集群管理 Docker 容器,包括 AI 工作负载的 GPU 节点基础设施。
- 支持金丝雀发布、蓝绿部署和自动扩展策略。
- 在 Google Cloud Platform 上实施和管理无服务器部署(Cloud Functions、Cloud Run)。
- 资源规划与硬件估算
- 根据资源需求(如传感器数量和存储需求)协助进行本地和云环境的硬件估算。
- 确保所有基础设施组件的强大备份策略和数据冗余。
- 协助团队审计云端和本地资源。
- 安全与合规
- 执行云安全最佳实践:镜像加固、密钥管理、IAM 最小权限、SBOM 和漏洞扫描。
- 在合规要求(SOC 2、ISO 27001)上合作,并积极回应审计和事件。
- 配置和管理 Cloudflare 以增强安全性和性能。
- 监控与可观察性
- 使用 Grafana、Prometheus、Loki、Tempo、Datadog、OpenTelemetry 和 Sentry 构建和维护可观察性堆栈。
- 诊断并解决计算、存储和网络层的性能瓶颈。
- 监控和优化云消费,以确保成本效益。
- 制定和实施灾难恢复计划,定期进行演练以确保业务连续性。
- 团队合作
- 与工程师合作,嵌入 DevOps 最佳实践。
- 建立并执行基础设施、流程和故障排除指南的文档标准。
- 使用 Plane 进行冲刺计划、事件跟踪和交付可视化。
职位要求
- 5年以上云/DevOps工程师经验,最好是在生产环境中。
- 具备GCP、Azure的实际操作经验,理想情况下接触过AWS或OCI。
- 在Terraform、Terragrunt、Helm、Kubernetes和Docker方面具有强大的专业知识。
- 精通脚本编写(例如,Python、Bash或PowerShell);掌握Go/Rust者优先。
- 在CI/CD管道方面有经验,特别是使用GitHub Actions。
- 对以下内容有深入理解:
-VPC、路由、VPN、防火墙、负载均衡器
-Kubernetes自动扩展及GPU/CPU资源管理
-使用Datadog、Grafana OSS和OpenTelemetry进行监控、告警和日志管理
- 熟悉DevSecOps实践和合规控制。
- 具备强烈的责任心,能够在分布式和快速变化的环境中茁壮成长。
Kubernetes云服务 (AWSAzureGCP)基础设施即代码 (TerraformAnsible)JenkinsCI/CD