Senior Site Reliability Engineer - Product Reliability
Location
Worldwide
Posted
6 days ago
Salary
C$130K - C$150K / year
Seniority
Senior
No structured requirement data.
Job Description
Senior Site Reliability Engineer - Product Reliability
Matador
Role Description Nous recherchons un.e Ingénieur.e de Fiabilité Senior.e – Fiabilité des Produits pour aider à mettre à l'échelle, exploiter et améliorer la fiabilité de notre plateforme de communication basée sur l'IA. Ce rôle se situe à l'intersection de l'ingénierie logicielle, de l'infrastructure, des opérations et du support produit. Vous serez responsable de garantir la stabilité, l'évolutivité et les performances des systèmes alimentant des milliers d'interactions en temps réel sur des architectures distribuées et événementielles. Vous servirez également de première couche d'investigation technique pour les incidents de production et les défaillances liées aux produits, en partenariat étroit avec les équipes d'ingénierie pour identifier les causes profondes, améliorer l'observabilité et favoriser des améliorations durables de la fiabilité. Ce rôle hautement technique et pratique convient à quelqu'un qui aime déboguer des systèmes complexes, améliorer l'excellence opérationnelle et construire une infrastructure fiable à grande échelle. Responsibilities - Servir comme première ligne d'investigation technique pour les incidents de production, les défaillances de produits et les problèmes de performance - Analyser les journaux, les traces, les métriques et le comportement du système pour identifier rapidement les causes profondes et implémenter des solutions - Collaborer étroitement avec les équipes d'ingénierie backend et DevOps pour diagnostiquer les problèmes affectant la stabilité, la latence et la fiabilité - Concevoir et mettre en œuvre des améliorations d'observabilité, y compris la surveillance, l'alerte et la journalisation structurée, à travers les systèmes distribués - Établir et améliorer les processus de réponse aux incidents, y compris les procédures d'escalade, l'analyse post-mortem et la prévention des incidents récurrents - Participer à la conception architecturale des services backend, des systèmes événementiels et des pipelines de messagerie asynchrone pour garantir la fiabilité et la récupération après sinistre - Optimiser les performances et la résilience des systèmes fonctionnant sous charge élevée, avec des milliers d'interactions en temps réel - Développer et maintenir la documentation opérationnelle, les runbooks et les dashboards pour soutenir les opérations en production - Collaborer avec les équipes de produit et de support client pour comprendre les impacts métier et les priorités - Mentorer les ingénieurs plus juniors sur les meilleures pratiques de fiabilité et les principes de conception résiliente Qualifications - 5+ années d'expérience en ingénierie de la fiabilité des sites, ingénierie de production, ingénierie backend ou rôles similaires - Expérience pratique solide avec Node.js et TypeScript dans des environnements de production - Expérience éprouvée dans l'exploitation et le dépannage des architectures de systèmes distribués et microservices - Expérience en gestion des charges de travail de production sur AWS, y compris ECS, Lambda, SQS et API Gateway - Expérience pratique avec Kafka, AWS SQS ou d'autres systèmes de messagerie/streaming d'événements - Compréhension solide des meilleures pratiques en observabilité, surveillance, alerte et réponse aux incidents - Expérience en débogage de problèmes complexes de production sur les couches application, infrastructure et réseau - Compréhension approfondie des concepts de fiabilité des systèmes, notamment la concurrence, les workflows asynchrones, la résilience, la tolérance aux pannes et la cohérence éventuelle - Expérience avec MongoDB et Redis dans des environnements de production à grande échelle - Capacité à analyser les journaux, les traces, les métriques et le comportement du système pour identifier rapidement les causes profondes - Fortes compétences en communication et capacité à collaborer entre les équipes d'ingénierie, produit et support - Expérience du mentorat d'ingénieurs et contribution aux initiatives d'excellence opérationnelle Nice to Have - Expérience avec Kubernetes et l'orchestration de conteneurs en production - Expérience plus large de l'infrastructure AWS (réseautage, infrastructure-as-code, observabilité, optimisation des coûts) - Expérience avec les bases de données relationnelles telles que PostgreSQL - Expérience en développement de tests de charge, de tests de résilience et d'exercices de chaos engineering - Expérience antérieure en support client ou en travail direct avec les clients pour comprendre les impacts métier Benefits - Rejoignez une équipe passionnée qui innove dans l'espace de l'IA pour l'automobile. - Travaillez à distance avec des horaires flexibles et une forte autonomie. - Contribuez à une entreprise en croissance où votre voix et votre impact comptent. - Rémunération compétitive et opportunités d'avancement. Salary Range 130-150k selon l'expérience
Related Guides
Related Categories
Related Job Pages
More DevOps Engineer Jobs
• Work on a strategic cloud modernization and migration program, supporting the evolution of the Client's Platform; • Plan and execute workload migrations from Azure to AWS in production and non-production environments; • Design, implement and maintain Infrastructure as Code (IaC) using Terraform and/or CloudFormation; • Structure and evolve CI/CD pipelines, ensuring automation, standardization and efficiency in deployment processes; • Configure, manage and optimize AWS services such as VPC, IAM, EC2, S3, Lambda, RDS, among others; • Implement secure deployment strategies, including Blue/Green Deployment, Canary Release and rollback plans; • Ensure platform observability through monitoring, metrics, centralized logging, distributed tracing and alerts; • Monitor performance, availability and stability of environments during migration windows; • Identify and resolve critical incidents, supporting troubleshooting actions in production environments; • Collaborate with Data Engineering, Development and Architecture teams to ensure workload compatibility and continuity; • Ensure the application of best practices in security, compliance and governance throughout the cloud transition process; • Contribute to building a modern, scalable, resilient and data-driven architecture.
Site Reliability Engineer
Veeam SoftwareYour Single Backup and Data Management Platform for Cloud, Virtual and Physical
• Get up to speed on VDC workloads, dependencies, and operational workflows by reading code, docs, and working with SMEs. • Write and maintain runbooks, incident guides, and operational documentation. • Support knowledge transfer and contribute to onboarding materials for the team. • Participate in incident response including triage, investigation, mitigation, and postmortems. • Help implement and maintain SLIs, SLOs, and error budgets defined by the team. • Identify reliability issues during incidents or reviews and propose concrete improvements. • Support high availability and fault tolerance work on Azure, including Azure Government. • Close monitoring gaps by implementing instrumentation, alerting, and dashboards based on team standards. • Contribute to toil reduction through automation and tooling improvements. • Participate in on-call rotations. • Work with IaC, CI/CD pipelines, and deployment tooling in compliance-restricted environments. • Support testing, canary deployments, and release validation workflows. • Implement changes to infrastructure and configuration following established patterns and review processes. • Work with engineering, security, compliance, and operations teams to execute on reliability improvements. • Communicate clearly about system behavior, risk, and status — in writing and in meetings. • Raise blockers and gaps proactively; don't wait for problems to escalate.
Senior DevOps Engineer
SecuritEase GroupWhile the position is remote, we’re only able to proceed with candidates who already hold the legal right to live and work in South Africa.
Role Description We’re searching for a Senior DevOps Engineer to help scale and automate our cloud infrastructure, software delivery pipelines, and deployment processes across modern cloud-based environments. - Build, configure, and maintain production-grade Kubernetes environments from the ground up across cloud and hybrid infrastructure. - Develop, scale, and maintain robust Infrastructure as Code (IaC) pipelines, primarily leveraging Terraform to orchestrate cloud resources. - Automate and secure cloud infrastructure in Azure, AWS, or both. - Manage and optimize advanced Helm deployments and containerized workloads. - Implement and manage observability and alerting using the Prometheus/Grafana stack (Loki, Alloy, Tempo) to monitor platform performance and reliability. - Support database orchestration and optimization strategies (such as PITR for PostgreSQL or managing Apache Pinot and Cassandra) across environments. - Work closely with engineering teams to streamline software delivery and ensure seamless CI/CD processes. - Troubleshoot complex operational issues, mitigate infrastructure vulnerabilities, and enforce strict cloud security profiles. - Innovate and automate to generate business value. - Support and mentor junior DevOps team members. Qualifications - Minimum 5+ years’ experience in complex product environments. - Strong experience in DevOps, Cloud Engineering, or Platform Engineering. - A long history of Linux administration and engineering experience. - Proven track record of provisioning cloud infrastructure. - Hands-on experience building, administering, and maintaining Kubernetes clusters. - Deep experience with either AWS or Azure infrastructure, core cloud services, and secure networking. - Strong scripting capability in Bash, Python, or PowerShell. - The ability to read and comprehend segments of application code, such as Node.js or Java. - A solid understanding of cloud security, governance, and operational best practices (e.g., identity federation, workload identities). Requirements - Nice to have: Certified Kubernetes Administrator (CKA) or equivalent CNCF certification. - Experience in fintech or regulated environments. - Advanced Database Administration experience, including performance optimization, handling CDC artifacts, or deduplication strategies. - Experience with GitLab CI/CD. Company Description While the position is remote, we’re only able to proceed with candidates who already hold the legal right to live and work in South Africa.
• Execute installation, commissioning, startup, and infrastructure validation activities for modular data center deployments • Perform hands-on technical work across electrical, mechanical, controls/BAS, networking, and low-voltage systems • Execute deployment procedures, commissioning plans, operational readiness testing, and infrastructure validation processes • Conduct site assessments and maintain field documentation including commissioning reports, punch lists, and as-built updates • Ensure deployment activities are completed in accordance with Armada operational, engineering, and safety standards • Troubleshoot infrastructure issues across power, cooling, controls, monitoring, and network-connected systems • Read, interpret, and apply electrical schematics, mechanical drawings, and control diagrams during deployment and operational activities • Utilize field diagnostic tools and test equipment to identify and resolve infrastructure issues • Participate in root cause analysis and corrective action implementation during deployment and operational incidents • Exercise independent technical judgment while escalating high-risk or complex issues appropriately • Execute BMS, EPMS, and DCIM integration and validation activities • Support system startup, alarm validation, monitoring verification, and operational turnover processes • Verify infrastructure systems meet operational, performance, and quality requirements prior to deployment completion • Participate in incident response and operational recovery activities as required • Partner with Senior Deployment Engineers, Engineering, Manufacturing, Supply Chain, and Customer Operations teams during deployment execution • Coordinate field activities with vendors, subcontractors, and third-party service providers • Provide operational feedback and field observations that improve deployment quality, repeatability, and infrastructure reliability • Maintain clear communication with internal and external stakeholders throughout deployment activities


