Matador

Remote Jobs

1 open roleLatest: Jun 10, 2026, 7:02 PM UTC

Strict location onlyShow closed jobs

Post Date

Minimum Salary

Experience

1 Jobs

Senior Site Reliability Engineer - Product Reliability

Matador

DevOps Engineer3 days ago

Full Time Remote Senior

Role Description Nous recherchons un.e Ingénieur.e de Fiabilité Senior.e – Fiabilité des Produits pour aider à mettre à l'échelle, exploiter et améliorer la fiabilité de notre plateforme de communication basée sur l'IA. Ce rôle se situe à l'intersection de l'ingénierie logicielle, de l'infrastructure, des opérations et du support produit. Vous serez responsable de garantir la stabilité, l'évolutivité et les performances des systèmes alimentant des milliers d'interactions en temps réel sur des architectures distribuées et événementielles. Vous servirez également de première couche d'investigation technique pour les incidents de production et les défaillances liées aux produits, en partenariat étroit avec les équipes d'ingénierie pour identifier les causes profondes, améliorer l'observabilité et favoriser des améliorations durables de la fiabilité. Ce rôle hautement technique et pratique convient à quelqu'un qui aime déboguer des systèmes complexes, améliorer l'excellence opérationnelle et construire une infrastructure fiable à grande échelle. Responsibilities - Servir comme première ligne d'investigation technique pour les incidents de production, les défaillances de produits et les problèmes de performance - Analyser les journaux, les traces, les métriques et le comportement du système pour identifier rapidement les causes profondes et implémenter des solutions - Collaborer étroitement avec les équipes d'ingénierie backend et DevOps pour diagnostiquer les problèmes affectant la stabilité, la latence et la fiabilité - Concevoir et mettre en œuvre des améliorations d'observabilité, y compris la surveillance, l'alerte et la journalisation structurée, à travers les systèmes distribués - Établir et améliorer les processus de réponse aux incidents, y compris les procédures d'escalade, l'analyse post-mortem et la prévention des incidents récurrents - Participer à la conception architecturale des services backend, des systèmes événementiels et des pipelines de messagerie asynchrone pour garantir la fiabilité et la récupération après sinistre - Optimiser les performances et la résilience des systèmes fonctionnant sous charge élevée, avec des milliers d'interactions en temps réel - Développer et maintenir la documentation opérationnelle, les runbooks et les dashboards pour soutenir les opérations en production - Collaborer avec les équipes de produit et de support client pour comprendre les impacts métier et les priorités - Mentorer les ingénieurs plus juniors sur les meilleures pratiques de fiabilité et les principes de conception résiliente Qualifications - 5+ années d'expérience en ingénierie de la fiabilité des sites, ingénierie de production, ingénierie backend ou rôles similaires - Expérience pratique solide avec Node.js et TypeScript dans des environnements de production - Expérience éprouvée dans l'exploitation et le dépannage des architectures de systèmes distribués et microservices - Expérience en gestion des charges de travail de production sur AWS, y compris ECS, Lambda, SQS et API Gateway - Expérience pratique avec Kafka, AWS SQS ou d'autres systèmes de messagerie/streaming d'événements - Compréhension solide des meilleures pratiques en observabilité, surveillance, alerte et réponse aux incidents - Expérience en débogage de problèmes complexes de production sur les couches application, infrastructure et réseau - Compréhension approfondie des concepts de fiabilité des systèmes, notamment la concurrence, les workflows asynchrones, la résilience, la tolérance aux pannes et la cohérence éventuelle - Expérience avec MongoDB et Redis dans des environnements de production à grande échelle - Capacité à analyser les journaux, les traces, les métriques et le comportement du système pour identifier rapidement les causes profondes - Fortes compétences en communication et capacité à collaborer entre les équipes d'ingénierie, produit et support - Expérience du mentorat d'ingénieurs et contribution aux initiatives d'excellence opérationnelle Nice to Have - Expérience avec Kubernetes et l'orchestration de conteneurs en production - Expérience plus large de l'infrastructure AWS (réseautage, infrastructure-as-code, observabilité, optimisation des coûts) - Expérience avec les bases de données relationnelles telles que PostgreSQL - Expérience en développement de tests de charge, de tests de résilience et d'exercices de chaos engineering - Expérience antérieure en support client ou en travail direct avec les clients pour comprendre les impacts métier Benefits - Rejoignez une équipe passionnée qui innove dans l'espace de l'IA pour l'automobile. - Travaillez à distance avec des horaires flexibles et une forte autonomie. - Contribuez à une entreprise en croissance où votre voix et votre impact comptent. - Rémunération compétitive et opportunités d'avancement. Salary Range 130-150k selon l'expérience

View details: Senior Site Reliability Engineer - Product Reliability

Worldwide

C$130K - C$150K / year

Apply