Fiche de poste : Ops Plateforme et supervision
1. Contexte et finalité du poste
Edu-Kit est une plateforme de virtualisation à vocation pédagogique destinée aux établissements d’enseignement supérieur et technique. Le poste s’intègre au pôle Ops (4 personnes au total) et porte deux périmètres complémentaires : la gestion opérationnelle de la plateforme et sa supervision.
La finalité du poste est de maintenir une plateforme stable, performante et observable, capable d’héberger les machines virtuelles pédagogiques de plusieurs établissements clients, dans les deux modalités de déploiement prévues (On-Premise pour la v1, Cloud pour la suite).
Le titulaire travaille en polyvalence avec les trois autres Ops (Plateforme et IaC, Architecte Réseau et accès distants, Sécurité et intégration continue), au sein d’une équipe agile fonctionnant en sprints Scrum de 3 semaines.
2. Missions principales
- Assurer la gestion opérationnelle du cluster Proxmox support des environnements pédagogiques (en co-responsabilité avec l’Ops Plateforme et IaC qui pilote le provisionnement automatisé).
- Concevoir, déployer et opérer la chaîne d’observabilité : Prometheus pour les métriques, Grafana pour les tableaux de bord, Loki pour la collecte centralisée des journaux.
- Définir et maintenir les politiques d’alertes (seuils, canaux de notification, escalades).
- Mettre en place et maintenir les accès distants via Warpgate (bastion sécurisé).
- Contribuer au diagnostic et à la résolution des incidents de plateforme.
3. Responsabilités détaillées
- Responsable final de la supervision et des alertes de la plateforme.
- Responsable final des accès distants Warpgate et de la disponibilité opérationnelle de la plateforme.
- Co-responsable, avec l’Ops Plateforme et IaC, du cluster Proxmox (exploitation et maintien d’un côté, provisionnement automatisé de l’autre).
- Contributeur aux discussions d’architecture côté serveur lorsqu’il y a un impact sur la couche infrastructure.
- Garant du dimensionnement des ressources matérielles et du respect des contraintes budgétaires sur la couche plateforme.
4. Compétences techniques requises
| Compétence | Niveau attendu |
|---|---|
| Proxmox VE (cluster, haute disponibilité, instantanés, modèles, qemu-guest-agent) | Avancé |
| Linux serveur (noyau, réseau, processus, sécurité) | Expert |
| Prometheus, Grafana, Loki (architecture, opérations, performance) | Avancé |
| Warpgate et architectures d’accès distant | Confirmé |
| Kubernetes (pour la couche applicative déployée sur le cluster) | Confirmé |
| Scriptage Bash et Python | Confirmé |
| OpenTofu et Ansible (en complément de l’Ops Plateforme et IaC) | Confirmé |
| Stockage distribué Ceph | Confirmé |
5. Compétences non techniques attendues
- Sang-froid et méthode dans la résolution d’incidents critiques (perte de service, dégradation de cluster).
- Capacité à anticiper les contraintes de capacité et à dialoguer avec la direction projet sur les arbitrages budgétaires associés.
- Rigueur dans la rédaction des procédures d’exploitation : tout geste opérationnel critique doit être documenté.
- Communication écrite et orale en français et en anglais (équivalent niveau B2).
- Sens du collectif : travail régulier avec l’Ops Plateforme et IaC sur la chaîne provisionnement → exploitation.
6. Livrables types
- Tableaux de bord Grafana opérationnels, couvrant la santé du cluster et des services applicatifs.
- Configuration Loki et politiques d’alertes documentées et versionnées.
- Procédures d’exploitation à jour pour les gestes récurrents (ajout de nœud, gestion de panne, migration de VM, restauration depuis sauvegarde).
- Schémas d’architecture infrastructure et supervision à jour.
7. Indicateurs de réussite
| Indicateur | Cible |
|---|---|
| Disponibilité du cluster Proxmox | ≥ 99,5 % sur la fenêtre de production pédagogique |
| Temps moyen de détection d’incident | < 5 minutes via la chaîne d’alertes |
| Temps moyen de résolution d’incident critique | < 2 heures ouvrées |
| Nombre d’incidents critiques par trimestre | < 2 |
| Taux de couverture des procédures d’exploitation sur les gestes récurrents | 100 % |
8. Interactions principales
- Développeur back et architecte : contrats d’intégration entre l’API et le cluster Proxmox, pilotage des VMs via le qemu-guest-agent.
- Ops Plateforme et IaC : co-responsabilité du cluster Proxmox, complémentarité entre provisionnement automatisé et exploitation.
- Ops Architecte Réseau et accès distants : intégration du bastion Warpgate avec l’architecture réseau Mikrotik.
- Ops Sécurité et intégration continue : intégration des signaux de sécurité dans l’observabilité, durcissement de la plateforme.
- Product Owner du sprint : arbitrages sur les contraintes de capacité, priorisation des évolutions infrastructure, reporting sur la santé du cluster.