La maîtrise de la température salle serveur est un facteur déterminant de la disponibilité et de la performance IT. Entre exigences des constructeurs, contraintes énergétiques et risques opérationnels, définir la bonne plage thermique et la contrôler en continu est un impératif pour toute équipe d’infrastructure.
L’importance de la gestion de la température en salle serveur
Une salle serveur regroupe des composants sensibles à la chaleur : serveurs, équipements réseau, stockage, onduleurs (UPS) et systèmes auxiliaires. La chaleur est un sous-produit direct de la consommation électrique ; mal évacuée, elle dégrade les performances, accélère l’usure des composants, et peut provoquer des arrêts intempestifs. Les risques d’une température mal maîtrisée incluent :
- Surchauffe et throttling : les CPU/GPU abaissent automatiquement leur fréquence pour limiter la température, impactant la performance applicative.
- Défaillances matérielles : usure prématurée des condensateurs, cartes, baies de disques, alimentations ; taux de panne en hausse.
- Pertes de données et interruptions de service : erreurs d’écriture, corruption, crashs ; déclenchement de sécurités matérielles conduisant à l’arrêt.
- Réduction de la durée de vie : l’élévation thermique accélère les phénomènes d’oxydation et de fatigue des composants.
- Surcoûts énergétiques : un milieu trop chaud rend le refroidissement moins efficace ; à l’inverse, une consigne trop basse peut aussi surconsommer.
Au-delà du point de consigne, c’est l’homogénéité de la température à l’échelle du rack et de la salle qui conditionne la fiabilité : des points chauds localisés suffisent à compromettre des équipements critiques.
Normes et recommandations : température idéale pour une salle serveur
Les recommandations généralement admises s’appuient sur les travaux de l’ASHRAE TC 9.9 et des constructeurs. Pour l’air en entrée des serveurs (inlet), la plage recommandée pour des équipements IT de classe A1/A2 se situe en général entre 18 et 27 °C, avec une humidité relative maîtrisée autour de 40 à 60 %, et un contrôle du point de rosée afin d’éviter la condensation. Des plages “allowable” plus larges existent selon les classes d’équipement (par exemple, jusqu’à 15–32 °C sur certains profils, et davantage pour des classes étendues), mais elles ne doivent être utilisées que de manière transitoire ou sous contraintes précisément évaluées. Vérifiez systématiquement les spécifications de vos fournisseurs et la dernière édition des recommandations ASHRAE.
Pour clarifier les notions clés:
- Température de consigne (setpoint) : valeur cible pilotant le système de refroidissement (CRAC/CRAH, chillers, etc.). Elle n’est pas nécessairement égale à la température ressentie en face avant des serveurs.
- Température ambiante : mesure générale de la salle ; elle peut masquer des écarts locaux. C’est la température en entrée des serveurs qui prime.
- Températures limites : au-delà d’un certain seuil (limites “allowable”/“maximum inlet”), les constructeurs peuvent ne plus garantir la performance ni la disponibilité, et la responsabilité se déplace vers l’exploitant.
Humidité relative : la plage 40–60 % RH est souvent considérée comme optimale pour limiter les risques d’électricité statique (trop sec) et de condensation (trop humide). Le point de rosée doit rester dans une fenêtre sécurisée (les guides ASHRAE fournissent des valeurs cibles et des courbes de référence). Dans la pratique, un pilotage conjoint température/humidité/pression différentielles, via DCIM et capteurs, est indispensable.
Les impacts d’une mauvaise gestion de la température
Conséquences d’une température trop élevée
Une température trop élevée conduit à des arrêts de sécurité des serveurs, à la dégradation des performances (throttling), et à une usure accélérée des composants critiques (VRM, alimentations, disques). Le refroidissement travaille également en régime défavorable: ventilateurs à haute vitesse, consommation accrue de l’infrastructure (compresseurs, pompes), et apparition de points chauds. À l’échelle du site, ces dérives génèrent une hausse du PUE et exposent à des incidents en cascade, notamment lors des pics de charge. En colocation chez Telehouse, le confinement d’allées, le réglage fin des consignes et la redondance N/N+1/N+N des systèmes de refroidissement contribuent à prévenir ces situations.
Conséquences d’une température trop basse
Aussi contre-intuitif que cela paraisse, refroidir “trop” n’est pas une bonne pratique. Une température trop basse accroît l’écart avec l’air de retour et peut favoriser la condensation si l’humidité n’est pas maîtrisée. Elle entraîne aussi une surconsommation (compresseurs et chillers sollicités), un inconfort pour les opérations sur site et une volatilité thermique dès que la charge varie. À terme, cela compromet l’efficacité énergétique sans bénéfice pour les équipements. Les recommandations ASHRAE visent justement à équilibrer fiabilité et sobriété.
Importance de la stabilité thermique
Au-delà des valeurs moyennes, la stabilité et l’homogénéité importent. Des fluctuations brutales (variations rapides de plusieurs degrés) stressent mécaniquement les cartes et soudures, et génèrent des cycles thermiques dommageables. Les bonnes pratiques comprennent :
- Le monitoring multipoints (haut/milieu/bas en face avant des racks).
- Un contrôle fin du débit d’air et de la pression (éviter les recirculations).
- Le calfeutrement (blanking panels), la gestion des câbles et des obturateurs pour empêcher les bypass d’air.
- L’orchestration des travaux (ouvertures de baies, ajouts d’équipements) pour limiter les perturbations.
FAQ sur la gestion de la température en salle serveur
Quelles sont les limites maximales de température dans une salle serveur ?
La valeur à surveiller en priorité est la température de l’air en entrée des serveurs. À titre de repère, une plage de fonctionnement recommandée de 18–27 °C est généralement admise pour des environnements IT de classe A1/A2 (référez-vous à vos fiches constructeurs et aux guides ASHRAE TC 9.9 à jour). Des limites “allowable” plus élevées existent mais ne doivent pas constituer la cible d’exploitation. En cas de doute, visez le bas de la plage recommandée pour des charges denses ou sensibles, et documentez vos consignes.
L’humidité doit-elle aussi être contrôlée ?
Oui. La température ne se pilote jamais sans l’humidité. Une humidité relative autour de 40–60 % est souvent recommandée, avec un contrôle du point de rosée pour éviter la condensation. Trop sec, le risque d’électricité statique augmente; trop humide, la condensation et la corrosion deviennent des menaces. Les systèmes de climatisation de précision (CRAC/CRAH) et l’instrumentation associée (capteurs RH et point de rosée) sont essentiels à la maîtrise du couple T/RH.
Quels capteurs installer en priorité ?
- Température en entrée des serveurs : au minimum trois capteurs par rack (haut/milieu/bas) côté face avant.
- Humidité relative et point de rosée : capteurs distribués par zone.
- Différentiels de pression : pour valider l’étanchéité des allées et le bon cheminement de l’air.
- Détection de fuite d’eau : cordons ou sondes dans les zones à risque.
- Compteurs d’énergie (PDU intelligents/UPS): pour corréler charge IT et conditions thermiques. Un DCIM permet d’agréger ces données, d’alerter en temps réel et d’identifier les dérives. Les sites Telehouse s’appuient sur une télémétrie continue et des procédures d’intervention 24/7.
Que faire en cas de surchauffe soudaine ?
- Sécuriser : déclencher une alerte, prévenir les équipes, réduire temporairement les charges non critiques (si orchestration possible).
- Diagnostiquer : vérifier l’état des unités de refroidissement, filtres, circulation d’air, éventuels obstacles (panneaux manquants, câblage obstruant).
- Stabiliser : remonter progressivement les consignes des CRAC/CRAH si elles étaient trop agressives, activer des bouches supplémentaires, fermer les passages d’air parasites.
- Isoler : déplacer temporairement des workloads vers des racks/baies moins chaudes ou un autre site si l’architecture l’autorise (PRA/PCA).
- Remédier : plan d’action correctif (maintenance, ajout de confinement, équilibrage des flux). En cas d’incident majeur, un plan de reprise d’activité (PRA) bien préparé limite l’impact; pour structurer votre PRA, consultez notre ressource : https://www.telehouse.fr/blog-fr/pra-informatique/.