FLASH INFORMATIQUE FI



Microsoft Operations Manager 2005 - machine de surveillance




Thomas BECKER

Sergio MONACO


L’équipe Windows du DIT, ci-après WinTeam gère une trentaine de serveurs dont certains sont critiques : contrôleurs de domaine Active Directory, services collaboratifs Exchange, bases de données, etc. Jusqu’à récemment, ces serveurs étaient gérés avec les méthodes et les outils propres à leur responsable. Afin que les administrateurs de la WinTeam puissent assurer les remplacements en cas d’absence (maladie, vacances, service militaire,...), mais surtout d’offrir le meilleur service possible via des actions proactives, la surveillance des serveurs devait être homogène, systématique et propre à chaque service. C’est la mission que la WinTeam a confiée à Sergio Monaco dont les compétences en la matière ont permis des résultats probants et rapides. Ce travail a été rédigé en collaboration avec la Winteam sous la supervision de Thomas Becker.

Approche

Comment peut-on contrôler la performance et l’état de santé des serveurs ? Normalement on utilise des outils qui font partie du système d’exploitation comme Windows Performance Counter, Event Viewer et Windows Task Manager ou, dans les systèmes Linux, l’outil syslog. Ces outils donnent une vue immédiate et précise de la machine et ses composants. Moyennant que l’on sache utiliser ces outils, on parvient rapidement à résoudre bon nombre de problèmes.
Dans une infrastructure plutôt complexe avec des dizaines, voire des centaines de serveurs, il est important non pas seulement de réagir aux problèmes, mais d’avoir une approche proactive de la gestion de l’infrastructure. La surveillance devient nécessaire, et le temps consacré à l’installation de logiciels et à la configuration des automatismes nécessaires s’avérera certainement bien investi.
Après un processus de sélection parmi une liste de quinze produits (fig. 1) le DIT-SB a choisi Microsoft Operations Manager 2005 (MOM) pour la surveillance d’une trentaine de serveurs. MOM a été choisi surtout pour ses fonctionnalités très avancées, sa facilité d’utilisation et de personnalisation de la surveillance de systèmes Windows et la possibilité optionnelle de superviser des systèmes Linux, Unix ainsi que des dispositifs réseau.

  Cost USD approximative (30 servers - 5 users) CPU Disk RAM monitor Event Log Monitor Windows Services Monitor Network Monitor Performance Counter Monitor Monitors Customisation Run Task on Alert
HP OpenView $$
IBM Tivoli $$
Mercury SiteScope 25000 X X X X X X X
MS MOM 600 x y X X X X X X X
ManageEngine Opmanager 3065 X X X X X
EventSentry 1039 X X X X X X
IPSentry 465 X X X X X X
ServersCheck 400 X X X X X X X
Alchemy Eye 400 disk X X X plug-in $50
JFFNMS Free X X
Wavex Monx Free X X X
Dell OpenManage Free
Quest BigBrother 2700 X X X X
Nagios Free X
Big Sister Free X

fig. 1 - Tableau d’évaluation (raccourci)

Les composants MOM

MOM peut surveiller les serveurs grâce à l’installation d’un agent qui rassemble l’information et l’envoie au serveur MOM. Cet agent ne consomme pas beaucoup de ressources ; environ 0.2 % d’utilisation du processeur et 12 Mo de mémoire. Il est cependant possible de surveiller jusqu’à dix serveurs sans agent. Avec ce type de surveillance, c’est le serveur MOM qui va chercher l’information, avec manifestement une hausse du trafic réseau.
MOM utilise des Management Packs (MP), propres à chaque produit. Ainsi, pour surveiller SQL 2000 ou Exchange 2003 il faut télécharger du site Microsoft les MP appropriés et les installer sur le serveur MOM. Chaque MP a des dizaines d’alertes et déclencheurs prédéfinis prêts pour l’utilisation, appelés règles. Les règles contenues dans chaque MP vont être appliquées automatiquement selon le type de serveur. Si un service d’un serveur est supprimé ou ajouté, par exemple DNS, les règles qui surveillent DNS seront supprimées ou ajoutées automatiquement à l’agent MOM sur ce serveur. Toutes les règles peuvent être modifiées ou supprimées manuellement, le cas échéant.
Les règles utilisent les compteurs Performance Counter, Windows Management Instrumentation et Event Log pour chercher des conditions spécifiques et, si nécessaire, envoyer une alerte par email, SMS ou même exécuter une tâche prédéfinie, par exemple démarrer un script ou essayer de résoudre un problème.
MOM utilise une base de données SQL pour stocker toutes les alertes, configurations, et même des données historiques de performance de quelques jours. La base de données peut être stockée sur le serveur MOM ou un serveur SQL dédié, ce que nous avons choisi. En cas de panne du serveur MOM, cette configuration permettra de restaurer le serveur MOM (ou d’en installer un nouveau) très rapidement, car la nouvelle installation prendrait toute sa configuration du serveur SQL, y compris la configuration des règles et les MP.

Consoles de gestion

Il y a trois types de consoles. La console d’administration permet de configurer le serveur MOM, les règles et d’installer les agents. La console opérateur (fig. 2) permet d’identifier, comprendre et résoudre les alertes et, rapidement voir l’état des serveurs. La console Web est semblable à la console opérateur, mais elle offre moins de fonctionnalités.

JPEG - 6.8 ko
fig. 2
Console Opérateur

À droite de la console opérateur, voir ci-dessus, il y des tâches que l’on peut démarrer pour chacun des serveurs sur la console, par exemple : la console Computer Management ou Ping.
De la console opérateur, pour chaque alerte, on peut avoir plus d’information concernant le problème et même des solutions possibles proposées par Microsoft (fig. 3). Lorsque tel n’est pas le cas, mais que l’on a trouvé soi-même une solution pour une erreur spécifique, on peut écrire l’information dans la partie Company Knowledge ; ce qui permettra de résoudre le problème plus vite la prochaine fois qu’une telle erreur survient.

JPEG - 4.6 ko
fig. 3
Informations concernant une alerte

Des centaines de statistiques peuvent être montrées sous forme graphique pour une période de quelques heures à une semaine, qui peuvent être utilisées soit pour la résolution des problèmes soit pour la gestion de la capacité (dimensionnement d’une machine de remplacement). Des périodes plus longues sont techniquement possibles, mais cela augmenterait significativement la taille de la base de données.

JPEG - 5.4 ko
fig. 4
Performance

On emploie l’écran Diagram pour montrer une vue graphique des ordinateurs et les rapports de rôle qui existent entre les serveurs. Les diagrammes dynamiques d’Active Directory et d’Exchange sont particulièrement intéressants parce qu’ils donnent une image complète de l’infrastructure de chaque application (fig. 5).

JPEG - 8.8 ko
fig. 5
Diagramme AD

Utilisation de MOM par la WinTeam

Le DIT-SB utilise plusieurs MP pour surveiller les différents types des serveurs comme SQL, Exchange et Internet Information Services. En plus, le MP de Dell permet de surveiller les composants hardware des serveurs Dell, comme l’alimentation et les cartes réseau.
Pour les alertes critiques, MOM envoie un email aux personnes concernées. Par exemple, s’il y a un problème sur un serveur de bases de données, la notification ne sera envoyée qu’au groupe de notification SQL. L’adhésion à n’importe quel groupe peut être facilement modifiée par la console d’administration.
Afin que l’utilisation de MOM n’expose pas davantage les machines à des attaques virales ou malveillantes, tout le projet a été réalisé avec une optique least privilege. Cela a compliqué le déploiement, car il a fallu paramétrer très finement certains aspects du système d’exploitation et des applications afin de permettre à MOM de faire son travail. Le compte sous lequel MOM s’exécute sur les serveurs n’est administrateur que dans des cas exceptionnels et temporaires (anciennes plates-formes).



Cherchez ...

- dans tous les Flash informatique
(entre 1986 et 2001: seulement sur les titres et auteurs)
- par mot-clé

Avertissement

Cette page est un article d'une publication de l'EPFL.
Le contenu et certains liens ne sont peut-être plus d'actualité.

Responsabilité

Les articles n'engagent que leurs auteurs, sauf ceux qui concernent de façon évidente des prestations officielles (sous la responsabilité du DIT ou d'autres entités). Toute reproduction, même partielle, n'est autorisée qu'avec l'accord de la rédaction et des auteurs.


Archives sur clé USB

Le Flash informatique ne paraîtra plus. Le dernier numéro est daté de décembre 2013.

Taguage des articles

Depuis 2010, pour aider le lecteur, les articles sont taggués:
  •   tout public
    que vous soyiez utilisateur occasionnel du PC familial, ou bien simplement propriétaire d'un iPhone, lisez l'article marqué tout public, vous y apprendrez plein de choses qui vous permettront de mieux appréhender ces technologies qui envahissent votre quotidien
  •   public averti
    l'article parle de concepts techniques, mais à la portée de toute personne intéressée par les dessous des nouvelles technologies
  •   expert
    le sujet abordé n'intéresse que peu de lecteurs, mais ceux-là seront ravis d'approfondir un thème, d'en savoir plus sur un nouveau langage.