SME Qui plante

Forum dédié à la distribution du même nom et que vous pourrez télécharger sur http://www.contribs.org. La nouvelle version de cette distribution se nomme SME Server. Une description est donnée sur le portail phénIXUS : http://www.ixus.net/sme-server/.

SME Qui plante

Message par Rico » 27 Oct 2012 13:12

:oops: Contexte :
SME 7.5 avec un RAID1
Le serveur fonctionne depuis 5 ans sans soucis
Les disques on été remplacé en mai dernier et la SME réinstallé.
Le problème est apparu mi-septembre.

Besoin :
Ma SME se plante aléatoirement au bout de minimum 2 Jours.

Schéma :
Cette SME est en mode serveur seulement, adresse IP fixe.
Internet ---- Box ----- LAN & SME

Modem/Routeur/Box :
Livebox avec en DMZ l'ip du SME

Firewall/Serveur-passerelle multifonctions :
Cette SME est en mode serveur seulement, adresse IP fixe.

Adressages :
Adresse IP fixe, Adresse de la box en passerelle.

Question :
A votre avis de quel origine proviens ce problème, logiciel, matériél ...

Pistes imaginées :
Problème de disque, mais mon raid 1 est OK.
test smartctl OK sur les 2 disques
Problème carte mère (chauffe,condo) ?

Recherches :
http://forums.ixus.net/viewtopic.php?f= ... 33&start=0 (probleme sur une 7.2)
http://forums.contribs.org/index.php?topic=38218.0

Logs et tests :
J'ai mis un onduleur neuf et remplacé l'alimentation du serveur, cela n'a rien changé.

Voici le dernier log avant plantage

Oct 26 01:10:02 sme kernel: [<f886b22e>] ext3_write_inode+0x22/0x3f [ext3]
Oct 26 01:10:02 sme kernel: [write_inode+48/55] write_inode+0x30/0x37
Oct 26 01:10:02 sme kernel: [<c0197ac7>] write_inode+0x30/0x37
Oct 26 01:10:02 sme kernel: [__sync_single_inode+203/651] __sync_single_inode+0xcb/0x28b
Oct 26 01:10:02 sme kernel: [<c0197b99>] __sync_single_inode+0xcb/0x28b
Oct 26 01:10:02 sme kernel: [sync_sb_inodes+437/855] sync_sb_inodes+0x1b5/0x357
Oct 26 01:10:02 sme kernel: [<c019809d>] sync_sb_inodes+0x1b5/0x357
Oct 26 01:10:02 sme kernel: [writeback_inodes+450/820] writeback_inodes+0x1c2/0x334
Oct 26 01:10:02 sme kernel: [<c0198401>] writeback_inodes+0x1c2/0x334
Planté
Rico
 
Message(s) : 13
Inscription : 23 Jan 2012 21:56

Re: SME Qui plante

Message par jibe » 27 Oct 2012 23:11

Salut,

Félicitations et merci d'avoir employé le formulaire :) Malheureusement, les renseignements sont un peu légers pour qu'on puisse apporter une aide efficace...

Rico a écrit :Le problème est apparu mi-septembre.

Aucune précision, cela veut-il dire "sans raison apparente" ? Confirmes-tu qu'aucune intervention ni aucun incident n'a eu lieu peu avant (que tu estimes ou non qu'il puisse y avoir un rapport : en dépannage, on doit absolument tout vérifier sans à-priori) ?

Rico a écrit :Ma SME se plante aléatoirement au bout de minimum 2 Jours.

C'est un besoin, ça ? :lol:
Il eût été plus intéressant (et nécessaire !) de mettre ici quels besoins couvre cette SME, entre autres (donc : pas seulement) si elle est accessible de l'extérieur et pourquoi (site web, messagerie, FTP, SSH etc.).

Rico a écrit :Ma SME se plante aléatoirement au bout de minimum 2 Jours.

Ça veut dire quoi, exactement ? freeze, reboot, arrêt, autre ?

Rico a écrit :Ma SME se plante aléatoirement au bout de minimum 2 Jours.

Normalement, en "bon" français, ça veut dire qu'elle fonctionne systématiquement sans problème pendant 2 jours, et que le problème n'apparaît qu'ensuite, parfois au 2°, parfois au 3° jour, parfois plus. Ou est-ce le contraire, le problème apparaît le premier ou le second jour de fonctionnement, et en tous cas jamais plus ?

Pardon si la formulation est correcte et donc la question sans objet, mais on voit tant de gens (y compris bardés de diplômes !) ne sachant pas s'exprimer que je suis méfiant. Et comme il est plus fréquent qu'un problème apparaisse dans les deux premiers jours, je préfère m'en assurer.

Rico a écrit :Adressages :
Adresse IP fixe, Adresse de la box en passerelle.

Il est nécessaire de nous permettre de nous assurer qu'il n'y ait pas de conflit d'adresses (on le voit si souvent, surtout avec des membres persuadés qu'il n'y en a pas !). Quite, pour la confidentialité, à masquer la dernière partie des adresses.

Rico a écrit :Voici le dernier log avant plantage

Il y a de nombreux fichiers de log sur SME ! Duquel s'agit-il ? Qu'indique /var/log/messages ?

Une précision intéressante également serait de nous dire pourquoi tu sembles tant soupçonner tes disques ? C'est loin d'être la première chose que j'irais vérifier, surtout qu'ils ont été changés récemment, mais malgré tout depuis assez longtemps pour qu'un vice de fabrication soit déjà apparu... D'après mon expérience personnelle (et ce que j'ai pu lire ça et là tend à le confirmer), un disque en utilisation "normale" 24/7 tombe en panne avant trois mois ou après 4 ou 5 ans.

Sans une description plus complète de l'installation et des symptômes, il va être difficile de cerner le problème ! Tout ce que je peux dire pour l'instant, c'est qu'il peut y avoir de nombreuses raisons, mais que la première chose que je vérifie en cas de panne aléatoire (après m'être assuré que ce n'est pas une intervention ou un incident qui l'ait provoquée), c'est presque toujours la RAM : sauf quand le défaut empêche le démarrage du système, les effets sont toujours très aléatoires, parce que dépendants de l'usage de la RAM qui est fonction d'une foule de paramètres.

... sans parler des défauts intermittents qu'on voit parfois et qui font qu'un test RAM, pour être sûr, doit durer au minimum 3 à 4h. Sur un serveur, c'est généralement inconcevable, alors on se contente d'un coup de nettoyant à contacts (j'ai souvent vu de mauvais contacts dans des CM de bas de gamme ! Et de toutes manières, tant qu'on y est, ça ne coûte rien ;) ) et de changer les barrettes.
jibe. En vert ou en rouge-orangé : je modère - En noir ou autre couleur : je parle à titre personnel.

L'idée que quand on n'a pas quelque chose, on puisse se bouger pour l'avoir, c'est une démarche qui parait absolument normale pour les gens du Logiciel Libre et totalement surnaturelle pour tout le reste de la population. (Benjamin Bayart)
jibe
 
Message(s) : 943
Inscription : 09 Sep 2011 23:19
Localisation : Haute Savoie

Re: SME Qui plante

Message par unnilennium » 28 Oct 2012 00:53

Rico a écrit :Pistes imaginées :
Problème de disque, mais mon raid 1 est OK.
test smartctl OK sur les 2 disques


je seconde Jibé sur le test de mémoire. sur un plantage aléatoire c'est le plus probable . Il faut attendre le moment que la partie défectueuse de la mémoire soit utilisée ( dépend de la charge ou du temps et du cache qui se créé) et kernel panic . A ce suejt le message du kernel panic peut aider parfois.

Je reviens cependant, à voir ton fichier log avant plantage, sur le smartctl. as tu effectué des tests court (short : 1 a 2 minutes) ou long (long : 2 heures)? beaucoup de problèmes n'apparaissent que sur le test long, J'ai eu le cas cette semaine.
unnilennium
 
Message(s) : 218
Inscription : 28 Nov 2011 19:32
Localisation : Québec, QC, Canada

Re: SME Qui plante

Message par Rico » 28 Oct 2012 09:53

jibe a écrit :
Rico a écrit :Le problème est apparu mi-septembre.

Aucune précision, cela veut-il dire "sans raison apparente" ? Confirmes-tu qu'aucune intervention ni aucun incident n'a eu lieu peu avant (que tu estimes ou non qu'il puisse y avoir un rapport : en dépannage, on doit absolument tout vérifier sans à-priori) ?


Aucune intervention logicielle, ni matérielle.

jibe a écrit :
Rico a écrit :Ma SME se plante aléatoirement au bout de minimum 2 Jours.

C'est un besoin, ça ? :lol:
Il eût été plus intéressant (et nécessaire !) de mettre ici quels besoins couvre cette SME, entre autres (donc : pas seulement) si elle est accessible de l'extérieur et pourquoi (site web, messagerie, FTP, SSH etc.).


Cette sme sert de serveur de fichier via les Ibays, de serveur de messagerie en Imap pour le LAN, fetchmail est installé pour récupérer les mail. Il y a un compte FTP actif en local pour un scan to FTP. L'accès extérieur SSH est utilisé uniquement pour la maintenance.

jibe a écrit :
Rico a écrit :Ma SME se plante aléatoirement au bout de minimum 2 Jours.

Ça veut dire quoi, exactement ? freeze, reboot, arrêt, autre ?

Rico a écrit :Ma SME se plante aléatoirement au bout de minimum 2 Jours.

Normalement, en "bon" français, ça veut dire qu'elle fonctionne systématiquement sans problème pendant 2 jours, et que le problème n'apparaît qu'ensuite, parfois au 2°, parfois au 3° jour, parfois plus. Ou est-ce le contraire, le problème apparaît le premier ou le second jour de fonctionnement, et en tous cas jamais plus ?


Quand la SME est "planté"
je n'ai plus d'accès a la SME via le réseau, ping HS
Sur le moniteur du serveur, je saisis le login root, il s'affiche mais ne me demande pas le password.
je suis donc contrait de forcer le reboot du serveur.

Je n'ai jamais eu de plantage avant 2 Jours d'utilisation.

jibe a écrit :
Rico a écrit :Voici le dernier log avant plantage

Il y a de nombreux fichiers de log sur SME ! Duquel s'agit-il ? Qu'indique /var/log/messages ?


OUI il s'agit de /var/log/messages.

jibe a écrit :Une précision intéressante également serait de nous dire pourquoi tu sembles tant soupçonner tes disques ? C'est loin d'être la première chose que j'irais vérifier, surtout qu'ils ont été changés récemment, mais malgré tout depuis assez longtemps pour qu'un vice de fabrication soit déjà apparu... D'après mon expérience personnelle (et ce que j'ai pu lire ça et là tend à le confirmer), un disque en utilisation "normale" 24/7 tombe en panne avant trois mois ou après 4 ou 5 ans.


C'est juste que le log me parle d'adresse ext3.



Je vais remplacer la RAM afin de voir si il y a du mieux.

Merci de vos conseils
Rico
 
Message(s) : 13
Inscription : 23 Jan 2012 21:56

Re: SME Qui plante

Message par unnilennium » 28 Oct 2012 10:01

Rico a écrit :
Je vais remplacer la RAM afin de voir si il y a du mieux.

Merci de vos conseils


avant de remplacer un memtest comme indiqué par Jibé, et la réponse a ma question sur le test smartcl long ou court seraient plus judicieux.....

en effet avant de se lancer dans des dépenses il s'agit de faire le diagnostic. Sinon tu vas faire comme un mauvais garage qui te fais une facture à payer à l'aide d'un crédit car il a remplacer toutes les pièces par des neuves jusqu'à trouver la bonne.
unnilennium
 
Message(s) : 218
Inscription : 28 Nov 2011 19:32
Localisation : Québec, QC, Canada

Re: SME Qui plante

Message par sibsib » 28 Oct 2012 21:18

Bonjour,

Rico a écrit :Quand la SME est "planté"
je n'ai plus d'accès a la SME via le réseau, ping HS
Sur le moniteur du serveur, je saisis le login root, il s'affiche mais ne me demande pas le password.
je suis donc contraint de forcer le reboot du serveur.


Tiens, çà, çà ressemble effectivement à un problème d'accès disque : Le process getty est en mémoire, donc, tu peux rentrer le compte root et valider. A ce moment, getty tenter de forker un login, mais, sans accès disque, ça foire.

Par contre, ce qui me gêne, c'est que tu ne peux plus pinguer. Sur toutes les cartes réseaux 'serveur', ping est maintenant embarqué localement dans le driver de la carte. Si c'est une carte 'low cost', alors peut-être que ping n'est pas embarqué dans le driver ?

Dans quel état est ton voyant disque, et entends-tu les disques 'gratter' ?

A+,
Pascal
sibsib
 
Message(s) : 188
Inscription : 20 Oct 2011 21:08

Re: SME Qui plante

Message par jibe » 28 Oct 2012 22:09

Salut,

unnilennium a écrit :avant de se lancer dans des dépenses il s'agit de faire le diagnostic. Sinon tu vas faire comme un mauvais garage qui te fais une facture à payer à l'aide d'un crédit car il a remplacer toutes les pièces par des neuves jusqu'à trouver la bonne.

Effectivement, tu as raison. Mais c'est un peu de ma faute s'il est parti dans l'idée de changer la RAM :oops: : j'ai dit (et je maintiens !) qu'un test RAM pour être valable doit être suffisamment long, et que ce n'est pas toujours possible d'arrêter un serveur si longtemps. Etant donné que :
- Il est possible de disposer de barrettes de rechange, quitte à les prendre dans un poste de travail,
- La RAM est peu onéreuse, et souvent bien moins qu'un arrêt prolongé d'un serveur de prod,
je procède généralement par remplacement dans un tel cas. Mais c'est vrai qu'en théorie et chaque fois que c'est possible, il vaut toujours mieux faire un diagnostic, d'autant plus quand on en a un moyen facile et fiable comme c'est le cas pour la RAM !

Cela dit, au vu des nouvelles infos (comme quoi, il est préférable de les donner dès le départ ;) ), je serais maintenant plutôt de l'avis de sibsib. Même le ping ne m'aurait pas gêné : les SME que je gère sont majoritairement équipées de cartes réseau à 8 ou 10€ ! Mais bon : ce ne sont finalement que des priorités dans les pistes de recherche, seule la vérification méthodique permettra d'établir un diagnostic.

Outre les vérifications préconisées par sibsib, je regarderais de près la température des disques : je ne serais pas étonné qu'elle soit à l'origine du problème. J'ai eu plusieurs cas de SME dont les disques atteignaient 50 voire même 60°C et qui me faisaient des problèmes aléatoires. Un simple ventilateur (voire parfois un simple dépoussiérage !) a suffit dans la majorité des cas.

Attention à la prise de température : les senseurs et smartctl ne sont pas toujours très fiables : pour le dernier disque avec lequel j'ai eu des soucis, smartctl donnait une température maxi de 37°, alors que le disque était brûlant au point de ne pas pouvoir le tenir en mains ! Pour ma part, je fais davantage confiance... au dos de ma main : s'il supporte facilement n tous points le contact direct avec le disque, je considère que c'est bon. Sinon, j'installe systématiquement un ventilateur supplémentaire (sans autre diagnostic, ce qui va faire bondir unnilennium :lol: ;) Mais bon, à moins de 10€ le ventilo, un diagnostic précis coûterait plus cher !).

A noter qu'un problème de température annule ce que j'ai pu dire hier sur les défaillances de disques qui ont lieu avant 3 mois ou après 4 ans : il ne s'agit plus là d'une utilisation "normale" ! Les constructeurs préconisent généralement une température maxi de fonctionnement de 40 à 45°.
jibe. En vert ou en rouge-orangé : je modère - En noir ou autre couleur : je parle à titre personnel.

L'idée que quand on n'a pas quelque chose, on puisse se bouger pour l'avoir, c'est une démarche qui parait absolument normale pour les gens du Logiciel Libre et totalement surnaturelle pour tout le reste de la population. (Benjamin Bayart)
jibe
 
Message(s) : 943
Inscription : 09 Sep 2011 23:19
Localisation : Haute Savoie

Re: SME Qui plante

Message par unnilennium » 29 Oct 2012 06:17

je suis d'accord avec vous deux.
Jibé,cependant, il y a le milieu professionnel où on réfléchit en rentabilité et en disponibilité. Cela coute moins cher de changer une ram que de laisser un technicien attendre 3 heures un résultat. Ou encore les pertes financières causées par l'indisponibilité.

En revanche à la maison, les pièces de rechanges sont onéreuses par rapport au temps de hobby et le plaisir de comprendre ...

Contact possible du dos de la main prolongé = T° inférieur à 55 degrés, c'est un bon test ( sauf pour un cuisinier qui est plus tolèrent ;) )

Le test de la RAM dans une autre machine n'est pas une option pour moi : j'ai vu de nombreux cas où ce n'était pas les RAM qui étaient défectueuses mais, le contrôleur qui ne le supportait pas ... même si le fabricant/ assembleur l'avait spécifié et les avait mise lui même. Ta ram semble impeccable au test sur une autre machine, mais quand tu la test sur la machine de nombreuses erreurs se produisent.

On attend donc le retour de Rico.
unnilennium
 
Message(s) : 218
Inscription : 28 Nov 2011 19:32
Localisation : Québec, QC, Canada

Re: SME Qui plante

Message par jibe » 29 Oct 2012 22:26

Salut,

unnilennium a écrit :Contact possible du dos de la main prolongé = T° inférieur à 55 degrés, c'est un bon test ( sauf pour un cuisinier qui est plus tolèrent ;) )

:lol: Oui, mais je ne suis pas cuisinier !

Bon, je pensais que le seuil de la douleur était à 50°C en moyenne, si c'est 55 ça fait un peu trop pour les disques. Mais bon, je n'ai pour l'instant jamais eu de problèmes en "mesurant" ainsi...

unnilennium a écrit :Le test de la RAM dans une autre machine n'est pas une option pour moi

Attention : je n'ai jamais parlé de tester la RAM dans une autre machine ! J'ai dit (ou voulu dire... me suis-je mal exprimé ?) qu'on pouvait prendre la RAM d'une autre machine (sous réserve de compatibilité, bien entendu !) pour remplacer la RAM douteuse du serveur.

Tout à fait d'accord sur le fait que tester sur une autre machine n'a que peu de valeur et ne peut en aucun cas servir à établir un diagnostic.
jibe. En vert ou en rouge-orangé : je modère - En noir ou autre couleur : je parle à titre personnel.

L'idée que quand on n'a pas quelque chose, on puisse se bouger pour l'avoir, c'est une démarche qui parait absolument normale pour les gens du Logiciel Libre et totalement surnaturelle pour tout le reste de la population. (Benjamin Bayart)
jibe
 
Message(s) : 943
Inscription : 09 Sep 2011 23:19
Localisation : Haute Savoie

Re: SME Qui plante

Message par unnilennium » 30 Oct 2012 15:11

jibe a écrit :Tout à fait d'accord sur le fait que tester sur une autre machine n'a que peu de valeur et ne peut en aucun cas servir à établir un diagnostic.

ben ca peut en fait, dans un deuxieme temps , pour verifier si c'est la ram qui est defectueuse ou non supportée / carte mère defectueuse, avant de la jeter et d'acheter la même ;)
unnilennium
 
Message(s) : 218
Inscription : 28 Nov 2011 19:32
Localisation : Québec, QC, Canada

Suivant

Retour vers SME

Qui est en ligne ?

Utilisateur(s) parcourant ce forum : Aucun utilisateur inscrit et 1 invité

cron