PANNE - Non reponse de SME 7.6 + HDD occupe a 100%

Forum dédié à la distribution du même nom et que vous pourrez télécharger sur http://www.contribs.org. La nouvelle version de cette distribution se nomme SME Server. Une description est donnée sur le portail phénIXUS : http://www.ixus.net/sme-server/.

PANNE - Non reponse de SME 7.6 + HDD occupe a 100%

Message par HP77 » 24 Sep 2012 17:25

Bonsoir,

J'ouvre ce nouveau fil au cas ou cela puisse avoir un interet pour aider quelqu'un d'autre mais j'ai comme l'impression que ca risque de ne pas servir a grand chose au final si je dois couper l'alimentation electrique de mon serveur comme un "sauvage"... :roll:

Bon, c'est par ici :

Contexte :
- Serveur SME 7.6 en mode "Server & Gateway" (en fait SME 7.5.1, a la base, ayant pris service depuis avril-mai 2011)
- Probleme d'acces au serveur:
- - Requetes HTTP depuis Internet Explorer en Wi-Fi Local sans succes
- - Acces a la ligne de commande du serveur depuis le clavier connecte' a la machine = impossible (affichage reste bloque' sur Login Time Out 60s)
- - Activite' HDD intense et soutenue: plusieurs heures que la LED d'activite' HDD reste allumee et semble rarement clignotement tres brievement
- - Probleme HDD constate' cet apres-midi (heure de Singapour)
- - Activite' reseau quasi nulle
- - Reception d'e-mails admin forwardes sur Yahoo!Mail m'informant de la deconnexion Internet volontaire (cable debranche' puis rebranche')
- - HDD = 500GB occupe a environ 40%
- - Serveur a la maison mais en usage pour un gros projet professionel en phase de production "preuve de concept"... :oops: (c'etait mon serveur de developpement temporaire mais, ils veulent aller toujours plus vite que la musique (...) donc, vous devinez la suite... :roll: )

- Divers:
- - Appui sur le bouton Marche / Arret pendant 1s ne declenche pas non plus l'habituel "shutdown -h now".
- - Probablement sans rapport : ClamAV n'a pas ete' mis a jour depuis pres de 2 semaines (nombreux e-mails admins au sujet de "Failed : FreshClam Update"...)
- - Aucun changement particulier opere sur le serveur depuis la derniere mise a jour de Yum la semaine derniere. Mise a jour sans "event-reboot" mais un "event-console-save" pour synchroniser "Server-Manager".
(la meme procedure de mise a jour de Yum a ete' appliquee a un autre serveur SME 7.6 qui fonctionne toujours tres bien.)

- Contributions installees:
- - SystemMonitor
- - PhpMyAdmin-Multi en acces "localhost" seulement.
- - OpenVPN-Bridge (je sais que ce n'est pas ce qui se fait de mieux... + tous les certificats utilisateurs ont expires apres 12 mois de service en Avril-Mai 2012)
- - ReDoMa
- - DiskUsage
- - DenyHosts (protection SSH, activee)


Besoin :
- Reprendre le controle du Serveur SME.
- - Savoir si ce probleme ou plutot les symptomes decrits ont deja ete' rencontres et quel en serait la cause et le remede, si connus de quelqu'un.


Schéma :
- Schema et informations detaillees disponible ici: Schema Home
Code : Tout sélectionner

                  [               ]-----{  LAN_Box }
                  [               ]
{ Internet }------[ Modem-Routeur ]-----{  DMZ_Box }-----[ SME Server "S&G" ]-----{ LAN_SME }-----[ PC Home ]
                  [               ]                                               {         }-----[ Serveur Backup ]
                  [               ]-----{ WLAN_Box }-----[   PC visiteurs   ]
                  [               ]
                  [               ]-----{ IPTV_Box }-----[ Motorola's IP TV ]


{"XYZ"} = Segment Reseau "XYZ"
["ABC"] = Equipement "ABC"
-----   = Connexion  Reseau


Segments et adressage sur le reseau:
- LAN_Box: 192.168.aaa.0/24
- DMZ_Box: 192.168.aaa.0/32
- WLAN_Box: 192.168.aaa.0/24
- IPTV_Box: 10.xxx.yyy.zzz/???

- LAN_SME: 192.168.bbb.0/24


Connexion Internet:
- ADSL: DL=6 Mbps / UL=320 kbps


Modem/Routeur/Box :
- 2wire 5012NV edition speciale SingTel (...)
- - OK. Pas de probleme.


Firewall/Serveur-passerelle multifonctions :
- Fonction assuree par la "Box" du F.A.I. pour le Wi-Fi -- OK
- Fonction assuree par SME Serveur (situe en "DMZ" de la "Box") pour le reseau local -- non testee


Adressages :
- voir schema ci-dessus.


Question :
- Plein mais, plus particulierement:
- - Comment eviter de massacrer le systeme de fichier en cas d'arret brutal d'un HDD en pleine furie d'acces en lecture / ecriture(?) par interruption d'alimentation electrique ?
- - Quels fichiers de Log (hormis le Journal) devrais-je rechercher et consulter (en particulier concernant cette sur-activite' HDD plus qu'etrange) ?
- - A quoi d'autre n'ai-je pas pense' vis-a-vis de la situation ??


Pistes imaginées :
- Redemarrer le serveur apres un arret a la prise de courant elecrique... Pas encore tente', je carints le pire pour le systeme de fichiers... :?
- Possible avarie materielle impactant le chipset de la carte mere (S-ATA, bouton "Power", USB...) liee' au climat tres humide et assez chaud
- Prise de controle a distance du serveur ??? :cry:
- Tentative d'utilisation de l'application Android "andSMB" depuis un telephone portable via le Wi-Fi avant d'avoir creer le compte utilisateur de test qui va bien. => tentative d'acces avec "login + password" inexistants, rien qui ne devrait poser de probleme, d'autant plus que l'acces se fait cote "WAN" de SME (...) donc, aucune chance que cela fonctionne pour le partage de fichiers. ;)


Recherches :
- dans ma memoire vis-a-vis des derniers changements de configurations ou autres installations et mises a jour...
- - Rien trouve' qui aurait un lien de cause a effet direct et instantanne ces 3 derniers jours.

- sur Internet (ex: G**gle, Y!, etc...) : je verrai ca demain ; pas la tete a cela avec la fatigue du moment... :oops:
- - PROCHAINE ETAPE A COMPLETER PAR MES SOINS. ;)


Logs et tests :
- Logs:
- - impossible a se procurer dans l'immediat. <=> Attente de prise de decision d'un arret "barbare" du serveur...

- Tests:
- - Verifie' la reaction a la deconnexion de la liaison du serveur a Internet : aucun changement, HDD a plein regime... (donc, a priori, pas de "controle a distance" du serveur)
- - Tente' un acces au shell directement depuis le clavier : impossible de se logger en 'root', 'admin' ou "user" => rien puis "Login Time Out 60s" et c'est fichu. (tente' en utilisant 3 fenetres terminal distinctes (ALT+F1 ; ALT+F2 ; ALT+F3)...)


Et vous savez quoi : je voulais profiter d'avoir enfin 3+2 jours de conges (les eleves en ont 10+4...) pour enfin m'occuper du Backup de ce serveur (jamais eu le temps avec le rythme de travail impose', la fatigue accumulee, etc.., etc..., etc...) :roll:
... sur mes HDD 2TB flanbants neufs ! (le 3TB, il faut oublier avec SME 7.6 qui ne gere pas les GPT mais seulement(?) MS-DOS Partition Table... Bon, on oublie, c'est hors-sujet. J'ouvrirai un autre sujet quand je m'y recollerai... ;) )


Bon, il se fait tard pour moi (00h22_SGT), je ne reviendrai relire et completer / corriger ce "billet" que demain.
Merci de m'avoir lu quand-meme.

Bonne soiree! :)

Cordialement,
HP_
HP77
 
Message(s) : 127
Inscription : 03 Nov 2011 03:58
Localisation : Singapore

Re: PANNE - Non reponse de SME 7.6 + HDD occupe a 100%

Message par HP77 » 26 Sep 2012 18:01

Bonsoir,

Mon serveur est HS : HDD foireux, semble etre un probleme de surface disque forcant le controlleur du HDD a "recalibrer" quelque chose en boucle...

Je reviendrais a un moment plus opportun pour apporter plus d'elements sur ce probleme avec photos d'ecran LCD a l'appui.

Dans l'immediat, je ne vais recopier qu'un bloc issu d'une tres, tres, longue liste defilant a l'ecran du serveur apres deux "power-off" forces au bouton et deux redemarrages :

Code : Tout sélectionner
SCSI device sda:976773168 512-byte hdwr sectors (500108 MB)
ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata1.00: (BMDMA stat 0x24)
ata1.00: cmd 25/00:08:5d:31:b9:/40:00:20:00/e0 tag 0 cdb 0x0 data 4096 in
         res 51/40:00:5d:31:b9:/40:00:20:00/e0 Emask 0x9 (media error)
ata1.00: configured for UDMA/133
ata1: EH complete
ata1.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
...


Cables S-ATA = OK
Carte mere = toujours OK malgre la crasse et l'oxydation des connecteurs inutilises a l'exterieur du boitier.
HDD = WD 500 GB caviar bleu 5400 rpm 2.5" => HS apres environ 1.5 an de fonctionnement dont seulement 4 mois en non-stop (cette fois, ce n'est pas de l'humidite' dans le disque qui est en cause).
(j'etais habitue a du 4 ans en non-stop avec SME 5.6 de 2004 a 2008 et un HDD de 80 GB de chez Maxtor, vraiment pas de bol !!! :evil: )

Pour conclure :
- La derniere sauvegarde du serveur n'est pas a jour (...), forcement... :roll: :twisted:
- mon seul PC (HP ProBook 4520s, une vraie daube, croyez-moi !! que ce soit le touch pad, le controleur USB, le GPU ATI ou "simplement" la gestion des 4GB de RAM qu'il a dans le ventre (en partage avec le GPU ATI... :roll: )) en "etat de marche" (en fait, celui du boulot) ne fait que merder... :twisted:

Bref, Resultat, rien n'avance dans ma recuperation de donnees ou dans ma correspondance sur / avec IXUS. Merci d'etre patient si vous atendez quelque chose de ma part adns les prochains jours car je suis dans une vraie galere a quelques jours du retour des eleves.
Desole de ne pas pouvoir faire mieux actuellement.


Cordialement,
HP_


P.S.
Si quelqu'un avait la gentillesse de me dire si c'est possible de recuperer le contenu des bases de donnees de MySQL de ce SME Server 7.x [url]sans etre oblige' de le faire redemarrer[/url] (impossible, "FileCheck" reste planter pendant des heures a 34.1% et puis plus rien au redemarrage suivant...), je pourrais peut-etre arriver a faire un "miracle". :roll:

Bon, deja 1h du matin, reveil a 5h... on verra ca "demain" soir apres le boulot (22h ou plus tard) si je ne m'endors pas directement au lieu de dinner... :roll: ;)
HP77
 
Message(s) : 127
Inscription : 03 Nov 2011 03:58
Localisation : Singapore


Retour vers SME

Qui est en ligne ?

Utilisateur(s) parcourant ce forum : Aucun utilisateur inscrit et 1 invité

cron