ai-je un probleme de raid?

Forum dédié à la distribution du même nom et que vous pourrez télécharger sur http://www.contribs.org. La nouvelle version de cette distribution se nomme SME Server. Une description est donnée sur le portail phénIXUS : http://www.ixus.net/sme-server/.

ai-je un probleme de raid?

Message par arnaud056 » 18 Mars 2012 16:26

bonjour,
ma configuration: sme8 en server+gateway avec 2 disques durs en RAID1.

Depuis l'installation (cad 12/2010) de ma sme, tous les dimanches à 4h22 les mails suivants sont envoyés à l'admin:

Mail 1:
Code : Tout sélectionner
his is an automatically generated mail message from mdadm running on sme-intel.maison.ag.
A RebuildStarted event has been detected on md device /dev/md1.


Mail 2:
Code : Tout sélectionner
This is an automatically generated mail message from mdadm running on sme-intel.maison.ag.
A RebuildFinished event has been detected on md device /dev/md1.
Device  mismatches found: 128 is now an active member of md device /dev/md1.


Mail 3:
Code : Tout sélectionner
/etc/cron.weekly/99-raid-check:
WARNING: mismatch_cnt is not 0 on /dev/md1


J'ai donc regardé (plusieurs fois...) en console "gérer la redondance des disques" et ma sme m'a indiqué "tous les périphériques RAID fonctionnent correctement".
--> je ne me suis pas inquiété et me suis habitué à ces messages.... :?
Cependant, j'aimerais clarifier ce point car si tout était normal, ces messages ne devraient pas être générés.

Une recherche m'a rapidement orienté vers le forum contribs.org http://forums.contribs.org/index.php?topic=47294.0
C'est exactement mon cas.
Malheureusement je n'ai pas compris grand chose dans les liens vers les rapports de bug :oops: ,
sauf la chose suivante: apparemment le swap est effectué sur md1 uniquement --> md1 n'est jamais égal à md2 de ce fait
Code : Tout sélectionner
On most SME systems, /dev/md1 is a RAID1 device, and we keep swap on it, so we definitely expect mismatch_cnt to be non-zero often, so we should not send that warning.


Je suis tout même étonné, s'il s'agissait uniquement d'un bug, de ne pas trouver des topics de ce style à la pelle sur le net... Normalement chaque utilisateur d'une sme8 en RAID1 (cad la majorité d'entre nous) devrait alors avoir également une fois par semaine des messages de ce style!

D'où mes questions:
1) quelle est la raison de ces messages?
2) mon RAID est-il tout de même opérationnel? (pour en avoir le coeur vraiment net, je pourrais débrancher l'un des disques, je sais, mais il me fait pour ceci sortir le sme du support, ouvrir le boitier......)
3) faut-il entreprendre quelque chose?

Merci.
@+
Arnaud
Mieux vaut faire envie que pitié...
it's me
arnaud056
 
Message(s) : 98
Inscription : 04 Nov 2011 20:52
Localisation : Allemagne

Re: ai-je un probleme de raid?

Message par jibe » 18 Mars 2012 22:36

Salut Arnaud,

Je t'avoue n'avoir pas lu tous les rapports de bug et discussions chez CentOS. Je m'en tiens seulement à ce que tu rapportes : apparemment, le message correspondrait à la partition swap et ne devrait pas être envoyé.

Trois choses :
1 - Tu ne précises pas si tu es en raid matériel ou logiciel ?
2 - Je n'ai jamais vu cela sur SME 7, et n'ai aucune SME 8 en fonctionnement continu.
3 - N'ayant ni lu en détails les différents liens en rapport ni eu l'occasion d'expérimenter, ce que je dis n'est peut-être pas exact. A prendre avec prudence donc ! C'est juste ce qui me parait assez logique au vu de ce que tu nous en dit...

arnaud056 a écrit :1) quelle est la raison de ces messages?

Si j'ai bien compris : la swap est impossible à synchroniser et il y a inévitablement souvent des "mismatch_cnt". Le rapport, normal pour les autres partitions, ne devrait pas être envoyé pour la swap, mais l'est quand même...

arnaud056 a écrit :mon RAID est-il tout de même opérationnel?

Je dirais que oui. Si tu veux t'en assurer, tu n'as pas besoin de débrancher de disque : utilise mdadm pour sortir l'un ou l'autre disque du raid ;)

arnaud056 a écrit :3) faut-il entreprendre quelque chose?

Oui : essayer d'avoir un avis plus avisé de quelqu'un ayant une SME 8 en prod :P
jibe. En vert ou en rouge-orangé : je modère - En noir ou autre couleur : je parle à titre personnel.

L'idée que quand on n'a pas quelque chose, on puisse se bouger pour l'avoir, c'est une démarche qui parait absolument normale pour les gens du Logiciel Libre et totalement surnaturelle pour tout le reste de la population. (Benjamin Bayart)
jibe
 
Message(s) : 943
Inscription : 09 Sep 2011 23:19
Localisation : Haute Savoie

Re: ai-je un probleme de raid?

Message par Franck78 » 19 Mars 2012 02:14

Salut
diagnostic miminal pour avoir l'état
Code : Tout sélectionner
# cat /proc/mdstat

Chaque mdX est un disque indépendant. Si chacun possède son indicateur [UU], c'est bon.
Le mdX contient soit une partition ext3/4 soit du lvm (un physical volume).

Mais quelque soit le system (swap, ext, pv) un mdX est toujours synchro.
Franck78
 
Message(s) : 525
Inscription : 11 Sep 2011 16:04
Localisation : France

Re: ai-je un probleme de raid?

Message par adili » 19 Mars 2012 15:54

Bonjour,

J'ai le même problème serveur sme 8b7 2 disques raid1 (logiciel)
le message :
/etc/cron.weekly/99-raid-check:

WARNING: mismatch_cnt is not 0 on /dev/md1


indique que le raid contient des blocs non synchronisés
Voir :
http://www.michaelsworld.fr/2010/01/10/reparer-et-verifier-le-raid-logiciel-sur-centos-5/
En suivant les indications de cette page, pour ma part, il y avait 128 blocs non synchronisés ; apparemment tout est ordre maintenant.
Pour info il existe un bug répertorié:
http://bugs.contribs.org/show_bug.cgi?id=6562#c7

Cordialement
adili
 
Message(s) : 18
Inscription : 02 Nov 2011 05:24

Re: ai-je un probleme de raid?

Message par arnaud056 » 19 Mars 2012 21:50

Tout d'abord bonsoir :) et merci pour vos indications respectives.

jibe a écrit :1 - Tu ne précises pas si tu es en raid matériel ou logiciel ?

oups...pardon pour l'omission: c'est donc effectivement un raid logiciel: une sme sur laquelle sont branchés 2 DD sata. Mode RAID1 depuis le début de l'installation.



Franck78 a écrit :diagnostic miminal pour avoir l'état

Code : Tout sélectionner
[root@sme-intel ~]# cat /proc/mdstat
Personalities : [raid1]
md1 : active raid1 sdb1[0] sda1[1]
      104320 blocks [2/2] [UU]
     
md2 : active raid1 sdb2[0] sda2[1]
      488279488 blocks [2/2] [UU]
     
unused devices: <none>

C'est ce qui m'est également indiqué dans la console. Je l'avais déjà vérifié au lu des rapports de bugs.


Franck78 a écrit :Chaque mdX est un disque indépendant. Si chacun possède son indicateur [UU], c'est bon.

oui.
Franck78 a écrit :Le mdX contient soit une partition ext3/4 soit du lvm (un physical volume).

toujours oui.
Franck78 a écrit :Mais quelque soit le system (swap, ext, pv) un mdX est toujours synchro.

?? Synchro mais avec quoi? Tu affirmes que les disques qui forment mdX sont alors toujours synchros entre eux?


J'ai appliqué la méthode donnée par le lien d'adili. Effectivement, ça a parfaitement fonctionné comme indiqué: sur md1, j'avais apparemment 128 blocs non synchronisés.
--> ma question 3 lignes plus haut . Comment est-ce alors possible au vu de l'indication de Frank?

Je continue: dans la méthode indiquée:
Code : Tout sélectionner
  Pour solutionner ce problème, il faut d'abord réparer le raid avec la commande suivante:
# echo repair >/sys/block/md<#>/md/sync_action

OK, mais comment est-ce que ma brave sme sait si c'est le dd#1 ou le dd#2 qui doit être pris comme référence?

jibe a écrit :utilise mdadm pour sortir l'un ou l'autre disque du raid

Pour être plus précis: c'est bien de "mdadm --manage --remove" et "mdadm --manage --add" dont tu voulais parler?

Je n'ai pas osé :oops: pour les raisons suivantes:
1) comme indiqué dans le wiki http://smeserver.pialasse.com/index.php/Lvmraid, md1 contient /boot.
Admettons que mon dd#1 soit défectueux / que les données soient erronées (128 blocs non synchronisés) et que j'enlève dd#2 du raid --> je ne parierais pas pouvoir redémarrer sans un coup de starter via un boot-manager sur clé usb.

2) encore plus parano ( :mrgreen: ) je procède "pour faire un test" de même avec md2 au lien de md1. dd#1 est erroné. J'enlève dd#2 du raid --> éventuel plantage immédiat selon ce qui est erroné et là, pas moyen de remettre en route sans "se mettre les mains dedans" avec un rescueCD (ce que je ne sais pas encore faire...) pour faire réintégrer dd#2 au md2. Mais vu que le raid est logiciel: il faut "faire comprendre" cela à la sme sans lancer cette dernière! Cela me parait tout simplement hors de ma porté.
Ce raisonnement est très certainement faux, mais il révèle mon état de connaissances actuel...
[divergence]
Afin de ne pas en rester là, auriez-vous un lien vers une "première" documentation (cad abordable, même s'il y manque quelques subtilités) à me conseiller sur la manière de "bricoler" le raid (enlever un disque, en remettre, faire une synchro etc...) à partir d'un OS en live. Avec ma sme et le rescueCD, je suis en ce moment comme la poule qui a trouvé un couteau: mis à par lancer l'OS, je ne sais pas comment intervenir sur la sme. Voilà une bonne occasion de combler, un peu, les lacunes 8-) .
[/divergence].

;)
@+
Arnaud
PS: vivement dimanche 4h22..... :lol:
Mieux vaut faire envie que pitié...
it's me
arnaud056
 
Message(s) : 98
Inscription : 04 Nov 2011 20:52
Localisation : Allemagne

Re: ai-je un probleme de raid?

Message par jdh » 19 Mars 2012 23:08

(Je ne suis pas spécialiste SME, loin de là, donc je réfléchis par analogie.)

Concernant l'hypothèse raid soft / raid hard, les devices /dev/mdX traduisent un raid soft (forcément).
Quand il n'y a qu'un disque, on peut quand même créer des devices /dev/mdX en mode miroir avec un disque normal et un disque absent !
Les raid hardware peuvent être sophistiqués type carte SAS ou SCSI, ils présentent alors un seul disque 'logique'.
Les raid hardware peuvent être basique type SATA sur carte mère, il est nécessaire de disposer d'un module sachant gérer le raid.

Sauf config en 3 ou 4 disques, le raid soft de SME est un miroir.
Donc le système sait quel disque est LA référence du device mdX (et change au gré des écritures).

Le problème qui peut se poser est effectivement avec 2 disques si Grub (je suppose que c'est Grub) n'est pas installé sur chacun des disques.
Grub est auto-capable de booter sur un tel device mdX sans difficulté, mais il faut qu'il soit bien installé sur chacun des disques.

La solution présenté par adili semble intéressante et doit être réalisé sans arrêt de machine.
Elle me semble 'sans risques majeurs' mais bien évidemment il faut sauvegarder avant quand même (et vérifier que la sauvegarde est lisible).

Un bon outil pour vérifier/réparer un disque est 'SystemRescue CD'.

Néanmoins, il est préférable d'avoir déjà un peu de 'vécu' avec ces manip (mdadm --assemble, ...).
L'intelligence artificielle n'est rien à côté de la stupidité naturelle.
jdh
 
Message(s) : 731
Inscription : 02 Nov 2011 00:36
Localisation : Nantes - Angers

Re: ai-je un probleme de raid?

Message par Franck78 » 19 Mars 2012 23:18

?? Synchro mais avec quoi? Tu affirmes que les disques qui forment mdX sont alors toujours synchros entre eux?
ben oui, chaque bout de partition composant la grappe est supposé remplir sa tache !


OK, mais comment est-ce que ma brave sme sait si c'est le dd#1 ou le dd#2 qui doit être pris comme référence?

SME le le saura jamais. C'est le problème du service RAID.
Comment ça marche ? Surement d'une façon simple

Imaginons en mirror

Ecriture
->sur les N mirrors, ok, rien à dire
->pb sur 1 secteur de 1 des disques : marquage de ce secteur invalide sur les N mirrors et retry sur un autre secteur.
les deux disques contiennent la bonne info, même si l'un d'eux commence à foirer.

Lecture
->sur le premier disque ready, ok (peut être préventivement lire les autres si il y a du temps ?)
->erreur de lecteur, lecture sur le mirror, procédure de marquage du secteur invalide comme pour écriture.

Remplacement d'un mirror
->recopie intégrale depuis le support en cours (le rebuild/synchro)

Ensuite ca doit être des variations sur le même thème : utuliser du cache, que faire quand 10000 secteurs consécutifs foireux en lecture ? En écriture ? Quel support est le plus récent ? Tout ça avec les métadonnées du raid et mdadm sais quoi faire au démarrage, au remplacement etc etc !
Franck78
 
Message(s) : 525
Inscription : 11 Sep 2011 16:04
Localisation : France

Re: ai-je un probleme de raid?

Message par arnaud056 » 21 Mars 2012 18:18

Bonsoir,

merci bien à vous deux pour les explications. Je commence à entrevoir un peu la silhouette de la bête.

jdh a écrit :Néanmoins, il est préférable d'avoir déjà un peu de 'vécu' avec ces manip

BINGO!
Malheureusement j’ai apparemment joué à l’apprenti-sorcier avec le systemrescueCD hier soir. :twisted:
Il me faut ouvrir d’urgence un nouveau fil……. :oops:

Dès que tout remarche, j’attends dimanche 4h22 pour confirmer la résolution de celui-ci.

@+
Arnaud
Mieux vaut faire envie que pitié...
it's me
arnaud056
 
Message(s) : 98
Inscription : 04 Nov 2011 20:52
Localisation : Allemagne


Retour vers SME

Qui est en ligne ?

Utilisateur(s) parcourant ce forum : Aucun utilisateur inscrit et 1 invité

cron