leral.net | S'informer en temps réel

Pourquoi Leral.net ne marchait pas ?

Depuis le milieu de la semaine dernière, nous étions entrain de basculer sur notre architecture de serveur de fichiers (NAS) de production pour 2012.

L'incident du mois d'Octobre nous avait poussé à acheter beaucoup de matériels :

- 40 disques SEAGATE ES (classe entreprise) garantie 5 ans et 1,2 Million d'heures de 2 To chacun pour les NAS.
- 20 Disques Intel SSD de 600 Go à 1000 € pièce garantie 5 ans également, afin de disposer d'un pool ultra rapide.
- 2 serveurs HP utilisés comme tête de NAS 16 Core et 64 Go de mémoire vive avec lien 10 Gb/s
- 1 Baie HP de 24 disques 2 1/2" P2000 interface 2 x 10 Gb/s


Rédigé par leral.net le Lundi 30 Janvier 2012 à 04:36 commentaire(s)|

Pourquoi Leral.net ne marchait pas ?
Mardi

Nous avons réparti les 20 SSD dans Sandy 1 (NAS 1) et Sandy 2 (NAS 2), ils sont x 100 plus rapide que des disques à plateau. Nous avons changé tous les disques de Sandy 2 par 20 disques SEAGATE ES de 2 To.

Jeudi

Nous avons mis en production un pool de 10 Disques sur Sandy 1, nous avons gagné en moyen +30% en rapidité. Nous avons également lancé les synchronisations de données sur Sandy 2.

Tout ce week end nous avons surveillé la synchronisation afin de doser le transfert de données pour ne pas ralentir les sites. Tout devait être fini pour lundi dernier car Sandy 2 devait être mis en production ce jour dans l'après midi.

Dimanche

Mais aujourd'hui nous avons perdu 4 disques SSD Intel 600 Go vers 16 h le système était capable de supporter la perte de 2 disques pas 4. Nous disposions d'un back up J-1. Nous pensions pouvoir tout de même exploiter le snapshoot de la journée de samedi mais les données ne sont pas exploitables. Pour les articles publiés le vendredi 27 janvier après 13h 55, il vous faudra uploader les photos à nouveau, en revanche aucun soucis pour les vidéos.


Nous avons eu un peu de chance car 2 des disques se sont remis à fonctionner pendant quelques minutes. Nous avons immédiatement effectué un snapshoot des données ce qui nous a permis de récupérer le différentiel de données, donc aucune perte.

HP et INTEL

Nous avions pris beaucoup de précautions depuis le mois d'octobre, mobilisé plusieurs personnes à plein temps sur ce projet. Mais c'était sans compter sur la légèreté HP et INTEL !!!

HP

HP a mis 1 mois et demi à nous répondre, ce qu'il était normal d'avoir un débit de 700 Mb/s alors que la doc technique de la baie nous annonce 1600 Mb/s. Et je parle pas des serveurs pour qui il nous a fallu 1 mois à détecter un bug sur le système d'économie d'énergie qui faisait rebooter les serveurs pendant la nuit. Si HP veut des infos à ce sujet on peut leur en donner si leurs serveurs sont en mode efficiency quand la charge est trop basse. Ce qui est scandaleux c'est d'acheter pour 100 000 € de matériels et avoir un support digne d'une machine à laver.

INTEL

Nous avons acheté 20 disques à 1000 €/pièce chez INTEL. Ils postent une alerte sur les disques en disant qu'il faut mettre à jour leur fireware car sinon nous risquons un Bug. INTEL est (était) la meilleure marque de disques SSD. OVH nous avait confirmé qu'il n'utilise que cette marque pour des raisons de fiabilité. Ces disques sont 30% plus chers au Go. Et bien hier en fin d'après midi, malgré le Fireware à jour sensé corriger le bug et les 5 ans de garantie 3 disques ont perdu leurs données.

Pour conclure :

Je n'essaie pas de nous dédouaner mais franchement HP et INTEL ne sont pas des constructeurs de second rang et d'ailleurs ils font payer fort cher leur Marque. Nous avons remonté très provisoirement WMaker sur un Pool SSD que nous allons désactiver dès que les back Up sur disques à plateau seront finis (lundi en fin de journée).

Lundi nous allons faire une demande de prix à NetApp qui a la réputation d'être la Rolls Royce des NAS. Nous allons probablement être obligés pour notre santé mentale de passer par eux...

L’hébergeur





Hebergeur d'image