Nutanix: 1 Jahr Nicht-Betrieb

Vor etwas mehr als einem Jahr haben wir unsere 2 Nutanix Cluster (NX1350, die kleinsten Teile im Angebot) in Betrieb genommen (zumindestens behaupten die Systemdisken dass sie jetzt 373 bzw. 377 Tage laufen), Zeit für eine kleine Zusammenfassung der gemachten Erfahrungen (wir fahren mit Hyper-V was von mehr Bedeutung ist als ich ahnen konnte):

Das Positive zuerst: Der Support ist wirklich erstklassig; ich kenne keine andere Firma die dermaßen schnell reagiert und gleichzeitig dermaßen kompetentes Supportpersonal hat. Und ich muss es wissen – ich hatte bisher 23 Calls (also rund 2 pro Monat) und verbrachte locker 50 Stunden in Webexen.

Damit sind wir aber auch schon fertig, jetzt beginnt die Raunzerei:

Lizenzierung – zum Zeitpunkt der Beschaffung hat Nutanix die notwendigen Lizenzen extreme gut versteckt, sodaß wir nur eine Starter-Lizenz hatten und so Kleinigkeiten wie REST-API (furs Monitoring) oder Replikation über Standorte hinweg nicht produktiv betreiben dürfen (aber könnten weil es nicht hart abgefragt wird).
Geschäfte – bis vor kurzem war es extreme schwierig Geschäfte mit Nutanix in Europa zu Machen weil offenbar alles über die Schweiz gegangen ist, beim aktuellen Wechselkurs EUR/CHF ein kostspieliges Unterfangen.
Setup – früher stand auf der Nutanixseite dass man einen Cluster in wenigen Stunden live bringt und Erweiterungen in 30 Minuten erledigt sind. Eine glatte Lüge. Initialsetup ist über mehrere Tage gelaufen (inkl. Abholung aller Geräte um ganz von Vorne zu beginnen), Resetup eines Hosts letzten Freitag über Webex (weil selber darf man ja nix machen….) hat 7 (in Worten: sieben) Stunden bedurft.
Replikation – wurde verschwiegen dass das für Hyper-V gar ned geht bzw. ging, siehe auch Lizenzierung.
Hardware – in einem Jahr sind 2 (SATA) Disken verstorben und wie wir heute festgestellt haben sind alle 6 Systemdisken der Hosts (laufen auf SATADOMs) weared out und stehen kurz vorm Exitus. Die verbauten 10G-Karten (Intel) unterstützen nach wie vor kein VMQ bzw. sollte man dann keine LiveMigration machen (außer man steht auf blaue Bildschirme).
Softwareupdates – ich habe in dem Jahr 4 oder 5 mal ein NOS (Nutanix OS, jetzt heißts Acropolis) Update durchgeführt weil Support (teilweise zurecht) gehofft hat dass offene Probleme damit behoben werden – für mich entschieden zu oft, vor allem weil das ja eine Puls-200-Aktion ist wenn da so richtig viele VMs daneben produktiv laufen (obwohl nur einmal ein Host schief gegangen ist, sonst liefs wirklich superglatt).
PRISM/REST/NCC/NOS – selten ein dermaßen cooles HTML5 Interface gesehen welches auch wirklich browserübergreifend funktioniert aber die Technik dahinter ist dafür umso grauslicher, da wird beispielsweise um IPMI-Daten auszulesen mit Python (zwar über einen internen Adapter) völlig unsicher eine PowerShell Remoting Session am Host erzeugt, ein Sourceforge Commandline Tool aufgerufen (ipmitool.exe), dessen Ausgabe auf stdout geparsed, in ein JSON Object umgewandelt in die CVM ins Python zurück geschickt, dort dann wieder in ein Python Object geparsed und dann weiter verarbeitet. Ist auch nur ein Zeichen am falschen Platz oder wirft das Commandlinedingens einen unerwarteten Fehler leuchtet Prism wie ein Christbaum (und keiner weiß warum aber Vorteil am Linux is halt dass man alles reverse engineeren kann (wenn man die Zeit hat)…). Auch sonst ist die Anzahl an falschen, halbfalschen und nicht gemeldeten Problemen mannigfaltig – zuletzt war z.B. ein ganzer Host weg (offline), das hat PRISM aber nicht großartig für erwähnenswert gehalten 🙂
Das Linux Problem – Nicht nur dass die Controller VMs jede Menge Resourcen verbraten (ca. 20%, und das ohne was zu tun – sprich ohne VMs zu servicieren), sie laufen unter Linux – was per se ja nicht schlecht ist aber wenn Linux beginnt Microsoft-native Protokolle nachzubilden (Powershell, SMB) kommt normalerweise nix Gutes dabei raus – so auch leider in diesem Fall: LiveMigration aus dem Cluster raus oder rein hab ich bis heute nicht hinbekommen, die Security ist auf NFS-Niveau (IP-Adressen, keine User, und nicht mal das funktioniert richtig) und der SMB-Dialekt noch nicht über 3.02 hinaus gekommen. Die ganzen anderen Cross-Platform-Probleme lass ich mal weg – auch wenn sie schon arg tragend werden weil man halt wirklich viel Zeit troubleshootend auf der Commandline in der CVM verbringt und ohne teilweise tiefe Linuxkenntnisse im Allgemeinen bzw. Wissen über die brutal mächtigen Nutanix-Tools im Speziellen verloren ist.
Performance – ja wir haben die kleinsten Gurken, ja ich hab mir nicht viel erwartet – aber insgesamt schlägt sich das Teil trotzdem nicht schlecht wenn man bedenkt mit welchen Genen es ausgestattet wurde: riesige SATA Disken, 10G Adapter die nicht VMQ können und I/Os die mehrfach durch mehrere Kernel gehen müssen….für nicht kritische VMs reichts auf alle Fälle, solange nicht zu viele aufeinander treffen 😮
DPM Backup – Nein. Zumindestens nicht Hypervisor-based. Weil dafür müsste der Agent im Linux laufen, was natürlich nicht geht.
VMM Integration – Grundsätzlich ja, aber eine funktionierende Library hab ich nie hinbekommen beispielsweise – auch die Geschichte mit der LiveMigration mit Storagewechsel hat nie geklappt, d.h. Evakuierung wenn mal wieder was zu spinnen begonnen hat war immer eine Shutdown-Wegkopier-Sache.

In dem Jahr hatte ich auf den 2 Cluster bisher ganze 3 VMs produktiv. Für wenige Tage bis Wochen. Bis wieder irgendwas explodiert ist. Ich denke der Titel hat schon alles verraten 😀

Aktuell warten wir übrigens bis ein neues Modell der SATADOMs zertifiziert wird um alle (in Worten: ALLE) Hosts neu zu installieren. Wenn wir für jeden Host dermaßen viel Zeit investieren müssten und so wenig hinten raus käme….Halleluja.