SCOM Hyper-V Management Pack Extensions 2012 R2 Bugfix/Erweiterung

Die Hyper-V Management Pack Extensions 2012 R2 sind zwar an sich recht fein, haben aber ein paar Probleme:

  • Die Rule HyperVMPE2012R2.SRHV.LiveMigrationsFailures.Rule („Hyper-V MPE 2012 R2 Live Migrations Failures“) hat als Target alle Hyper-V 2012R2 Server, ist so ein Server aber kein Cluster Node gibts das EventLog Microsoft-Windows-Hyper-V-High-Availability-Admin und das HealthService wirft irgendwann eine netten Alert weil es nicht auf das EventLog zugreifen kann.

    Habe daher neue Klasse HyperVMPE2012R2.ClusterNodeRunningHyperV2012R2 („Hyper-V MPE 2012 R2 Cluster Node Running Hyper-V 2012 R2“) samt Discovery erzeugt und das Target der Regel dorthin verbogen.

  • Linux (ich hab hier nur Debian aber vermutlich ist es bei mehreren Distributionen (außer vermutlich RHEL wo man ja manuell installieren muss) so) meldet nicht die korrekte Version der LIS (Linux Integration Services) – bei mir ist es auch mit den brandneuesten Kernel/hyperv-daemons Package immer 3.1. Hyper-V meldet dann IntegrationServicesVersionState „Update required“ und der Monitor HyperVMPE2012R2.IntegrationServices.Monitor („Hyper-V MPE 2012 R2 Virtual Machine Integration Services Version“) wirft einen Alert.

    Habe daher sowohl Discovery als auch MonitorType auf dem der Monitor basiert so geändert dass Versionen 3.* und 4.* immer als up-to-date geliefert werden – mag zwar nicht immer stimmen aber besser als ein sinnloser Alert isses allemal 🙂

  • Ein paar Typos ausgebessert, vor allem Winodws auf Windows.
  • Ein paar fehlende DisplayStrings ergänzt.

 

Download: HyperVMPE2012R2

P.S.: Vielen Dank an Serge für den fantastischen MP Authoring Workshop, jetzt verstehe ich SCOM erst _richtig_ 😀

 

DoubleTake Reporting Services: Cannot connect to management service

DoubleTake Reporting Service 7.1.2.1445.2 – installiert auf einem „normalen“ Server, versucht gemäß Anleitung mit einer DoubleTake Console für die Konfiguration zu connecten und immer bei „Cannot connect to management service“ oder „Cannot connect to DoubleTake“ verendet. Call erzeugt und beim Versuch den wegzuschicken ein Fenster „halt, bevor wir das öffnen wirf doch mal Blick auf diese KBs“ bekommen und siehe da, diese Perle war dort versteckt: http://visionsolutions.custhelp.com/app/answers/preview_detail/a_id/47988, natürlich ist das sonst absolut unauffindbar….

Bei mir stand da allerdings schon keysize=2048 drin, der Tipp ganz unten mit .JKS File löschen und neu erzeugen (mit dem Batchding) hat allerdings dann geholfen; offenbar wird beim Setup zwar das korrekte .BAT File angelegt aber ein 512er Zertifikat erzeugt.

 

Unicode GREP mit der Kraftmuschel

Ich wollte auf die Schnelle wissen ob in einem Windows-EXE oder einer -DLL der Begriff „DebugLog“ vorkommt – da aber in vielen Programmen schon Unicode für Literalstrings Standard ist scheiterten alle Produkte die ich installiert hatte und auch die paar die ich probiert habe bzw. waren dermaßen krank zu bedienen dass sie schnell wieder deinstalliert/gelöscht waren.

Da SysInternals STRINGS auch Unicode kann hab ich mir kurzerhand einen PowerShell-Einzeiler gebastelt den ich mir hier fürs nächste Mal notiere 😀

$files=gci -recurse *.dll; $done=0; $files|% { $done++; $file=$_.FullName; write-progress $file -PercentComplete ($done/(($files.Count)/100)); strings $file|? { $_ -like "*DebugLog*" }|% { "$($file): $($_)" } }

Mein Fazit zu Container (Windows) und Nano Server

Kurz und knackig: Fürn Ar….

Langfassung:

  • Windows Server Container sind meiner Meinung nach nicht so schlank wie behauptet wird. Ich sehe den Gewinn nicht.
  • Windows Server Container sollen environmentagnostisch sein und sind damit nicht domainfähig, ist ok –  d.h. aber bis sich die Softwarelandschaft Containerisiert hat und jemand eine elegante Lösung für das Authentifizierungsproblem gefunden hat bleibt nicht viel übrig was da sinnvoll drin laufen kann. Und nein ich will jetzt nix über SAML, OAuth & Co. hören, das was ich mir da am einen Ende erspare müsste ich am anderen Ende investieren – ned sehr intelligent.
  • Nano Server ist nett als Tech-Demo (diese Bootzeit!!!!!) aber in einem „normalen“ Industrie/Gewerbe/Non-Extremhosterumfeld in etwa so sinnbefreit und beliebt wie der jetzt schon verfügbare Windows Server Core. Wenn dann alle Hardwarehersteller so in 5 bis 10 Jahren mitbekommen haben dass sie das auch sinnvoll supporten sollten machts im Hyper-V Umfeld sicher Sinn aber heute können das normale Unternehmen mit normaler Hardware nicht einsetzen.
  • Das gleiche gilt für Hyper-V Container – die sind für das normale Unternehmen völlig sinnbefreit, beim Superduperextremhoster machts u.U. Sinn.
  • Das Management der Container ist eine spaßbefreite Zone – ich weiß schon dass bei MS der neue Leitsatz „Command Line ist das neue GUI“ ausgegeben wurde aber wenn das nicht so wie früher ala „es gibt halt ein GUI, die richtigen Hardcoresachen gehen aber nur in der Powershell“ gelöst wird sondern in Command Line only (Powershell ist dabei nicht mehr DIE Command Line sondern nur noch EINE Command Line, wer hätte das gedacht) mündet finde ich das wenig lustig für die Leute die noch drölfzig andere Sachen machen (müssen).

RDS-CAL/TS-CAL Server finden

Hatte das Problem dass bei der RDS-CAL Lizenzserverkonfiguration eines Terminalservers ein Server aufgetaucht ist der das gar nicht sollte – erst durch einen Netzwerktrace habe ich feststellen können dass das Teil im AD nach Objekten mit CN=TermServLicensing und ObjectClass=serviceConnectionPoint sucht:

 Get-ADObject -LDAPFilter "cn=TermServLicensing"

Wenn man also einen RDS CAL Server hat der eigentlich gar keiner (mehr) ist einfach das Objekt unter dem Rechnerkonto löschen.

Nachdem ich das rausgefunden hatte konnte mir auch Google weiterhelfen 😀

Ein vernünftiger Texteditor für die Linux Console

Nachdem ich mich durch Myriaden von Texteditoren für die Linux Console gewühlt habe (vi/vim, joe, jed, nano, diakonos, mcedit, sfte, efte, ja sogar emacs und drölfzehntausend andere deren Name ich mir nicht gemerkt habe) bin ich hier gelandet:

wget http://www.jbox.dk/downloads/edit.c
gcc -o edit edit.c -Os
sudo cp edit /usr/bin

Quelle: http://www.jbox.dk/sanos/editor.htm

Der kann mit SHIFT+Pfeiltasten markieren, STRG+C/V/X (Copy/Paste/Cut) und STRG+S (Save) bzw. STRG+Q (Quit). Das kann KEINES der anderen Teile. Ernsthaft.

Da das alleine viel zu einfach wäre funktionierts natürlich nicht mit PuTTY – welches im übrigen auch mit anderen GUI-ähnlichen Editoren Darstellungsprobleme verursacht, aber es wäre nicht Linux gäbe es nicht auch dafür einen Fork: KiTTY. Hier der Direktlink zum Google Drive mit den Builds.

SSL 3.0, RC4 und Diffie-Hellman disablen

Weil diverse Sicherheitstests (nmap --script ssl-enum-ciphers -p 443 <rechnername>, https://www.ssllabs.com/ssltest/) die Standardsettings bei Windows bemeckern hier ein REG-File mit dem man die Dinger mundtot macht:

Windows Registry Editor Version 5.00

[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\SecurityProviders\SCHANNEL\Protocols\SSL 3.0]

[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\SecurityProviders\SCHANNEL\Protocols\SSL 3.0\Client]
"DisabledByDefault"=dword:00000001

[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\SecurityProviders\SCHANNEL\Protocols\SSL 3.0\Server]
"Enabled"=dword:00000000

[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\SecurityProviders\SCHANNEL\Ciphers\RC4 128/128]
 "Enabled"=dword:00000000 

[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\SecurityProviders\SCHANNEL\Ciphers\RC4 40/128]
 "Enabled"=dword:00000000

[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\SecurityProviders\SCHANNEL\Ciphers\RC4 56/128]
 "Enabled"=dword:00000000 

[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Control\SecurityProviders\SCHANNEL\KeyExchangeAlgorithms\Diffie-Hellman]
 "Enabled"=dword:00000000

Reboot nach dem Import und gut ists 🙂

Wenn Nutanix zuschlägt….

….bleibt kein Problem ungelöst 😀   Nachdem mein 1 Jahr Nicht-Betrieb Eintrag (völlig unbeabsichtigt) ziemlich eingeschlagen hat ist etwas passiert was mir in mehr als 25 Jahren professioneller IT noch nicht passiert ist: Die Herstellerfirma hat alles aber wirklich auch ALLES daran gesetzt alle Probleme zu lösen. Nochmal zum Mitschreiben: Eine Firma mit doch mittlerweile doch schon anständiger Größe setzt wirklich den gesamten Supportapparat (und noch viel mehr) in Bewegung um unserer Popelinstallation auf die Beine und zum Erfolg zu verhelfen. Was da abging will ich im Detail gar nicht schildern aber mir wurde noch nie so viel Aufmerksamkeit zuteil, hier die wichtigsten Punkte

  • Die Leute vor Ort (ja es gibt auch in Ö schon welche) haben sich beinahe instant um den Tausch der SATADOMs gekümmert und auch höchst persönlich erfolgreich durchgeführt – Problem auf absehbare Zeit gelöst.

  • Die Leute vom CAP (Critical Accounts Program, ja auch da waren wir :-D)  haben sich intensivstest (ja das Wort gibt’s nicht aber anders lässt es sich nicht beschreiben) und auch extrem zeitnah um diese Punkte gekümmert:
    • LiveMigration/VMQ – war größtenteils mein Fehler bzw. hat sich Release des KB Artikels bzw. des neuen Intel Treibers seit Setup überschnitten – Problem gelöst
    • Library – war auch größtenteils mein Fehler, ich bin zwar mit dem IP-Adressbasierten Whitelisting nicht sehr glücklich aber es tut jetzt – Problem gelöst
  • Nutanix hat neue Releases von NCC und AOS released welche u.a. das Monitoringproblem behandelt haben – Problem gelöst

  • Die Leute der Schulungsabteilung (man möge mir verzeihen der Name ist sicher nicht richtig) haben mir Resourcen zur Verfügung gestellt mit denen ich mein Wissen erweitern/vertiefen kann.

Nachdem jetzt alle technischen Probleme gelöst sind wandern nach und nach VMs auf die Cluster, über die Erfahrungen werde ich versuchen zu berichten.

P.S.: Nein ich wurde nicht „ermuntert“ diesen Eintrag zu schreiben, es war mir genauso ein Bedürfnis wie damals den Rant loszuwerden – für mich ist das eine psychohygienische Maßnahme.

The Nutanix way of monitoring

Also schaut man in Nutanix‘ Prism nach wie es dem Cluster geht:

Prism2

Also superfein, alles „Good“. Moment. 3 Hosts aber nur 2 VMs (Controller VMs in dem Fall weil keine User-VMs auf dem Cluster sind)?

Die Details offenbaren dass irgendwo 3 VMs sind aber nur 2 grün, die dritte wird einfach totgeschwiegen:

Prism

 

Nutanix: 1 Jahr Nicht-Betrieb

Vor etwas mehr als einem Jahr haben wir unsere 2 Nutanix Cluster (NX1350, die kleinsten Teile im Angebot) in Betrieb genommen (zumindestens behaupten die Systemdisken dass sie jetzt 373 bzw. 377 Tage laufen), Zeit für eine kleine Zusammenfassung der gemachten Erfahrungen (wir fahren mit Hyper-V was von mehr Bedeutung ist als ich ahnen konnte):

Das Positive zuerst: Der Support ist wirklich erstklassig; ich kenne keine andere Firma die dermaßen schnell reagiert und gleichzeitig dermaßen kompetentes Supportpersonal hat. Und ich muss es wissen – ich hatte bisher 23 Calls (also rund 2 pro Monat) und verbrachte locker 50 Stunden in Webexen.

Damit sind wir aber auch schon fertig, jetzt beginnt die Raunzerei:

  • Lizenzierung – zum Zeitpunkt der Beschaffung hat Nutanix die notwendigen Lizenzen extreme gut versteckt, sodaß wir nur eine Starter-Lizenz hatten und so Kleinigkeiten wie REST-API (furs Monitoring) oder Replikation über Standorte hinweg nicht produktiv betreiben dürfen (aber könnten weil es nicht hart abgefragt wird).
  • Geschäfte – bis vor kurzem war es extreme schwierig Geschäfte mit Nutanix in Europa zu Machen weil offenbar alles über die Schweiz gegangen ist, beim aktuellen Wechselkurs EUR/CHF ein kostspieliges Unterfangen.
  • Setup – früher stand auf der Nutanixseite dass man einen Cluster in wenigen Stunden live bringt und Erweiterungen in 30 Minuten erledigt sind. Eine glatte Lüge. Initialsetup ist über mehrere Tage gelaufen (inkl. Abholung aller Geräte um ganz von Vorne zu beginnen), Resetup eines Hosts letzten Freitag über Webex (weil selber darf man ja nix machen….) hat 7 (in Worten: sieben) Stunden bedurft.
  • Replikation – wurde verschwiegen dass das für Hyper-V gar ned geht bzw. ging, siehe auch Lizenzierung.
  • Hardware – in einem Jahr sind 2 (SATA) Disken verstorben und wie wir heute festgestellt haben sind alle 6 Systemdisken der Hosts (laufen auf SATADOMs) weared out und stehen kurz vorm Exitus. Die verbauten 10G-Karten (Intel) unterstützen nach wie vor kein VMQ bzw. sollte man dann keine LiveMigration machen (außer man steht auf blaue Bildschirme).
  • Softwareupdates – ich habe in dem Jahr 4 oder 5 mal ein NOS (Nutanix OS, jetzt heißts Acropolis) Update durchgeführt weil Support (teilweise zurecht) gehofft hat dass offene Probleme damit behoben werden – für mich entschieden zu oft, vor allem weil das ja eine Puls-200-Aktion ist wenn da so richtig viele VMs daneben produktiv laufen (obwohl nur einmal ein Host schief gegangen ist, sonst liefs wirklich superglatt).
  • PRISM/REST/NCC/NOS – selten ein dermaßen cooles HTML5 Interface gesehen welches auch wirklich browserübergreifend funktioniert aber die Technik dahinter ist dafür umso grauslicher, da wird beispielsweise um IPMI-Daten auszulesen mit Python (zwar über einen internen Adapter) völlig unsicher eine PowerShell Remoting Session am Host erzeugt, ein Sourceforge Commandline Tool aufgerufen (ipmitool.exe), dessen Ausgabe auf stdout geparsed, in ein JSON Object umgewandelt in die CVM ins Python zurück geschickt, dort dann wieder in ein Python Object geparsed und dann weiter verarbeitet. Ist auch nur ein Zeichen am falschen Platz oder wirft das Commandlinedingens einen unerwarteten Fehler leuchtet Prism wie ein Christbaum (und keiner weiß warum aber Vorteil am Linux is halt dass man alles reverse engineeren kann (wenn man die Zeit hat)…). Auch sonst ist die Anzahl an falschen, halbfalschen und nicht gemeldeten Problemen mannigfaltig – zuletzt war z.B. ein ganzer Host weg (offline), das hat PRISM aber nicht großartig für erwähnenswert gehalten 🙂
  • Das Linux Problem – Nicht nur dass die Controller VMs jede Menge Resourcen verbraten (ca. 20%, und das ohne was zu tun – sprich ohne VMs zu servicieren), sie laufen unter Linux – was per se ja nicht schlecht ist aber wenn Linux beginnt Microsoft-native Protokolle nachzubilden (Powershell, SMB) kommt normalerweise nix Gutes dabei raus – so auch leider in diesem Fall: LiveMigration aus dem Cluster raus oder rein hab ich bis heute nicht hinbekommen, die Security ist auf NFS-Niveau (IP-Adressen, keine User, und nicht mal das funktioniert richtig) und der SMB-Dialekt noch nicht über 3.02 hinaus gekommen. Die ganzen anderen Cross-Platform-Probleme lass ich mal weg – auch wenn sie schon arg tragend werden weil man halt wirklich viel Zeit troubleshootend auf der Commandline in der CVM verbringt und ohne teilweise tiefe Linuxkenntnisse im Allgemeinen bzw. Wissen über die brutal mächtigen Nutanix-Tools im Speziellen verloren ist.
  • Performance – ja wir haben die kleinsten Gurken, ja ich hab mir nicht viel erwartet – aber insgesamt schlägt sich das Teil trotzdem nicht schlecht wenn man bedenkt mit welchen Genen es ausgestattet wurde: riesige SATA Disken, 10G Adapter die nicht VMQ können und I/Os die mehrfach durch mehrere Kernel gehen müssen….für nicht kritische VMs reichts auf alle Fälle, solange nicht zu viele aufeinander treffen 😮
  • DPM Backup – Nein. Zumindestens nicht Hypervisor-based. Weil dafür müsste der Agent im Linux laufen, was natürlich nicht geht.
  • VMM Integration – Grundsätzlich ja, aber eine funktionierende Library hab ich nie hinbekommen beispielsweise – auch die Geschichte mit der LiveMigration mit Storagewechsel hat nie geklappt, d.h. Evakuierung wenn mal wieder was zu spinnen begonnen hat war immer eine Shutdown-Wegkopier-Sache.

In dem Jahr hatte ich auf den 2 Cluster bisher ganze 3 VMs produktiv. Für wenige Tage bis Wochen. Bis wieder irgendwas explodiert ist. Ich denke der Titel hat schon alles verraten 😀

Aktuell warten wir übrigens bis ein neues Modell der SATADOMs zertifiziert wird um alle (in Worten: ALLE) Hosts neu zu installieren. Wenn wir für jeden Host dermaßen viel Zeit investieren müssten und so wenig hinten raus käme….Halleluja.