2269444

Die Zukunft der Fehlerbehebung in der IT

26.04.2017 | 13:11 Uhr |

Eine völlig neue Art der Visualisierung und Zuordnung von IT-Überwachungsdaten wird nötig, um die Fehlerbehebung bei Leistungsproblemen über die gesamte IT-Umgebung hinweg zu verbessern.

Bei vielen Leistungsproblemen in IT-Umgebungen sieht die übliche Methode zur Fehlerbehebung so aus: Es werden verschiedene potenzielle Lösungen ausprobiert, bis eine davon funktioniert. Da IT-Umgebungen jedoch immer komplexer und vielfältiger werden, wird diese Aufs-Geratewohl-Strategie noch ineffizienter als sie es ohnehin schon ist.

Umso wichtiger ist es, sich damit zu beschäftigen, wie die IT-Fehlerbehebung in der Welt der hybriden IT aussehen sollte, in der wir uns heute befinden und die uns auch zukünftig weiter umgeben wird.

Fehlerbehebung ist eine Kernkompetenz der IT

Sie ist zudem ein entscheidendes Element von dem, was wir bei Solarwinds „Monitoring-as-a-Discipline“ nennen. Ziel der Fehlerbehebung ist es, zum Hauptproblem vorzudringen, das Leistung, Bereitstellung oder Verwendung einer Anwendung oder eines Dienstes beeinträchtigt. Wenn ein IT-Experte diese Kompetenz nicht gut genug beherrscht, kann er Ursache und Wirkung eines Vorfalls nicht ausreichend auf den Grund gehen.

Die Fehlerbehebung bei mehrschichtigen IT-Problemen ist in einer großen Organisation jedoch oft bereichsübergreifend. Darüber hinaus haben Technologien wie Cloud, hybride IT, Virtualisierung und Hyperkonvergenz die IT grundlegend verändert und die Fehlerbehebung noch wichtiger und gleichzeitig noch komplexer als je zuvor gemacht.

Grundlagen der IT-Fehlerbehebung

Um zu verstehen, wie die Zukunft der Fehlerbehebung aussehen wird und warum sie wichtiger ist als je zuvor, sollten wir uns zuerst die wichtigsten Schritte der Fehlerbehebung vor Augen führen. Die folgenden acht grundlegenden Schritte gelten für jeden IT-Experten, jede Organisation und jede IT-Umgebung.

1. Das Problem definieren.

2. Die relevanten Informationen erfassen und analysieren.

3. Eine Hypothese oder wahrscheinliche Ursache formulieren.

4. Einen Plan zur Behebung entwickeln.

5. Den Plan umsetzen.

6. Die Ergebnisse beobachten und den Plan neu erstellen, um die Ergebnisse zu reproduzieren oder zu rekonstruieren.

7. Die Schritte 2–6 nach Bedarf wiederholen.

8. Die zugrundeliegende Ursache bestimmen und dokumentieren.

Diese Schritte sind zwar einfach, treffen jedoch zu, egal, ob es sich um herkömmliche lokale Infrastrukturen, eine hybride IT oder Devops-Szenarien handelt.

Was sich aber geändert hat, ist der Umfang und die Geschwindigkeit von Technologien und Diensten, wodurch sich auch die Spielregeln für IT-Experten ändern. Wir haben nie genug Zeit – ein Tag hat einfach zu wenig Stunden. Bei der Geschwindigkeit und dem Umfang der technologischen Veränderung erledigen wir Verwaltung, Überwachung und Problembehandlung häufig in isolierten Funktionen. Deshalb müssen wir unser Handwerkszeug für die Fehlerbehebung unbedingt aus einem neuen Blickwinkel betrachten.

Fehlerbehebung in einer hybriden IT-Umgebung

Wie erwähnt, trifft für die Fehlerbehebung in nahezu jeder Umgebung etwa die gleiche Schrittfolge zu. Da jedoch die hybride IT Standard geworden ist, konzentrieren sich die weiteren Ausführungen auf die Fehlerbehebung in hybriden Umgebungen.

Laut Solarwinds IT Trends Report 2017 haben 82 Prozent der befragten deutschen Unternehmen innerhalb des letzten Jahres kritische Anwendungen und IT-Infrastrukturen in die Cloud migriert. Außerdem gaben drei Fünftel (60 Prozent) an, dass ihre Unternehmen derzeit bis zu drei Umgebungen von Cloud-Anbietern nutzen, 11 Prozent der Befragten jedoch 10 oder mehr.

Beispiel: Es handelt sich um eine mehrstufige Anwendung, bei der einige Rechen- und Speicherressourcen als virtuelle Maschinen lokal und andere als Web- und Anwendungsebenen in der Cloud vorhanden sind und von einem Anbieter wie Amazon Web Services (AWS) bereitgestellt werden.

Wenn nun beispielsweise ein Ticket eingeht, weil die Anwendung langsam ist, dann ist der erste Administrator, der das Ticket prüft, vermutlich nur für einen Teilbereich verantwortlich. So kann es sein, dass das Ticket zuerst vom Anwendungsteam bearbeitet wird, weil es mit dessen Anwendung zusammenhängt. Sobald aber der Anwendungsadministrator mit der Fehlerbehebung beginnt, erkennt er vielleicht anhand der Leistungsprotokolle, der Antwortzeiten, dem Fehlen von Anomalien usw., dass es sich nicht um ein Anwendungsproblem handelt, und das Ticket wird an das Netzwerkteam weitergereicht.

Das Netzwerkteam hat dann hoffentlich die nötigen Tools, um der Leistung über alle Anbieter hinweg nachzugehen, vom internen Rechenzentrum bis hin zum Cloud-Dienstanbieter – in diesem Fall AWS. Dank dieser Transparenz kann es die Hops untersuchen und stellt vielleicht fest, dass es zwar eine gewisse Wartezeit gibt, diese aber wohl nicht die Ursache für die ursprüngliche, im Ticket beschriebene Leistungsverschlechterung ist. Daraufhin wird das Ticket an das Infrastrukturteam übergeben. Dieses hat keine Zeit für die Suche nach der zugrundeliegenden Ursache, kann aber die aktuellen Symptome erkennen und isolieren und somit eine vorübergehende Korrektur anbieten.

Unglücklicherweise ist damit die Ursache weder vollständig identifiziert noch behoben.

Das Kernproblem in diesem Beispiel betrifft viele der heutigen IT-Abteilungen: Es handelt sich um den Umstand, dass die IT-Organisation als Ganzes nicht in der Lage ist, durch die einzelnen Schichten des Anwendungsstapels zu dringen und schnell zum „Single Point of Truth“ – zur „einen Wahrheit“ – zu gelangen.

Nachdem also die Technologiekonstrukte immer dezentralisierter, komplexer und auch unbeabsichtigt isolierter werden, stehen IT-Profis vor der Herausforderung, die Leistung von Anwendungen oder Diensten unabhängig von der Architektur und Bereitstellungsform sicherstellen zu müssen. Die Möglichkeiten zur Fehlerbehebung müssen sich so entwickeln, dass dem Endbenutzer ein positives Erlebnis vermittelt werden kann, indem die Ursache von Problemen schnell erkannt und verstanden wird.

Die Zukunft der IT-Fehlerbehebung sieht so aus, dass ein diszipliniertes Monitoring sowie Fehlerbehebungstools die teamübergreifende Zusammenarbeit ermöglichen. Das erfordert eine völlig neue Art der Visualisierung und Zuordnung von IT-Überwachungsdaten, um die Fehlerbehebung bei Leistungsproblemen über die gesamte IT-Umgebung hinweg zu verbessern – von der Infrastruktur zum Netzwerk und zu den Anwendungen, und von lokalen Ressourcen zu Cloud-Dienstanbietern.

Die Zukunft der IT-Fehlerbehebung liegt in der Fähigkeit, in einem einzigen Dashboard verschiedene Daten einfach kombinieren und in Beziehung setzen zu können, so dass Verbindungen in einer noch nie dagewesenen Art und Weise visualisiert werden können. Dazu gehören Messdaten in Zeitreihen genauso wie Leistungsmessdaten im Verlauf aus vielen hybriden IT-Datenquellen, inklusive Anwendungen, Rechen-, Netzwerk-, Speicher-, Virtualisierungs-, Web- und Cloud-Ressourcen. Beispielsweise lassen sich durch die Darstellung von Netzwerklatenz und Bandbreitendaten innerhalb und außerhalb der Firewall einer IT-Organisation in Verbindung mit Rechenmessdaten aus cloudbasierten virtuellen Maschinen wie Amazon EC2-Instanzen Probleme mit der Anwendungsleistung erkennen.

Das ist die Zukunft der Fehlerbehebung in der IT.

Fazit

Der Fehlerbehebungsprozess kann komplizierter sein als je zuvor und häufig eine Zusammenarbeit der verschiedenen Arbeitsbereiche innerhalb einer IT-Organisation sowie darüber hinaus erfordern, beispielsweise auch mit Cloud-Anbietern.

Die grundlegenden Prinzipien der Fehlerbehebung bleiben zwar auch in unserer schönen neuen Welt bestehen, die Tools, mit denen wir sie umsetzen, müssen sich jedoch weiterentwickeln, damit wir die Oberhand behalten.

0 Kommentare zu diesem Artikel
2269444