Microsoft Lumos ist jetzt Open Source und ermöglicht die Überwachung von Web-App-Metriken und die schnelle Erkennung von Anomalien durch Eliminieren von Fehlalarmen
Microsoft hat den Zugriff auf "Lumos" eröffnet, eine leistungsstarke Python-Bibliothek zum automatischen Erkennen und Diagnostizieren von Metrikregressionen in "Web-Scale" -Anwendungen. Die Bibliothek war Berichten zufolge in Microsoft Teams und Skype sehr aktiv. Im Wesentlichen ist ein hochleistungsfähiger und intelligenter „Anomaliedetektor“ jetzt als Open-Source-Version verfügbar und steht Webentwicklern zur Verfügung, um Regressionen in wichtigen Leistungsmetriken zu erkennen und zu beheben und gleichzeitig die Mehrheit der Fehlalarme nahezu zu eliminieren.
Microsoft Lumos ist jetzt Open Source. Es wurde aktiv in ausgewählten Microsoft-Produkten verwendet und wird nun für die allgemeine Web- und App-Entwickler-Community verfügbar sein. Berichten zufolge ermöglichte die Bibliothek den Ingenieuren, Hunderte von Änderungen an Metriken zu erkennen und Tausende von Fehlalarmen abzulehnen, die von Anomaliedetektoren aufgetaucht sind.
Lumos reduziert die Rate falsch positiver Warnungen um über 90 Prozent, behauptet Microsoft:
Lumos ist eine neue Methode, die vorhandene domänenspezifische Anomaliedetektoren umfasst. Microsoft versichert jedoch, dass die Python-Bibliothek die Falsch-Positiv-Warnrate um über 90 Prozent reduzieren kann. Mit anderen Worten, Entwickler können jetzt sicher nach dauerhaften Problemen suchen, anstatt nach zeitweiligen Problemen, die sich langfristig nicht nachteilig auswirken.
Der Zustand von Onlinediensten wird normalerweise überwacht, indem KPI-Metriken (Key Performance Indicator) über einen längeren Zeitraum verfolgt werden. Ingenieure, die eine „Regressionsanalyse“ durchführen, benötigen viel Zeit und Ressourcen, um Probleme zu beseitigen, die auf größere Probleme hinweisen können. Diese Probleme können zu steigenden Betriebskosten und sogar zum Verlust von Benutzern führen, wenn sie nicht behoben werden.
Es ist unnötig hinzuzufügen, dass das Aufspüren der Grundursache jeder KPI-Regression zeitaufwändig ist. Darüber hinaus verbringen die Teams oft viel Zeit damit, die Probleme zu analysieren, nur um festzustellen, dass es sich lediglich um eine Anomalie handelt. Hier bietet sich Microsoft Lumos an. Die Python-Bibliothek eliminiert den Prozess der Feststellung, ob eine Änderung auf eine Verschiebung der Grundgesamtheit oder eine Produktaktualisierung zurückzuführen ist, indem eine priorisierte Liste der wichtigsten Variablen zur Erläuterung von Änderungen des Metrikwerts bereitgestellt wird.
Microsoft Lumos dient auch dem umfassenderen Zweck, den Unterschied in einer Metrik zwischen zwei beliebigen Datensätzen zu verstehen. Interessanterweise enthält die Plattform "Bias". Durch Vergleichen eines Kontroll- und Behandlungsdatensatzes, während Agos gegenüber der Zeitreihenkomponente agnostisch bleibt, kann Lumos den Unterschied untersuchen Anomalien.
Wie funktioniert Microsoft Lumos?
Microsoft Lumos arbeitet mit den Prinzipien der A / B-Tests, um Datensatzpaare zu vergleichen. Die Python-Bibliothek überprüft zunächst, ob die Regression in der Metrik zwischen Datensätzen statistisch signifikant ist. Anschließend werden eine Populations-Bias-Prüfung und eine Bias-Normalisierung durchgeführt, um etwaige Populationsänderungen zwischen den beiden Datensätzen zu berücksichtigen. Lumos entscheidet, dass es sich nicht lohnt, das Problem zu verfolgen, wenn die Metrik keine statistisch signifikante Regression aufweist. Wenn das Delta in der Metrik jedoch statistisch signifikant ist, markiert Lumos die Merkmale und ordnet sie nach ihrem Beitrag zum Delta in der Zielmetrik.
Die Lumos Python Library dient als primäres Tool für die Szenarioüberwachung von Hunderten von Metriken. Entwickler und Teams, die Leistungsanalysen durchführen, können die Zuverlässigkeit von Anrufen, Besprechungen und öffentlichen Telefonnetzdiensten (PSTN) bei Microsoft überwachen und bearbeiten. Die Bibliothek ist auf Azure Databricks, dem auf Apache-Spark basierenden Big-Data-Analysedienst des Unternehmens, betriebsbereit. Es wurde so konfiguriert, dass es mit mehreren Jobs ausgeführt wird, die nach Priorität, Komplexität und Metriktyp angeordnet sind. Die Jobs werden asynchron abgeschlossen. Wenn das System eine Anomalie erkennt, wird ein Lumos-Workflow ausgelöst, und die Bibliothek analysiert und prüft auf intelligente Weise, ob es sich lohnt, die Anomalie zu verfolgen und zu beheben.
Microsoft hat festgestellt, dass Lumos nicht garantiert alle Regressionen bei Diensten abfängt. Darüber hinaus benötigt der Dienst eine große Anzahl von Datensätzen, um zuverlässige Einblicke zu bieten. Das Unternehmen plant, eine kontinuierliche Metrikanalyse durchzuführen, ein besseres Feature-Ranking durchzuführen und auch Feature-Clustering einzuführen. Diese Schritte sollten die primäre Herausforderung der Multikollinearität im Feature-Ranking angehen.