banner

Blog

Jun 29, 2023

Vorhersage des Risikos eines Rohrversagens mithilfe von Gradienten-gestützten Entscheidungsbäumen und gewichteter Risikoanalyse

npj Clean Water Band 5, Artikelnummer: 22 (2022) Diesen Artikel zitieren

3751 Zugriffe

2 Zitate

3 Altmetrisch

Details zu den Metriken

Modelle zur Vorhersage von Rohrausfällen sind für die fundierte Grundlage proaktiver Managemententscheidungen unerlässlich. Diese Studie zielt darauf ab, ein zuverlässiges Vorhersagemodell zu etablieren, das die Wahrscheinlichkeit eines Rohrversagens mithilfe eines Gradienten-verstärkten Baummodells und einer spezifischen Segmentierung und Gruppierung von Rohren in einem 1-km-Raster, das lokalisierte Merkmale zuordnet, wiedergibt. Das Modell wird auf ein umfangreiches britisches Netzwerk mit einer Pipeline von etwa 40.000 km und einer 14-jährigen Ausfallhistorie angewendet. Das Modell wurde anhand der Receiver-Operator-Kurve und der Fläche unter der Kurve (0,89), des Briers-Scores (0,007) und des Mathews-Korrelationskoeffizienten (0,27) hinsichtlich seiner Genauigkeit bewertet, was auf akzeptable Vorhersagen hinweist. Eine gewichtete Risikoanalyse wird verwendet, um die Folgen eines Rohrausfalls zu identifizieren und den Entscheidungsträgern eine grafische Darstellung von Rohren mit hohem Risiko bereitzustellen. Die gewichtete Risikoanalyse lieferte einen wichtigen Schritt zum Verständnis der Folgen des prognostizierten Ausfalls. Das Modell kann direkt in der strategischen Planung eingesetzt werden, die langfristige Schlüsselentscheidungen hinsichtlich der Wartung und eines möglichen Austauschs von Rohren trifft.

Viele Wasserverteilungsnetze (WDN) altern und befinden sich in der Endphase ihrer Planungslebensdauer, was zu Rohrausfällen, Lecks und Wasserverschwendung führt und Auswirkungen auf die Umwelt, die Wirtschaft und die Gesellschaft hat. Angesichts des zunehmenden Drucks, der durch den erhöhten Wasserbedarf und die Auswirkungen des Klimawandels entsteht, was zu einer Belastung der Wasserversorgung führt und die Wasserregulierungsbehörden hohe Geldstrafen für die Nichterfüllung von Leistungszielen verhängen1, besteht die Dringlichkeit, die Auswirkungen von Rohrausfällen durch geeignetes proaktives Management zu reduzieren. Proaktives Management ist der gewünschte Ansatz für die Verwaltung von WDNs, um Problemen vorzubeugen und ein akzeptables Risikoniveau festzulegen. Herkömmlicherweise wird ein proaktives Management durch die Priorisierung des Austauschs oder der Reparatur von Rohren mithilfe vereinfachter Rangwahrscheinlichkeitsmodelle, Expertenmeinungen und detaillierter Netzwerkkenntnisse erreicht, um kritische Bereiche des Netzwerks gezielt anzusprechen, die in der Vergangenheit regelmäßig ausgefallen sind2. Dieser vereinfachte Ansatz ist jedoch nicht für die Verwaltung von WDNs mit komplexen Mechanismen von Rohrausfällen und damit verbundenen Risiken geeignet, darunter Wasserverlust, der zu Schäden an Grundstücken und Infrastruktur führt, potenzielle Unterbrechungen während der Reparatur, Unterbrechung der Wasserversorgung und wirtschaftliche Kosten für Reparatur und Ersatz. Proaktives Management erfordert das Verständnis der zukünftigen Rohrleistung und die Bewertung potenzieller Risiken3.

Statistische Rohrausfallmodelle bieten ein Mittel zur Unterstützung des proaktiven Managements, indem sie die zukünftige Leistung vorhersagen, indem sie Fehlermuster aus historischen Daten und deren ursächlichen Faktoren erkennen4. Shamir und Howard (1979)5 entwickelten eines der ersten Modelle für eine kleine Leitungsquerschnittslänge, mit einem zeitexponentiellen Modell mit einer Variablen, das das Rohralter nutzte, um die Anzahl der Ausfälle pro Jahr pro 1000 Fuß Rohr vorherzusagen. Einvariate Modelle sind begrenzt, da häufig mehrere Faktoren gleichzeitig wirken und komplexe Fehlermechanismen bilden, die zu unterschiedlichen Fehlermodi führen. Diese Faktoren können grob in rohrinterne, umweltbedingte und betriebliche Faktoren eingeteilt werden6. Weitere Fortschritte wurden mit multivariaten Modellen erzielt, die statische (Rohre und Boden) und dynamische zeitbezogene Variablen (Wetter) zur Vorhersage der Anzahl von Ausfällen oder Ausfallraten7 umfassen, die zur Einstufung von Rohren gegeneinander verwendet werden können8. Die Vorhersage der Anzahl von Rohrausfällen auf Anlagenebene ist mathematisch problematisch, da Vorfälle nur selten auftreten9. Daher konzentrieren sich Studien, die auf Ausfallraten basieren, auf die Gruppierung von Rohrausfällen nach ähnlichen Merkmalen in einem Netzwerk, um genügend Ausfälle nach gruppierter Rohrlänge für statistische Signifikanz bereitzustellen10,11. Bei der Gruppierung von Rohren auf Netzwerkebene wird jedoch davon ausgegangen, dass alle Rohre mit ähnlichen Eigenschaften ähnliche lokale Bedingungen (lokale Einflüsse wie Bettungsbedingungen, Verkehrsbelastung und lokale Netzwerkaufgaben) und Ausfallraten aufweisen, was selten der Fall ist.

Es wird oft berichtet, dass deterministische Modelle zu einfach sind und nicht in der Lage sind, Zufälligkeiten oder links abgeschnittene Daten zu verarbeiten, die typischerweise in Datensätzen zu Rohrfehlern zu finden sind, die aus fehlenden Fehlern aufgrund begrenzter kurzer Fehlerdatensätze resultieren12. Links abgeschnittene Daten können Rohre mit hohen Ausfallraten maskieren und möglicherweise die Genauigkeit der endgültigen Vorhersagen verringern. Darüber hinaus besteht die Notwendigkeit, Ausfälle auf Rohrebene vorherzusagen, um eine effektive Entscheidungsfindung des Managements zu unterstützen. Wahrscheinlichkeitsmodelle wie die Überlebensanalyse sagen Rohrausfälle in jeder Phase des Lebenszyklus voraus13, berücksichtigen die Wahrscheinlichkeit von Zufallsvariablen14 und berücksichtigen links abgeschnittene Daten, die analytisch durch die Anpassung der Wahrscheinlichkeitsfunktion behandelt werden15. Zwei weit verbreitete Überlebensanalysemodelle umfassen die Proportional Hazard (PH)-Methoden von Cox PH und Weibull PH, die im Vergleich zu deterministischen Modellen eine gute Vorhersagegenauigkeit aufweisen2,16. Allerdings ist die Überlebensanalyse komplex und nur für lange Ausfallaufzeichnungen sinnvoll, die viele WDNs nicht führen17. Andere Wahrscheinlichkeitsmodelle umfassen die Verwendung der Wahrscheinlichkeitsverteilung, beispielsweise die logistische Regression. Sowohl Motiee als auch Ghasemnejad18 und Yamijala et al.19 betrachteten mehrere Modelle, darunter Poisson-, lineare, exponentielle und logistische Modelle, die zur Vorhersage einzelner Rohre entwickelt wurden. In beiden Studien wurde festgestellt, dass die logistische Regression die nützlichsten Ergebnisse liefert, da die Ausfallwahrscheinlichkeit oft ausreicht, um Managemententscheidungen zu treffen, und genauer ist als der Versuch, die Gesamtzahl der Ausfälle auf Rohrebene vorherzusagen, ein Ansatz, bei dem sich Regressionsmodelle als schlecht erwiesen haben Vorhersagegenauigkeit3,17,18,19. Unausgewogene Daten stellen jedoch immer noch ein Problem dar, das sorgfältig geprüft werden sollte20. Kleiner und Rajani21 kommen zu dem Schluss, dass die Analyse des Verhaltens einer einzelnen Leitung aufgrund der inhärenten Unsicherheit und des Mangels an Daten im Allgemeinen nicht durchführbar ist. Daher erscheint es sinnvoll, Rohre zu gruppieren, allerdings auf einer niedrigeren räumlichen Ebene als das gesamte Netzwerk. Bisher haben nur wenige Studien dies versucht, wobei Chen et al.4 eine bemerkenswerte Ausnahme darstellt und die Gruppierung auf der Ebene der Volkszählung erfolgt (homogene Gebiete basierend auf der Anzahl der Personen im Hinblick auf Bevölkerungsmerkmale, mit einer optimalen Größe von 4000 Personen22, was Raum für weiteres lässt). Erkundung rund um die Gruppierung von Rohren auf verschiedenen Ebenen.

Modelle des maschinellen Lernens werden bei der Modellierung von Rohrschäden immer häufiger eingesetzt und bevorzugt, da mathematische Verarbeitungsschritte überflüssig sind20, komplexe Daten auf eine Weise zusammengefasst werden, die die Vorhersagegenauigkeit verbessert, und die Abstimmung der Interaktionsterme eine größere Flexibilität als bei herkömmlichen Modellen bietet11. Methoden des maschinellen Lernens sind datengesteuert, und die für die Modellierung von Rohrausfällen am besten geeigneten Methoden werden überwacht, da sie als Gray-Box-Ansätze gelten, was ein gewisses Maß an Flexibilität und Eignung für strukturierte Daten ermöglicht23. Zu den häufig verwendeten Methoden des überwachten maschinellen Lernens gehören künstliche neuronale Netze, evolutionäre Polynomregression und Support-Vektor-Maschinen. Modelle für maschinelles Lernen sind jedoch rechenintensiv, insbesondere wenn mehrere Hyperparameter optimiert werden, und bieten nur einen begrenzten Spielraum für die Interpretation zufälliger Beziehungen zwischen der Antwortvariablen und den Kovariaten24. Entscheidungsbaum-Ensemblemodelle überwinden diese Einschränkungen, da sie intuitiver und transparenter sind und andere statistische Methoden übertreffen können. In Studien wurden überwiegend Gradient Boosting Trees (GBT) verwendet, die andere Ensemble-Methoden übertreffen. Winkler et al.20 verglichen ein Entscheidungsbaum-, Random Forest-, Adaboost- und RUSboost-Modell und stellten fest, dass RUSboost die höchste Genauigkeit aufweist (AUC von 0,93). Chen et al.4 verglichen ein Gradient Boosting-Modell mit einem verallgemeinerten linearen Modell, einem verallgemeinerten additiven Modell, einem Random Forest und einem verallgemeinerten linearen gemischten Modell (GLMM). Die Autoren kamen zu dem Schluss, dass das Gradient-Boosting-Modell eine gute Leistung erbringt und die niedrigsten Brier-Werte zwischen 0,558 und 0,808 liefert. Giraldo-González und Rodríguez verglichen eine Support Vector Machine, ein künstliches neuronales Netzwerk, Bayes und ein Gradient-Boosting-Modell und stellten fest, dass das Gradient-Boosting-Modell die beste Leistung erbringt (AUC 0,998 für AC-Rohre und 0,990 für PVC-Rohre). Diese Studien haben sich in der Regel auf Vorhersageintervalle von fünf Jahren11,20 oder kurze monatliche Vorhersageintervalle4 konzentriert. Da einige Entscheidungen zur Bewirtschaftung von Wassernetzen jedoch jährlich getroffen werden, ist es sinnvoll, die Leistung von GBT-Modellen bei jährlichen Vorhersagen zu verstehen.

Für WDN-Manager ist das Konzept des Risikos wichtig und wird bei der Modellierung von Rohrschäden dennoch oft übersehen25. Frühere Versuche, das Risiko zu modellieren, umfassen die Verwendung der geordneten Sortierung von Vorhersagen basierend auf der Anzahl der Unterbrechungen8,26,27 oder der Ausfallwahrscheinlichkeit11,20. Dieser Ansatz ist jedoch begrenzt, da Wasserversorger das Risiko jedes potenziellen Ausfalls als eine Kombination aus Ausfall, entweder Ausfallwahrscheinlichkeit oder Anzahl der Ausfälle, und den Folgen verstehen müssen. Christodoulou und Deligianni28 versuchten, ein anderes Risikoniveau einzubeziehen, indem sie die Nähe zu Gebäuden von öffentlichem Wert und Wohngebieten nutzten, um Reparatur- und Ersatzarbeiten Vorrang einzuräumen. Pietrucha-Urbanik und Tchórzewska-Cieślak29 schlugen einen Rahmen zur Berechnung des Risikos vor, der auf der Gruppierung und Gewichtung von Kriterien auf der Grundlage der potenziell entstehenden finanziellen Verluste basiert. Es gibt potenziell zahlreiche Folgen von Ausfällen, die jedem Netzwerk innewohnen. Zu den häufigsten Folgen gehören jedoch Wasserverlust, mögliche Störungen, eine Verringerung der Wasserqualität, der Zuverlässigkeit, direkte Kosten (Schäden an Eigentum und Infrastruktur sowie Reparatur und Austausch von Rohren) und indirekte Kosten (Umwelt- und Umweltschäden). Sozial). Das Ausfallrisiko ist komplex, erfordert mehrere Datensätze von Wasserversorgungsunternehmen und erfordert die schwierige Aufgabe, die Folgen zu quantifizieren30. In der Literatur gibt es eine Lücke bei der Betrachtung weiterer Entwicklungen bei der Bestimmung des Risikos von Rohrausfällen.

Obwohl viele Studien mehrere Modelle vergleichen, ist es schwierig festzustellen, welches besser ist, da WDN-Daten je nach Netzwerk und geografischer Region unterschiedlich sind und vom Modell nicht erfasst werden können. Stattdessen hängt die Modellleistung von der Datenqualität, der Verfügbarkeit und der Modellentwicklung ab31. Basierend auf den Lücken in der Literatur zielt diese Studie daher darauf ab, ein zuverlässiges GBT-Vorhersagemodell für ein britisches WDN zu erstellen. Das britische WDN weist viele der typischen Probleme auf, die eine alternde Infrastruktur mit sich bringt. Das bedeutet, dass der Großteil der Wartungsarbeiten reaktiv durchgeführt wird und dass ein Übergang zu einer proaktiven Bewältigung von Ausfällen durch die Vorhersage jährlicher Ausfälle im gesamten Netzwerk erfolgen soll. Das WDN umfasst etwa 40.000 km Rohre, die etwa 27.476 km2 einer städtischen und ländlichen Umgebung abdecken, mit einer Fehleraufzeichnungshistorie über 14 Jahre. Die Studie konzentriert sich auf die am häufigsten vorkommenden Rohrmaterialien, da der Versagensmechanismus etabliert ist und durch die verwendeten Variablen erklärt werden kann. Die Materialien machen etwa 97 % des britischen WDN-Netzwerks aus und umfassen Eisen, Stahl und Sphäroguss (SDI), Asbestzement (AC), Polyvinylchlorid (PVC) (gemeinsam weichmacherfreies, nachchloriertes und molekularorientiertes Polyvinylchlorid) und Polyethylen (PE) (mittlere und hohe Dichte). Für kürzere Zeitintervalle ist die Gruppierung von Rohren nach ähnlichen Merkmalen geeignet, um statistisch genauere Vorhersagen zu erhalten, doch netzwerkweite Gruppen sind oft nicht hilfreich. Diese Studie verwendet eine spezifische Segmentierung von Rohren nach räumlichen Merkmalen und gruppiert die segmentierten Rohre in Abständen von 1 km. Die Verwendung dieses 1-km-Intervalls wird als nützlich erachtet, da es lokalisierte Einflüsse von Wetter und Boden erfasst, das Problem der Gruppierung auf größerer räumlicher Ebene beseitigt, bei dem häufig Rohre mit unterschiedlichen Ausfallraten kombiniert werden, und kürzere Rohrlängen sowie Rohre mit weniger Ausfällen aufweist eignet sich zur Vorhersage der Ausfallwahrscheinlichkeit. Frühere Studien beschränkten Ausfallmodelle häufig auf die Vorhersage der Ausfallwahrscheinlichkeit. Da die Ausfallwahrscheinlichkeit allein oft nicht ausreicht, um Managemententscheidungen zu unterstützen, baut diese Studie auf früheren Bemühungen auf und entwickelt einen praktischen Ansatz zur Identifizierung des Ausfallrisikos mithilfe einer gewichteten Risikoanalyse.

Die Receiver-Operator-Kurve (ROC) wird verwendet, um zu visualisieren, wie sich das Modell unabhängig von der Entscheidungsschwelle verhält, und stellt ein nützliches Werkzeug zur Visualisierung dar, wie gut der Klassifikator falsche Klassifizierungen vermeidet32. Das ROC-Diagramm zeigt einen Kompromiss zwischen der True Positive Rate (TPR) oder der Sensitivität, dem Anteil der Beobachtungen, die korrekt klassifiziert wurden, berechnet in Gleichung (1). (1) als

wobei TP „True Positiv“ und FN „Falsch Negativ“ ist und die Falsch-Positiv-Raten (FPR) oder Spezifität, der Anteil der Beobachtungen, die falsch klassifiziert sind, berechnet in Gleichung (1). (2) als

Das Passieren von zwei Linien, die einem 100 % TPR und einem 0 % FPR = 1 (TPR gegenüber 1−FPR) entsprechen, wird als perfekte Unterscheidungsfähigkeit angesehen. Dies wird grafisch durch die ROC-Kurve dargestellt, die durch die obere linke Ecke des Diagramms verläuft. Der Verlauf der Kurve durch die Diagonale y = x stellt ein Modell dar, das nicht besser ist als eine zufällige Schätzung33. Die Fläche unter der Kurve (AUC) ist ein aggregiertes Leistungsmaß für alle Klassifizierungsschwellenwerte und stellt das Maß für die Trennbarkeit dar, indem sie die Fähigkeit der Vorhersagen zur Unterscheidung zwischen den Klassen beschreibt. Ein AUC-Maß wird zwischen Null und Eins zurückgegeben, wobei Null einen völlig ungenauen Test und Eins einen perfekten Test darstellt. Im Allgemeinen gilt eine AUC von 0,7 bis 0,8 als akzeptabel, 0,8 bis 0,9 gilt als ausgezeichnet und >0,9 gilt als hervorragend34. Abbildung 1 zeigt die ROC-Kurve für den Testdatensatz nahe der oberen linken Ecke und einen AUC-Wert von 0,89, was darauf hindeutet, dass das Modell über eine hervorragende Unterscheidungsfähigkeit zur Unterscheidung zwischen den Klassen verfügt und TPR und FPR robust genug erscheinen, um Fehler vorherzusagen auf den unsichtbaren Testdaten.

Die rote Linie ist die ROC-Kurve und die graue Linie stellt die Diagonale y = x und einen Punkt dar, an dem die Kurve zufällig ist.

Die Kalibrierungskurve bietet eine Möglichkeit zu beobachten, wie nahe die Vorhersagen an den beobachteten liegen. Da das Ergebnis in diesem Modell eine Ausfallwahrscheinlichkeit zwischen 0 und 1 ist, ist es sinnvoll, eine Binning-Methode zu verwenden. Das Binning ist von Vorteil, da es die Ausfallwahrscheinlichkeit für jedes Bin mittelt und so eine nützliche grafische Darstellung der Kalibrierung des Modells liefert. Die mittlere Wahrscheinlichkeit wird dann mit der Häufigkeit der beobachteten Fehler in jedem Abschnitt verglichen. In diesem Fall wird ein Binning-Ansatz mit fester Breite verwendet, bei dem die Daten in zehn Bins unterteilt werden, die als Dezilanalyse bekannt sind, und ein Ansatz, der in ähnlichen Studien verwendet wird35. Eine Zuverlässigkeitskurve bietet eine Möglichkeit, diesen Vergleich zu visualisieren, wobei perfekt kalibrierte Wahrscheinlichkeiten auf einer diagonalen Linie durch die Mitte des Diagramms liegen würden. Der Briers-Score ist ein nützliches Maß für die Genauigkeit probabilistischer Vorhersagen und entspricht dem mittleren quadratischen Fehler, wobei die Kostenfunktion für ein perfektes Modell auf Null minimiert und für ein Modell ohne Genauigkeit auf 1 maximiert wird4. Der Brier's Score (BS) wird in Gleichung berechnet. (3) als

Dabei ist N die Gesamtzahl der Beobachtungen, Pi die Vorhersagewahrscheinlichkeit und Oi gleich dem Ereignisergebnis „Fehler“ oder „kein Fehler“. Abbildung 2 zeigt das Kalibrierungsdiagramm für das Modell und lässt darauf schließen, dass das Modell für das untere und obere Dezil gut kalibriert ist, da die meisten Klassen in die Diagonale passen. Die oberen mittleren Dezile passen nicht zur Diagonale, wenn die Kalibrierungskurve unter oder über der Diagonale liegt, was darauf hindeutet, dass die Vorhersagen eine geringere Wahrscheinlichkeit haben als die in den Daten sichtbaren. Der Briers-Score von 0,007 ist niedrig, was insgesamt auf genaue Vorhersagen schließen lässt.

Die rote Linie ist die Kalibrierungskurve; Die graue Linie steht für eine perfekte Passform.

Die Verwirrungsmatrix beschreibt die Häufigkeit von Klassifizierungsergebnissen, indem sie explizit die Anzahl der True Positives (TP oder Präzision), True Negatives (TN), False Positives (FP) und False Negatives (FN) definiert. Die Entscheidung, eine vorhergesagte Wahrscheinlichkeit in eine Klassenbezeichnung umzuwandeln, wird durch einen optimalen Wahrscheinlichkeitsschwellenwert bestimmt, sodass der Wert der Antwort \(y_i = \left\{ {\begin{array}{*{20}{c}} {{ \rm{kein}}\,{\rm{Fehler}}\,{\rm{wenn}}\,P_i \le {\rm{Schwelle}}} \\ {{\rm{Fehler}}\,{ \rm{if}}\,P_i > {\rm{threshold}}} \end{array}} \right.\). Der Standardwahrscheinlichkeitsschwellenwert innerhalb des Modells beträgt 0,536. Nach dieser Definition besteht weiterhin ein praktischer Bedarf, den Wahrscheinlichkeitsschwellenwert speziell für das Verhalten von Rohrausfällen innerhalb der unausgeglichenen Testdaten zu optimieren. Ein optimaler Wahrscheinlichkeitsschwellenwert stellt typischerweise ein Gleichgewicht zwischen Sensitivität und Spezifität her. Bei der Änderung des Schwellenwerts gibt es jedoch einen Kompromiss zwischen TPR und FPR, wobei eine Erhöhung oder Verringerung des TPR typischerweise das Gleiche für den FPR zur Folge hat und umgekehrt. Die Optimierung der Wahrscheinlichkeitsschwelle ist ein wichtiger Schritt im Entscheidungsprozess und für jedes Problem spezifisch. Beim Austausch von Rohren sollte eine Expertenmeinung herangezogen werden, mit der Begründung, dass Wasserversorger versuchen würden, den unnötigen Austausch von Rohren zu vermeiden, deren Lebensdauer möglicherweise mehrere Jahrzehnte länger beträgt, was zu verschwendetem Wartungsaufwand und -kosten führen würde. Darüber hinaus werden aufgrund von Budgetbeschränkungen in der Regel jedes Jahr nur 0,5–1 % des Netzwerks ersetzt37. Daher ist es wichtig, nur Rohre mit der höchsten Ausfallwahrscheinlichkeit zu identifizieren. In Anbetracht dessen wird der optimale Schwellenwert so festgelegt, dass die FNs reduziert werden (d. h. Rohre, von denen vorhergesagt wird, dass sie ausfallen, obwohl dies nicht der Fall ist). Dies reduziert die Anzahl der vorhergesagten TPs, wie oben beschrieben, zielt jedoch auf die Rohre ab, die am wahrscheinlichsten ausfallen.

Es wurde ein faktorielles Versuchsdesign verwendet, bei dem der Schwellenwert von 0,01 bis 0,99 iteriert wurde, wobei jeder Schwellenwert beobachtet wurde, um den Punkt zu ermitteln, an dem die höchste Genauigkeit auf den niedrigsten FN-Wert trifft. Der Matthews-Korrelationskoeffizient (MCC) wurde zur Messung der Genauigkeit verwendet und ist bei unausgeglichenen Daten nützlich, da er den Unterschied in der Klassengröße berücksichtigt und nur dann einen hohen Genauigkeitswert zurückgibt, wenn alle vier Kategorien der Verwirrungsmatrix genau dargestellt werden. Aus diesem Grund argumentiert Chicco (2017), dass es sich um das richtige Maß für unausgeglichene Datensätze handelt. Der MCC beschreibt die Vorhersagegenauigkeit als schlechtester Wert = −1 und bester Wert = +1 und wird wie in Gl. (4) wie folgt:

Tabelle 1 zeigt der Kürze halber einen kleinen Bereich der Schwellenwerte. Der optimale Schwellenwert wurde in diesem Fall zunächst mit der höchsten MCC-Genauigkeit und dann mit der niedrigsten FN ermittelt. Der MCC von 0,27 deutet darauf hin, dass das Modell besser ist als eine Zufallsanpassung, ein niedriger MCC-Wert stellt jedoch auch einen hohen Prozentsatz falsch positiver Ergebnisse dar (d. h. Werte, die fälschlicherweise als nicht fehlgeschlagen identifiziert wurden). Die ausgeglichene Genauigkeit ist auch ein gutes Maß für die Genauigkeit für unausgeglichene Klassen, bei denen 1 hoch und 0 niedrig ist. Die ausgewogene Genauigkeit für dieses Modell beträgt 0,65. In der Praxis sind die Ergebnisse für Wasserversorger hilfreich, um gezielt Bereiche für weitere Untersuchungen und einen möglichen Austausch auszuwählen, da sie sich auf die Rohre konzentrieren, bei denen die Wahrscheinlichkeit eines Ausfalls am höchsten ist. Dennoch gibt es immer noch falsche Vorhersagen, die zu einem möglichen unnötigen Austausch von Rohren führen könnten. Das Modell prognostiziert 20,20 % aller im WDN auftretenden Ausfälle, die sich auf 7,83 % des WDN-Rohrnetzes beziehen. Die Ergebnisse zeigen, dass etwa 32,80 % der beobachteten Rohrausfälle korrekt als Ausfälle vorhergesagt wurden, während etwa 67,20 % der beobachteten Rohrausfälle fälschlicherweise als kein Ausfall vorhergesagt wurden. Falls gewünscht, könnten Wasserunternehmen einen alternativen Schwellenwert wählen, der FN-Vorhersagen eliminiert, jedoch auch die Anzahl der TP-Vorhersagen verringert.

Der relative Variableneinfluss zeigt die empirische Verbesserung \(I_t^2\), die durch das Variablenintervall xj verursacht wird, gemittelt über alle geboosteten Bäume, wie in Gleichung dargestellt. (5) wie folgt38:

Der Variableneinfluss hilft zu verstehen, welche Variablen bei der Vorhersage von Rohrausfällen einen größeren Beitrag leisten. Bei GBT-Modellen ist dies die Summe des über alle Klassifikatoren akkumulierten Prädiktoreinflusses. Abbildung 3 zeigt die Ergebnisse, die ähnliche Ergebnisse im Vergleich zur vorhandenen Literatur nahelegen. Die wichtigsten Variablen sind die Anzahl früherer Ausfälle und die Rohrlänge, beides ein Indikator für die Rohrleistung und -verschlechterung. Es sei noch einmal darauf hingewiesen, dass beide Variablen das gruppierte Rohr darstellen und den Verlauf einzelner Rohre nicht berücksichtigen. Das Bodenfeuchtigkeitsdefizit (SMD) ist die wichtigste Wettervariable, die mit der Schrumpfung von Lehmböden und der daraus resultierenden Bodenbewegung bei Ausfällen von Klimaanlagenrohren zusammenhängt. Im Gegensatz dazu haben Lehmböden und Bodenschwellungspotenzial, die beide Bodenbewegungen darstellen, einen geringeren Einfluss.

Balkendiagramm, Rangfolge von der höchsten zur niedrigsten, die Bedeutung jeder Variablen, wie durch die Modellausgabe bestimmt.

Rohrdurchmesser und Material sind in diesem Netzwerk weniger wichtige Faktoren als in vergleichbaren Studien11,20,21,39 berichtet. Der relative variable Einfluss des tageszeitlichen Luftfrosts und der Temperatur ist nicht so hoch wie erwartet, da sie mit der hohen Rohrausfallhäufigkeit bei Eisenrohren und dem hohen Anteil von Eisenrohren im WDN korrelieren. Dies ist wahrscheinlich darauf zurückzuführen, dass die Daten zu stark zusammengefasst wurden, um das jährliche Vorhersageintervall zu vereinfachen. Ein kürzeres Vorhersageintervall (Woche oder Monat) für netzwerkweite Rohrgruppen ist erforderlich, um die zwischenjährlichen Schwankungen genau zu erfassen. Kurze Vorhersageintervalle können jedoch nach Erfahrung der Autoren zu einer geringen Vorhersagegenauigkeit führen. Der gesamte relative variable Einfluss des Bodens (Schrumpfgut, Bodenkorrosivität, Hydrologie des Bodentyps) ist gering. Aus der Literatur und aus technischer Sicht steht die Bodenkorrosion in engem Zusammenhang mit der Verschlechterung der Metallrohre und ihrer Fähigkeit, inneren und äußeren Kräften standzuhalten3. Es ist möglich, dass viele Rohre in diesem Netzwerk saniert und vor Korrosion geschützt wurden; Allerdings waren diese Informationen zum Zeitpunkt dieser Studie nicht verfügbar. Die Wasserquelle ist die einzige Betriebsvariable und hat im Vergleich zu vielen anderen Variablen einen geringen Einfluss. Die wichtigste Wasserquelle ist Oberflächenwasser, das im Winter aufgrund der Witterungseinflüsse zu niedrigeren Temperaturen führt. Dies führt zu höheren Ausfallraten bei Metallrohren, im Vergleich zu anderen Variablen ist der Einfluss jedoch gering. Es sind auch andere Variablen denkbar, beispielsweise Installationsdetails wie Bettungs- und Verfüllmaterial, umgebende Umgebungen, die Hinweise auf Belastungen liefern, beispielsweise durch Verkehrsbelastung und Bauarbeiten, Betriebsdaten wie Rohrdruck und Transienten, Wasserqualität und räumliche Ausfallmerkmale. Diese werden hier nicht untersucht, werden aber wahrscheinlich zu Leistungssteigerungen führen.

Damit die Zuordnung aus Sicht des Asset Managements effektiv ist, sollten die Ergebnisse der gewichteten Risikoanalyse in der Lage sein, geringe, mittlere und hohe Ausfälle zu unterscheiden. Es wird erwartet, dass die Zahl der hohen Ausfälle gering ist, und zwar aus zwei Gründen: (1) Rohre fallen selten mehr als einmal aus und (2) Versorgungsunternehmen können Investitionen aufgrund von Budgetbeschränkungen nur denjenigen zuteilen, bei denen das größte Risiko besteht, und sind daher nur daran interessiert die oberen 1–2 % der Rohre. Das Ergebnis der gewichteten Risikoanalyse ist in Abb. 4 dargestellt, die der Übersichtlichkeit halber einen kleinen Ausschnitt des WDN darstellt. Natural Jenks ordnet das Risikoniveau in drei Kategorien ein: niedrig [0; ≤0,02], mittel [>0,02; ≤0,06] und hoch [>0,06; ≤0,92]. In diesem Szenario beträgt die Rohrlänge in der Hochrisikokategorie 13,9 km der 300,7 km oder 4,6 % des in Abb. 4 dargestellten Rohrnetzes, ein nützlicher Prozentsatz des Netzes, der für Managemententscheidungen herangezogen werden kann. Der Choroplethen-Risikokartenansatz ist ein wichtiges Mittel zur Visualisierung einzelner Rohre oder Rohrbündel mit dem höchsten Risiko im WDN, wie in Abb. 4 dargestellt. Abbildung 4 zeigt auch, wie viele Rohre in diesem Abschnitt des Netzwerks ein geringes Risiko aufweisen Dies ist zu erwarten, da viele Rohre eine geringe Ausfallwahrscheinlichkeit haben und kleine Durchmesser haben, sodass bei einem Ausfall möglicherweise weniger Schäden entstehen.

Das Risiko wird als Maß für die Wahrscheinlichkeit eines Rohrversagens und der Folgen von Schäden an nächstgelegenen Grundstücken und Wasserverlusten basierend auf dem Rohrdurchmesser berechnet. Die Karte repräsentiert etwa 2 % des gesamten britischen WDN.

Angesichts der geringen Ausfallhäufigkeit im britischen WDN-Datensatz war die Erstellung von Rohrgruppen ein wichtiger Schritt. Bei der Gruppierung von Rohren auf diese Weise wird davon ausgegangen, dass alle Rohre in der Gruppe ähnliche Ausfallraten aufweisen, was nicht der Fall ist. Daher stellt der hier gewählte Ansatz eine geeignete Lösung für diese Einschränkung dar. Durch die Gruppierung von Rohren auf einer niedrigeren räumlichen Skala können lokalisierte Einflüsse auf die Rohrleistung erfasst werden, die bei der Verallgemeinerung auf das gesamte Netzwerk häufig verschleiert werden können. Der verwendete Ansatz ist jedoch möglicherweise nicht so nützlich für ländliche Gebiete, in denen weniger Rohre vorhanden sind und kleinere Maßstäbe möglicherweise besser geeignet sind (z. B. 1:100.000 ist ein kleinerer Maßstab als 1:100). Weitere Untersuchungen zu Gruppierungsskalen sind angebracht. Die Optimierung des Schwellenwerts ist eine Herausforderung und führt unweigerlich zu falsch klassifizierten Fehlern auf beiden Seiten des Schwellenwerts. Bei unausgeglichenen Datensätzen ist die Optimierung sogar noch schwieriger, da herkömmliche Klassifizierungsmethoden davon ausgehen, dass alle Klassen gleich sind. In dieser Studie wurde ein alternativer Ansatz angewendet, bei dem MCC-Genauigkeit und FN zur Festlegung eines Schwellenwerts verwendet wurden, wodurch das Risiko einer Budgetverschwendung durch den Ersatz von Rohren, die nicht ausfallen, verringert wurde. Dabei wurde die Anzahl der TPs auf 32,80 % der beobachteten Rohrausfälle reduziert, während die Anzahl der FPs bei 67,20 % der beobachteten Rohrausfälle lag, was für Fachleute möglicherweise kein gutes Argument darstellt. Dennoch können die Ergebnisse direkt in die strategische Planung einfließen, die langfristige Schlüsselentscheidungen hinsichtlich der Wartung und eines möglichen Austauschs von Rohren trifft. Die Vorhersage der Ausfallwahrscheinlichkeit ist eine wesentliche Reaktion, da sie die Identifizierung und Priorisierung von Risiken im gesamten Netzwerk ermöglicht. Diese Methodik könnte auch verwendet werden, um längerfristige Prognosen zur Unterstützung der Entwicklung eines Vermögensverwaltungsplans bereitzustellen, der einen Zeitraum von fünf Jahren regulierter Investitionen abdeckt.

Die Kategorisierung der Rohre auf der Grundlage einer gewichteten Risikoanalyse und deren visuelle Darstellung mithilfe von Natural Jenks bietet eine nützliche Methode zur Priorisierung von Rohren basierend auf den Folgen ihres Ausfalls und ist eine leicht zu beurteilende kartografische Darstellung. Es erweitert die Ausfallwahrscheinlichkeit zu einem nützlicheren Risikomaß und stellt Entscheidungsträgern mehr Informationen zur Verfügung. Die Verwendung der Entfernung zum Grundstück in dieser Studie ist ein einfacher Ansatz zur Bestimmung von Überschwemmungen. Um eine realistische Einschätzung von Überschwemmungen zu ermöglichen, ist ein Verständnis der wichtigsten geografischen Merkmale für die Überlandflussführung erforderlich40. Die Liste der Konsequenzen war in dieser Studie begrenzt und könnte erweitert werden, wenn solche Daten verfügbar sind. Es gibt potenziell zahlreiche Folgen eines Ausfalls, die jedem Netzwerk innewohnen. Zu den häufigsten Folgen gehören jedoch Wasserverlust, mögliche Störungen, eine Verschlechterung der Wasserqualität, der Zuverlässigkeit, direkte Kosten (Schäden an Eigentum und Infrastruktur sowie Reparatur und Austausch von Rohren) und indirekte Kosten (Umwelt- und Umweltschäden). sozial)8. In dieser Studie wurden die Risikoschätzungen auf der Grundlage von Expertenwissen ermittelt, und jede kontextbezogene Diskrepanz zwischen den Gewichtungen könnte möglicherweise die Ergebnisse verzerren. Daher sollten die Gewichtungen von Netzwerkprofis sorgfältig überlegt werden. Auf technischer Ebene kann die Risikokartierung darüber hinaus dazu genutzt werden, Bereiche des Netzwerks zu bestimmen, die eine hohe Ausfallwahrscheinlichkeit aufweisen, was dazu genutzt werden kann, konstruktive Präventivmaßnahmen zur Verlängerung der Lebensdauer künftiger Rohrkonstruktionen zu ergreifen41.

Die wirtschaftlichen Vorteile dieses Modells zeigen sich bei der Durchführung einer proaktiven Wartung, wodurch möglicherweise damit verbundene Risiken vermieden werden, die durch die Beschädigung von Immobilien und Infrastruktur entstehen können. Es wird erwartet, dass der vorgeschlagene Modellierungsansatz die Entscheidungsfindung auf lokaler Ebene verbessern wird, was durch numerische Ergebnisse erleichtert wird, die über die Funktionsfähigkeit des WDN berichten und dazu beitragen, regulatorische Leistungsziele zu erreichen und hohe Geldstrafen zu vermeiden. Im Betrieb hilft der Ansatz bei der Hervorhebung kurzer Rohrsegmente zur Reparatur und zum Austausch durch grafische Ausgaben. Hierbei handelt es sich um praktische Rohrlängen für Betriebsteams, die in der Regel zu keinem Zeitpunkt kilometerlange Rohre ersetzen42. Dieser Ansatz zeigt eine ähnliche Leistung wie vergleichbare GBT-Studien11,20, ist jedoch vorteilhaft, da die Methode zuverlässige Vorhersagen für einen kürzeren jährlichen Zeitrahmen liefert. Die Methode ist hier auch rechnerisch einfacher zu entwickeln als andere komplexere Methoden des maschinellen Lernens wie neuronale Netze und Bayesianische neuronale Netze.

Die Vorhersagen stützen sich auf die Qualität der Daten, und während der Reinigung und Verarbeitung gab es mehrere Herausforderungen, vor allem die Lage der Rohrfehler, von denen viele geografisch und teilweise über eine beträchtliche Entfernung verschoben waren, es aber notwendig war, alles festzuhalten Fehler im Datensatz. Diese wurden am nächstgelegenen Rohr mit ähnlichen Eigenschaften befestigt, es ist jedoch denkbar, dass einige trotz der für den Schnappvorgang festgelegten Protokolle falsch platziert wurden. Weitere Einschränkungen der Studie sind begrenzte Daten, bei denen sich Druckdaten oder andere Betriebsdaten als nützlich erwiesen haben könnten, deren Vorteil in einer erhöhten Modellgenauigkeit und Interpretierbarkeit bestehen könnte. Überbewertete lokale Bedingungen können sich auch auf die Modellgenauigkeit auswirken. In dieser Studie wurden die lokalen Bodenbedingungen anhand einer Bodenkarte im Maßstab 1:250.000 dargestellt. Ebenso wurden die Wettervariablen aus einer 40 × 40 km großen Rasterquelle auf einer Jahresskala stark zusammengefasst. Diese Einschränkungen wirken sich zwangsläufig auf das Modell aus, was möglicherweise eine effektive Entscheidungsfindung behindern kann. Bei der Modellierung von Rohrausfällen gibt es mehrere Herausforderungen, von Unsicherheiten bei der Datenerfassung und -verwaltung bis hin zu spezifischen Datenverarbeitungslösungen. Es besteht die Notwendigkeit, diese ganzheitlich und aus der Sicht der aktuellen Praxis zu verstehen, um eine tiefergehende Perspektive auf die aktuellen Herausforderungen in der Praxis zu erhalten, die eine sinnvolle Datenerfassung behindern können. Darüber hinaus sind zukünftige Forschungsarbeiten, die darauf abzielen, zu verstehen, wie Praktiker Rohrversagensmodelle, deren Einschränkungen und Möglichkeiten verstehen, von Vorteil, da häufig ein Widerspruch zwischen den Modellierungsfunktionen und den Benutzererwartungen besteht. Diese weitere Forschung kann zur Verbesserung von Rohrausfallmodellen beitragen, indem Verbesserungen im Rohrausfallmodellprozess gefördert werden, die eine qualitativ hochwertige Datenerfassung fördern.

Diese Studie untersuchte die Vorhersage von Rohrausfällen mithilfe eines GBT-Modells und die Ermittlung des Risikos auf der Grundlage einer gewichteten Risikoanalyse, um Rohre für ein proaktives Management zu priorisieren. Bei der Gruppierung der Rohre wurde in dieses Modell ein räumlicher Maßstab von 1 km einbezogen, der darauf abzielte, örtliche Bedingungen zu erfassen und die bei der Gruppierung von Rohren in einem Netzwerk auftretenden Ausfallratenunterschiede zu beseitigen. Dieser räumliche Maßstab hat zusammen mit einem kurzen Vorhersageintervall, dem Fehlen einiger wesentlicher Variablen und zusätzlichen inhärenten Problemen mit Rohrausfall-Datensätzen letztendlich zu einer akzeptablen Genauigkeit geführt. In der Praxis liefern die Ergebnisse jedoch in Verbindung mit Expertenwissen eine nützliche Annäherung an potenzielle Ausfälle und ein besseres Verständnis des aktuellen WDN, um bei der Planung von Sanierungs- und Ersatzbemühungen zu helfen. Eine Verbesserung der Modellgenauigkeit kann durch die Verlängerung des Vorhersageintervalls auf einen Fünfjahres-Asset-Management-Plan erreicht werden, wodurch möglicherweise mehr Ausfälle pro Rohrgruppe akkumuliert werden, anhand derer Vorhersagen getroffen werden können. Für Wasserunternehmen, bei denen Managemententscheidungen typischerweise jährlich getroffen werden, ist dies jedoch möglicherweise nicht so nützlich. Darüber hinaus kann das Verständnis der Probleme bei der Datenerhebung und -qualität aus der aktuellen Praxis dazu beitragen, die Datenquantität und -qualität zu fördern und möglicherweise zu deutlichen Verbesserungen der endgültigen Vorhersagen führen.

Weitere vorgeschlagene Forschungsarbeiten umfassen die Erforschung verschiedener Pipe-Gruppierungsvarianten, das Sammeln weiterer Daten zu den Konsequenzen, wenn die gewichtete Risikoanalyse nicht verbessert wird, und als Erweiterung dieser Idee das Verständnis der Datenquantitäts- und -qualitätsprobleme aus der aktuellen Praxis sowie die Erforschung von Feature-Engineering-Techniken, um mehr abzuleiten wertvolle Datensätze, die die Modellgenauigkeit verbessern können.

Das Entscheidungsbaummodell ist eine Methode des maschinellen Lernens, die einfach zu implementieren, recheneffizient ist und sich zur Modellierung komplexer Zusammenhänge eignet, wie sie bei Rohrausfällen auftreten20. Ein Entscheidungsbaum T partitioniert (oder segmentiert) den Raum aller erklärenden Variablen in disjunkte Regionen R1, R2, …, Rj durch rekursive Partitionierung entlang der Achse (bekannt als achsenparallele Partitionen) unter Verwendung eines gierigen Top-Down-Ansatzes zur Identifizierung von Regionen innerhalb von Regionen basierend auf dem Gini-Index, einem Maß für die Gesamtvarianz zwischen den Klassen. Der Partitionierungsvorgang wird fortgesetzt, bis das Stoppkriterium erfüllt ist. An diesem Punkt erreicht der Baum den Endknoten (den endgültigen Raum, der in nicht überlappende Bereiche unterteilt ist). In diesem Fall beschreibt das Modell die Ausfallwahrscheinlichkeit über eine Bernoulli-Verteilung P(x,y), wobei eins einen bestimmten Ausfall anzeigt und Null keinen Ausfall. Alle zurückgegebenen Wahrscheinlichkeiten liegen innerhalb dieses Intervalls [eins-null]. Ein Entscheidungsbaum wird formal in Gl. beschrieben. (6) wie folgt43:

Dabei ist I eine Indikatorfunktion, gleich 1, wenn die Bedingung wahr ist (Fehler), andernfalls 0 (kein Fehler). Auf jede unterteilte Region wird ein konstanter cR angewendet, der die Wahrscheinlichkeit in dieser Region bestimmt.

Entscheidungsbäume sind relativ einfach zu interpretieren und zu visualisieren (Abb. 5), können Variablen mehrerer Typen verwenden, werden nicht von Variablen auf unterschiedlichen Skalen beeinflusst, können fehlende Variablen berücksichtigen und sind unempfindlich gegenüber Ausreißern. Entscheidungsbäume modellieren glatte Funktionen jedoch schlecht und können unterschiedliche Partitionen basierend auf kleinen Änderungen an Trainingsdaten beobachten, was zu Unsicherheiten führt und zu schlechten Vorhersagen führt. Daher ist es wichtig, Methoden wie Boosting einzubinden, um die Vorhersagen deutlich zu verbessern.

(i) zeigt den zweidimensionalen Datenraum. (ii) erste Bedingung für die Partitionierung der Daten nach Variable x2 bei 200, wobei der disjunkte Bereich R1 ≤200 und der disjunkte Bereich R2 > 200 ist. (iii) zweite Bedingung für die Partitionierung der Daten nach Variable x1 sowohl bei 30 als auch bei 60, um zwei weitere disjunkte zu erstellen Region R3 und R4 (entnommen von Barton et al.55).

Die Verwendung eines Ensembles von Bäumen erweist sich als vorteilhaft, da das Modell langsamer lernt und die Varianz und Verzerrung durch Überanpassung reduziert43. Ein solches Ensemble-Modell ist Gradient Boosting, eine Form des funktionalen Gradientenabstiegs, der ein stufenweises Vorwärtsverfahren beschreibt, das mehrere Bäume iterativ an die Trainingsdaten anpasst, mit dem Ziel, die Verlustfunktion in der vorhandenen Sammlung von Bäumen durch Addition bei jedem zu minimieren Schritt, ein weiterer Baum, der die Verlustfunktion am besten reduziert. Die Verlustfunktion ist ein Maß dafür, wie gut die Modellkoeffizienten zu den Daten passen. In dieser Studie wird der negative Gradient der Abweichung verwendet, der für Klassifizierungsmodelle das Residuum der Antwort minus dem angepassten Wahrscheinlichkeitsmittelwert ist, wobei \({ {{\mathbf{r}}}} = {{{\mathbf{y}}}} - {{{\hat{\mathbf y}}}}\). Der Prozess wird beschrieben, indem eine Funktion\(\hat f_{{{\mathrm{B}}}}(x)\) erstellt wird, die die Summe des Baumensembles ist. Der erste Baum wird mit Boosting-Iteration m1 an die Trainingsdaten und die Antwort y angepasst, wodurch die Verlustfunktion maximal reduziert wird, aus der die Residuen als \(r_1 = y_1 – \hat y_1\) bestimmt werden. Nachfolgende Bäume werden auf die gleiche Weise angepasst, aber die folgenden Bäume werden basierend auf den Residuen der vorherigen Bäume aktualisiert, sodass \(r_i = r_{n – 1} – \hat r_{n – 1}\). Eine Überanpassung wird vermieden, indem die Regularisierung als Schrumpfungsstrafefaktor von 0 < λ < 1 angewendet wird, um den Beitrag des Baums zu skalieren. Die Regularisierung durch Schrumpfung bietet eine robuste Alternative zu herkömmlichen Variablenauswahlmethoden wie der schrittweisen Variablenauswahl24. Regularisierung erfordert gegenseitiges Handeln. Optimierung der Anzahl der Bäume, der Lernrate und der Baumkomplexität. Ein weiterer Vorteil der Regularisierung besteht darin, dass mehrere Kovariaten in das Modell einbezogen werden können. Wenn sie nur einen begrenzten Einfluss auf die Antwort haben, wird ihr Beitrag einfach heruntergewichtet. Dies ist einfacher als das Hinzufügen und Entfernen von Variablen, um ein sparsames Modell zu erstellen24. Der geschrumpfte Baum wird dann zur Funktion hinzugefügt: \(\hat f_{{{\mathrm{B}}}}\left( x \right) \leftarrow \hat f_{{{\mathrm{B}}}}\ left( x \right) + \lambda\) T(x;γ) wobei x das multivariate Argument ist, das durch einen Satz von Parametern γ gekennzeichnet ist. Die folgenden Bäume mit Boosting-Iteration m2, m3,…, m werden unter Verwendung der Trainingsdaten und der Residuen jedes Baums iterativ trainiert. Jeder Baum wird verkleinert und nacheinander zur Funktion hinzugefügt, und die Residuen werden aktualisiert, sodass \(r_i \leftarrow r_i - T(x;\gamma _b)\). Das endgültige Regressionsgradienten-Boosting-Modell ist in Abb. 6 dargestellt und die in Gleichung dargestellte Notation. (7) wie folgt43:

Der Prozess beschreibt den Aufbau der Summe des Baumensembles \(\hat f_{\mathrm{B}}(x)\), indem die Iterationen des verstärkten Baums (T1, T2,...,Tn) angepasst und der Verlust maximal reduziert werden Funktion aus den Residuen (entnommen von Barton et al.55).

Das Gradient-Boosting-Modell verfügt über viele Hyperparameter, die die Ausführung des Lernens steuern. Um die Leistung zu optimieren und das beste Modell zu erhalten, wurde eine sequentielle Rastersuche über die verschiedenen Hyperparameter durchgeführt. Jeder Hyperparameter wurde mithilfe eines geeigneten Bereichs optimiert und die Anzahl der im Boosting-Ensemble verwendeten Bäume erhöht, bis sich die Ergebnisse nicht mehr verbesserten24. Eine fünffache Kreuzvalidierung wurde verwendet, um die Rechenkomplexität des Modells und seine Genauigkeit auszugleichen. Die Technik der K-fachen Kreuzvalidierung unterteilt die Trainingsdaten nach dem Zufallsprinzip in K gleiche Teilstichproben, wobei eine einzelne Teilstichprobe zum Testen zurückgehalten wird und die verbleibenden Teilstichproben für das Training verwendet werden24. Der Vorgang wird K-mal wiederholt, sodass jede der Teilproben einmal als Test-Teilprobe verwendet wird. Die Kreuzvalidierung berechnet mehrere Schätzungen des „Out-of-Sample-Fehlers“ und gibt den kleinsten zurück, um eine Überanpassung zu minimieren43. Zur Entwicklung der Modelle wurde die R-Version 3.6.2 verwendet44. Die „gbm“-Paketversion 2.8.145 und die „caret“-Paketversion 6.046 wurden beide aus dem CRAN-Repository verwendet.

Es gibt verschiedene Möglichkeiten, das Risiko zu bestimmen29. In dieser Studie ist das Risiko R eine Kombination aus der Ausfallwahrscheinlichkeit Pf und der Summe der Folgen \(\mathop {\sum }\limits_i C_i^{{{\mathrm{f}}}}\), also Wasserverlust (Rohrdurchmesser) und Überschwemmungsschäden (Nähe zum nächstgelegenen Grundstück). Die Gewichtung hängt von der Bedeutung der jeweiligen Konsequenz ab. Da es oft mehr als eine Konsequenz gibt, werden die Konsequenzen summiert und nach Wichtigkeit gewichtet25. Die endgültige Berechnung wird in Gleichung ausgedrückt. (8) wie folgt:

Tabelle 2 zeigt die Folgen, ihre Gewichtung und die zugehörigen Schweregrade. Der Konsequenzwert wurde anhand von vier Kategorien ermittelt. Die Durchmesser wurden nach Durchmesserbändern kategorisiert und es wurde ein Anstieg des Wasserverlusts bei größeren Durchmessern angenommen. Der potenzielle Sachschaden wurde in Verbindung mit Expertenwissen ermittelt, wobei davon ausgegangen wurde, dass ein Rohrversagen wahrscheinlich zu weiteren Schäden an näher gelegenen Grundstücken führen wird. Da etwa 71 % des Netzes einen Rohrdurchmesser von <166 mm haben, sind Katastrophenereignisse und große Wasserverluste unwahrscheinlich; Daher sind Grundstücke im Umkreis von 10 m am stärksten gefährdet.

Bei der gewichteten Risikoanalyse werden die Ausfallwahrscheinlichkeit, der Durchmesser und die Nähe des Rohrs zum nächstgelegenen Grundstück berücksichtigt, da nur diese Daten verfügbar waren. Die für den Konsequenz-Score ermittelten Einheiten wurden im Dialog mit Risikomanagern britischer Wasserversorgungsunternehmen ermittelt. Der Abstand vom Rohr zum nächstgelegenen Grundstück wurde mit OS OpenMap Buildings47 und dem GIS-Paket ArcGIS Pro48 berechnet, um den kürzesten planaren Abstand zwischen dem Rohr und dem nächstgelegenen Grundstück zu berechnen. Das Ergebnis der gewichteten Risikoanalyse wird mithilfe von Natural Jenks dargestellt, um die Daten in drei Risikokategorien einzuteilen: niedrig, mittel und hoch. Natural Jenks ist eine Clustering-Methode, die darauf abzielt, die durchschnittliche Abweichung in jeder Klasse basierend auf natürlichen Gruppierungen, die den Daten innewohnen, zu minimieren. Natürliche Jenks sind von Vorteil, da sie echte Klassen innerhalb der Daten identifizieren und aussagekräftigere Visualisierungen liefern49.

Die Methoden wurden auf ein britisches WDN angewendet, das auf einer Fläche von etwa 27.476 km2 betrieben wird und etwa 4,3 Millionen Menschen mit Trinkwasser versorgt. Der britische WDN-Datensatz umfasst Fehleraufzeichnungen, die zwischen 2005 und 2018 gesammelt wurden, mit Informationen zu Rohrposition, Länge, Materialtyp, Alter, Durchmesser und Wasserquelle sowie Fehlerort und -zeit. Die vor Ort gesammelten Rohrschäden waren oft geografisch vom Rohrbruchereignis entfernt. Daher wurden alle Leitungsausfälle auf die nächstgelegene Leitung verlagert, um sicherzustellen, dass keine Daten verloren gingen. Jeder Rohrfehler wurde zunächst innerhalb von 3 m lokalisiert (eine Entfernung, die GPS-Fehler berücksichtigt), und wenn keine Übereinstimmung gefunden wurde, wurde der Vorgang nacheinander bis zu 1 km wiederholt, bis ein Rohr mit äquivalenten Eigenschaften in Bezug auf Durchmesser und Materialtyp gefunden wurde. Tabelle 3 zeigt eine Zusammenfassung der WDN-Daten.

Daten zu Temperatur und Bodenfeuchtigkeitsdefizit (SMD) wurden vom Met Office Rainfall and Evaporation Calculation System (MORECS 40 × 40 km Raster) in einem wöchentlich zusammengefassten Format abgerufen. Die Daten zur Gesamtzahl der Luftfrosttage stammen aus den zusammenfassenden Datensätzen des Met Office50, die in einem monatlich zusammengefassten Format heruntergeladen wurden. Die aus dem nationalen Bodenkarten-bezogenen Natural Perils Directory und den LandIS-Bodendaten und -Karten der Cranfield University51 gesammelten Bodendaten werden als Karten im Maßstab 1:250.000 dargestellt, die auf Felddaten basieren, die zwischen 1939 und 1987 gesammelt wurden. Mit ArcGIS Pro wurden die Rohrnetzdaten segmentiert durch die zugrunde liegenden Bodeneigenschaften und die zugehörigen Bodendaten, die dem Rohrsegment zugeordnet sind. Die MORECS- und zusammenfassenden Wetterdaten wurden dem Datensatz basierend auf dem 40 × 40 km großen MORECS-Gitterwert hinzugefügt, der mit der R-Software (Version 4.0.0) dem Rohr zugeordnet wurde, und der Rohrdurchmesser und das Alter wurden in kategorisierte Bänder eingeteilt. Die in Tabelle 4 dargestellten endgültigen Kovariaten wurden auf der Grundlage der verfügbaren Daten und der Faktoren ausgewählt, von denen bekannt ist, dass sie mit Rohrausfällen korrelieren, wie in ergänzenden Studien der Autoren festgestellt wurde6,52.

Die Rohre werden auf der Grundlage ähnlicher Merkmale segmentiert und gruppiert, darunter Material, Durchmesserband, Altersband und Bodeneigenschaften, ausgedrückt in einem 1-km-Raster, um lokale Bedingungen zu erfassen und die bei der Gruppierung von Rohren in einem Netzwerk üblichen Ausfallratenunterschiede zu beseitigen. Jede Wettervariable wird zu extremen Wetterbedingungen (Maximal- und Minimalwerte) zusammengefasst und mit dem Datensatz verknüpft. Der endgültige Datensatz enthält 80.107 Kohorten mit einer durchschnittlichen Länge von 433 m, einer minimalen Länge von 2 m und einer maximalen Länge von 11.995 m. Die Daten sind unausgewogen, ein oder mehrere Fehler machen nur 0,1 % aus. Da der Zweck darin besteht, die Wahrscheinlichkeit eines Rohrausfalls vorherzusagen, was in der Regel eine ausreichende Information für Entscheidungsträger ist, wird die Anzahl der Ausfälle durch entweder einen Ausfall oder keinen Ausfall ersetzt. Einige Studien haben Materialtypen zur Modellierung in unterschiedliche Datensätze unterteilt, da die Versagensmechanismen oft für jeden Materialtyp einzigartig sind. Hier werden die Daten jedoch in einem globalen Modell verwendet, das alle Materialien umfasst, da mehrere Studien darauf hingewiesen haben, dass globale Modelle aus drei Hauptgründen der am besten geeignete Ansatz sind20,36,53: (1) Es sind viele Variablen nicht verfügbar, die speziell für jedes Material einzigartig sind Daher beeinflussen die meisten Variablen alle Materialien. (2) Der einzigartigste Aspekt der Materialien ist der saisonale Unterschied in der Ausfallrate, der aufgrund der jährlichen Vorhersagen hier nicht berücksichtigt wird, und (3) bei einigen Materialien wie SDI ist dies der Fall Es gibt nicht genügend Rohrausfälle für eine gute Modellkonvergenz. Durch ein globales Modell wird dieses Problem jedoch behoben, indem aus einer größeren Anzahl von Ausfällen gelernt wird.

Die Daten werden in 70 % Training und 30 % Tests aufgeteilt, ein üblicher Ansatz für diese Art von Studie11,16,18, bei dem große Trainingsdatensätze eine verbesserte Modellleistung gezeigt haben12. Eine zufällige Aufteilung über den Zeitrahmen ist ebenfalls nützlich, da die Aufteilung nach Jahr in besonders extremen Jahren (z. B. dem wärmsten Jahr aller Zeiten) zu einer Verzerrung des Modells führen kann19,54. Während der Partitionierung wurde eine geschichtete Zufallsstichprobe verwendet, um sicherzustellen, dass eine repräsentative Stichprobe jedes Materials sowohl im Trainings- als auch im Testdatensatz enthalten war, sodass: \(N = \mathop {\sum}\nolimits_{i = 1}^k {N_i ,}\)wobei k die Anzahl der Schichten (in diesem Fall die fünf Materialien) und Ni die Anzahl der Stichprobeneinheiten in der i-ten Schicht ist.

Aufgrund ihres kommerziellen Charakters haben die Autoren keine Erlaubnis zur Weitergabe der Netzwerkdaten. Die Wetter- und Bodendaten, die die Ergebnisse dieser Studie stützen, sind verfügbar, es gelten jedoch Einschränkungen hinsichtlich der Verfügbarkeit dieser Daten, die unter Lizenz für die aktuelle Studie verwendet wurden und nicht öffentlich verfügbar sind. Die Wetterdaten sind unter Lizenz von www.metoffice.gov.uk verfügbar. Die verwendeten Bodendaten sind unter Lizenz von www.landis.org.uk verfügbar. Das Betriebssystem OpenMap ist beim Ordnance Survey unter https://www.ordnancesurvey.co.uk verfügbar.

Der Quellcode für die Modellierung wurde im Supplementary Material, Supplementary Methodology – R Markdown Model bereitgestellt.

Ofwat. PN 22/18: Das Versäumnis von Thames Water, die Leckage zu beheben, führt zu einem 65-Millionen-Pfund-Paket für die Kunden. (2020). Verfügbar unter: https://www.ofwat.gov.uk/pn-22-18-thames-waters-failure-tackle-leakage-results-65m-package-customers/ (Zugriff: Juni 2022).

Snider, B. & McBean, EA Verbesserung der städtischen Wassersicherheit durch Modelle zur Vorhersage von Rohrbrüchen: maschinelles Lernen oder Überlebensanalyse. J. Umgebung. Ing. 146, 04019129 (2019).

Artikel Google Scholar

Tang, K., Parsons, DJ & Jude, S. Vergleich von automatischem und geführtem Lernen für Bayes'sche Netzwerke zur Analyse von Rohrausfällen im Wasserverteilungssystem. Zuverlässig. Ing. Syst. Sicher. 186, 24–36 (2019).

Artikel Google Scholar

Chen, TY-J., Beekman, JA, David Guikema, S. & Shashaani, S. Statistische Modellierung ohne systemspezifische Daten: explorative empirische Analyse zur Vorhersage von Wasserhauptbrüchen. J. Infrastruktur. Syst. 25, 04019009 (2019).

Artikel Google Scholar

Shamir, U. & Howard, CDD Ein analytischer Ansatz zur Planung des Rohraustauschs. Marmelade. Wasserwerksvereinigung 71, 248–258 (1979).

Artikel Google Scholar

Barton, NA, Farewell, TS, Hallett, SH & Acland, TF Verbesserung der Vorhersage von Rohrausfällen: Faktoren, die Rohrausfälle in Trinkwassernetzen beeinflussen. Wasserres. 164, 114926 (2019).

Artikel CAS Google Scholar

Kleiner, Y. & Rajani, B. Berücksichtigung zeitabhängiger Faktoren bei der statistischen Vorhersage von Wasserhauptleitungen. In: Infrastrukturkonferenz der American Water Works Association (AWWA 2000) 1–12 (2000).

Kakoudakis, K., Farmani, R. & Butler, D. Vorhersage von Pipelineausfällen in Wasserverteilungsnetzen unter Verwendung der Wetterbedingungen als erklärende Faktoren. J. Hydroinformatics 20, 1191–1200 (2018).

Artikel Google Scholar

Economou, T., Kapelan, Z. & Bailey, TC Zur Vorhersage von Ausfällen von unterirdischen Wasserleitungen: Nullinflation und rohrspezifische Auswirkungen. J. Hydroinformatics 14, 872–883 (2012).

Artikel Google Scholar

Asnaashari, A., McBean, EA, Shahrour, I. & Gharabaghi, B. Vorhersage von Ausfallhäufigkeiten von Wasserhauptleitungen mittels multipler und Poisson-Regression. Wasserversorgung 9, 9–19 (2009).

Artikel Google Scholar

Giraldo-González, MM & Rodríguez, JP Vergleich statistischer und maschineller Lernmodelle zur Modellierung von Rohrfehlern in Wasserverteilungsnetzen. Wasser 12, 1153 (2020).

Artikel Google Scholar

Snider, B. & McBean, EA Watermain-Brüche und Daten: die komplizierte Beziehung zwischen Datenverfügbarkeit und Genauigkeit von Vorhersagen. Urban Water J. 17, 163–176 (2020).

Artikel Google Scholar

Wilson, D., Filion, Y. & Moore, I. Aktuelle Übersicht über Modelle zur Vorhersage von Wasserrohrausfällen und deren Anwendbarkeit auf Hauptleitungen mit großem Durchmesser. Urban Water J. 14, 173–184 (2017).

Artikel Google Scholar

St. Clair, AM & Sinha, S. Modernste Überprüfung von Modellen zur Vorhersage des Zustands, der Verschlechterung und der Ausfallrate von Wasserleitungen! Urban Water J. 9, 85–112 (2012).

Artikel Google Scholar

García, AC, Solano, H., Gamiz, ML & Debón, A. Bewertung der Zuverlässigkeit eines Wasserversorgungsnetzes anhand rechtszensierter und linksgeschnittener Unterbrechungsdaten. Wasserressource. Geschäftsführer 24, 2917–2935 (2010).

Artikel Google Scholar

Kimutai, E., Betrie, G., Brander, R., Sadiq, R. & Tesfamariam, S. Vergleich statistischer Modelle zur Vorhersage von Rohrausfällen: Anschauliches Beispiel mit dem Ausfall der Wasserhauptleitung der Stadt Calgary. J. Pipeline-System. Ing. Üben. 6, 04015005 (2015).

Artikel Google Scholar

Chen, TY, Beekman, JA & Guikema, SD Vermögensverwaltung von Trinkwasserverteilungssystemen: Statistische Modellierung von Rohrbrüchen. In (Hrsg. Pridmore, A. & Geisbush, J.) Pipelines. 173–186 ASCE: 2017.

Motiee, H. & Ghasemnejad, S. Vorhersage der Rohrausfallrate in Teheraner Wasserverteilungsnetzen durch Anwendung von Regressionsmodellen. Wasserversorgung 19, 695–702 (2019).

Artikel Google Scholar

Yamijala, S., Guikema, SD & Brumbelow, K. Statistische Modelle für die Analyse von Rohrbruchdaten von Wasserverteilungssystemen. Zuverlässig. Ing. Syst. Sicher. 94, 282–293 (2009).

Artikel Google Scholar

Winkler, D., Haltmeier, M., Kleidorfer, M., Rauch, W. & Tscheikner-Gratl, F. Rohrausfallmodellierung für Wasserverteilungsnetze unter Verwendung verstärkter Entscheidungsbäume. Struktur. Infrastruktur. Ing. 14, 1402–1411 (2018).

Artikel Google Scholar

Kleiner, Y. & Rajani, B. Vergleich von vier Modellen zur Einstufung der Ausfallwahrscheinlichkeit einzelner Rohre. J. Hydroinformatics 14, 659–681 (2012).

Artikel Google Scholar

Volkszählungsamt der Vereinigten Staaten. Glossar. (2021). Verfügbar unter: https://www.census.gov/programs-surveys/geography/about/glossary.html. (Zugriff: Juni 2022).

Rudin, C. Hören Sie auf, Black-Box-Modelle für maschinelles Lernen für Entscheidungen mit hohem Risiko zu erklären, und verwenden Sie stattdessen interpretierbare Modelle. Nat. Mach. Intel. 1, 206–215 (2019).

Artikel Google Scholar

Elith, J., Leathwick, JR & Hastie, T. Ein Arbeitsleitfaden für verstärkte Regressionsbäume. J. Anim. Ökologisch. 77, 802–813 (2008).

Artikel CAS Google Scholar

Suddle, S. Die gewichtete Risikoanalyse. Sicher. Wissenschaft. 47, 668–679 (2009).

Artikel Google Scholar

Chen, TYJ & Guikema, SD Vorhersage von Wasserhauptausfällen mit der räumlichen Häufung von Brüchen. Zuverlässig. Ing. Syst. Sicher. 203, 107108 (2020).

Artikel Google Scholar

Berardi, L., Giustolisi, O., Kapelan, Z. & Savic, DA Entwicklung von Rohrschädigungsmodellen für Wasserverteilungssysteme mithilfe von EPR. J. Hydroinformatics 10, 113–126 (2008).

Artikel Google Scholar

Christodoulou, S. & Deligianni, A. Ein Neurofuzzy-Entscheidungsrahmen für das Management von Wasserverteilungsnetzen. Wasserressource. Geschäftsführer 24, 139–156 (2010).

Artikel Google Scholar

Pietrucha-Urbanik, K. & Tchórzewska-Cieślak, B. Ansätze zur Ausfallrisikoanalyse des Wasserverteilungsnetzes im Hinblick auf die Sicherheit der Verbraucher. Wasser 10, 1679 (2018).

Artikel Google Scholar

Farewell, TS, Jude, S. & Pritchard, O. Wie die Auswirkungen von Wasserrohrbrüchen durch den Sandgehalt im Boden beeinflusst werden. Nat. Gefahren Erdsystem Wissenschaft. 18, 2951–2968 (2018).

Artikel Google Scholar

Kerwin, S., Garcia de Soto, B., Adey, B., Sampatakaki, K. & Heller, H. Kombination aufgezeichneter Ausfälle und Expertenmeinung bei der Entwicklung von Modellen zur Vorhersage von ANN-Rohrausfällen. Aufrechterhalten. Resiliente Infrastruktur. 1–23. https://doi.org/10.1080/23789689.2020.1787033 (2020).

Saito, T. & Rehmsmeier, M. Das Precision-Recall-Plot ist bei der Auswertung binärer Klassifikatoren für unausgeglichene Datensätze informativer als das ROC-Plot. PLoS ONE 10, e0118432 (2015).

Artikel Google Scholar

Fawcett, T. Eine Einführung in die ROC-Analyse. Mustererkennung. Lette. 27, 861–874 (2006).

Artikel Google Scholar

Hosmer, DW & Lemeshow, S. Angewandte logistische Regression (John Wiley & Sons, Inc., 2000). https://doi.org/10.1002/0471722146

Kumar, A. et al. Einsatz von maschinellem Lernen, um das Risiko von Wasserrohrbrüchen einzuschätzen und diese zu verhindern. In: Proc. 24. ACM SIGKDD International Conference on Knowledge Discovery & Data Mining 2657, 472–480 https://dl.acm.org/action/showFmPdf?doi=10.1145%2F3219819 (ACM, 2018).

Robles-Velasco, A., Cortés, P., Muñuzuri, J. & Onieva, L. Vorhersage von Rohrausfällen in Wasserversorgungsnetzen mithilfe logistischer Regression und Unterstützungsvektorklassifizierung. Zuverlässig. Ing. Syst. Sicher. 196, 106754 (2020).

Artikel Google Scholar

Bruaset, S. & Sægrov, S. Eine Analyse der möglichen Auswirkungen des Klimawandels auf die strukturelle Zuverlässigkeit von Trinkwasserleitungen in Regionen mit kaltem Klima. Wasser (Schweiz) 10, 411 (2018).

Ridgeway, G. Generalized Boosted Models: A Guide to the gbm Package (CiteSeerX, 2019).

Konstantinou, C. & Stoianov, I. Eine vergleichende Studie zu statistischen und maschinellen Lernmethoden zur Ableitung von Ursachen für Rohrbrüche in Wasserversorgungsnetzen. Urban Water J. 17, 534–548 (2020).

Artikel Google Scholar

Ozcelik, C. & Gorokhovich, Y. Ein Überlandflutmodell für geografische Informationssysteme. Wasser (Schweiz) 12, 2397 (2020).

Fitchett, JC, Karadimitriou, K., West, Z. & Hughes, DM Maschinelles Lernen zur Beurteilung des Rohrzustands. Marmelade. Wasserwerksvereinigung 112, 50–55 (2020).

Artikel Google Scholar

De Oliveira, DP, Garrett, JH & Soibelman, L. Ein dichtebasierter räumlicher Clustering-Ansatz zur Definition lokaler Indikatoren für Rohrbrüche in der Trinkwasserverteilung. Adv. Ing. Informieren. 25, 380–389 (2011).

Artikel Google Scholar

Hastie, T., Tibshirani, R. & Friedman, J. Die Elemente des statistischen Lernens. Springer-Reihe zur Statistik (Springer, 2009). https://doi.org/10.1007/978-0-387-84858-7.

R-Kernteam. R: Das R-Projekt für statistisches Rechnen. (2018). Verfügbar unter: https://www.r-project.org/ (Zugriff: Februar 2019).

Greenwell, B., Boehmke, B. & Cunningham, J. Paket „gbm“ – Generalisierte Boosted-Regressionsmodelle. CRAN-Repository 39 (2019).

Kuhn, M. et al. Paket „caret“ – Klassifizierungs- und Regressionstraining. 1–223 (2020).

Ordnungsvermessung. Betriebssystem OpenMap – Lokal. (2021). Verfügbar unter: https://www.ordnancesurvey.co.uk/business-regierung/products/open-map-local. (Zugriff: April 2021).

ESRI. ArcGIS Pro. (2021). Verfügbar unter: https://www.esri.com/en-us/arcgis/products/arcgis-pro/overview. (Zugriff: Februar 2021).

North, MA Eine Methode zur Implementierung einer statistisch signifikanten Anzahl von Datenklassen im Jenks-Algorithmus. In: 2009 Sixth International Conference on Fuzzy Systems and Knowledge Discovery 1, 35–38 https://dl.acm.org/doi/proceedings/10.5555/1674647 (IEEE, 2009).

Met Office. Regionale Klimazusammenfassungen des Vereinigten Königreichs 1981–2018. Met Office (2018). Verfügbar unter: https://www.metoffice.gov.uk/research/climate/maps-and-data/regional-climates/index.

Hallett, SH, Sakrabani, R., Keay, CA & Hannam, JA Entwicklungen bei Landinformationssystemen: Beispiele, die die Fähigkeiten und Optionen des Landressourcenmanagements demonstrieren. Bodennutzungsmanagement 33, 514–529 (2017).

Artikel Google Scholar

Barton, NA, Farewell, TS & Hallett, SH Verwendung verallgemeinerter additiver Modelle zur Untersuchung der Umweltauswirkungen auf Rohrausfälle in Reinwassernetzen. npj Sauber. Wasser 3, 31 (2020).

Artikel Google Scholar

Jafar, R., Shahrour, I. & Juran, I. Anwendung künstlicher neuronaler Netze (ANN) zur Modellierung des Ausfalls städtischer Wasserleitungen. Mathematik. Berechnen. Modell. 51, 1170–1180 (2010).

Artikel Google Scholar

Kabir, G., Tesfamariam, S., Loeppky, J. & Sadiq, R. Vorhersage von Wasserhauptausfällen: ein Bayes'scher Modellaktualisierungsansatz. Wissensbasiertes Syst. 110, 144–156 (2016).

Artikel Google Scholar

Barton, NA, Hallett, SH, Jude, SR & Tran, TH Eine Weiterentwicklung statistischer Rohrausfallmodelle für Trinkwassernetze: eine gezielte Überprüfung. Wasserversorgung (2022). https://doi.org/10.2166/ws.2022.019.

Referenzen herunterladen

Diese Arbeit wurde vom UK Natural Environment Research Council [NERC Ref: NE/M009009/1] und Anglian Water plc. unterstützt, die an dieser Studie nicht direkt beteiligt waren. Die Autoren danken für ihre Unterstützung.

School of Water, Energy and Environment, Cranfield University, Bedfordshire, MK43 0AL, Großbritannien

Neal Andrew Barton, Stephen Henry Hallett und Simon Richard Jude

Centre for Competitive Creative Design (C4D), School of Water, Energy and Environment, Cranfield University, Bedfordshire, MK43 0AL, Großbritannien

Trung Hieu Tran

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

Sie können diesen Autor auch in PubMed Google Scholar suchen

NB: Konzeptualisierung, Methodik, Software, Tests, formale Analyse, Untersuchung, Ressourcen, Datenkuration, Schreiben – Originalentwurf, Schreiben – Überprüfung und Bearbeitung, Visualisierung und Projektverwaltung. SH: Schreiben – Überprüfung und Bearbeitung, Betreuung, Finanzierungseinwerbung. SJ: Begutachtung & Redaktion, Betreuung, Fördermittelakquise. THT: Testen, formale Analyse sowie Überprüfung und Bearbeitung.

Korrespondenz mit Stephen Henry Hallett.

Die Autoren geben an, dass keine Interessenkonflikte bestehen.

Die Gründungssponsoren spielten keine Rolle bei der Gestaltung der Studie, bei der Erhebung, Analyse oder Interpretation von Daten, beim Verfassen des Manuskripts und bei der Entscheidung zur Veröffentlichung der Ergebnisse.

Anmerkung des Herausgebers Springer Nature bleibt hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten neutral.

Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.

Nachdrucke und Genehmigungen

Barton, NA, Hallett, SH, Jude, SR et al. Vorhersage des Risikos eines Rohrversagens mithilfe von Gradienten-gestützten Entscheidungsbäumen und gewichteter Risikoanalyse. npj Clean Water 5, 22 (2022). https://doi.org/10.1038/s41545-022-00165-2

Zitat herunterladen

Eingegangen: 26. Juli 2021

Angenommen: 27. Mai 2022

Veröffentlicht: 17. Juni 2022

DOI: https://doi.org/10.1038/s41545-022-00165-2

Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:

Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.

Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt

AKTIE