Friday 24 March 2017

Autoregressive Moving Average With Exogenous Variables

Die Nachfrage nach Gesundheitsdiensten ist nicht mehr nachvollziehbar. Dies ist vor allem auf die Zunahme der Bevölkerung und der Lebenserwartung, der Eskalationskosten, der erhöhten Patientenerwartungen und der Belegschaft zurückzuführen. Trotz erhöhter Anforderungen ist die Zahl der stationären Betten in Krankenhäusern seit dem letzten Jahrzehnt um 2 gesunken. Ein effizientes Bettenmanagement ist der Schlüssel zur Erfüllung dieser steigenden Nachfrage und der Senkung der Kosten im Gesundheitswesen. Die tägliche Ausstoßrate kann ein potentieller Echtzeitindikator für die betriebliche Effizienz sein 5. Aus einer Stationsebene Sicht, eine gute Schätzung der nächsten Tage Entladungen ermöglichen Krankenhauspersonal, mögliche Probleme wie Änderungen in der Anzahl der verfügbaren Betten und Änderungen in der Anzahl der erforderlichen Mitarbeiter vorzusehen. Effiziente Prognose reduziert Bett Krise und verbessert die Ressourcenzuteilung. Diese Vorhersage kann dazu beitragen, die Entlastungsvorbereitung zu beschleunigen, was enorme Kosten für das klinische Personal und für die Aufklärung von Patienten und Familien bedeutet, die eine Nachentladungsplanung erfordern. 6. 7. Allerdings bietet das Studium Patientenfluss aus allgemeinen Bezirken mehrere Herausforderungen. Ward-Ebene Entladungen enthalten weit größeren Krankenhausdynamik, die oft nichtlineare 8. Der Zugang zu klinischen Informationen in Echtzeit kann aufgrund administrativer und prozeduraler Barrieren schwierig sein, diese Daten sind möglicherweise nicht für prädiktive Anwendungen verfügbar. Da die Diagnosekodierung nach der Entladung durchgeführt wird, gibt es wenig Informationen über den medizinischen Zustand oder die Variation der Pflegequalität in Echtzeit. Darüber hinaus spielen andere Faktoren als der Patientenzustand eine Rolle bei den Entlassungsentscheidungen 5. 9. 10. Die gegenwärtige Praxis der Bettverteilung in den allgemeinen Krankenhäusern der meisten Krankenhäuser umfaßt ein Krankenhauspersonal / - team, das vergangene Informationen und Erfahrung benutzt, um Zeitpläne und Zuweisung von Betten 11. Moderne maschinelle Lerntechniken können verwendet werden, um solche Entscheidungen zu unterstützen und helfen, den zugrunde liegenden Prozess zu verstehen. Als Beispiel veranschaulicht Fig. 1 einen Entscheidungsbaum, der auf vergangenen Entladungen trainiert ist, und von Belegungsstatistiken, die das tägliche Entladungsmuster von einer offenen Station in einem regionalen australischen Krankenhaus modellieren. Obwohl die Abwesenheit von Patienten medizinischen Informationen betroffen Prognose Leistung, die Entscheidungsregeln bieten wichtige Einblick in die Entlastung Prozess. Motiviert durch dieses Ergebnis, adressieren wir das offene Problem der Prognose tägliche Entladungen aus einer Station mit keine Echtzeit-klinischen Daten. Im Einzelnen vergleichen wir die Prognoseleistung von 5 populären Regressionsmodellen: (1) der klassische autoregressive integrierte gleitende Durchschnitt (ARIMA), (2) der autoregressive gleitende Durchschnitt mit exogenen Variablen (ARMAX), (3) k-nächster Nachbar (kNN) Regression, (4) Random Forest (RF) Regression und (v) Unterstützung Vektor Regression (SVR). Unsere Experimente wurden auf allgemein verfügbaren Daten von einer Erholungsstation (Heideflügel 5) in Barwon Health, einem regionalen Krankenhaus in Victoria, Australien, durchgeführt. Die Modelle ARIMA und kNN werden aus täglichen Entladungen gebaut. Um den saisonalen Charakter der Einleitungen zu berücksichtigen, umfaßte das ARMAX-Modell den Wochentag und die Belegungsstatistik. Wir identifizierten und konstruierten 20 Station-Ebene und 88 Patienten-Ebene Prädiktoren zur Ableitung der RF-und SVR-Modelle. Die Prognosegenauigkeit wurde unter Verwendung von 3 Metriken auf einem gehaltenen Satz von 2511 Patientenbesuchen im Jahr 2014 gemessen. Im Vergleich zu einer naiven Prognosemethode zur Verwendung des Mittelwerts der vergangenen Wochen zeigen wir durch unsere Experimente, dass (1) mit Regressionsmethoden für (2) SVR - und HF-Modelle übertreffen die autoregressiven Methoden und kNN, (3) ein HF-Modell, das aus 108 Merkmalen abgeleitet ist, hat den minimalen Fehler für die Prognosen des nächsten Tages. Die Bedeutung unserer Studie ist es, die Bedeutung der Vorhersage der verfügbaren Betten in den Stationen zu identifizieren, die dazu beitragen könnten, den Notfallzugangsblock 12 zu entlasten. Patient Länge des Aufenthalts direkt zu Krankenhauskosten und Ressourcenallokation beiträgt. Langfristige Prognosen im Gesundheitswesen zielen darauf ab, Betten - und Personalbedarf über einen Zeitraum von Monaten bis Jahren zu modellieren. Cote und Tucker kategorisieren die gemeinsamen Methoden im Gesundheitswesen Nachfrage Prognose als Prozentanpassung, 12-Monats-gleitenden Durchschnitt, Trendlinie und saisonale Prognose 13. Obwohl jede dieser Methoden aus der historischen Nachfrage gebaut wird, liefert die saisonalisierte Prognose realistischere Ergebnisse, da sie die saisonalen Schwankungen und Trends der Daten berücksichtigt. Mackay und Lee 3 beraten die Modellierung des Patientenflusses in Einrichtungen des Gesundheitswesens für taktische und strategische Prognosen. Zu diesem Zweck wurden die Kompartimentmodelle 14, 15, die Warteschlangenmodelle 16, 17 und die Simulationsmodelle 17 bis 20 zur Analyse des Patientenflusses angewandt. Um den langfristigen Patientenfluss zu verstehen, analysieren Studien Metriken wie Bettenbelegung 3. 8. 14. 19. 21. 22, Patientenankünfte 23 und individuelle Patientenverweildauer 19. 24 - 27. Auf der anderen Seite setzt unsere Arbeit kurzfristige Prognosen ein. Die kurzfristigen Prognosemethoden befassen sich mit stündlichen und täglichen Prognosen aus einer Einheit in einem Pflegeumfeld. Die am meisten verbreitete Einheit ist die Notfall - oder Akutmedizinische Abteilung, da dies häufig eine wichtige Kennzahl für die Beurteilung der Versorgungsqualität ist. Entscheidungsbaum Modellierung der Gesamtentladungen aus einer offenen Station von Tag der Woche und Belegung (vorige Tag Besetzung) Daten für 5 Jahre. Die Blätter stellen die Gesamtzahl der Patientenentladungen dar. Zeitreihen und Glättungsmethoden Beim Betrachten von Entladungen als Zeitreihen sind autoregressive gleitende Durchschnittsmodelle die beliebtesten 30 - 32. Exponentielle Glättungstechniken wurden ebenfalls verwendet, um die monatlichen 33 und täglichen Patientenströme 34 zu prognostizieren. Jones und andere verwendeten die klassische ARIMA prognostiziert tägliche Bettbelegung in Notaufnahme eines europäischen Krankenhauses 30. Das Modell, das saisonale Bedingungen enthielt, zeigte eine vernünftige Leistung, um die Bettenbelegung vorherzusagen. Die Autoren spekulierten, ob nicht-lineare Prognosetechniken über ARIMA verbessern könnten. Eine aktuelle Studie bestätigte die Wirksamkeit dieser Prognosetechnik in einer US-Krankenhaus-Einstellung 35. ARIMA-Modelle wurden auch erfolgreich zur Prognose der Anzahl der besetzten Betten während eines SARS-Ausbruchs in einem Krankenhaus in Singapur 36 verwendet. In einer kürzlich durchgeführten Studie wurden Patientendiensten in einer pädiatrischen Notfallabteilung eingesetzt, um den täglichen Bedarf mit ARIMA 37 zu modellieren. Jones et al 34 verglichen die ARIMA-Modus mit exponentiellen Glättung und künstliche neuronale Netze prognostiziert täglich Patientenvolumen in Notfall-Abteilung. Die Studie ergab, dass kein einziges Modell überlegen war und schloss, dass saisonale Muster eine große Rolle in der täglichen Nachfrage spielen. Die Modellierung mittels Simulation wird typischerweise verwendet, um das Verhalten komplexer Systeme zu untersuchen. Eine frühe Arbeit untersuchte die Auswirkungen der Notaufnahme auf tägliche Betten Anforderungen in der Akutversorgung, mit diskreten Ereignis stochastische Simulation Modellierung 38. Sinreich und Marmor 39 schlugen einen Leitfaden für den Aufbau eines Simulationswerkzeugs auf der Grundlage von Daten aus Notabteilungen von 5 israelischen Krankenhäusern vor. Ihre Methode analysiert den Fluss der Patienten in 8 Arten zusammen mit Zeit-Elemente gruppiert. Die Simulation zeigte, dass die Patientenprozesse besser durch die Art der Patienten charakterisiert werden, als durch spezielle Krankenhäuser. Yeh und Lin verwendeten ein Simulationsmodell zur Charakterisierung des Patientenflusses durch eine Krankenhaus-Notfallabteilung und reduzierte Wartezeiten unter Verwendung eines genetischen Algorithmus 40. Ein ähnliches Experiment wurde in einer geriatrischen Abteilung unter Verwendung einer Kombination von diskreter Ereignissimulation und Warteschlangenmodell durchgeführt, um die Bettenbelegung zu analysieren. Regression für Forecasting Regressionsmodelle analysieren die Beziehung zwischen der prognostizierten Variablen und den Merkmalen in den Daten. Eine lineare Regression, die monatliche Variationen kodierte, wurde verwendet, um Patienteneintritte über einen 6-Monatshorizont zu prognostizieren und übertrafen quadratische und autoregressive Modelle 41. Eine weitere Studie verwendet Clustering und Principle Component Analysis PCA, um signifikante Prädiktoren aus Patientendaten zu Modell Notfall Länge des Aufenthalts mit linearen Regression 42 zu finden. Ein nichtlinearer Ansatz unter Verwendung von Regressionsbäumen wurde bei der Prognose von Patienteneinträgen vorgeschlagen, die eine überlegene Leistungsfähigkeit über ein neuronales Netzraument zeigen. Barnes et al verwendeten 10 Prädiktoren zur Modellierung der intravenösen Aufenthaltsdauer in einer 36-Betten-Einheit unter Verwendung eines HF-Modells 24. Die nichtlineare Regression ist besser geeignet, die sich verändernde Dynamik des Patientenflusses zu modellieren. Um den Abfluss von Patienten aus der Station zu charakterisieren, greifen wir auf Regression mit RF, kNN und SVR zurück. Im Bereich der Mustererkennung sind kNNs 44 die effektivste Methode, die wiederholte Muster ausnutzt. Der kNN-Algorithmus wurde erfolgreich zur Prognose auf Histogramm-Zeitreihen in den Finanzdaten 45 angewendet. Die nichtparametrische Regression unter Verwendung von kNN wurde erfolgreich für die kurzfristige Verkehrsprognose 46 gezeigt. 47 und die Stromlastvorhersage 48. 49. Jedoch wurde die kNN-Regression nicht für den Patientenfluss untersucht. Eine weitere leistungsfähige und populäre Regressionstechnik, SVR, verwendet Kernelfunktionen, um Funktionen in einen höherdimensionalen Raum abzubilden, um eine lineare Regression durchzuführen. Obwohl diese Technik nicht viel Anwendung in der medizinischen Prognose gesehen hat, haben Support-Vektor-Maschinen erfolgreich in der Finanzmarkt-Vorhersage, Stromvorhersage, Business-Prognose und Zuverlässigkeit Vorhersage 50. Neben den üblichen autoregressiven Methoden verwenden wir kNN, RFs und SVR bei der Vorhersage der Entladungen am nächsten Tag. Da sich die Entladungsmuster im Laufe der Zeit wiederholen, kann die kNN-Regression angewandt werden, um nach einem passenden Muster aus vergangenen Entladungen zu suchen. RFs und SVR-Regression sind leistungsfähige Modellierungstechniken, die eine minimale Abstimmung erfordern, um die Nichtlinearität in den Krankenhausprozessen effektiv zu behandeln. Vor kurzem wurde eine HF-Prognose verwendet, um die Gesamtentleerung eines Patienten aus einer 36-Bett-Einheit in einem städtischen Krankenhaus 24 vorherzusagen. Diese Studie verwendete neben 4 demographischen und 2 zeitlichen Vorhersagen drei klinische Prädiktoren für Patienten: (1) Anlass zur Besichtigung: von einem Arzt identifiziert und unter Verwendung der Internationalen Klassifikation der Krankheiten: Version 9 (ICD-9) Diagnosecodes 51, (2 ) Beobachtungsstatus: Patienten zugeordnet für die Überwachung Zweck, und (3) bis zur Entlastung Ort. Die Gesamtzahl der Einleitungen wurde aus der Gesamtheit der individuellen Patientenaufenthalte geschätzt. Das Fehlen von Echtzeit-klinischen Informationen in unseren Daten macht die Berechnung der Patienten Länge des Aufenthalts unmöglich. Stattdessen greifen wir auf die Modellierung der Entladungen am nächsten Tag zurück, indem wir vorherige Entladungsmuster beobachten und die demographischen und fliessenden Eigenschaften in der Station untersuchen. Unsere Studie verwendet retrospektive Daten gesammelt aus einer Erholungsstation in Barwon Health, einem großen öffentlichen Gesundheits-Anbieter in Victoria, Australien mit etwa 350.000 Einwohner. Ethik Genehmigung wurde von der Klinik und Forschung Ethik-Ausschuss bei Barwon Health (Nummer 12/83) und Deakin University. Die Gesamtzahl der verfügbaren Betten hängt von der Anzahl der Mitarbeiter ab, die der Station zugeordnet sind. Im Durchschnitt hatte die Station 36 Betten, aber schwankte zwischen 20 und 80 Betten mit unterschiedlichem Patientenfluss. Die Ärzte in der Gemeinde hatten keine Lehrverantwortung. Tabellen in der Krankenhaus-Datenbank verwendet in unserer Datenerhebung. Ein IQR, interquartile Bereich. Die Daten für unsere Studie kamen aus drei Tabellen in der Krankenhaus-Datenbank, wie in Tabelle 1 gezeigt. Zusätzliche Echtzeit-Daten, die Patientenkondition oder Krankheitsprogression beschrieben wurden nicht verfügbar, da Diagnose-Codierung mit medizinischen Codes nach Entladung erfolgt. Der Patientendurchfluss wurde für einen Zeitraum von 4 Jahren gesammelt. Unter Verwendung der Eintritts - und Entladezeiten für jeden Patienten berechneten wir die täglichen Entladungen aus unserer Station in der Studie. Insgesamt wurden 12.141 Patienten mit einer medianen Entlassung von 8 Patienten pro Tag vom 1. Januar 2010 bis zum 31. Dezember 2014 in die Station aufgenommen. Tabelle 2 fasst die Hauptmerkmale unserer Daten zusammen. Eine Zeitreihenzerlegung unserer Daten zeigte starke saisonale Schwankungen und eine hohe Nichtlinearität bei den täglichen Entladungsmustern. Es gab eine definierte wöchentliche Musterentladung aus der Station erreichte am Freitag und sank deutlich am Wochenende (siehe Abbildung 2). Diese Saisonalität steht im Einklang mit früheren Studien 9. 32. Die Aggregation der täglichen Einleitungen in eine monatliche Zeitreihe ergab definierte monatliche Muster (siehe Abbildung 3). Die Daten zeigten keinen signifikanten Trend. Zusätzlich zeigte sich, daß das tägliche Entladungsmuster höchst nichtlinear war. Unsere Prognosemethoden müssen in der Lage sein, diese Datendynamik zu bewältigen. (1) ARIMA, (2) autoregressive Bewegung, (3) Prognose unter Verwendung von kNN-Entladungsmustern, (4) RF und (5) SVR. Autoregressive Methoden modellieren die zeitliche lineare Korrelation zwischen benachbarten Datenpunkten in der Zeitreihe. Nächste Muster heben diese Linearitätsannahme an und nehmen an, dass kurze Perioden wiederholte Muster bilden. Schließlich suchen RF und SVR eine nichtlineare funktionale Beziehung zwischen den zukünftigen Ergebnissen und Deskriptoren in der Vergangenheit. Mittlere Aufnahmen und Entladungen pro Tag aus der Station. Zeitreihen der monatlichen Einleitungen aus der Station. Vorhersageverfahren Autoregressive Integrierte Moving Average Zeitreihen-Prognosemethoden können das Muster vergangener Entladungen analysieren und ein Prognosemodell aus zugrunde liegenden zeitlichen Beziehungen formulieren 52. Solche Modelle können dann verwendet werden, um die Entladezeitreihen in die Zukunft zu extrapolieren. ARIMA-Modelle sind weit verbreitet in der Zeitreihen-Prognose eingesetzt. Ihre Popularität lässt sich auf die Einfachheit der Modellformulierung und Interpretierbarkeit zurückführen. ARIMA-Modelle suchen nach linearen Beziehungen in der Entladesequenz, um lokale Trends und Saisonalität zu erkennen. Allerdings können solche Beziehungen im Laufe der Zeit ändern. ARIMA-Modelle können diese Änderungen erfassen und entsprechend aktualisieren. Dies geschieht durch Kombination von autoregressiven (AR) und gleitenden Durchschnittsmodellen (MA). Autoregressive Modelle formulieren Entladung zum Zeitpunkt t y t. Als lineare Kombination früherer Entladungen. Auf der anderen Seite charakterisieren sich gleitende Durchschnittsmodelle als lineare Kombination früherer Prognosefehler. Für das ARIMA-Modell wird die Entladezeitreihe durch Differenzierung stationär hergestellt. Lassen Sie autoregressive Parameter, bewegte Durchschnittsparameter sein und die Prognosefehler sein. Ein solches ARIMA-Modell kann wie in Fig. 4 definiert definiert werden, wobei eine Konstante ist. Durch Variation von p und q. Können wir verschiedene Modelle zu den Daten passen. Box-Jenkins-Methode 54 liefert einen klar definierten Ansatz zur Modellidentifikation und Parameterschätzung. In unserer Arbeit wählen wir die Auto. arima () - Funktion aus dem Prognosepaket 55 in R 56, um automatisch das beste Modell auszuwählen. Klassisches ARIMA-Modell. Autoregressive Moving Average mit exogenen Variablen (ARMAX) Dynamische Regression Techniken ermöglichen das Hinzufügen zusätzlicher erklärender Variablen, wie Tag der Woche und Anzahl der aktuellen Patienten in der Station, um autoregressive Modelle. Das autoregressive Bewegen ARMAX modifiziert das ARIMA-Modell, indem es die externe Variable x t zur Zeit t einschließt. Wie in Abbildung 5 gezeigt. Wir modellieren x t mit Funktionen aus der Krankenhaus-Datenbank. ARIMA-Modell mit exogener Variable xt. Erkennen von Entladungsmustern unter Verwendung von k-Nearest Neighbours Der kNN-Algorithmus nutzt die Lokalität im Datenraum. Wir gehen davon aus, dass die Entladung am nächsten Tag von den Einleitungen in den vergangenen Tagen abhängt. Mit kNN Prinzipien können wir eine Regression zur Prognose der Entladung am nächsten Tag durchführen. Es sei y d die Anzahl der Entladungen am aktuellen Tag: d. Zur Prognose des nächsten Tages Entladung: y d1. Betrachten wir die Entladungen in den letzten p Tagen als: entladen y d-p. Y d. Unter Verwendung der euklidischen Entfernungsmetrik finden wir k engste Übereinstimmungen zu entladen aus den Trainingsdaten. Schätzung der Entladung am nächsten Tag: d1. Wird als Maß für die Entladungen am nächsten Tag der k angepaßten Muster berechnet: (y Übereinstimmung) i i (1: k). Abbildung 6 zeigt ein Beispiel einer kNN-basierten Prognose. Hier, Entladung in rot y d-7. Y d Ergebnisse in 3 Übereinstimmungen aus den Trainingsdaten. Zur Vereinfachung haben wir die abgestimmten Muster neben der Entladung aufgetragen, obwohl sie in der Vergangenheit aufgetreten waren. Die nächste Prognose d1 wird ein Maß für (y match) i. Wobei (y Übereinstimmung) i i (1: 3) der (d 1) - te Term von jedem der angepassten Muster 57 ist. Eine beliebte Methode zur Berechnung von d1 ist die Minimierung des gewichteten quadratischen Verlustes (Abbildung 7), wobei w i Werte zwischen 0 und 1 mit k i1 w i 1 annimmt. Allerdings gibt es zwei Hauptnachteile, die es weniger wünschenswert für unsere Daten. Erstens ist der quadratische Verlust empfindlich gegenüber Ausreißern. Zweitens wird eine robuste Abschätzung von i schwierig. Unsere Daten enthalten erhebliches Rauschen, was zu großen Schwankungen bei den Prognosen des nächsten Tages der k angepassten Muster führt. Wir veranschaulichen dieses Problem in Abbildung 8. Für einen gegebenen Tag gibt die kNN-Regression 125 abgestimmte Muster zurück. Die Prognosen des nächsten Tages aus jedem k125-Muster zeigten signifikante Unterschiede. In einem solchen Szenario schätzen wir t1 ein, indem wir den robusten Verlust minimieren (Abbildung 9). K-nächsten Nachbarprognosebeispiel mit k3 und P 7. Berechnung von d1 durch Minimierung des gewichteten quadratischen Verlustes. Scatterplot der nächsten Prognose mit k-nächsten Nachbarn für einen bestimmten Tag. Die X-Achse repräsentiert jedes abgestimmte Nachbarmuster. Die Y-Achse stellt die nächste Prognose des abgestimmten Musters dar. Abschätzen von t1 durch Minimierung des robusten Verlustes. Bei diesem Ansatz nehmen wir die Entladung am nächsten Tag als Funktion des historischen Deskriptorvektors an: x. Wir verwenden jeden Tag in der Vergangenheit als Datenpunkt, wo die Entladung am nächsten Tag das Ergebnis ist, und die kurze Zeit vor der Entladung werden verwendet, um Deskriptoren abzuleiten. Die in diesem Papier verwendete HF ist derzeit eine der leistungsfähigsten Methoden, um die Funktion y f (x) 58 zu modellieren. Ein RF ist ein Ensemble von Regressionsbäumen. Ein Regressionsbaum approximiert eine Funktion f (x), indem der Deskriptorraum rekursiv partitioniert wird. In jedem Bereich Rp. Wird die Funktion angenähert, wie in Fig. 10 gezeigt ist, wobei 124 Rp 124 die Anzahl der Datenpunkte ist, die in den Bereich Rp fallen. Die RF erzeugt eine vielfältige Sammlung von zufälligen Bäumen durch Variieren der Teilmengen von Datenpunkten, um die Bäume und die Teilmengen der Deskriptoren bei jedem Schritt der Raumpartitionierung zu schulen. Das Ergebnis der RF ist ein Durchschnitt aller Bäume im Ensemble. Da der Baumwachstum ein hochadaptiver Prozess ist, kann er jede nichtlineare Funktion in einem beliebigen Grad der Annäherung entdecken, wenn er genügend Trainingsdaten erhält. Allerdings macht die Flexibilität Regression Baum anfällig für Overfitting, das heißt, die Unfähigkeit zu verallgemeinern, um unsichtbare Daten. Dies erfordert das Steuern des Wachstums, indem die Anzahl der Deskriptoren pro Partitionierungsschritt und die minimale Größe des Bereichs R p eingestellt werden. Die Abstimmung führt zu großen Vorteilen: Reduzieren Sie die Variationen pro Baum. Die Zufälligkeit hilft gegen Überbeulen zu bekämpfen. Es gibt keine Annahme über die Verteilung der Daten oder die Form der Funktion (x). Es gibt kontrollierbare Qualität der Sitze. Random Wälder Formulierung der nächsten Tage Entladungen (y) aus historischen Deskriptoren (x). Stützvektorregression Der im RF-Modell verwendete historische Deskriptorvektor x kann auch verwendet werden, um ein SVR-Modell 60 zu erstellen. Angesichts der Menge der Daten 1. Y 1), (x 2 y 2), wobei x i R m den Eingabebeschreiber für die entsprechende nächste Tagesprognose y i R 1 bezeichnet. Eine Regressionsfunktion nimmt die Form an: i f (x i). SVR arbeitet durch (1) Zuordnen des Eingangsraums von x i in einen höherdimensionalen Raum unter Verwendung einer nichtlinearen Abbildungsfunktion:. (2) Durchführen einer linearen Regression in diesem höherdimensionalen Raum. Im allgemeinen können wir die Regressionsfunktion als: f (x) (w (x)) b ausdrücken, wobei w R m die Gewichte und b R 1 der Biasterm ist. Vapnik 60 schlug die & ndash; unempfindliche Verlustfunktion für SVR vor, die die Form annimmt, wie in Gleichung 1 in Fig. 11 gezeigt. Die Verlustfunktion L toleriert Fehler, die kleiner als die Schwelle sind, was zu einem Rohr um die wahren Entladewerte führt. Modellparameter können durch Minimieren der Kostenfunktion, wie in Gleichung 2 in Fig. 11 gezeigt, abgeschätzt werden, wobei C eine Konstante ist, die einen Fehler beim Trainieren von Daten benachteiligt. In unserer Arbeit verwenden wir einen RBF-Kernel 61, um unsere Eingabedaten in höher dimensionierte Merkmalsräume abzubilden. RBF-Kerne sind eine gute Wahl, um unser nichtlineares Entladungsmuster anzupassen, weil es möglich ist, die Trainingsdaten auf einen unendlich dimensionalen Raum und eine einfache Implementierung abzubilden. Die Lösung der doppelten Formulierung der SVR-Kostenfunktion ist in 60 dargestellt. Das SVR-Lernmodell. Wir haben alle Daten aus den Datenbanktabellen (wie in Tabelle 1) für unsere Station entnommen. Der Patientendurchfluss wurde für einen Zeitraum von 5 Jahren analysiert. Wir haben unsere Daten als Matrix formatiert, wobei jede Zeile einem Tag entspricht und jede Spalte ein Merkmal (Deskriptor) darstellt. Es wurden zwei Hauptgruppen von Merkmalen identifiziert: (1) Stationsebene und (2) Patientenebene. Unser Merkmalserstellungsprozess führte zu 20 Stationsebenen - und 88 Patientenebenen-Prädiktoren, wie in Tabelle 3 aufgelistet. Der Ward-Level-Deskriptor: Trend der Entladung am nächsten Tag wurde durch Anpassen einer lokal gewichteten polynomischen Regression 63 aus früheren Entladungen berechnet. Ein Beispiel für diese Regressionsanpassung ist in gezeigt. Merkmale aus Stationsdaten in der Krankenhausdatenbank. A a Der Zufallswald und die Unterstützungsvektorregressionsmodelle verwendeten den vollen Satz von Merkmalen. Die ARMAX (autoregressive gleitende Durchschnitt mit exogenen Variablen) Modell verwendet Saisonalität und Belegung. Alle anderen Modelle wurden aus täglichen Entladungen abgeleitet. Ein Beispiel für den Entladungstrend, wie er sich aus einem lokal gewichteten polynomischen Regressionsmodell ergibt. Unsere Trainings - und Testsets sind zeitlich getrennt. Diese Strategie spiegelt die gängige Praxis der Ausbildung des Modells mit Daten in der Vergangenheit und Anwendung auf zukünftige Daten. Die Trainingsdaten betrugen 1460 Tage vom 1. Januar 2010 bis zum 31. Dezember 2013. Die Testdaten bestanden aus 365 Tagen im Jahr 2014. Die Charakteristika der Trainings - und Validierungskohorte sind in Tabelle 4 dargestellt. Die meisten Aufenthalte waren kurz, rund 65 Jahre Der Patienten für weniger als 5 Tage. Merkmale von Trainings - und Validierungskohorten. Die gegenwärtige Krankenhausstrategie beinhaltet die Verwendung von Erfahrungen aus der Vergangenheit, um verfügbare Betten vorzusehen. Um die Effizienz unserer vorgeschlagenen Ansätze zu vergleichen, modellieren wir die folgenden Basislinien: (1) Naive Prognose mit dem letzten Tag der Entladung: Da unsere Daten wöchentliche Definitionen haben, modellieren wir die Entladung am nächsten Tag als Anzahl der Entladungen (2) naive Prognose mit Mittelwerten der letzten Woche: Um die Variation und den Lärm in wöchentlichen Entladungen besser zu modellieren, modellieren wir die Entladung am nächsten Tag als Mittelwert der Einleitungen während der vergangenen 7 Tage und (3) Naive Prognose mit Mittelwert der letzten 3-Wochen-Entladungen: Um die monatlichen und wöchentlichen Veränderungen in unseren Daten zu berücksichtigen, verwenden wir Mittel der täglichen Entladungen in den letzten 3 Wochen, um die Entladung am nächsten Tag zu modellieren. Messung der Prognoseleistung Wir vergleichen die Prognosen für die nächsten Tage unserer vorgeschlagenen Ansätze mit den Baseline-Methoden auf den Maßnahmen des mittleren Prognosefehlers, des mittleren Absolutfehlers, des symmetrischen mittleren absoluten Prozentfehlers und des quadratischen Mittelwertes 64. 65. Wenn y t die gemessene Entladung zum Zeitpunkt t ist. F t die prognostizierte Dishcharge zum Zeitpunkt t ist. Können wir Folgendes definieren: Mittelwertprognosefehler (MFE): wird verwendet, um Modellvorspannung zu messen, und wird als MFE-Mittelwert (yt - ft) berechnet. Für ein ideales Modell, MFE 0. Wenn MFE 62 0, tendiert das Modell zu einer Unterprognose. Wenn MFE 60 0, tendiert das Modell dazu, eine Vorhersage durchzuführen. Mittlerer absoluter Fehler (MAE): Der Mittelwert der unsigned Fehler: MAE mean124 y t - f t 124. MAE gibt die absolute Größe der Fehler an. Root mean square error (RMSE) ist ein Maß für die Abweichung von Prognosefehlern. Sie wird berechnet als: RMSE-Mittelwert (yt - ft) 2 Aufgrund der Quadrierung und der Mittelung neigen große Fehler dazu, mehr Einfluss auf RMSE zu haben. Im Gegensatz dazu werden einzelne Fehler gleichmäßig in MAE gewichtet. Es gab viel Diskussion über die Wahl von MAE oder RMSE als Indikator für die Modellleistung 66. 67. Symmetrischer mittlerer absoluter Prozentsatzfehler (sMAPE): Er ist skalenunabhängig und kann daher verwendet werden, um die Prognoseleistung zwischen verschiedenen Datenreihen zu vergleichen. Es überwindet 2 Nachteile des mittleren absoluten prozentualen Fehlers (MAPE), nämlich (1) die Unfähigkeit, Fehler zu berechnen, wenn die wahre Entladung Null ist, und (2) schwerere Strafen für positive Fehler als negative Fehler. SMAPE ist eine robustere Schätzung des Prognosefehlers und wird berechnet als: sMAPE mean (200124 y t - f t 124 / y t f t). Jedoch reicht sMAPE von 200 bis 200 und gibt ihm eine zweideutige Interpretation 68. Ergebnisse Modell Leistung In diesem Abschnitt beschreiben wir die Ergebnisse des Vergleichs unserer verschiedenen Prognosemethoden. Die Modellparameter für kNN-Prognose-, RF - und SVR-Modelle wurden abgestimmt, um Prognosefehler zu minimieren. Für die kNN-Regression ist der optimale Wert der Musterlänge: d und die Anzahl der nächsten Nachbarn: k. Wurde durch Analysieren der Prognose RMSE für die Werte d (1100) und k (5,1000) erhalten. Eine minimale RMSE von 3,77 wurde bei d 70 und k 125 erhalten. Die SVR-Parameter C (Strafkosten) und (Betrag des erlaubten Fehlers) wurden bestimmt, indem der beste Wert aus einer Gittersuche ausgewählt wurde, der das Modell RMSE minimierte. In ähnlicher Weise wurde die optimale Anzahl von Variablen beim Aufbauen jedes Knotens der HF ausgewählt, indem ihre Wirkung auf die Minimierung der Out-of-Bag-Schätzung untersucht wurde. Wir verglichen die naiven Prognosemethoden mit unseren vorgeschlagenen 5 Modellen mit MFE, MAE, RMSE und sMAPE. Die Ergebnisse sind in Tabelle 5 zusammengefasst, wohingegen 13 die Verteilung der tatsächlichen Entladungen mit unterschiedlichen Modellvorhersagen vergleicht. Prognosegenauigkeit verschiedener Modelle. Ein ARIMA: autoregressiver integrierter gleitender Durchschnitt b ARMAX: autoregressiver gleitender Durchschnitt mit exogenen Variablen Die naiven Prognosen können nicht alle Variationen der Daten erfassen und im Vergleich zu anderen Modellen den maximalen Fehler ergeben. In den Modellen ARIMA und ARMAX werden die Unterschiede in der Saisonalität und dem Trend besser erfasst. Die Zeitreihen, die aus vergangenen 3-Monats-Einleitungen bestanden, wurden für die Erstellung der Tagesprognose verwendet. Das ARMAX-Modell umfasste auch den Wochentag und die Stationsbelegung als exogene Variablen, was zu einer besseren Prognoseleistung über ARIMA führte. Interessanterweise war kNN erfolgreicher als ARIMA und ARMAX bei der Erfassung der Schwankungen in der Entladung, was etwa 3 Verbesserung in MAE, verglichen mit ARMAX. Jedoch neigt das kNN-Modell zu einer Prognose (MFE 1,09), möglicherweise aufgrund der Rückgriff auf Medianwerte für die Prognose. Im Vergleich dazu zeigten RF - und SVR-Prognosemodelle bessere Ergebnisse. Dies kann erwartet werden, weil sie von allen 108 Funktionen abgeleitet sind. Allerdings zeigte RF eine relative Verbesserung von 3,3 in MAE über SVR-Modell (siehe Tabelle 5). Bei der Betrachtung der Prognosefehler für jeden Wochentag bestätigte das HF-Modell eine bessere Leistung, wie in Abbildung 14 gezeigt. Der Prozess des SVR mit dem RBF-Kernel ordnet alle Daten in einen höherdimensionalen Raum. Daher können die ursprünglichen Merkmale, die für die Prognose verantwortlich sind, nicht wiederhergestellt werden, und das Modell fungiert als eine Black Box. Alternativ liefert der HF-Algorithmus eine Schätzung der Wichtigkeit für jede Variable für die Regression zurück. Die Untersuchung der Merkmale mit hoher Bedeutung könnte uns ein besseres Verständnis der Entlastung Prozess. Vergleich der tatsächlichen und prognostizierten Entladungen von Station für jeden Tag im Jahr 2014. Prognosefehler bei der Vorhersage für jeden Tag der Woche im Jahr 2014. Bedeutung der Bedeutung in der Random-Forest-Modell Die Merkmale in der zufälligen Prognose-Modell wurden auf die Wichtigkeit Scores eingestuft. Die 10 wichtigsten Merkmale werden wie folgt beschrieben. Der Tag der Woche für die Prognose erwies sich als das wichtigste Merkmal. Weitere Merkmale waren die Anzahl der Patienten in der Station während des Tages der Prognose, der Trend der Entladungen gemessen mit lokal gewichteten polynomialen Regression, Anzahl der Entladungen in der Vergangenheit 14. Tag, Anzahl der Entladungen im vergangenen 21. Tag, Anzahl der Patienten, die nur eine besucht hatte Vorherige Station, Anzahl der Männer in der Station, Anzahl der Patienten, die als: öffentlicher Standard und aktueller Monat der Prognose gekennzeichnet sind. Diskussion Hauptergebnisse Verbesserter Patientendurchsatz und effizientes Bettenmanagement sind der Schlüssel für den zunehmenden Eskalationsdruck und den wirtschaftlichen Druck in Krankenhäusern. Die Vorhersage der Entladungen am nächsten Tag ist entscheidend, wurde aber selten für allgemeine Stationen untersucht. Im Vergleich zur Notfall - und Akutversorgung ist die Vorhersage der Entladungen am nächsten Tag aus einer allgemeinen Station wegen der Nichtverfügbarkeit von klinischen Informationen in Echtzeit schwieriger. Das tägliche Entladungsmuster ist saisonal und unregelmäßig. Dies könnte auf das Management von Krankenhausprozessen zurückzuführen sein, wie z. B. stationäre Runden, stationäre Tests und Medikamente. Die nichtlineare Natur dieser Prozesse trägt auch bei Patienten mit ähnlicher Diagnose zu einer unberechenbaren Aufenthaltsdauer bei. Typischerweise verwendet ein Bodenverwalter für offene Stationen vorherige Erfahrung, um die Anzahl der verfügbaren Betten vorauszusehen. In dieser Arbeit versuchen wir, die Gesamtzahl der Entladungen am nächsten Tag anhand von 5 Methoden zu modellieren. Wir haben die Prognoseperformance mit MAE, RMSE und sMAPE verglichen. Unsere Prädiktoren werden aus allgemein verfügbaren Daten in der Krankenhausdatenbank extrahiert. Obwohl das kNN-Verfahren einfach zu implementieren ist und keine spezielle Expertise erfordert, sind Softwarepakete für andere Modelle für alle gängigen Plattformen verfügbar. Diese Modelle können von den Analytikern in der Krankenhaus-IT-Abteilung implementiert werden und können problemlos in bestehende Gesundheitsinformationssysteme integriert werden. In unseren Experimenten, Prognose basierend auf HF-Modell übertraf alle anderen Modelle. Die Prognosefehlerrate beträgt 31,9 (gemessen durch sMAPE), die sich im selben Ballpark befindet wie die jüngste Arbeit von 24, obwohl wir keine klinischen Informationen in Echtzeit hatten. Ein HF-Modell bildet minimale Annahmen über die zugrunde liegenden Daten. Daher ist es die flexibelste, und gleichzeitig kommt mit großer Überbeanspruchung Kontrolle. In ähnlicher Weise zeigte auch die SVR eine überlegene Leistung, verglichen mit den autoregressiven und kNN-Modellen. Der RBF-Kernel ordnet die Funktionen während des Regressionsprozesses in einen höher dimensionierten Raum ein. Daher geht die physikalische Bedeutung der Merkmale verloren, was es schwierig macht, das Modell zu interpretieren. Schließlich sind RFs und SVR in der Lage, mehr Funktionen zu behandeln. Diese zusätzlichen Informationen in Form von Patientendemographie und früheren Zulassungsstatistiken trugen zur Verbesserung der prädiktiven Leistung bei, verglichen mit anderen Modellen. Die kNN-Regression verlief ebenfalls gut, da sie nur die Lokalität in den Daten annimmt. Aber es ist nicht adaptiv und damit weniger flexibel bei der Erfassung komplexer Muster. Die kNN-Regression nimmt ähnliche Muster in früheren Entladungen an, die zu einer ähnlichen künftigen Entladung extrapoliert werden, was für tägliche Entladungen aus der Station nicht zutrifft. Das ARMAX-Modell übertraf die traditionellen ARIMA-Prognosen, da es saisonale Informationen als externe Regressoren enthielt. Wie erwartet, hat eine naive Prognose der Verwendung der Median der vergangenen Entladungen am schlimmsten. Wir haben ein wöchentliches Muster (Abbildung 2) und ein monatliches Muster (Abbildung 3) in Entladungen aus der Station bemerkt. Andere Studien haben auch bestätigt, dass Entladungen Peak am Freitag und Tropfen am Wochenende 5. 9. 10. This weekend effect could be attributed to shortages in staffing or reduced availability of services like sophisticated tests and procedures 10. 69 . This suggests discharges are heavily influenced by administrative reasons and staffing. Feature importance score from an RF model helps in identifying the features contributing to the regression process. The day of forecast proved to be one of the most important features in the RF model. Other important features included trend based on nonlinear regression of past weekdays, number of discharges in the past days, ward occupancy in previous day, number of males in the ward, and number of general patients in ward. When looking at for each day of the week, the RF and SVR model consistently outperformed other models. Sundays and Thursdays proved to be the easiest to predict for all models ( Figure 14 ). This can be expected since these days had the least variation in our data. Fridays proved to be the most difficult to forecast. Retraining the RF model by omitting day of the week increased the forecast error by 1.39 (as measured by sMAPE). Patient length of stay is inherently variable, partly due to the complex nonlinear structure of medical care 8 . The number of discharges from a ward is strongly related to the length of stay of the current patients in the ward. Hence, the variability in ward-level discharges is compounded by the variability in individual patient length of stay. In our study, the daily discharge pattern from ward shows great variation for each day of week. Apart from patient level details, we believe that a knowledge of hospital policies is also required to capture such nonlinearity. In our study, we were able to validate that the weekend patterns affect discharges from a general ward. The RF model was able to give a reasonable estimate of number of next-day discharges from the ward. Clinical staff can use this information as an aid to decisions regarding staffing and resource utilization. This foresight can also aid discharge planning such as communication and patient transfer between wards or between hospitals. An estimate of number of free beds can also help reduce emergency department (ED) boarding time and improve patient flow 12. 23 . ED boarding time is the time spent by a patient in emergency care when a bed is not available in the ward. ED boarding time severely reduces the hospital efficiency. High bed occupancy in ward directly contributes to ED overcrowding 70 . In our data, 42.81 of patients were admitted from the emergency care. An estimate of daily forecasts can be helpful in deciding the number of beds in wards to ease patient flow. We acknowledge the following limitations in our study. First, we focused only on a single ward. However, it was a ward with different patient types, and hence the results could be an indication for all general wards. Second, we did not use patient clinical data to model discharges. This was because clinical diagnosis data were available only for 42.81 of patients who came from emergency. In a general ward, clinical coding is not done in real time. However, we believe that incorporating clinical information to model patient length of stay could improve forecasting performance. Third, we did not compare our forecasts with clinicians/managing nurses. Finally, our study is retrospective. However, we have selected prediction period separated from development period. This has eliminated possible leakage and optimism. This study set out to model patient outflow from an open ward with no real-time clinical information. We have demonstrated that using patient-level and ward-level features in modelling forecasts outperforms the traditional autoregressive methods. Our proposed models are built from commonly available data and hence could be easily extended to other wards. By supplementing patient-level clinical information when available, we believe that the forecasting accuracy of our models can be further improved. Autoregressive Moving Average Im working on two-dimensional AR modelling and using the from Matlab. In matlab there is a commend LPC which can compute the LP coefficients. How can I integrate to two dimension for image The matlab code for one dimension signal is alpc(signal, order) estsignal filter(0 - a(2:end),1,signal) error signal-estsignal There is an implementation at MATLAB Exchange provided by Simona Maggio 2D AR and 2D ARMA parameters estimation from the reference: Two-dimensional ARMA modelling for breast cancer detection and classification by N. Bouaynaya, J. Zielinski and D. Shonfeld in IEEE International Conference On Signal Processing And Communications, Bangalore, India, July 2010 Consider this situation. 60 drug treatment sites. Dependent variable of attendees at each drug treatment site on Drug A. Propensity matched (for individual level and site level characteristics) control group created using data. Dependent variable collected every quarter for 2 years prior to intervention introduced at 60 sites and for 4 years after intervention. Want to know whether intervention has an impact on taking Drug A. Is ARIMA the way to go here Yes, I also think prediction methods, e. g. ARIMA are not suitable in this case statistical methods, e. g. statistical tests for group comparison, would be more appropriate. I have modeled daily data using an ARMAX model with seasonal ARMA components. My dependent variable is the amount of web visits to a web site due to daily TV commercial airings. MY variables are stationarized and controlled for seasonality so that my residuals are un-autocorrelated and insignificant white noise. I am easily able to see the affects that my exogenous (advertising) variables have on immediate web traffic, but I would like to incorporate a growth factor. That is, the advertising variables should have an immediate impact which continues on for some indefinite time before dying out. The goal is to be able to go back and look at how Web traffic would look if advertising were to cease for x amount of time. When I recursively forecast using my models parameters, in the middle of the data set, it follows the observed values for a while but ultimately breaks off and starts to isolate around a mean value well below the observed data. I believe it is because the model is not correctly compounding the continuous affects of the advertising activity thus, past advertising isnt influencing future web traffic. My questions would be, how do I model my data by compounding the effects of advertising into long-term effects How would I essentially use forecast to predict what web visits would be if advertising was stopped at any period within my data set Split the data into two parts and then check. That is before the break and after the break How can I simulate an ARMA process in Matlabltspan idmcemarker data-mce-typebookmarkgtlt/spangtltspan idcaretgtlt/spangtHow can I simulate an ARMA process in Matlabltspan idmcemarker data-mce-typebookmarkgtlt/spangt How can I simulate an ARMA process in Matlab ARMA (Autoregressive Moving Average Model) MATLAB amp Simulink I advice you to see these documents. You will find what you need. I hope that I helped you, let us know if you have another questions or you need more details. With best regardsAutoregressive moving-average error processes (ARMA errors) and other models that involve lags of error terms can be estimated by using FIT statements and simulated or forecast by using SOLVE statements. ARMA-Modelle für den Fehlerprozess werden oft für Modelle mit autokorrelierten Residuen verwendet. Mit dem AR-Makro können Modelle mit autoregressiven Fehlerprozessen spezifiziert werden. Mit dem MA-Makro können Modelle mit gleitenden Durchschnittsfehlern angegeben werden. Autoregressive Fehler Ein Modell mit autoregressiven Fehler erster Ordnung, AR (1), hat die Form, während ein AR (2) Fehlerprozess die Form hat und so weiter für Prozesse höherer Ordnung. Beachten Sie, dass die s unabhängig und identisch verteilt sind und einen Erwartungswert von 0 haben. Ein Beispiel für ein Modell mit einer AR (2) - Komponente ist usw. für Prozesse höherer Ordnung. Zum Beispiel können Sie ein einfaches lineares Regressionsmodell mit MA (2) gleitenden Durchschnittsfehlern schreiben, da MA1 und MA2 die gleitenden Mittelwerte sind. Beachten Sie, dass RESID. Y automatisch durch PROC MODEL definiert wird. Die ZLAG-Funktion muss für MA-Modelle verwendet werden, um die Rekursion der Verzögerungen zu verkürzen. Dadurch wird sichergestellt, dass die verzögerten Fehler in der Lag-Priming-Phase bei Null beginnen und fehlende Werte nicht ausbreiten, wenn Lag-Priming-Periodenvariablen fehlen und stellt sicher, dass die zukünftigen Fehler null sind, anstatt während Simulation oder Prognose fehlen. Einzelheiten zu den Verzögerungsfunktionen finden Sie im Abschnitt Lag Logic. Dieses mit dem MA-Makro geschriebene Modell lautet wie folgt: Allgemeine Form für ARMA-Modelle Das allgemeine ARMA-Verfahren (p, q) hat die folgende Form Ein ARMA-Modell (p, q) kann wie folgt angegeben werden: wobei AR i und MA j repräsentieren Die autoregressiven und gleitenden Durchschnittsparameter für die verschiedenen Verzögerungen. Sie können beliebige Namen für diese Variablen verwenden, und es gibt viele äquivalente Möglichkeiten, die die Spezifikation geschrieben werden könnte. Vektor-ARMA-Prozesse können auch mit PROC MODEL geschätzt werden. Beispielsweise kann ein zweidimensionaler AR (1) - Prozess für die Fehler der beiden endogenen Variablen Y1 und Y2 wie folgt spezifiziert werden: Konvergenzprobleme mit ARMA-Modellen ARMA-Modelle können schwer abzuschätzen sein. Wenn die Parameterschätzwerte nicht innerhalb des geeigneten Bereichs liegen, wachsen exponentiell gleitende Modellrestriktionen. Die berechneten Residuen für spätere Beobachtungen können sehr groß sein oder überlaufen. Dies kann entweder geschehen, weil falsche Startwerte verwendet wurden oder weil sich die Iterationen von vernünftigen Werten entfernt haben. Bei der Auswahl der Anfangswerte für ARMA-Parameter sollte Sorgfalt angewendet werden. Startwerte von 0,001 für ARMA-Parameter arbeiten normalerweise, wenn das Modell die Daten gut passt und das Problem gut konditioniert ist. Man beachte, dass ein MA-Modell oft durch ein höherwertiges AR-Modell angenähert werden kann und umgekehrt. Dies kann zu einer hohen Kollinearität bei gemischten ARMA-Modellen führen, was wiederum zu ernsthaften Konditionierungen in den Berechnungen und der Instabilität der Parameterschätzungen führen kann. Wenn Sie Konvergenzprobleme haben, während Sie ein Modell mit ARMA-Fehlerprozessen schätzen, versuchen Sie in Schritten abzuschätzen. Zuerst verwenden Sie eine FIT-Anweisung, um nur die Strukturparameter mit den auf Null gehaltenen ARMA-Parametern zu schätzen (oder zu vernünftigen vorherigen Schätzungen, falls verfügbar). Als nächstes verwenden Sie eine andere FIT-Anweisung, um die ARMA-Parameter nur unter Verwendung der strukturellen Parameterwerte aus dem ersten Lauf zu schätzen. Da die Werte der Strukturparameter wahrscheinlich nahe an ihren endgültigen Schätzwerten liegen, können die ARMA-Parameterschätzungen nun konvergieren. Verwenden Sie schließlich eine andere FIT-Anweisung, um simultane Schätzungen aller Parameter zu erzeugen. Da die Anfangswerte der Parameter nun sehr nahe an ihren endgültigen gemeinsamen Schätzungen liegen, sollten die Schätzungen schnell zusammenlaufen, wenn das Modell für die Daten geeignet ist. AR Anfangsbedingungen Die Anfangsverzögerungen der Fehlerterme von AR (p) - Modellen können auf unterschiedliche Weise modelliert werden. Die von SAS / ETS-Prozeduren unterstützten autoregressiven Fehlerstartmethoden sind die folgenden: bedingte kleinste Fehlerquadrate (ARIMA - und MODEL-Prozeduren) unbedingte kleinste Fehlerquadrate (AUTOREG, ARIMA und MODEL) maximale Wahrscheinlichkeit (AUTOREG, ARIMA und MODEL) Yule-Walker (Nur AUTOREG-Vorgehen) Hildreth-Lu, das die ersten p-Beobachtungen löscht (nur MODELL-Verfahren) Siehe Kapitel 8, Die AUTOREG-Prozedur, für eine Erklärung und Diskussion der Vorzüge verschiedener AR (p) - Startmethoden. Die CLS-, ULS-, ML - und HL-Initialisierungen können mit PROC MODEL durchgeführt werden. Für AR (1) Fehler können diese Initialisierungen wie in Tabelle 18.2 gezeigt erzeugt werden. Diese Verfahren sind in großen Proben äquivalent. Tabelle 18.2 Initialisierungen durchgeführt durch PROC MODELL: AR (1) ERRORS Die anfänglichen Verzögerungen der Fehlerausdrücke von MA (q) - Modellen können auch unterschiedlich modelliert werden. Die folgenden gleitenden durchschnittlichen Fehlerstartparadigmen werden von den ARIMA - und MODEL-Prozeduren unterstützt: unbedingte kleinste Fehlerquadrate bedingte kleinste Fehlerquadrate Die bedingte Methode der kleinsten Fehlerquadrate zur Schätzung der gleitenden durchschnittlichen Fehlerterme ist nicht optimal, da sie das Startproblem ignoriert. Dies verringert die Effizienz der Schätzungen, obwohl sie unverändert bleiben. Die anfänglichen verzögerten Residuen, die sich vor dem Start der Daten erstrecken, werden als 0 angenommen, ihr unbedingter Erwartungswert. Dies führt zu einer Differenz zwischen diesen Residuen und den verallgemeinerten Resten der kleinsten Quadrate für die gleitende durchschnittliche Kovarianz, die im Gegensatz zum autoregressiven Modell durch den Datensatz fortbesteht. Normalerweise konvergiert diese Differenz schnell auf 0, aber für fast nicht-invertierbare gleitende Durchschnittsprozesse ist die Konvergenz ziemlich langsam. Um dieses Problem zu minimieren, sollten Sie viele Daten haben, und die gleitenden Durchschnittsparameter-Schätzungen sollten gut innerhalb des invertiblen Bereichs liegen. Dieses Problem kann auf Kosten des Schreibens eines komplexeren Programms korrigiert werden. Unbedingte Kleinste-Quadrate-Schätzungen für das MA (1) - Prozeß können durch Spezifizieren des Modells wie folgt erzeugt werden: Gleitende Durchschnittsfehler können schwer abgeschätzt werden. Man sollte erwägen, eine AR (p) - Näherung für den gleitenden Durchschnitt zu verwenden. Ein gleitender Durchschnitt kann in der Regel durch einen autoregressiven Prozess gut approximiert werden, wenn die Daten nicht geglättet oder differenziert sind. Das AR-Makro Das SAS-Makro AR erzeugt Programmieranweisungen für PROC MODEL für autoregressive Modelle. Das AR-Makro ist Teil der SAS / ETS-Software, und es sind keine speziellen Optionen erforderlich, um das Makro zu verwenden. Das autoregressive Verfahren kann auf die strukturellen Gleichungsfehler oder auf die endogenen Reihen selbst angewendet werden. Das AR-Makro kann für folgende Arten von Autoregression verwendet werden: uneingeschränkte Vektorautoregression beschränkte Vektorautoregression Univariate Autoregression Um den Fehlerterm einer Gleichung als autoregressiven Prozess zu modellieren, verwenden Sie die folgende Anweisung nach der Gleichung: Angenommen, Y ist eine Linearen Funktion von X1, X2 und einem AR (2) Fehler. Sie würden dieses Modell wie folgt schreiben: Die Aufrufe zu AR müssen nach allen Gleichungen kommen, auf die sich der Prozess bezieht. Der vorhergehende Makroaufruf AR (y, 2) erzeugt die in der LIST-Ausgabe in Abbildung 18.58 gezeigten Anweisungen. Abbildung 18.58 LIST Optionsausgabe für ein AR (2) - Modell Die PRED-Präfixvariablen sind temporäre Programmvariablen, die verwendet werden, so dass die Verzögerungen der Residuen die korrekten Residuen sind und nicht die, die durch diese Gleichung neu definiert werden. Beachten Sie, dass dies den Aussagen entspricht, die explizit im Abschnitt Allgemeine Formulare für ARMA-Modelle beschrieben sind. Sie können die autoregressiven Parameter auch bei ausgewählten Verzögerungen auf Null setzen. Wenn Sie zum Beispiel autoregressive Parameter in den Lags 1, 12 und 13 wünschen, können Sie die folgenden Anweisungen verwenden: Diese Anweisungen erzeugen die in Abbildung 18.59 dargestellte Ausgabe. Abbildung 18.59 LIST-Option Ausgang für ein AR-Modell mit Lags bei 1, 12 und 13 Die MODEL-Prozedurauflistung der kompilierten Programmcode-Anweisung als Parsed PRED. yab x1 c x2 RESID. y PRED. y - ACTUAL. y ERROR. y PRED. Y - y OLDPRED. y PRED. y yl1 ZLAG1 (y - perdy) yl12 ZLAG12 (y - perdy) yl13 ZLAG13 (y - perdy) RESID. y PRED. y - ACTUAL. y ERROR. y PRED. y - y Es gibt Variationen der Methode der bedingten Kleinste-Quadrate, je nachdem, ob Beobachtungen am Anfang der Serie zum Aufwärmen des AR-Prozesses verwendet werden. Die AR-bedingte Methode der kleinsten Quadrate verwendet standardmäßig alle Beobachtungen und nimmt Nullen für die Anfangsverzögerungen autoregressiver Terme an. Wenn Sie die M-Option verwenden, können Sie anfordern, dass AR die unbedingte Methode der kleinsten Fehlerquadrate (ULS) oder Maximum-Likelihood (ML) anwendet. Zum Beispiel, Diskussionen dieser Methoden wird im Abschnitt AR Anfangsbedingungen zur Verfügung gestellt. Unter Verwendung der Option MCLS n können Sie anfordern, dass die ersten n Beobachtungen verwendet werden, um Schätzungen der anfänglichen autoregressiven Verzögerungen zu berechnen. In diesem Fall beginnt die Analyse mit der Beobachtung n 1. Beispielsweise können Sie mit dem AR-Makro ein autoregressives Modell an die endogene Variable anstelle des Fehlerterms über die Option TYPEV anwenden. Wenn Sie beispielsweise die fünf letzten Lags von Y der Gleichung im vorherigen Beispiel hinzufügen möchten, können Sie AR verwenden, um die Parameter und die Lags mit den folgenden Anweisungen zu generieren: Die obigen Anweisungen erzeugen die in Abbildung 18.60 dargestellte Ausgabe. Abbildung 18.60 LIST Option Ausgang für ein AR-Modell von Y Dieses Modell prognostiziert Y als lineare Kombination von X1, X2, einem Intercept und den Werten von Y in den letzten fünf Perioden. Unrestricted Vector Autoregression Um die Fehlerterme eines Gleichungssatzes als vektorautoregressiven Prozess zu modellieren, verwenden Sie die folgende Form des AR-Makros nach den Gleichungen: Der Prozessname-Wert ist ein beliebiger Name, den Sie für AR verwenden, um Namen für den autoregressiven Namen zu verwenden Werden. Mit dem AR-Makro können Sie verschiedene AR-Prozesse für verschiedene Sätze von Gleichungen modellieren, indem Sie für jeden Satz unterschiedliche Prozessnamen verwenden. Der Prozessname stellt sicher, dass die verwendeten Variablennamen eindeutig sind. Verwenden Sie für den Prozess einen kurzen Prozessname-Wert, wenn Parameter-Schätzwerte in einen Ausgabedatensatz geschrieben werden sollen. Das AR-Makro versucht, Parameternamen zu erstellen, die kleiner oder gleich acht Zeichen sind, aber dies ist durch die Länge des Prozessnamens begrenzt. Die als Präfix für die AR-Parameternamen verwendet wird. Der Variablenlistenwert ist die Liste der endogenen Variablen für die Gleichungen. Beispielsweise wird angenommen, dass Fehler für die Gleichungen Y1, Y2 und Y3 durch einen autoregressiven Prozess der zweiten Ordnung erzeugt werden. Sie können die folgenden Aussagen verwenden, die für Y1 und ähnlichen Code für Y2 und Y3 erzeugen: Für Vektorprozesse kann nur die Methode der bedingten kleinsten Quadrate (MCLS oder MCLS n) verwendet werden. Sie können auch das gleiche Formular mit Einschränkungen verwenden, dass die Koeffizientenmatrix bei ausgewählten Verzögerungen 0 ist. Beispielsweise wenden die folgenden Aussagen einen Vektorprozess der dritten Ordnung auf die Gleichungsfehler an, wobei alle Koeffizienten bei Verzögerung 2 auf 0 beschränkt sind und die Koeffizienten bei den Verzögerungen 1 und 3 uneingeschränkt sind: Sie können die drei Reihen Y1Y3 als vektorautoregressiven Prozess modellieren In den Variablen statt in den Fehlern, indem Sie die Option TYPEV verwenden. Wenn Sie Y1Y3 als Funktion von vergangenen Werten von Y1Y3 und einigen exogenen Variablen oder Konstanten modellieren möchten, können Sie mit AR die Anweisungen für die Lag-Terme erzeugen. Schreiben Sie eine Gleichung für jede Variable für den nichtautoregressiven Teil des Modells und rufen Sie dann AR mit der Option TYPEV auf. Zum Beispiel kann der nichtautoregressive Teil des Modells eine Funktion von exogenen Variablen sein, oder es können Abfangparameter sein. Wenn es keine exogenen Komponenten für das Vektorautoregressionsmodell gibt, die keine Abschnitte enthalten, dann weisen Sie jeder der Variablen Null zu. Es muss eine Zuordnung zu jeder der Variablen vorhanden sein, bevor AR aufgerufen wird. Dieses Beispiel modelliert den Vektor Y (Y1 Y2 Y3) als eine lineare Funktion nur seines Werts in den vorherigen zwei Perioden und einen Weißrauschenfehlervektor. Das Modell hat 18 (3 3 3 3) Parameter. Syntax des AR-Makros Es gibt zwei Fälle der Syntax des AR-Makros. Wenn Einschränkungen für einen Vektor-AR-Prozess nicht benötigt werden, hat die Syntax des AR-Makros die allgemeine Form, die ein Präfix für AR spezifiziert, das beim Konstruieren von Namen von Variablen zum Definieren des AR-Prozesses verwendet werden soll. Wenn der Endolist nicht angegeben wird, ist die endogene Liste standardmäßig der Name. Der der Name der Gleichung sein muss, auf die der AR-Fehlerprozess angewendet werden soll. Der Name darf nicht länger als 32 Zeichen sein. Ist die Reihenfolge des AR-Prozesses. Gibt die Liste der Gleichungen an, auf die der AR-Prozess angewendet werden soll. Wenn mehr als ein Name gegeben wird, wird ein unbeschränkter Vektorprozess mit den strukturellen Residuen aller Gleichungen erzeugt, die als Regressoren in jeder der Gleichungen enthalten sind. Wenn nicht angegeben, verwendet endolist standardmäßig den Namen. Gibt die Liste der Verzögerungen an, zu denen die AR-Terme hinzugefügt werden sollen. Die Koeffizienten der Terme, die nicht aufgelistet sind, werden auf 0 gesetzt. Alle aufgelisteten Lags müssen kleiner oder gleich nlag sein. Und es dürfen keine Duplikate vorhanden sein. Wenn nicht angegeben, wird die Verzögerungsliste standardmäßig auf alle Verzögerungen 1 bis nlag gesetzt. Gibt die zu implementierende Schätzmethode an. Gültige Werte von M sind CLS (bedingte Schätzungen der kleinsten Quadrate), ULS (unbedingte Schätzungen der kleinsten Quadrate) und ML (Maximum Likelihood Estimates). MCLS ist die Voreinstellung. Nur MCLS ist erlaubt, wenn mehr als eine Gleichung angegeben wird. Die ULS - und ML-Methoden werden für AR-AR-Modelle von AR nicht unterstützt. Dass das AR-Verfahren auf die endogenen Variablen anstelle der strukturellen Residuen der Gleichungen angewendet werden soll. Eingeschränkte Vektorautoregression Sie können steuern, welche Parameter in den Prozess eingeschlossen werden, wobei die Parameter auf 0 begrenzt werden, die Sie nicht einschließen. Verwenden Sie zuerst AR mit der Option DEFER, um die Variablenliste zu deklarieren und die Dimension des Prozesses zu definieren. Verwenden Sie dann zusätzliche AR-Aufrufe, um Ausdrücke für ausgewählte Gleichungen mit ausgewählten Variablen bei ausgewählten Verzögerungen zu generieren. Zum Beispiel sind die erzeugten Fehlergleichungen wie folgt: Dieses Modell besagt, daß die Fehler für Y1 von den Fehlern sowohl von Y1 als auch von Y2 (aber nicht von Y3) bei beiden Verzögerungen 1 und 2 abhängen und daß die Fehler für Y2 und Y3 davon abhängen Die vorherigen Fehler für alle drei Variablen, aber nur bei Verzögerung 1. AR-Makro-Syntax für eingeschränkten Vektor-AR Eine alternative Verwendung von AR ist es, Einschränkungen für einen Vektor-AR-Prozess durch Aufruf von AR mehrmals aufzuerlegen, um verschiedene AR-Terme und Lags für verschiedene festzulegen Gleichungen. Der erste Aufruf hat die allgemeine Form spezifiziert ein Präfix für AR zu verwenden, bei der Konstruktion von Namen von Variablen benötigt, um den Vektor AR-Prozess zu definieren. Gibt die Reihenfolge des AR-Prozesses an. Gibt die Liste der Gleichungen an, auf die der AR-Prozess angewendet werden soll. Gibt an, dass AR den AR-Prozess nicht generieren soll, sondern auf weitere Informationen warten soll, die in späteren AR-Aufrufen für denselben Namenwert angegeben sind. Die nachfolgenden Anrufe haben die allgemeine Form ist die gleiche wie im ersten Aufruf. Spezifiziert die Liste der Gleichungen, auf die die Spezifikationen in diesem AR-Aufruf angewendet werden sollen. Nur Namen, die im Endolistenwert des ersten Aufrufs für den Namenswert angegeben sind, können in der Liste der Gleichungen in eqlist erscheinen. Spezifiziert die Liste der Gleichungen, deren verzögerte strukturelle Residuen als Regressoren in die Gleichungen in eqlist aufgenommen werden sollen. Nur Namen im Endolisten des ersten Aufrufs für den Namenswert können in varlist erscheinen. Wenn nicht angegeben, wird varlist standardmäßig Endolist. Gibt die Liste der Verzögerungen an, zu denen die AR-Terme hinzugefügt werden sollen. Die Koeffizienten der Terme, die nicht aufgelistet sind, werden auf 0 gesetzt. Alle aufgelisteten Verzögerungen müssen kleiner oder gleich dem Wert von nlag sein. Und es dürfen keine Duplikate vorhanden sein. Wenn nicht angegeben, verwendet laglist standardmäßig alle Verzögerungen 1 bis nlag. Der MA-Makro Der SAS-Makro MA generiert Programmieranweisungen für PROC MODEL für gleitende Durchschnittsmodelle. Das MA-Makro ist Teil der SAS / ETS-Software, und es sind keine speziellen Optionen erforderlich, um das Makro zu verwenden. Der gleitende Mittelwertfehlerprozeß kann auf die strukturellen Gleichungsfehler angewendet werden. Die Syntax des MA-Makros entspricht dem AR-Makro, außer es gibt kein TYPE-Argument. Wenn Sie die kombinierten MA - und AR-Makros verwenden, muss das Makro MA dem AR-Makro folgen. Die folgenden SAS / IML-Anweisungen erzeugen einen ARMA-Fehlerprozeß (1, (1 3)) und speichern ihn im Datensatz MADAT2. Die folgenden PROC MODEL-Anweisungen werden verwendet, um die Parameter dieses Modells unter Verwendung der maximalen Wahrscheinlichkeitsfehlerstruktur zu schätzen: Die Schätzungen der durch diesen Durchlauf erzeugten Parameter sind in Abbildung 18.61 dargestellt. Abbildung 18.61 Schätzungen aus einem ARMA-Prozess (1, (1 3)) Es gibt zwei Fälle der Syntax für das MA-Makro. Wenn Beschränkungen für einen Vektor-MA-Prozess nicht erforderlich sind, hat die Syntax des MA-Makros die allgemeine Form, die ein Präfix für MA vorgibt, das beim Konstruieren von Namen von Variablen verwendet wird, die benötigt werden, um den MA-Prozess zu definieren, und ist der Standard-Endolist. Ist die Reihenfolge des MA-Prozesses. Spezifiziert die Gleichungen, auf die das MA-Verfahren angewandt werden soll. Wenn mehr als ein Name angegeben wird, wird die CLS-Schätzung für den Vektorprozess verwendet. Gibt die Verzögerungen an, zu denen die MA-Bedingungen hinzugefügt werden sollen. Alle aufgelisteten Verzögerungen müssen kleiner oder gleich nlag sein. Und es dürfen keine Duplikate vorhanden sein. Wenn nicht angegeben, wird die Verzögerungsliste standardmäßig auf alle Verzögerungen 1 bis nlag gesetzt. Gibt die zu implementierende Schätzmethode an. Gültige Werte von M sind CLS (bedingte Schätzungen der kleinsten Quadrate), ULS (unbedingte Schätzungen der kleinsten Quadrate) und ML (Maximum Likelihood Estimates). MCLS ist die Voreinstellung. Nur MCLS ist erlaubt, wenn mehr als eine Gleichung im Endolisten angegeben ist. MA-Makro-Syntax für eingeschränkte Vektorbewegungsmittel Eine alternative Verwendung von MA ist es, Beschränkungen für einen Vektor-MA-Prozeß durch Aufruf von MA mehrere Male aufzuerlegen, um verschiedene MA-Terme und Verzögerungen für verschiedene Gleichungen anzugeben. Der erste Aufruf hat die allgemeine Form spezifiziert ein Präfix für MA, um bei der Konstruktion von Namen von Variablen für die Definition der Vektor-MA-Prozess zu verwenden. Spezifiziert die Reihenfolge des MA-Prozesses. Spezifiziert die Liste der Gleichungen, auf die das MA-Verfahren angewendet werden soll. Spezifiziert, daß MA nicht den MA-Prozeß erzeugen soll, sondern auf weitere Informationen, die in späteren MA-Aufrufen für denselben Namenwert spezifiziert werden, wartet. Die nachfolgenden Anrufe haben die allgemeine Form ist die gleiche wie im ersten Aufruf. Spezifiziert die Liste der Gleichungen, auf die die Spezifikationen in diesem MA-Aufruf angewendet werden sollen. Spezifiziert die Liste der Gleichungen, deren verzögerte strukturelle Residuen als Regressoren in die Gleichungen in eqlist aufgenommen werden sollen. specifies the list of lags at which the MA terms are to be added.


No comments:

Post a Comment