Tuesday 26 September 2017

Beispiele Von Beides Linear Regression And The Moving Averages And Smoothing Techniken


Vorhersage durch Glättung Techniken Diese Seite ist ein Teil der JavaScript E-Labs Lernobjekte für die Entscheidungsfindung. Andere JavaScript in dieser Serie sind unter verschiedenen Anwendungsbereichen im MENU-Bereich auf dieser Seite kategorisiert. Eine Zeitreihe ist eine Folge von Beobachtungen, die rechtzeitig bestellt werden. Inhärent in der Sammlung von Daten über die Zeit genommen ist eine Form der zufälligen Variation. Es gibt Methoden zur Verringerung der Aufhebung der Wirkung durch zufällige Variation. Weit verbreitete Techniken sind Glättung. Diese Techniken zeigen, wenn sie richtig angewendet werden, deutlicher die zugrunde liegenden Trends. Geben Sie die Zeitreihe Row-weise in der Reihenfolge ein, beginnend von der linken oberen Ecke und den Parameter (s), und klicken Sie dann auf die Schaltfläche Berechnen, um eine Vorhersage zu erhalten. Blank Boxen sind nicht in den Berechnungen enthalten, aber Nullen sind. Wenn Sie Ihre Daten eingeben, um von Zelle zu Zelle in der Datenmatrix zu wechseln, benutzen Sie die Tabulatortaste nicht Pfeil oder geben Sie die Tasten ein. Merkmale der Zeitreihen, die durch die Prüfung ihres Graphen aufgedeckt werden könnten. Mit den prognostizierten Werten und dem Residualverhalten, Bedingungsprognosemodellierung. Moving Averages: Moving Averages gehören zu den beliebtesten Techniken für die Vorverarbeitung von Zeitreihen. Sie werden verwendet, um zufälliges weißes Rauschen aus den Daten zu filtern, um die Zeitreihe glatter zu machen oder sogar bestimmte in der Zeitreihe enthaltene Informationskomponenten zu betonen. Exponentielle Glättung: Dies ist ein sehr beliebtes Schema, um eine geglättete Zeitreihe zu produzieren. Während bei fortlaufenden Mitteln die bisherigen Beobachtungen gleich gewichtet werden, weist Exponentialglättung exponentiell abnehmende Gewichte zu, wenn die Beobachtung älter wird. Mit anderen Worten, die jüngsten Beobachtungen werden bei der Prognose relativ viel mehr gegeben als die älteren Beobachtungen. Double Exponential Smoothing ist besser bei der Handhabung von Trends. Triple Exponential Glättung ist besser bei der Behandlung von Parabel Trends. Ein exponentiell gewichteter gleitender Durchschnitt mit einer Glättungskonstante a. Entspricht etwa einem einfachen gleitenden Mittelwert der Länge (d. H. Periode) n, wobei a und n verwandt sind durch: a 2 (n1) OR n (2 - a) a. So würde beispielsweise ein exponentiell gewichteter gleitender Durchschnitt mit einer Glättungskonstante gleich 0,1 etwa einem 19-tägigen gleitenden Durchschnitt entsprechen. Und ein 40-Tage einfacher gleitender Durchschnitt würde etwa einem exponentiell gewichteten gleitenden Durchschnitt entsprechen, wobei eine Glättungskonstante gleich 0,04878 ist. Holts Linear Exponential Glättung: Angenommen, die Zeitreihe ist nicht saisonal, aber zeigt Trend. Holts-Methode schätzt sowohl den aktuellen Level als auch den aktuellen Trend. Beachten Sie, dass der einfache gleitende Durchschnitt ein besonderer Fall der exponentiellen Glättung ist, indem die Periode des gleitenden Durchschnitts auf den ganzzahligen Teil von (2-Alpha) Alpha gesetzt wird. Für die meisten Geschäftsdaten ist ein Alpha-Parameter kleiner als 0,40 oft wirksam. Jedoch kann man eine Gittersuche des Parameterraums mit 0,1 bis 0,9 mit Inkrementen von 0,1 durchführen. Dann hat das beste Alpha den kleinsten Mean Absolute Error (MA Error). Wie man mehrere Glättungsmethoden vergleicht: Obwohl es numerische Indikatoren für die Beurteilung der Genauigkeit der Prognose-Technik gibt, ist der am weitesten verbreitete Ansatz bei der Verwendung visueller Vergleich von mehreren Prognosen, um ihre Genauigkeit zu beurteilen und wählen Sie unter den verschiedenen Vorhersage Methoden. Bei diesem Ansatz muss man auf demselben Graphen die ursprünglichen Werte einer Zeitreihenvariablen und die vorhergesagten Werte aus verschiedenen Prognosemethoden (unter Verwendung von zB Excel) aufzeichnen, wodurch ein visueller Vergleich erleichtert wird. Sie können die vorherigen Prognosen durch Glättungstechniken JavaScript verwenden, um die vergangenen Prognosewerte zu erhalten, die auf Glättungstechniken basieren, die nur einen einzelnen Parameter verwenden. Holt - und Winters-Methoden verwenden zwei bzw. drei Parameter, daher ist es keine leichte Aufgabe, die optimalen oder sogar nahezu optimalen Werte durch Versuche und Fehler für die Parameter auszuwählen. Die einzige exponentielle Glättung unterstreicht die kurzfristige Perspektive, die sie auf die letzte Beobachtung setzt und basiert auf der Bedingung, dass es keinen Trend gibt. Die lineare Regression, die eine kleinste Quadrate zu den historischen Daten passt (oder transformierte historische Daten), repräsentiert die lange Reichweite, die auf dem grundlegenden Trend bedingt ist. Holts lineare exponentielle Glättung erfasst Informationen über den letzten Trend. Die Parameter in Holts-Modell sind Pegel-Parameter, die verringert werden sollten, wenn die Menge der Datenvariation groß ist und der Trends-Parameter erhöht werden sollte, wenn die aktuelle Trendrichtung durch die kausalen Faktoren unterstützt wird. Kurzfristige Prognose: Beachten Sie, dass jedes JavaScript auf dieser Seite eine einstufige Prognose bietet. Um eine zweistufige Prognose zu erhalten. Fügen Sie einfach den prognostizierten Wert dem Ende der Zeitreihendaten hinzu und klicken Sie dann auf dieselbe Schaltfläche Berechnen. Sie können diesen Vorgang für ein paar Mal wiederholen, um die benötigten kurzfristigen Prognosen zu erhalten. Zeitreihenmethoden Zeitreihenmethoden sind statistische Techniken, die historische Daten über einen bestimmten Zeitraum akkumulieren. Zeitreihenmethoden gehen davon aus, dass das, was in der Vergangenheit aufgetreten ist, auch in Zukunft stattfinden wird. Wie die Namen Zeitreihen vorschlagen, beziehen diese Methoden die Prognose auf nur einen Faktor - Zeit. Dazu gehören der gleitende Durchschnitt, die exponentielle Glättung und die lineare Trendlinie und gehören zu den beliebtesten Methoden für die Nahbereichsprognose bei Service - und Fertigungsunternehmen. Diese Methoden gehen davon aus, dass sich identifizierbare historische Muster oder Trends für die Nachfrage im Laufe der Zeit wiederholen werden. Moving Average Eine Zeitreihenprognose kann so einfach sein wie die Nachfrage in der aktuellen Periode, um die Nachfrage in der nächsten Periode vorherzusagen. Dies wird manchmal als naive oder intuitive Prognose bezeichnet. 4 Zum Beispiel, wenn die Nachfrage 100 Einheiten in dieser Woche ist, ist die Prognose für die nächste Woche Nachfrage 100 Einheiten, wenn die Nachfrage sich aus 90 Einheiten statt, dann die folgenden Wochen Nachfrage beträgt 90 Einheiten, und so weiter. Diese Art der Prognosemethode berücksichtigt nicht das historische Nachfrageverhalten, das sie nur in der laufenden Periode auf die Nachfrage stützt. Es reagiert direkt auf die normalen, zufälligen Bewegungen in der Nachfrage. Die einfache gleitende Durchschnittsmethode verwendet in der letzten Vergangenheit mehrere Bedarfswerte, um eine Prognose zu entwickeln. Dies neigt dazu, die zufälligen Erhöhungen und Abnahmen einer Prognose, die nur einen Zeitraum verwendet, zu dämpfen oder zu glätten. Der einfache gleitende Durchschnitt ist nützlich für die prognostizierte Nachfrage, die stabil ist und zeigt keine ausgeprägten Nachfrage Verhalten, wie ein Trend oder saisonale Muster. Durchgehende Durchschnitte werden für bestimmte Zeiträume, wie z. B. drei Monate oder fünf Monate, berechnet, je nachdem, wie viel der Prognostiker die Nachfragedaten verkleinern möchte. Je länger die gleitende durchschnittliche Periode, desto glatter wird es sein. Die Formel für die Berechnung der einfachen gleitenden Durchschnitt ist die Berechnung eines einfachen Moving Average Die Instant Paper Clip Office Supply Company verkauft und liefert Bürobedarf an Unternehmen, Schulen und Agenturen innerhalb eines 50-Meile Radius seines Lagers. Das Bürobedarfsgeschäft ist wettbewerbsfähig, und die Fähigkeit, Aufträge umgehend zu liefern, ist ein Faktor, um neue Kunden zu bekommen und alte zu halten. (Büros in der Regel bestellen nicht, wenn sie niedrig auf Lieferungen laufen, aber wenn sie komplett ausgelaufen sind, so dass sie ihre Bestellungen sofort benötigen.) Der Manager des Unternehmens will sicher genug Fahrer und Fahrzeuge zur Verfügung stehen, um Aufträge umgehend zu liefern Sie haben ein ausreichendes Inventar auf Lager. Daher möchte der Manager die Anzahl der Aufträge prognostizieren, die im nächsten Monat auftreten werden (d. h. die Nachfrage nach Lieferungen zu prognostizieren). Aus den Aufzeichnungen der Lieferaufträge hat das Management die folgenden Daten für die letzten 10 Monate angesammelt, von denen es will, um 3- und 5-Monats-Gleitdurchschnitte zu berechnen. Nehmen wir an, dass es Ende Oktober ist. Die Prognose, die sich aus dem 3- oder 5-monatigen gleitenden Durchschnitt ergibt, ist typischerweise für den nächsten Monat in der Sequenz, die in diesem Fall November ist. Der gleitende Durchschnitt wird aus der Nachfrage nach Aufträgen für die letzten 3 Monate in der Sequenz nach folgender Formel berechnet: Der 5-Monats-Gleitender Durchschnitt wird aus den vorangegangenen 5 Monaten der Bedarfsdaten wie folgt berechnet: Der 3- und 5-Monats - Gleitende Durchschnittsprognosen für alle Monate der Bedarfsdaten sind in der folgenden Tabelle dargestellt. Tatsächlich würde nur die Prognose für November auf der Grundlage der letzten monatlichen Nachfrage vom Manager genutzt werden. Allerdings erlauben uns die früheren Prognosen für Vormonate, die Prognose mit der tatsächlichen Nachfrage zu vergleichen, um zu sehen, wie genau die Prognosemethode ist - das ist, wie gut es tut. Drei - und Fünf-Monats-Mittelwerte Beide gleitenden Durchschnittsprognosen in der obigen Tabelle neigen dazu, die Variabilität der tatsächlichen Daten zu verkleinern. Dieser Glättungseffekt kann in der folgenden Abbildung beobachtet werden, in der die 3-Monats - und 5-Monatsdurchschnitte einem Graphen der ursprünglichen Daten überlagert wurden: Der 5-Monats-Gleitender Durchschnitt in der vorherigen Abbildung glättet Schwankungen in größerem Maße als Der 3-Monats-Gleitender Durchschnitt. Allerdings spiegelt der 3-Monats-Durchschnitt die aktuellsten Daten, die dem Büroversorger zur Verfügung stehen. Im Allgemeinen sind die Prognosen, die den längerfristigen gleitenden Durchschnitt verwenden, langsamer, um auf die jüngsten Veränderungen der Nachfrage zu reagieren, als die, die mit kürzerperiodischen Bewegungsdurchschnitten gemacht wurden. Die zusätzlichen Datenperioden dämpfen die Geschwindigkeit, mit der die Prognose reagiert. Die Festlegung der entsprechenden Anzahl von Perioden, die in einer gleitenden durchschnittlichen Prognose verwendet werden, erfordert oft eine gewisse Versuchs - und Fehler-Experimentierung. Der Nachteil der gleitenden Mittelmethode ist, dass sie nicht auf Variationen reagiert, die aus einem Grund auftreten, wie z. B. Zyklen und saisonale Effekte. Faktoren, die Änderungen verursachen, werden in der Regel ignoriert. Es handelt sich im Grunde um eine mechanische Methode, die historische Daten konsistent widerspiegelt. Allerdings hat die gleitende durchschnittliche Methode den Vorteil, einfach zu bedienen, schnell und relativ kostengünstig zu sein. Im Allgemeinen kann diese Methode eine gute Prognose für die kurzfristige, aber es sollte nicht zu weit in die Zukunft geschoben werden. Weighted Moving Average Die gleitende durchschnittliche Methode kann angepasst werden, um die Fluktuationen der Daten besser zu reflektieren. Bei der gewichteten gleitenden Durchschnittsmethode werden den letzten Daten nach der folgenden Formel Gewichte zugeordnet: Die Anforderungsdaten für PM Computer Services (siehe Tabelle für Beispiel 10.3) folgen einem zunehmenden linearen Trend. Das Unternehmen möchte eine lineare Trendlinie berechnen, um zu sehen, ob es genauer ist als die in den Beispielen 10.3 und 10.4 entwickelten exponentiellen Glättung und angepassten exponentiellen Glättungsprognosen. Die für die Berechnungen der kleinsten Quadrate benötigten Werte sind wie folgt: Unter Verwendung dieser Werte werden die Parameter für die lineare Trendlinie wie folgt berechnet: Daher ist die lineare Trendliniengleichung Um eine Prognose für die Periode 13 zu berechnen, sei x 13 im linearen Trendlinie: Die folgende Grafik zeigt die lineare Trendlinie gegenüber den Ist-Daten. Die Trendlinie scheint die tatsächlichen Daten genau zu reflektieren - das heißt, eine gute Passform zu sein - und wäre somit ein gutes Prognosemodell für dieses Problem. Ein Nachteil der linearen Trendlinie ist jedoch, dass sie sich nicht auf eine Trendänderung anpasst, da die exponentiellen Glättungsvorhersagemethoden das sind, wird davon ausgegangen, dass alle zukünftigen Prognosen einer Geraden folgen. Dies begrenzt die Verwendung dieser Methode auf einen kürzeren Zeitrahmen, in dem Sie relativ sicher sein können, dass sich der Trend nicht ändert. Saisonale Anpassungen Ein saisonales Muster ist eine wiederholte Zunahme und Abnahme der Nachfrage. Viele Nachfrageartikel zeigen saisonales Verhalten. Bekleidungsverkäufe folgen jährlichen saisonalen Mustern, mit der Nachfrage nach warmer Kleidung, die im Herbst und Winter zunimmt und im Frühjahr und Sommer abnimmt, während die Nachfrage nach kühlerer Kleidung zunimmt. Die Nachfrage nach vielen Einzelhandelsartikeln, einschließlich Spielzeug, Sportausrüstung, Kleidung, elektronische Geräte, Schinken, Truthähne, Wein und Obst, erhöhen während der Ferienzeit. Grußkarte verlangt in Verbindung mit besonderen Tagen wie Valentinstag und Muttertag. Saisonale Muster können auch auf einer monatlichen, wöchentlichen oder sogar täglichen Basis auftreten. Einige Restaurants haben eine höhere Nachfrage am Abend als am Mittag oder am Wochenende im Gegensatz zu Wochentagen. Verkehr - also Verkauf - an Einkaufszentren nimmt am Freitag und Samstag auf. Es gibt mehrere Methoden, um saisonale Muster in einer Zeitreihenprognose zu reflektieren. Wir beschreiben eine der einfacheren Methoden mit einem saisonalen Faktor. Ein saisonaler Faktor ist ein Zahlenwert, der mit der normalen Prognose multipliziert wird, um eine saisonbereinigte Prognose zu erhalten. Eine Methode zur Entwicklung einer Nachfrage nach saisonalen Faktoren besteht darin, die Nachfrage für jede Saisonperiode durch die jährliche Gesamtnachfrage nach folgender Formel zu teilen: Die daraus resultierenden saisonalen Faktoren zwischen 0 und 1,0 sind in Wirklichkeit der Anteil der gesamten jährlichen Nachfrage jede Saison. Diese saisonalen Faktoren werden mit der jährlichen prognostizierten Nachfrage multipliziert, um die prognostizierten Prognosen für jede Saison zu erzielen. Informieren Sie eine Prognose mit saisonalen Anpassungen Wishbone Farms wächst Puten, um an eine Fleischverarbeitungsfirma während des ganzen Jahres zu verkaufen. Allerdings ist seine Hauptsaison offensichtlich im vierten Quartal des Jahres von Oktober bis Dezember. Wishbone Farms hat die Nachfrage nach Truthühnern für die letzten drei Jahre in der folgenden Tabelle gezeigt: Weil wir drei Jahre Nachfrage haben, können wir die saisonalen Faktoren berechnen, indem wir die gesamte vierteljährliche Nachfrage für die drei Jahre durch die Gesamtnachfrage über alle drei Jahre dividieren : Als nächstes wollen wir die prognostizierte Nachfrage für das nächste Jahr 2000 mit jedem der saisonalen Faktoren multiplizieren, um die prognostizierte Nachfrage für jedes Quartal zu erhalten. Um dies zu erreichen, benötigen wir eine Bedarfsprognose für das Jahr 2000. In diesem Fall, da die Nachfragedaten in der Tabelle einen allgemein ansteigenden Trend zu zeigen scheinen, berechnen wir eine lineare Trendlinie für die drei Jahre der Daten in der Tabelle, um eine grobe zu bekommen Prognose Schätzung: So ist die Prognose für 2000 58,17 oder 58,170 Truthähne. Mit dieser jährlichen Prognose der Nachfrage, die saisonbereinigten Prognosen, SF i, für das Jahr 2000 Vergleich dieser vierteljährlichen Prognosen mit den tatsächlichen Nachfrage-Werte in der Tabelle, scheinen sie relativ gute Prognose-Schätzungen, was sowohl die saisonalen Variationen in den Daten und Der allgemeine Aufwärtstrend. 10-12 Wie ist die gleitende Mittelmethode ähnlich der exponentiellen Glättung 10-13. Welche Auswirkung auf das exponentielle Glättungsmodell erhöht die Glättungskonstante von 10-14. Wie unterscheidet sich die exponentielle Glättung von der exponentiellen Glättung 10-15. Was bestimmt die Wahl der Glättungskonstante für den Trend in einem angepassten exponentiellen Glättungsmodell 10-16. In den Kapitelbeispielen für Zeitreihenmethoden wurde die Startvorhersage immer als die tatsächliche Nachfrage in der ersten Periode angenommen. Schlagen Sie andere Wege vor, dass die Startvorhersage im laufenden Gebrauch abgeleitet werden könnte. 10-17 Wie unterscheidet sich das lineare Trendlinien-Prognosemodell von einem linearen Regressionsmodell für die Prognose von 10-18. Von den Zeitreihenmodellen, die in diesem Kapitel vorgestellt wurden, einschließlich des gleitenden Durchschnitts und des gewichteten gleitenden Durchschnitts, der exponentiellen Glättung und der angepassten exponentiellen Glättung und der linearen Trendlinie, die man als das beste betrachtet. Warum 10-19. Welche Vorteile hat die exponentielle Glättung über eine lineare Trendlinie für die prognostizierte Nachfrage, die einen Trend zeigt. 4 K. B. Kahn und J. T. Mentzer, Prognose in Konsumenten - und Industriemärkten, The Journal of Business Forecasting 14, Nr. 2 (Sommer 1995): 21-28.Lineare Regressionsanalyse ist die am häufigsten verwendete aller statistischen Techniken: Es ist die Studie der linearen. Additive Beziehungen zwischen Variablen. Sei Y die Variable 8220dependent8221, deren Werte Sie voraussagen wollen, und lassen Sie X 1. 8230, X k bezeichnen die 8220unabhängigen8221 Variablen, von denen man sie voraussagen möchte, mit dem Wert der Variablen X i in der Periode t (oder in der Zeile t des Datensatzes), die mit X bezeichnet ist. Dann ist die Gleichung für die Berechnung des vorhergesagten Wertes von Yt: Diese Formel hat die Eigenschaft, daß die Vorhersage für Y eine geradlinige Funktion jeder der X-Variablen ist, wobei die anderen fixiert sind und die Beiträge von verschiedenen X-Variablen an die Vorhersagen sind additiv. Die Neigungen ihrer individuellen Geradenbeziehungen zu Y sind die Konstanten b 1. B 2, 8230, b k Die sogenannten Koeffizienten der Variablen. Das heißt, b i ist die Änderung des vorhergesagten Wertes von Y pro Änderungseinheit in X i. unter sonst gleichen Bedingungen. Die zusätzliche Konstante b 0. Das so genannte Intercept. Ist die Vorhersage, dass das Modell machen würde, wenn alle X 8217s null waren (falls das möglich ist). Die Koeffizienten und Abschnitte werden durch kleinste Quadrate geschätzt. D. h. die Einstellung derselben gleich den eindeutigen Werten, die die Summe der quadrierten Fehler innerhalb der Datenprobe minimieren, auf die das Modell eingepasst wird. Und die Modelle Vorhersage Fehler sind in der Regel unabhängig und identisch normal verteilt angenommen. Das erste, was Sie über lineare Regression wissen sollten, ist, wie die seltsame Begriffsregression auf solche Modelle angewendet wurde. Sie wurden zuerst von einem Wissenschaftler des 19. Jahrhunderts, Sir Francis Galton, ausführlich studiert. Galton war ein selbstgelehrter Naturforscher, Anthropologe, Astronom und Statistiker - und ein echter Indiana Jones Charakter. Er war berühmt für seine Erkundungen, und er schrieb ein Bestseller-Buch, wie man in der Wildnis mit dem Titel "Die Kunst des Reisens: Verschiebungen und Vorrichtungen, die in wilden Orten, und seine Fortsetzung, die Kunst des Rough Travel: From the Practical Zum seltsamen. Sie sind immer noch in Druck und immer noch als nützliche Ressourcen. Sie bieten viele praktische Hinweise zum Leben am Leben - wie zum Beispiel Speerwunden zu behandeln oder Ihr Pferd aus dem Treibsand zu extrahieren - und das Konzept des Schlafsacks in die westliche Welt einzuführen. Klicken Sie auf diese Bilder für weitere Details: Galton war ein Pionier in der Anwendung von statistischen Methoden für Messungen in vielen Zweigen der Wissenschaft, und bei der Untersuchung von Daten über relative Größen der Eltern und ihre Nachkommen in verschiedenen Arten von Pflanzen und Tieren, beobachtete er die folgenden Phänomen: ein überdurchschnittliches Elternteil neigt dazu, ein überdurchschnittliches Kind zu produzieren, aber das Kind ist wahrscheinlich weniger groß als das Elternteil in Bezug auf seine relative Position innerhalb seiner eigenen Generation. Wenn also die Elterngröße x Standardabweichungen vom Mittelwert innerhalb der eigenen Generation ist, dann sollten Sie voraussagen, dass die Größe des Kindes rx (r mal x) Standardabweichungen vom Mittelwert innerhalb der Menge der Kinder dieser Eltern ist , Wobei r eine Zahl kleiner als 1 in der Größe ist. (R ist, was nachfolgend als die Korrelation zwischen der Größe des Elternteils und der Größe des Kindes definiert wird.) Das gleiche gilt für praktisch jede physikalische Messung (und im Falle von Menschen, die meisten Messungen der kognitiven und körperlichen Fähigkeiten) Das kann bei den Eltern und ihren Nachkommen durchgeführt werden. Hier ist das erste veröffentlichte Bild einer Regressionslinie, die diesen Effekt aus einer Vorlesung von Galton im Jahre 1877 darstellt: Das R-Symbol auf diesem Diagramm (dessen Wert 0,33 ist) bezeichnet den Steigungskoeffizienten, nicht die Korrelation, obwohl die beiden gleich sind Wenn beide Populationen die gleiche Standardabweichung haben, wie unten gezeigt wird. Galton nannte dieses Phänomen eine Regression zur Mittelmäßigkeit. Was in modernen Begriffen eine Regression zum Mittel ist. Für einen naellen Beobachter könnte dies darauf hindeuten, dass spätere Generationen weniger Variabilität - buchstäblich mehr Mittelmäßigkeit - als früheren zeigen werden, aber das ist nicht der Fall. Es ist ein rein statistisches Phänomen. Wenn nicht jedes Kind genau die gleiche Größe wie das Elternteil in relativer Hinsicht hat (d. h. wenn die Korrelation genau gleich 1 ist), müssen die Vorhersagen unabhängig von der Biologie auf den Mittelwert zurückfallen, wenn der mittlere quadratische Fehler minimiert werden soll. (Zurück zum Anfang der Seite) Regression zum Mittel ist eine unausweichliche Tatsache des Lebens. Ihre Kinder können erwartet werden, weniger außergewöhnlich zu sein (für besser oder schlechter) als Sie sind. Ihr Ergebnis auf eine Abschlussprüfung in einem Kurs kann erwartet werden, um weniger gut (oder schlecht) als Ihre Gäste auf der midterm Prüfung, relativ zum Rest der Klasse. Ein Baseball-Spieler Batting Durchschnitt in der zweiten Hälfte der Saison kann erwartet werden, näher an den Mittelwert (für alle Spieler) als seine Batting Durchschnitt in der ersten Hälfte der Saison. Und so weiter. Das Schlüsselwort hier ist quotexpected. quot Dies bedeutet nicht, dass es sicher ist, dass eine Regression zum Mittelwert auftreten wird, aber das ist der Weg zu wetten Wir haben bereits einen Vorschlag von Regression-to-the-mean in einigen der Zeitreihen-Prognosemodelle gesehen Wir haben studiert: Plots von Prognosen neigen dazu, glatter zu sein Sie zeigen weniger Variabilität - als die Pläne der ursprünglichen Daten. Dies gilt nicht für zufällige Walk-Modelle, aber es ist in der Regel für Moving-Average-Modelle und andere Modelle, die ihre Prognosen auf mehr als eine Vergangenheit Beobachtung basieren. Die intuitive Erklärung für den Regressionseffekt ist einfach: Das, was wir vorhersagen wollen, besteht in der Regel aus einer vorhersagbaren Komponente (quotsignalquot) und einer statistisch unabhängigen, unvorhersehbaren Komponente (Quototik). Das Beste, was wir hoffen können, ist, den Teil der Variabilität vorherzusagen, der dem Signal zu verdanken ist. Daher werden unsere Prognosen dazu neigen, weniger Variabilität zu zeigen als die tatsächlichen Werte, was eine Regression zum Mittel bedeutet. Eine andere Möglichkeit, an den Regressionseffekt zu denken, ist die Selektionsvorspannung. Im Allgemeinen kann eine Spieler8217s Leistung über einen bestimmten Zeitraum auf eine Kombination von Geschick und Glück zurückgeführt werden. Angenommen, wir wählen eine Probe von professionellen Athleten, deren Leistung war viel besser als der Durchschnitt (oder Studenten, deren Noten waren viel besser als der Durchschnitt) in der ersten Hälfte des Jahres. Die Tatsache, dass sie in der ersten Jahreshälfte so gut gemacht haben, macht es wahrscheinlich, dass sowohl ihre Geschicklichkeit als auch ihr Glück in dieser Zeit besser als der Durchschnitt waren. In der zweiten Hälfte des Jahres können wir erwarten, dass sie gleichermaßen geschickt sind, aber wir sollten nicht erwarten, dass sie gleichermaßen glücklich sind. Also sollten wir voraussagen, dass in der zweiten Hälfte ihre Leistung dem Mittel näher kommen wird. Mittlerweile hatten Spieler, deren Leistung in der ersten Halbzeit nur durchschnittlich durchschnittlich war, wahrscheinlich Geschick und Glück, die in entgegengesetzten Richtungen für sie arbeiten. Wir sollten daher erwarten, dass ihre Leistung in der zweiten Halbzeit sich von dem Mittel in die eine oder andere Richtung bewegt, da wir einen anderen unabhängigen Test ihrer Fähigkeiten bekommen. Wir wissen nicht, in welche Richtung sie sich bewegen werden, aber auch für sie sollten wir voraussagen, dass ihre zweite Halbperformance näher am Mittelwert liegt als ihre erste Halbperformance. Allerdings ist die tatsächliche Leistung der Spieler zu erwarten, dass eine gleich große Abweichung in der zweiten Hälfte des Jahres wie in der ersten Hälfte, weil es nur aus einer Umverteilung von unabhängig zufälliges Glück unter den Spielern mit der gleichen Verteilung der Fähigkeit wie Vor. Eine nette Diskussion über die Regression zum Mittel im weiteren Kontext der sozialwissenschaftlichen Forschung findet sich hier. (Zurück zum Seitenanfang.) Begründung für Regressionsannahmen Warum sollten wir davon ausgehen, dass die Beziehungen zwischen den Variablen linear sind. Denn lineare Beziehungen sind die einfachsten nicht-trivialen Beziehungen, die man sich vorstellen kann (also am einfachsten zu arbeiten) und. Denn die quottruequot Beziehungen zwischen unseren Variablen sind oft mindestens annähernd linear über den Bereich von Werten, die für uns interessant sind, und. Auch wenn sie nicht sind, können wir die Variablen oft so umwandeln, dass wir die Beziehungen linearisieren. Dies ist eine starke Annahme, und der erste Schritt in der Regressionsmodellierung sollte sein, um Scatterplots der Variablen (und im Fall von Zeitreihendaten, Plots der Variablen vs. Zeit) zu betrachten, um sicherzustellen, dass es a priori angemessen ist. Und nach der Montage eines Modells sollten Plots der Fehler untersucht werden, um zu sehen, ob es unerklärliche nichtlineare Muster gibt. Dies ist besonders wichtig, wenn es darum geht, Vorhersagen für Szenarien außerhalb des Bereichs der historischen Daten zu machen, wo Abweichungen von der perfekten Linearität wahrscheinlich die größte Wirkung haben. Wenn Sie Beweise für nichtlineare Beziehungen sehen, ist es möglich (wenn auch nicht garantiert), dass Transformationen von Variablen sie in einer Weise ausrichten werden, die nützliche Schlussfolgerungen und Vorhersagen über lineare Regression liefern wird. (Zurück zum Seitenanfang) Und warum sollten wir davon ausgehen, dass die Effekte verschiedener unabhängiger Variablen auf den erwarteten Wert der abhängigen Variablen additiv sind. Dies ist eine sehr starke Annahme, stärker als die meisten Menschen erkennen. Es bedeutet, dass die Randwirkung einer unabhängigen Variablen (d. h. ihr Steigungskoeffizient) nicht von den aktuellen Werten anderer unabhängiger Variablen abhängt. Aber warum sollte man es nicht vorstellen, daß eine unabhängige Variable die Wirkung eines anderen verstärken könnte, oder daß ihre Wirkung im Laufe der Zeit systematisch variieren könnte. In einem multiplen Regressionsmodell misst der geschätzte Koeffizient einer gegebenen unabhängigen Variablen vermutlich seinen Effekt, während er für die Anwesenheit der anderen eine Zutrittskontrolle hat. Allerdings ist die Art und Weise, in der das Controlling durchgeführt wird, extrem einfach: Vielfache anderer Variablen werden lediglich hinzugefügt oder subtrahiert. Viele Benutzer werfen nur viele unabhängige Variablen in das Modell, ohne sorgfältig über dieses Problem nachzudenken, als ob ihre Software automatisch herausfinden wird genau wie sie verwandt sind. Es gewinnt sogar automatische Modell-Auswahl-Methoden (z. B. schrittweise Regression) erfordern Sie ein gutes Verständnis Ihrer eigenen Daten und eine führende Hand in der Analyse verwenden. Sie arbeiten nur mit den Variablen, die ihnen gegeben werden, in der Form, dass sie gegeben sind, und dann sehen sie nur nach linearen, additiven Mustern unter ihnen im Kontext von einander. Ein Regressionsmodell geht nicht nur davon aus, dass Y eine quoteome Funktion der Xs ist. Es geht davon aus, dass es eine ganz besondere Art von Funktion der Xs ist. Eine gängige Praxis ist es, unabhängige Variablen einzuschließen, deren prädiktive Effekte logisch nicht additiv sein können, sagen wir, dass es sich um Summen und andere um Tarife oder Prozentsätze handelt. Manchmal kann dies durch lokale Argumente der ersten Ordnung-Annäherung rationalisiert werden, und manchmal kann es nicht kommen. Sie müssen die relevanten Daten sammeln, verstehen, was sie messen, reinigen, wenn nötig, führen Sie eine deskriptive Analyse durch, um nach Muster zu suchen, bevor Sie irgendwelche Modelle anpassen und die Diagnosetests von Modellannahmen nachher, insbesondere Statistiken und Handlungen der Fehler, untersuchen. Sie sollten auch versuchen, die entsprechende wirtschaftliche oder physikalische Argumentation anzuwenden, um festzustellen, ob eine additive Vorhersagegleichung sinnvoll ist. Auch hier ist es möglich (aber nicht garantiert), dass Transformationen von Variablen oder die Einbeziehung von Interaktionsbegriffen ihre Effekte in eine additive Form trennen können, wenn sie nicht so eine Form haben, aber das erfordert etwas Gedanke und Anstrengung dein Teil. (Zurück zum Seitenanfang) Und warum sollten wir davon ausgehen, dass die Fehler der linearen Modelle unabhängig und identisch normal verteilt sind. 1. Diese Annahme ist oft gerechtfertigt durch den Appell an den zentralen Limit Theorem der Statistik, der besagt, dass die Summe oder der Durchschnitt einer ausreichend großen Anzahl von unabhängigen Zufallsvariablen - unabhängig von ihren individuellen Verteilungen - eine normale Verteilung annimmt. In den Bereichen Wirtschaft und Wirtschaft und Ingenieurwissenschaften werden die Daten und die Naturwissenschaften durch Addition oder Mittelung von numerischen Messungen an vielen verschiedenen Personen oder Produkten oder Standorten oder Zeitintervallen erhalten. Soweit die Aktivitäten, die die Messungen erzeugen, etwas zufällig und etwas unabhängig auftreten können, könnten wir erwarten, dass die Schwankungen der Summen oder Mittelwerte etwas normal verteilt sind. 2. Es ist (wieder) mathematisch bequem: Es bedeutet, dass die optimalen Koeffizientenschätzungen für ein lineares Modell diejenigen sind, die den mittleren quadratischen Fehler minimieren (der leicht berechnet wird), und es rechtfertigt die Verwendung einer Vielzahl von statistischen Tests auf der Grundlage der Normale Verteilungsfamilie (Diese Familie umfasst die t-Verteilung, die F-Verteilung und die Chi-Quadrat-Verteilung.) 3. Auch wenn der quottruequot-Fehlerprozess in Bezug auf die ursprünglichen Einheiten der Daten nicht normal ist, kann es möglich sein, die Daten so zu transformieren Dass Ihre Modelle Vorhersage Fehler sind etwa normal. Aber hier muss auch Vorsicht geübt werden. Auch wenn die unerklärlichen Variationen der abhängigen Variablen annähernd normal verteilt sind, ist nicht garantiert, dass sie auch für alle Werte der unabhängigen Variablen gleichmäßig verteilt werden. Vielleicht sind die unerklärlichen Variationen unter einigen Bedingungen größer als andere, eine Bedingung, die als quotheteroscedasticityquot bekannt ist. Zum Beispiel, wenn die abhängige Variable besteht aus täglichen oder monatlichen Gesamtverkäufe, gibt es wahrscheinlich erhebliche Tag-von-Woche-Muster oder saisonale Muster. In solchen Fällen wird die Abweichung der Summe an Tagen oder in Jahreszeiten mit größerer Geschäftstätigkeit größer sein - eine weitere Konsequenz des zentralen Grenzwertsatzes. (Variable Transformationen wie Protokollierung und saisonale Anpassung werden oft verwendet, um mit diesem Problem umzugehen.) Es ist auch nicht garantiert, dass die zufälligen Variationen statistisch unabhängig sein werden. Dies ist eine besonders wichtige Frage, wenn die Daten aus Zeitreihen bestehen. Wenn das Modell nicht korrekt spezifiziert ist, ist es möglich, dass aufeinanderfolgende Fehler (oder Fehler, die durch eine andere Anzahl von Perioden getrennt sind) eine systematische Tendenz haben, dasselbe Zeichen oder eine systematische Tendenz zu haben, entgegengesetzte Vorzeichen zu haben, ein Phänomen, das als Quarzkorrelation bezeichnet wird oder Quittale Korrelation. Ein sehr wichtiger Sonderfall ist der der Aktienkursdaten. In denen sich die prozentualen Änderungen anstatt der absoluten Änderungen normal verteilen. Dies bedeutet, dass über mäßige bis große Zeitskalen, Bewegungen der Aktienkurse lognorm verteilt sind, anstatt normal verteilt zu werden. Eine Log-Transformation wird typischerweise auf historische Aktienkursdaten angewendet, wenn man Wachstum und Volatilität studiert. Achtung: Obwohl einfache Regressionsmodelle oft an historische Aktienrenditen angepasst sind, um die Quittung zu bewerten, die Indikatoren für das relative Risiko im Rahmen eines diversifizierten Portfolios sind, empfehle ich nicht, dass Sie Regression verwenden, um zu versuchen, zukünftige Aktienrenditen vorherzusagen. Siehe die geometrische zufällige Wanderseite stattdessen. Man könnte immer noch denken, dass Variationen in den Werten von Portfolios von Aktien eher aufgrund des zentralen Limit-Theorems verteilt werden würden, aber der zentrale Limit-Theorem ist eigentlich eher langsam, um auf der lognormalen Verteilung zu beißen, weil es so asymmetrisch lang ist, Angebunden Eine Summe von 10 oder 20 unabhängig und identisch lognorm verteilten Variablen hat eine Verteilung, die noch ganz nah an lognormal ist. Wenn du es nicht glaubst, versuch es, es durch Monte Carlo Simulation zu testen: du wirst überrascht sein. (Ich war.) Da die Annahmen der linearen Regression (lineare, additive Beziehungen zu iid normal verteilten Fehlern) so stark sind, ist es sehr wichtig, ihre Gültigkeit bei der Montage von Modellen zu testen, ein Thema, das ausführlicher auf dem Testmodell - Annahmen Seite. Und seien Sie auf die Möglichkeit aufmerksam, dass Sie mehr oder bessere Daten benötigen, um Ihre Ziele zu erreichen. Du kannst etwas aus dem Nichts bekommen. Allzu oft sehen sich die Benutzer der Regressionsanalyse als Blackbox an, die jede Variable automatisch aus irgendwelchen anderen Variablen vorhersagen kann, die in sie eingegeben werden, wenn tatsächlich ein Regressionsmodell eine ganz besondere und sehr transparente Art von Vorhersagebox ist. Seine Ausgabe enthält keine weiteren Informationen, als sie von ihren Inputs bereitgestellt werden, und ihr innerer Mechanismus muss mit der Realität in jeder Situation verglichen werden, in der sie angewendet wird. (Zurück zum Seitenanfang) Korrelation und einfache Regressionsformeln Eine Variable ist definitionsgemäß eine Menge, die von einer Messung zur anderen variieren kann, in Situationen, in denen verschiedene Proben aus einer Population entnommen werden oder Beobachtungen zu unterschiedlichen Zeitpunkten gemacht werden. In der Anpassung statistischer Modelle, in denen einige Variablen verwendet werden, um andere vorherzusagen, was wir hoffen, ist, dass die verschiedenen Variablen nicht unabhängig variieren (im statistischen Sinne), sondern dass sie dazu neigen, zusammen zu variieren. Insbesondere bei der Anpassung von linearen Modellen hoffen wir, dass eine Variable (zB Y) als Geradefunktion einer anderen Variablen (zB X) variiert. Mit anderen Worten, wenn alle anderen möglicherweise relevanten Variablen fest gehalten werden könnten, würden wir hoffen, den Graphen von Y gegenüber X zu finden, um eine gerade Linie zu sein (abgesehen von den unvermeidlichen zufälligen Fehlern oder Quoten). Ein Maß für den absoluten Betrag der Variabilität in einer Variablen ist (natürlich) seine Varianz. Die als ihre durchschnittliche quadratische Abweichung von ihrem eigenen Mittelwert definiert ist. Gleichermaßen können wir die Variabilität in Bezug auf die Standardabweichung messen. Die als Quadratwurzel der Varianz definiert ist. Die Standardabweichung hat den Vorteil, dass sie in den gleichen Einheiten wie die ursprüngliche Variable gemessen wird, anstatt quadratische Einheiten. Unsere Aufgabe bei der Vorhersage von Y könnte als das beschrieben werden, um einige oder alle seine Varianz zu erklären - d. h. Warum . Oder unter welchen Bedingungen weicht es von seinem Mittel ab Warum ist es nicht konstant Das heißt, wir möchten das naive prädiktive Modell verbessern können: 374 t CONSTANT, in dem der beste Wert für die Konstante vermutlich das historische Mittel ist Von Y. Genauer gesagt, hoffen wir, ein Modell zu finden, dessen Vorhersagefehler in einem mittleren quadratischen Sinn kleiner sind als die Abweichungen der ursprünglichen Variablen von ihrem Mittelwert. Bei der Verwendung von linearen Modellen für die Vorhersage stellt sich sehr praktisch heraus, dass die einzige Statistik von Interesse (zumindest zum Zwecke der Schätzung von Koeffizienten zur Minimierung des quadratischen Fehlers) der Mittelwert und die Varianz jeder Variablen und der Korrelationskoeffizient zwischen jedem Paar von Variablen ist. Der Korrelationskoeffizient zwischen X und Y wird üblicherweise mit r XY bezeichnet. Und es misst die Stärke der linearen Beziehung zwischen ihnen auf einer relativen (dh unzureichenden) Skala von -1 bis 1. Das heißt, es misst das Ausmaß, in dem ein lineares Modell verwendet werden kann, um die Abweichung einer Variablen von ihrem Mittel vorherzusagen Gegebene Kenntnis der anderen Abweichung von ihrem Mittel zum selben Zeitpunkt. Der Korrelationskoeffizient wird am einfachsten berechnet, wenn wir zuerst die Variablen standardisieren, was bedeutet, sie in Einheiten von Standardabweichungen von dem Mittelwert zu verwandeln, wobei die Populationsstandardabweichung anstelle der Probenstandardabweichung verwendet wird, dh unter Verwendung der Statistik, deren Formel Hat n anstatt n-1 im Nenner, wobei n die Stichprobengröße ist. Die standardisierte Version von X wird hier mit X bezeichnet. Und sein Wert in Periode t ist in Excel Notation definiert als: wobei STDEV. P die Excel-Funktion für die Populationsstandardabweichung ist. (Hier und anderswo werde ich Excel-Funktionen anstelle von konventionellen Mathe-Symbolen in einigen Formeln verwenden, um zu veranschaulichen, wie die Berechnungen auf einer Tabellenkalkulation durchgeführt werden würden.) Angenommen, AVERAGE (X) 20 und STDEV. P (X ) 5. Wenn X t 25, dann X t 1, wenn X t 10. dann X t -2 und so weiter. Y bezeichnet den ähnlich standardisierten Wert von Y. Nun ist der Korrelationskoeffizient gleich dem Durchschnittsprodukt der normierten Werte der beiden Variablen innerhalb der gegebenen Probe von n Beobachtungen: So werden z. B. wenn X und Y in Spalten gespeichert sind In einer Tabellenkalkulation können Sie die Funktionen AVERAGE und STDEV. P verwenden, um ihre Durchschnittswerte und Populationsstandardabweichungen zu berechnen. Dann können Sie zwei neue Spalten erstellen, in denen die Werte von X und Y in jeder Zeile nach der obigen Formel berechnet werden. Dann erstellen Sie eine dritte neue Spalte, in der X in jeder Zeile mit Y multipliziert wird. Der Durchschnitt der Werte in der letzten Spalte ist die Korrelation zwischen X und Y. Natürlich können Sie in Excel einfach die Formel CORREL (X, Y) verwenden, um einen Korrelationskoeffizienten zu berechnen, wobei X und Y die Zellbereiche von Die Daten für die Variablen. (Anmerkung: In einigen Situationen könnte es von Interesse sein, die Daten in Bezug auf die Beispiel-Standardabweichung zu standardisieren, die STDEV. S in Excel ist, aber die Populationsstatistik ist die richtige, die in der obigen Formel verwendet werden kann.) (Zurück zum Anfang Von der Seite.) Wenn die beiden Variablen dazu neigen, auf den gleichen Seiten ihrer jeweiligen Mittel gleichzeitig zu variieren, dann ist das durchschnittliche Produkt ihrer Abweichungen (und damit die Korrelation zwischen ihnen) positiv. Da das Produkt aus zwei Zahlen mit demselben Vorzeichen positiv ist. Umgekehrt, wenn sie dazu neigen, auf den gegenüberliegenden Seiten ihrer jeweiligen Mittel gleichzeitig zu variieren, wird ihre Korrelation negativ sein. Wenn sie unabhängig voneinander in Bezug auf ihre Mittel variieren - das heißt, wenn man gleichermaßen über oder unter seinem Mittel liegt, unabhängig davon, was das andere tut - dann ist die Korrelation Null. Und wenn Y eine exakte lineare Funktion von X ist, dann ist entweder Y t X t für alle t oder auch Y t - X t für alle t. In diesem Fall reduziert sich die Formel für die Korrelation auf 1 oder -1. Der Korrelationskoeffizient kann gesagt werden, um die Stärke der linearen Beziehung zwischen Y und X aus folgendem Grund zu messen. Die lineare Gleichung zur Vorhersage von Y aus X, die den mittleren quadratischen Fehler minimiert, ist einfach: Wenn also X eine Standardabweichung oberhalb seines eigenen Mittels ist, dann sollten wir voraussagen, dass Y r XY Standardabweichungen über seinem eigenen Mittel ist, wenn X Ist 2 Standardabweichungen unterhalb des eigenen Mittels, dann sollten wir voraussagen, dass Y 2 r XY Standardabweichungen unterhalb seines eigenen Mittels und so weiter sein wird. In grafischer Hinsicht bedeutet dies, dass auf einem Scatterplot von Y gegen X. Die Linie für die Vorhersage von Y aus X, um den mittleren quadratischen Fehler zu minimieren, ist die Linie, die den Ursprung durchläuft und die Steigung r XY hat. Diese Tatsache soll nicht offensichtlich sein, aber es ist leicht durch elementare Differentialrechnung zu beweisen. Hier ist ein Beispiel: auf einem Scatterplot von Y gegen X. Die visuelle Symmetrieachse ist eine Linie, die durch den Ursprung hindurchgeht und deren Steigung gleich 1 ist (d. h. eine 45-Grad-Linie), die die graue gestrichelte Linie auf dem unten stehenden Diagramm ist. Es geht durch den Ursprung, weil die Mittel beider standardisierten Variablen null sind und seine Steigung gleich 1 ist, weil ihre Standardabweichungen beide gleich 1 sind. (Die letztgenannte Tatsache bedeutet, dass die Punkte gleichmäßig horizontal und vertikal verteilt sind Mittlere quadratische Abweichungen von null, die ihr Muster zwingen, ungefähr symmetrisch um die 45-Grad-Linie zu erscheinen, wenn die Beziehung zwischen den Variablen wirklich linear ist.) Allerdings ist die graue gestrichelte Linie die nicht die beste Zeile für die Vorhersage des Wertes von Y für einen gegebenen Wert von X. Die beste Zeile für die Vorhersage von Y aus X hat eine Steigung von weniger als 1: es regressiert in Richtung der X-Achse. Die Regressionslinie ist rot dargestellt, und ihre Steigung ist die Korrelation zwischen X und Y. Das ist in diesem Fall 0,46. Warum ist das wahr Denn das ist der Weg zu wetten, wenn du den mittleren quadratischen Fehler in der Y-Richtung messen willst. Wenn Sie stattdessen X von Y vorhersagen wollten, um den in der X-Richtung gemessenen mittleren quadratischen Fehler zu minimieren, würde die Linie in der anderen Richtung relativ zur 45-Grad-Linie und in genau der gleichen Menge zurückfallen. Wenn wir die lineare Regressionsgleichung für die Vorhersage von Y aus X in nicht standardisierten Begriffen erhalten wollen. Wir müssen nur die Formeln für die normierten Werte in der vorangehenden Gleichung ersetzen, die dann werden: Durch Umordnen dieser Gleichung und Sammeln konstanter Terme erhalten wir: ist die geschätzte Steigung der Regressionsgeraden und ist die geschätzte Y-Intercept der Linie. Beachten Sie, dass, wie wir bereits erwähnt haben, die Koeffizienten in der linearen Gleichung zur Vorhersage von Y aus X nur von den Mitteln und Standardabweichungen von X und Y und von ihrem Korrelationskoeffizienten abhängen. Die zusätzlichen Formeln, die zur Berechnung von Standardfehlern benötigt werden. T-statistiken Und P-Werte (Statistiken, die die Genauigkeit und die Bedeutung der geschätzten Koeffizienten messen) sind in den Notizen zur Mathematik der einfachen Regression angegeben und auch in dieser Tabellenkalkulation dargestellt. Eine vollkommene positive Korrelation (r XY 1) oder eine vollkommene negative Korrelation (r XY -1) wird nur dann erhalten, wenn eine Variable eine exakte lineare Funktion des anderen ist, ohne Fehler, in welchem ​​Fall sie wirklich wirklich unterschiedliche Variablen haben. Im allgemeinen finden wir weniger als eine perfekte Korrelation, das heißt, wir finden, daß r XY kleiner als 1 im absoluten Wert ist. Daher ist unsere Vorhersage für Y typischerweise kleiner als unser beobachteter Wert für X. Das heißt, die Vorhersage für Y ist immer näher an seinem eigenen Mittel, in Einheiten seiner eigenen Standardabweichung, als X beobachtet wurde, was Galtons Phänomen der Regression zum Mittel ist. Die technische Erklärung der Regression-to-the-mean-Wirkung hängt also von zwei mathematischen Tatsachen ab: (i) der Korrelationskoeffizient, der in der oben beschriebenen Weise berechnet wird, ist der Koeffizient, der den quadratischen Fehler bei der Vorhersage von Y aus X minimiert . Und (ii) der Korrelationskoeffizient ist niemals größer als 1 im absoluten Wert, und er ist nur gleich 1, wenn Y eine exakte (geräuschlose) lineare Funktion von X ist. Der Begriff quotregressionquot hat gehaftet und hat sogar von einem intransitiven verb in eine transitive eins seit Galtons Zeit mutiert. Wir sagen nicht nur, dass die Vorhersagen für Y den Rückgriff auf den Mittelwert haben - wir sagen jetzt, dass wir Y auf X setzen, wenn wir eine lineare Gleichung für die Vorhersage von Y aus X. schätzen und wir in diesem Fall auf X als ein Regressor beziehen. Wenn wir ein lineares Regressionsmodell installiert haben, können wir die Varianz seiner Fehler berechnen und dies mit der Varianz der abhängigen Variablen vergleichen (letzteres ist die Fehlerabweichung eines Intercept-only-Modells). Der relative Betrag, um den die Regressionsmodellfehlerabweichung kleiner ist als die Varianz der abhängigen Variablen, wird als der Bruchteil der Varianz bezeichnet, der durch die unabhängige Variable (n) erklärt wurde. Zum Beispiel, wenn die Fehlervarianz 20 weniger als die ursprüngliche Varianz ist, sagen wir, wir haben 20 der Varianz quotexplained Es stellt sich heraus, dass in einem einfachen Regressionsmodell der Bruchteil der Varianz genau das Quadrat des Korrelationskoeffizienten ist - - ie Das Quadrat von r. Daher ist der Bruchteil der Abweichung-erklärterweise als r-squaredquot bekannt. Die Interpretation und Verwendung von R-Quadraten werden hier näher erläutert. In einem multiplen Regressionsmodell (eins mit zwei oder mehr X-Variablen) gibt es viele Korrelationskoeffizienten, die zusätzlich zu allen Mitteln und Abweichungen berechnet werden müssen. Zum Beispiel müssen wir die Korrelation zwischen jeder X-Variablen und der Y-Variablen und auch die Korrelation zwischen jedem Paar von X-Variablen berücksichtigen. In diesem Fall stellt sich heraus, dass die Modellkoeffizienten und die Fraktionsvarianz-erklärte Statistik vollständig aus der Kenntnis der Mittel, Standardabweichungen und Korrelationskoeffizienten unter den Variablen berechnet werden können - aber die Berechnungen sind nicht mehr einfach . Wir werden diese Daten dem Computer überlassen. (Zurück zum Seitenanfang.) Gehen Sie zu einem nahe gelegenen Thema:

No comments:

Post a Comment