Berechnen Sie Ausreißer

Autor: Charles Brown
Erstelldatum: 8 Februar 2021
Aktualisierungsdatum: 1 Juli 2024
Anonim
Immobilienbesteuerung Österreich - Mag. Manfred Kunisch
Video: Immobilienbesteuerung Österreich - Mag. Manfred Kunisch

Inhalt

EIN Ausreißer oder Ausreißer In der Statistik handelt es sich um einen Datenpunkt, der sich erheblich von den anderen Datenpunkten in einer Stichprobe unterscheidet. Ausreißer weisen Statistikern häufig auf Unstimmigkeiten oder Fehler bei den Messungen hin, wonach sie den Ausreißer aus dem Datensatz entfernen können. Wenn sie sich tatsächlich dafür entscheiden, die Ausreißer aus dem Datensatz zu entfernen, kann dies zu erheblichen Änderungen der aus der Studie gezogenen Schlussfolgerungen führen. Aus diesem Grund ist es wichtig, Ausreißer zu berechnen und zu bestimmen, wenn Sie statistische Daten richtig interpretieren möchten.

Schreiten

  1. Erfahren Sie, wie Sie mögliche Ausreißer erkennen. Bevor wir entscheiden können, ob anomale Werte aus einem bestimmten Datensatz entfernt werden sollen, müssen wir natürlich zuerst die möglichen Ausreißer im Datensatz identifizieren. Ausreißer sind im Allgemeinen die Datenpunkte, die erheblich von dem Trend abweichen, der die anderen Werte in der Menge bildet - mit anderen Worten, sie schießen der anderen Werte. Dies ist normalerweise in Tabellen und (insbesondere) in Diagrammen leicht zu erkennen. Wenn der Datensatz visuell grafisch dargestellt wird, sind die Ausreißer "weit" von den anderen Werten entfernt. Wenn beispielsweise die meisten Punkte in einem Datensatz eine gerade Linie bilden, stimmen Ausreißer nicht mit dieser Linie überein.
    • Schauen wir uns einen Datensatz an, der die Temperaturen von 12 verschiedenen Objekten in einem Raum zeigt. Wenn die Temperatur von 11 Objekten um höchstens 21 ° C um einige Grad schwankt, während ein Objekt, ein Ofen, eine Temperatur von 150 ° C hat, können Sie auf einen Blick erkennen, dass der Ofen wahrscheinlich ein Ausreißer ist.
  2. Sortieren Sie alle Datenpunkte vom niedrigsten zum höchsten. Der erste Schritt bei der Berechnung von Ausreißern besteht darin, den Medianwert (oder den Mittelwert) des Datensatzes zu ermitteln. Diese Aufgabe wird viel einfacher, wenn die Werte in der Menge vom niedrigsten zum höchsten Wert sind. Bevor Sie fortfahren, sortieren Sie die Werte in Ihrem Datensatz wie folgt.
    • Fahren wir mit dem obigen Beispiel fort. Hier ist unser Datensatz, der die Temperaturen verschiedener Objekte in einem Raum in Grad Fahrenheit zeigt: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Wenn wir die Werte in der Menge vom niedrigsten zum höchsten sortieren, wird dies unsere neue Menge: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. Berechnen Sie den Median des Datensatzes. Der Median eines Datensatzes ist der Datenpunkt, an dem sich die Hälfte der Daten darüber und die Hälfte der Daten darunter befindet - er ist praktisch das "Zentrum" des Datensatzes. Wenn der Datensatz eine ungerade Anzahl von Punkten enthält, ist der Median leicht zu finden - der Median ist der Punkt mit so vielen Punkten oben wie unten. Wenn es eine gerade Anzahl von Punkten gibt, weil es kein Zentrum gibt, müssen Sie den Durchschnitt der beiden Mittelpunkte nehmen, um den Median zu finden. Bei der Berechnung von Ausreißern wird der Median normalerweise durch die Variable Q2 bezeichnet, da er zwischen Q1 und Q3, dem ersten und dritten Quartil, liegt. Wir werden diese Variablen später bestimmen.
    • Lassen Sie sich nicht von Datensätzen mit einer geraden Anzahl von Punkten verwechseln - der Durchschnitt der beiden Mittelpunkte ist häufig eine Zahl, die nicht im Datensatz selbst enthalten ist - dies ist in Ordnung. Wenn jedoch die beiden Mittelpunkte gleich sind, wird der Mittelwert natürlich auch diese Zahl sein - auch dies ist okay.
    • In unserem Beispiel haben wir 12 Punkte. Die beiden mittleren Terme sind die Punkte 6 und 7 - 70 bzw. 71. Der Median unseres Datensatzes ist also der Mittelwert dieser beiden Punkte: ((70 + 71) / 2) =70,5.
  4. Berechnen Sie das erste Quartil. Dieser Punkt, den wir mit der Variablen Q1 bezeichnen, ist der Datenpunkt, unter dem 25 Prozent (oder ein Viertel) der Beobachtungen liegen. Mit anderen Worten, dies ist das Zentrum aller Punkte in Ihrem Datensatz unten der Median. Wenn eine gerade Anzahl von Werten unter dem Median liegt, müssen Sie erneut den Durchschnitt der beiden Mittelwerte verwenden, um Q1 zu finden, wie Sie es möglicherweise getan haben, um den Median selbst zu bestimmen.
    • In unserem Beispiel liegen sechs Punkte über dem Median und sechs Punkte darunter. Um das erste Quartil zu finden, müssen wir den Durchschnitt der beiden Mittelpunkte in den unteren sechs Punkten nehmen. Die Punkte 3 und 4 der unteren sechs sind beide 70, daher ist ihr Mittelwert ((70 + 70) / 2) =70. Unser Wert für Q1 beträgt also 70.
  5. Berechnen Sie das dritte Quartil. Dieser Punkt, den wir mit der Variablen Q3 bezeichnen, ist der Datenpunkt, über dem 25 Prozent der Daten liegen. Das Finden von Q3 ist praktisch dasselbe wie das Finden von Q1, außer dass wir uns die Punkte in diesem Fall ansehen über der Median.
    • Wenn wir mit dem obigen Beispiel fortfahren, sehen wir, dass die beiden Mittelpunkte der sechs Punkte über dem Median 71 und 72 sind. Der Mittelwert dieser beiden Punkte ist ((71 + 72) / 2) =71,5. Unser Wert für das dritte Quartal beträgt also 71,5.
  6. Finden Sie den Interquartilbereich. Nachdem wir Q1 und Q3 bestimmt haben, müssen wir den Abstand zwischen diesen beiden Variablen berechnen. Sie können den Abstand zwischen Q1 und Q3 ermitteln, indem Sie Q1 von Q3 subtrahieren. Der Wert, den Sie für den Interquartilbereich erhalten, ist entscheidend für die Bestimmung der Grenzen für nicht abweichende Punkte in Ihrem Datensatz.
    • In unserem Beispiel betragen die Werte für Q1 und Q3 70 bzw. 71,5. Um den Interquartilbereich zu ermitteln, berechnen wir Q3 - Q1: 71,5 - 70 =1,5.
    • Dies funktioniert auch dann, wenn Q1, Q3 oder beide Zahlen negativ sind. Wenn unser Wert für Q1 beispielsweise -70 wäre, wäre der Interquartilbereich 71,5 - (-70) = 141,5, was korrekt ist.
  7. Finden Sie die "inneren Grenzen" des Datensatzes. Sie können Ausreißer erkennen, indem Sie feststellen, ob sie innerhalb einer Reihe von numerischen Grenzen liegen. die sogenannten "inneren Grenzen" und "äußeren Grenzen". Ein Punkt, der außerhalb der inneren Grenzen des Datensatzes liegt, wird als einer klassifiziert milder Ausreißerund ein Punkt außerhalb der äußeren Grenzen wird als eins klassifiziert extremer Ausreißer. Um die inneren Grenzen Ihres Datensatzes zu ermitteln, multiplizieren Sie zunächst den Interquartilbereich mit 1,5. Addiere das Ergebnis zu Q3 und subtrahiere es von Q1. Die beiden Ergebnisse sind die inneren Grenzen Ihres Datensatzes.
    • In unserem Beispiel beträgt der Interquartilbereich (71,5 - 70) oder 1,5. Multiplizieren Sie dies mit 1,5, um 2,25 zu erhalten. Wir addieren diese Zahl zu Q3 und subtrahieren sie von Q1, um die inneren Grenzen wie folgt zu finden:
      • 71,5 + 2,25=73,75
      • 70 - 2,25=67,75
      • So sind die Binnengrenzen 67,75 und 73,75.
    • In unserem Datensatz liegt nur die Ofentemperatur - 300 Grad Fahrenheit - außerhalb dieses Bereichs. Dies kann also ein milder Ausreißer sein. Wir müssen jedoch noch feststellen, ob diese Temperatur ein extremer Ausreißer ist. Lassen Sie uns daher noch nicht zu Schlussfolgerungen gelangen.
  8. Finden Sie die "äußeren Grenzen" des Datensatzes. Sie tun dies auf die gleiche Weise wie bei den inneren Grenzen, mit dem einzigen Unterschied, dass Sie den Interquartilabstand mit 3 statt mit 1,5 multiplizieren. Anschließend addieren Sie das Ergebnis zu Q3 und subtrahieren von Q1, um die äußeren Grenzwerte zu ermitteln.
    • In unserem Beispiel multiplizieren wir den Interquartilabstand mit 3, um (1,5 * 3) oder 4,5 zu erhalten. Wir können jetzt die äußeren Grenzen auf die gleiche Weise finden wie die inneren Grenzen:
      • 71,5 + 4,5=76
      • 70 - 4,5=65,5
      • Die äußeren Grenzen sind also 65,5 und 76.
    • Datenpunkte, die außerhalb der Außengrenzen liegen, gelten als extreme Ausreißer. In unserem Beispiel liegt die Ofentemperatur von 300 Grad Fahrenheit weit außerhalb der Außengrenzen. Die Ofentemperatur ist also bestimmt ein extremer Ausreißer.
  9. Verwenden Sie eine qualitative Bewertung, um festzustellen, ob Sie die Ausreißer "rauswerfen" sollten. Mit der obigen Methode können Sie feststellen, ob bestimmte Punkte milde Ausreißer, extreme Ausreißer oder überhaupt keine Ausreißer sind. Aber machen Sie keinen Fehler - das Erkennen eines Punktes als Ausreißer macht ihn nur zu einem Kandidat aus dem Datensatz entfernt werden und nicht sofort ein Punkt, der entfernt wird Muss einbiegen in. Das Grund Warum sich ein Ausreißer von den übrigen Punkten im Satz unterscheidet, ist entscheidend für die Entscheidung, ob der Ausreißer entfernt werden soll. Im Allgemeinen werden Ausreißer, die durch einen Fehler verursacht wurden - beispielsweise ein Fehler in den Messungen, in den Aufzeichnungen oder im Versuchsaufbau - entfernt. Im Gegensatz dazu werden Ausreißer, die nicht durch Fehler verursacht werden und neue, unvorhergesehene Informationen oder Trends enthüllen, normalerweise nicht gelöscht.
    • Ein weiteres zu berücksichtigendes Kriterium ist, ob die Ausreißer den Mittelwert eines Datensatzes verzerrt oder irreführend beeinflussen. Dies ist besonders wichtig, wenn Sie aus dem Mittelwert Ihres Datensatzes Schlussfolgerungen ziehen möchten.
    • Lassen Sie uns unser Beispiel beurteilen. Seit der höchste Es ist unwahrscheinlich, dass der Ofen aufgrund einer unvorhergesehenen Naturgewalt eine Temperatur von 300 ° F erreicht hat. In unserem Beispiel können wir mit fast 100% iger Sicherheit schließen, dass der Ofen versehentlich eingeschaltet wurde und einen ungewöhnlich hohen Temperaturwert verursacht. Wenn wir den Ausreißer nicht entfernen, ergibt sich außerdem ein Mittelwert aus unserem Datensatz (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 ° F, während der Mittelwert ohne der Ausreißer ergibt (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 ° F.
      • Da der Ausreißer durch menschliches Versagen verursacht wurde und es falsch ist zu sagen, dass die durchschnittliche Raumtemperatur nahe 32 ° C lag, müssen wir uns für die Verwendung unseres Ausreißers entscheiden. entfernen.
  10. Verstehen Sie, wie wichtig es ist, (manchmal) Ausreißer zu behalten. Während einige Ausreißer aus einem Datensatz entfernt werden sollten, weil sie das Ergebnis von Fehlern sind oder weil sie die Ergebnisse auf irreführende Weise verzerren, sollten andere Ausreißer beibehalten werden. Wenn beispielsweise ein Ausreißer korrekt ermittelt wurde (und daher nicht das Ergebnis eines Fehlers ist) und / oder wenn der Ausreißer einen neuen Einblick in das zu messende Phänomen bietet, sollte er nicht sofort entfernt werden. Wissenschaftliche Experimente sind besonders heikle Situationen im Umgang mit Ausreißern. Wenn Sie einen Ausreißer fälschlicherweise entfernen, können Sie wichtige Informationen über einen neuen Trend oder eine neue Entdeckung wegwerfen.
    • Stellen Sie sich zum Beispiel vor, wir entwickeln ein neues Medikament, um den Fisch in einer Fischfarm größer werden zu lassen. Verwenden wir unseren alten Datensatz ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}) mit dem Unterschied, dass jeder Punkt jetzt die Masse eines Fisches darstellt (in Gramm) ) nach Behandlung mit einem anderen experimentellen Medikament von Geburt an. Mit anderen Worten, die erste Droge gab einem Fisch eine Masse von 71 Gramm, die zweite gab einem anderen Fisch eine Masse von 70 Gramm und so weiter. In dieser Situation 300 immer noch ein riesiger Ausreißer, aber wir sollten ihn jetzt nicht entfernen. Wenn wir davon ausgehen, dass der Ausreißer nicht das Ergebnis eines Fehlers ist, ist dies ein großer Erfolg in unserem Experiment. Die Droge, die einen 300-Gramm-Fisch produzierte, wirkte besser als jede andere Droge, also ist es das die meisten wichtiger Datenpunkt in unserem Set, anstelle des am wenigsten wichtiger Datenpunkt.

Tipps

  • Wenn Sie Ausreißer finden, versuchen Sie, diese zu erklären, bevor Sie sie aus dem Datensatz entfernen. Sie können Messfehler oder Abweichungen in der Verteilung anzeigen.

Notwendigkeiten

  • Taschenrechner