So berechnen Sie Emissionen

Autor: Janice Evans
Erstelldatum: 23 Juli 2021
Aktualisierungsdatum: 1 Juli 2024
Anonim
Optimale Emissionsmenge berechnen [Umwelt- und Ressourcenökonomik #3]
Video: Optimale Emissionsmenge berechnen [Umwelt- und Ressourcenökonomik #3]

Inhalt

In der Statistik sind Ausreißer Werte, die sich stark von anderen Werten im erhobenen Datensatz unterscheiden. Ein Ausreißer kann auf Anomalien in der Datenverteilung oder auf Messfehler hinweisen, sodass Ausreißer oft aus dem Datensatz ausgeschlossen werden. Durch das Eliminieren von Ausreißern aus dem Datensatz können Sie unerwartete oder genauere Schlussfolgerungen ziehen. Daher ist es notwendig, Ausreißer berechnen und schätzen zu können, um ein angemessenes Verständnis der Statistik zu gewährleisten.

Schritte

  1. 1 Lernen Sie potenzielle Ausreißer zu erkennen. Potenzielle Ausreißer sollten identifiziert werden, bevor Ausreißer aus dem Datensatz ausgeschlossen werden. Ausreißer sind Werte, die sich stark von den meisten Werten im Datensatz unterscheiden; mit anderen Worten, Ausreißer liegen außerhalb des Trends der meisten Werte. Dies ist in Wertetabellen oder (insbesondere) in Grafiken leicht zu finden. Werden die Werte im Datensatz geplottet, liegen die Ausreißer weit von den meisten anderen Werten. Fallen beispielsweise die meisten Werte auf eine Gerade, dann liegen die Ausreißer auf beiden Seiten einer solchen Geraden.
    • Betrachten Sie beispielsweise einen Datensatz, der die Temperaturen von 12 verschiedenen Objekten in einem Raum darstellt. Wenn 11 Objekte ungefähr 70 Grad haben, das zwölfte Objekt (möglicherweise ein Ofen) jedoch 300 Grad hat, dann kann ein kurzer Blick auf die Werte darauf hinweisen, dass der Ofen wahrscheinlich ausgebrannt ist.
  2. 2 Sortieren Sie die Daten in aufsteigender Reihenfolge. Der erste Schritt bei der Bestimmung von Ausreißern besteht darin, den Median des Datensatzes zu berechnen. Diese Aufgabe wird stark vereinfacht, wenn die Werte im Datensatz in aufsteigender Reihenfolge (vom kleinsten zum größten) angeordnet sind.
    • Fahren Sie mit dem obigen Beispiel fort und betrachten Sie den folgenden Datensatz, der die Temperaturen mehrerer Objekte darstellt: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Dieses Set sollte wie folgt bestellt werden: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
  3. 3 Berechnen Sie den Median des Datensatzes. Der Median eines Datensatzes ist der Wert in der Mitte des Datensatzes. Wenn der Datensatz eine ungerade Anzahl von Werten enthält, ist der Median der Wert, vor und nach dem die gleiche Anzahl von Werten im Datensatz vorhanden ist. Wenn der Datensatz jedoch eine gerade Anzahl von Werten enthält, müssen Sie das arithmetische Mittel der beiden Mittelwerte ermitteln. Beachten Sie, dass bei der Berechnung von Ausreißern der Median normalerweise als Q2 bezeichnet wird, da er zwischen Q1 und Q3 liegt, dem unteren und oberen Quartil, die wir später definieren werden.
    • Scheuen Sie sich nicht, mit Datensätzen zu arbeiten, die eine gerade Anzahl von Werten haben - das arithmetische Mittel der beiden Mittelwerte ist eine Zahl, die nicht im Datensatz enthalten ist. es ist in Ordnung. Wenn die beiden Mittelwerte jedoch dieselbe Zahl sind, ist das arithmetische Mittel gleich dieser Zahl; das ist auch in der ordnung.
    • Im obigen Beispiel sind die mittleren 2 Werte 70 und 71, also ist der Median ((70 + 71) / 2) = 70,5.
  4. 4 Berechne das untere Quartil. Dieser als Q1 bezeichnete Wert liegt unter dem 25% der Datensatzwerte liegen. Mit anderen Worten, es ist die Hälfte der Werte bis zum Median. Wenn vor dem Median eine gerade Anzahl von Werten aus dem Datensatz vorhanden ist, müssen Sie den arithmetischen Mittelwert der beiden Mittelwerte ermitteln, um Q1 zu berechnen (dies entspricht der Berechnung des Medians).
    • In unserem Beispiel befinden sich 6 Werte nach dem Median und 6 Werte – davor. Dies bedeutet, dass wir zur Berechnung des unteren Quartils das arithmetische Mittel der beiden Mittelwerte der sechs Werte finden müssen, die vor dem Median liegen. Hier sind die Durchschnittswerte 70 und 70. Somit ist Q1 = ((70 + 70) / 2) = 70.
  5. 5 Berechne das obere Quartil. Dieser als Q3 bezeichnete Wert liegt oberhalb dessen 25% der Datensatzwerte liegen. Das Verfahren zur Berechnung von Q3 ist ähnlich dem Verfahren zur Berechnung von Q1, jedoch werden hier die Werte nach dem Median berücksichtigt.
    • Im obigen Beispiel sind die beiden Durchschnitte der sechs nach dem Median 71 und 72. Also Q3 = ((71 + 72) / 2) = 71,5.
  6. 6 Berechne den Interquartilabstand. Nachdem Q1 und Q3 berechnet wurden, ist es notwendig, den Abstand zwischen diesen Werten zu finden. Ziehen Sie dazu Q1 von Q3 ab. Der Wert des Interquartilsabstands ist äußerst wichtig, um die Grenzen von Werten zu bestimmen, die keine Ausreißer sind.
    • In unserem Beispiel ist Q1 = 70 und Q3 = 71,5. Der Interquartilbereich beträgt 71,5 - 70 = 1,5.
    • Beachten Sie, dass dies auch für negative Q1- und Q3-Werte gilt. Wenn beispielsweise Q1 = -70 ist, beträgt der Interquartilbereich 71,5 - (-70) = 141,5.
  7. 7 Finden Sie die "inneren Grenzen" der Werte im Datensatz. Ausreißer werden durch die Analyse der Werte ermittelt – ob sie innerhalb der sogenannten „inneren Grenzen“ und „äußeren Grenzen“ liegen oder nicht. Ein Wert außerhalb der „inneren Grenzen“ wird als „kleiner Ausreißer“ klassifiziert, während ein Wert außerhalb der „äußeren Grenzen“ als „signifikanter Ausreißer“ klassifiziert wird. Um die inneren Grenzen zu finden, müssen Sie den Interquartilbereich mit 1,5 multiplizieren; das Ergebnis muss zu Q3 addiert und von Q1 abgezogen werden. Die beiden gefundenen Zahlen sind die inneren Grenzen des Datensatzes.
    • In unserem Beispiel beträgt der Interquartilbereich (71,5 - 70) = 1,5. Weiter: 1,5 * 1,5 = 2,25. Diese Zahl muss zu Q3 addiert und von Q1 subtrahiert werden, um die inneren Grenzen zu finden:
      • 71,5 + 2,25 = 73,75
      • 70 - 2,25 = 67,75
      • Somit betragen die internen Grenzen 67,75 und 73,75.
    • In unserem Beispiel liegt nur die Ofentemperatur - 300 Grad - außerhalb dieser Grenzen und kann als unbedeutende Emission angesehen werden. Aber ziehen Sie keine voreiligen Schlüsse - wir müssen feststellen, ob diese Temperatur ein signifikanter Ausreißer ist.
  8. 8 Finden Sie die "äußeren Grenzen" des Datensatzes. Dies geschieht auf die gleiche Weise wie für innere Grenzen, außer dass der Interquartilabstand mit 3 statt mit 1,5 multipliziert wird. Das Ergebnis muss zu Q3 addiert und von Q1 subtrahiert werden. Die beiden gefundenen Zahlen sind die äußeren Grenzen des Datensatzes.
    • Multiplizieren Sie in unserem Beispiel den Interquartilabstand mit 3: 1,5 * 3 = 4,5. Berechnen Sie die äußeren Grenzen:
      • 71,5 + 4,5 = 76
      • 70 - 4,5 = 65,5
      • Die äußeren Grenzen sind also 65,5 und 76.
    • Alle Werte, die außerhalb der äußeren Grenzen liegen, gelten als signifikante Emissionen. In unserem Beispiel gilt eine Ofentemperatur von 300 Grad als signifikanter Blowout.
  9. 9 Verwenden Sie eine qualitative Schätzung, um zu bestimmen, ob Ausreißer aus dem Datensatz ausgeschlossen werden sollen. Mit der oben beschriebenen Methode können Sie feststellen, ob einige Werte Ausreißer sind (geringfügig oder signifikant). Machen Sie sich jedoch keinen Fehler – ein Wert, der als Ausreißer klassifiziert wird, ist nur ein „Kandidat“ für eine Ausnahme, dh Sie müssen ihn nicht ausschließen. Die Ursache des Ausreißers ist der Hauptfaktor, der die Entscheidung zum Ausschluss des Ausreißers beeinflusst. Ausreißer, die durch Fehler (bei Messungen, Aufzeichnungen etc.) entstehen, sind in der Regel ausgeschlossen. Auf der anderen Seite verbleiben Ausreißer, die nicht mit Fehlern, sondern mit neuen Informationen oder Trends verbunden sind, normalerweise im Datensatz.
    • Ebenso wichtig ist es, die Auswirkung von Ausreißern auf den Median des Datensatzes zu beurteilen (ob sie diesen verzerren oder nicht). Dies ist besonders wichtig, wenn Sie Schlussfolgerungen aus dem Median eines Datensatzes ziehen.
    • In unserem Beispiel ist es äußerst unwahrscheinlich, dass der Ofen auf eine Temperatur von 300 Grad aufheizt (außer wir berücksichtigen natürliche Anomalien). Daraus kann (mit hoher Sicherheit) geschlossen werden, dass eine solche Temperatur ein Messfehler ist, der aus dem Datensatz ausgeschlossen werden muss. Wenn Sie den Ausreißer nicht ausschließen, beträgt der Median des Datensatzes außerdem (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 Grad, Wenn Sie jedoch den Ausreißer ausschließen, beträgt der Median (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 Grad.
      • Ausreißer sind normalerweise das Ergebnis menschlichen Versagens, daher müssen Ausreißer aus den Datensätzen ausgeschlossen werden.
  10. 10 Verstehen Sie die Bedeutung der (manchmal) im Datensatz verbleibenden Ausreißer. Einige Ausreißer sollten aus dem Datensatz ausgeschlossen werden, da sie auf Fehler und technische Probleme zurückzuführen sind; andere Ausreißer sollten im Datensatz belassen werden. Wenn beispielsweise ein Ausreißer nicht das Ergebnis eines Fehlers ist und / oder ein neues Verständnis des getesteten Phänomens ermöglicht, sollte er im Datensatz belassen werden. Wissenschaftliche Experimente reagieren besonders empfindlich auf Ausreißer – wenn Sie versehentlich einen Ausreißer eliminieren, verpassen Sie möglicherweise einen neuen Trend oder eine neue Entdeckung.
    • Wir entwickeln zum Beispiel ein neues Medikament zur Vergrößerung von Fischen in der Fischerei. Wir verwenden den alten Datensatz ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), aber diesmal repräsentiert jeder Wert das Gewicht des Fisches (in Gramm). nach Einnahme experimentelles Medikament. Mit anderen Worten, das erste Medikament führt zu einer Zunahme des Fischgewichts auf 71 g, das zweite Medikament auf bis zu 70 g und so weiter. In dieser Situation ist 300 ein signifikanter Ausreißer, aber wir dürfen ihn nicht ausschließen; gehen wir davon aus, dass keine Messfehler aufgetreten sind, dann ist ein solcher Ausreißer ein signifikanter Erfolg im Experiment. Das Medikament, das das Gewicht des Fisches auf 300 Gramm erhöhte, wirkt viel besser als andere Medikamente; daher ist 300 der wichtigste Wert im Datensatz.

Tipps

  • Wenn Ausreißer gefunden werden, versuchen Sie ihr Vorhandensein zu erklären, bevor Sie sie aus dem Dataset ausschließen. Sie können auf Messfehler oder Verteilungsanomalien hinweisen.

Was brauchst du

  • Taschenrechner