|
Hallo,
ich möchte Daten vergleichen, welche in drei verschiedenen Jahren erhoben worden sind. Ich habe drei Datensätze, die jeweils Daten haben müssten. Jedoch sind in zwei der drei Jahren einige Zeilen mitten in meiner Tabelle leer. Datensatz Zeilen Datensatz Zeilen Datensatz Zeilen Es geht mir um bestimmte Werte dieser Datensätze, . B. alle die größer sind. Hier möchte ich die Anzahl der Werte die größer als sind mit den jeweils anderen Jahren vergleichen. Datensatz Daten die größer als sind Datensatz Daten die größer als sind Datensatz Daten die größer als sind Mein Lösungsvorschlag um die Daten auf die theoretisch gleiche "Grundgesamheit" (Begriff hier richtig verwendet?) zu bringen: . für Datensatz 2 (gerundet) . für Datensatz 3 (gerundet)
Sind diese "korrigierten" Werte nun vergleichbar mit dem von Datensatz 1? Ich hoffe ich konnte meine Anliegen versändliche erklären. Für Rückfragen stehe ich bereit.
MfG Craig
Für alle, die mir helfen möchten (automatisch von OnlineMathe generiert): "Ich benötige bitte nur das Ergebnis und keinen längeren Lösungsweg." |
|
|
"Sind diese "korrigierten" Werte nun vergleichbar mit dem von Datensatz 1?"
Vergleichbar waren sie auch ohne Korrektur. Denn "vergleichbar" ist kein mathematischer Begriff. :-) Das mag sinnvoll sein, was Du gemacht hast, aber wenn Du eine mathematische Antwort brauchst, musst Du zuerst eine mathematische Frage stellen. ;-)
|
|
Mein Problem ist, dass bei den Datensätzen 2 und 3 aufgrund der leeren Zeilen auch meine gesuchten Werte über betroffen sein könnten, daher wollt ich diese Datensätze auf einen Nenner bringen. Wäre dies dann nicht die "bessere" Variante, anstatt die Daten "nur so" miteinander zu vergleichen?
Sorry, wenn mein Anliegen nicht direkt mathematisch ist ;-) Ich möchte nur statistisch korrekt arbeiten. Trotzdem Danke für deine schnelle Antwort.
MfG Craig
|
|
"Ich möchte nur statistisch korrekt arbeiten."
Statistisch korrekt ist Dein Anliegen auch nicht, so lange Du es nicht präzisierst. Was bedeutet überhaupt "verlgeichen"? Was für Aussage willst Du erreichen, was für Ergebnis?
|
|
Ich habe drei gleiche Beobachtungszeiträume verteilt auf drei verschiedene Jahre. Ein Beobachtungszeitraum sollte Stunden betragen, was bei Datensatz 1 ja noch zutrifft. Bei den relevanten Werten über handelt es sich um Temperaturen in °C. Ich möchte also die Anzahl der Stunden der Temperaturen mit über 25°C dieser drei Jahre miteinander vergleichen. Damit möchte ich analyiseren, welche Jahre mehr oder weniger Stunden mit über 25°C hatten. Da frage ich mich nun ob es so "einfach" vergleichbar ist, sofern in den Datensätzen 2 und 3 einige Werte nicht vorhanden sind.
|
|
"Damit möchte ich analyiseren, welche Jahre mehr oder weniger Stunden mit über 25°C hatten."
Also, wenn Du dieses Problem mit verschiedener Anzahl von Datensätzen nicht hättest, also wenn Du z.B. in jedem Jahr 2200 Zeilen hättest, was wäre das Ergebnis Deiner Analyse? Die Antwort der Art: im Jahr X gab's 150 Stunden über 25 Grad und im Jahr Y gab's 160 Stunden? Was hat das mit Statistik zu tun?
Deine Anpassung ist zwar naheliegend, aber ob sie sinnvoll ist, hängt davon ab, wie die Daten überhaupt zustande gekommen sind. Je weniger gleichmäßig die Daten auf die Tage verteilt sind, desto weniger "belastbar" ist die Anpassung durch einfache "Mittelung". Wobei das muss alles auch präzisiert werden, sonst ist es einfach Bla-Bla-Bla und keine Statistik.
|
|
Wie geht man denn in der Statistik mit fehlenden Werten um und dann bezogen auf meine Daten? Interpolierbar sind diese hier nicht. Daher wollte ich es auf einen Nenner bringen. Und das hat wirklich nix mit Statistik zu tun? Was meine Aufgabe bzw. mein Ziel ist, ist doch für das Problem irrelevant. Mein Anliegen bleibt das selbe.
|
|
Es gibt viele Methoden, mit fehlenden Werten umzugehen. Welche am besten ist, lässt sich schwer feststellen, aber auf jeden Fall ist es abhängig davon, was für Daten es sind und was man mit ihnen tun will. Die einfachste Methode besteht darin, fehlende Werte mit Mittelwerten zu ersetzen (das ist nicht dasselbe, was Du tust), aber bei dieser Aufgabe ist es nicht unbedingt die beste Methode. Ich würde eher Mittelwerte pro Tag benutzen.
Ob es Statistik ist oder nicht, hängt von dem Ziel des Ganzen ab. Wenn Du z.B. einen statistischen Test für den Vergleich der Werte machen würdest, wäre es eine statistische Aufgabe.
|