Mathematik online lernen im Mathe-Forum. Nachhilfe online
Startseite » Forum » Daten vergleichen

Daten vergleichen

Universität / Fachhochschule

Tags: Statistik, ungleiche Anzahl von Daten

 
Antworten Neue Frage stellen Im Forum suchen
Neue Frage
Craig133

Craig133 aktiv_icon

15:16 Uhr, 14.09.2015

Antworten
Hallo,

ich möchte Daten vergleichen, welche in drei verschiedenen Jahren erhoben worden sind.
Ich habe drei Datensätze, die jeweils 2207 Daten haben müssten. Jedoch sind in zwei der drei Jahren einige Zeilen mitten in meiner Tabelle leer.
Datensatz 1-2207 Zeilen
Datensatz 2-2180 Zeilen
Datensatz 3-2150 Zeilen
Es geht mir um bestimmte Werte dieser Datensätze, z. B. alle die größer 25 sind. Hier möchte ich die Anzahl der Werte die größer als 25 sind mit den jeweils anderen Jahren vergleichen.
Datensatz 1-200 Daten die größer als 25 sind
Datensatz 2-150 Daten die größer als 25 sind
Datensatz 3-185 Daten die größer als 25 sind
Mein Lösungsvorschlag um die Daten auf die theoretisch gleiche "Grundgesamheit" (Begriff hier richtig verwendet?) zu bringen:
z.B. für Datensatz 2
(1502180)2207=152 (gerundet)
z.B. für Datensatz 3
(1852150)2207=190 (gerundet)

Sind diese "korrigierten" Werte nun vergleichbar mit dem von Datensatz 1?
Ich hoffe ich konnte meine Anliegen versändliche erklären. Für Rückfragen stehe ich bereit.

MfG Craig

Für alle, die mir helfen möchten (automatisch von OnlineMathe generiert):
"Ich benötige bitte nur das Ergebnis und keinen längeren Lösungsweg."
Online-Nachhilfe in Mathematik
Antwort
DrBoogie

DrBoogie aktiv_icon

15:22 Uhr, 14.09.2015

Antworten
"Sind diese "korrigierten" Werte nun vergleichbar mit dem von Datensatz 1?"

Vergleichbar waren sie auch ohne Korrektur.
Denn "vergleichbar" ist kein mathematischer Begriff. :-)
Das mag sinnvoll sein, was Du gemacht hast, aber wenn Du eine mathematische Antwort brauchst, musst Du zuerst eine mathematische Frage stellen. ;-)
Craig133

Craig133 aktiv_icon

15:37 Uhr, 14.09.2015

Antworten
Mein Problem ist, dass bei den Datensätzen 2 und 3 aufgrund der leeren Zeilen auch meine gesuchten Werte über 25 betroffen sein könnten, daher wollt ich diese Datensätze auf einen Nenner bringen. Wäre dies dann nicht die "bessere" Variante, anstatt die Daten "nur so" miteinander zu vergleichen?

Sorry, wenn mein Anliegen nicht direkt mathematisch ist ;-) Ich möchte nur statistisch korrekt arbeiten.
Trotzdem Danke für deine schnelle Antwort.

MfG Craig
Antwort
DrBoogie

DrBoogie aktiv_icon

15:40 Uhr, 14.09.2015

Antworten
"Ich möchte nur statistisch korrekt arbeiten."

Statistisch korrekt ist Dein Anliegen auch nicht, so lange Du es nicht präzisierst.
Was bedeutet überhaupt "verlgeichen"? Was für Aussage willst Du erreichen, was für Ergebnis?
Craig133

Craig133 aktiv_icon

15:54 Uhr, 14.09.2015

Antworten
Ich habe drei gleiche Beobachtungszeiträume verteilt auf drei verschiedene Jahre. Ein Beobachtungszeitraum sollte 2207 Stunden betragen, was bei Datensatz 1 ja noch zutrifft. Bei den relevanten Werten über 25 handelt es sich um Temperaturen in °C. Ich möchte also die Anzahl der Stunden der Temperaturen mit über 25°C dieser drei Jahre miteinander vergleichen. Damit möchte ich analyiseren, welche Jahre mehr oder weniger Stunden mit über 25°C hatten. Da frage ich mich nun ob es so "einfach" vergleichbar ist, sofern in den Datensätzen 2 und 3 einige Werte nicht vorhanden sind.


Antwort
DrBoogie

DrBoogie aktiv_icon

16:08 Uhr, 14.09.2015

Antworten
"Damit möchte ich analyiseren, welche Jahre mehr oder weniger Stunden mit über 25°C hatten."

Also, wenn Du dieses Problem mit verschiedener Anzahl von Datensätzen nicht hättest,
also wenn Du z.B. in jedem Jahr 2200 Zeilen hättest, was wäre das Ergebnis Deiner Analyse? Die Antwort der Art: im Jahr X gab's 150 Stunden über 25 Grad und im Jahr Y gab's 160 Stunden? Was hat das mit Statistik zu tun?

Deine Anpassung ist zwar naheliegend, aber ob sie sinnvoll ist, hängt davon ab, wie die Daten überhaupt zustande gekommen sind. Je weniger gleichmäßig die Daten auf die Tage verteilt sind, desto weniger "belastbar" ist die Anpassung durch einfache "Mittelung". Wobei das muss alles auch präzisiert werden, sonst ist es einfach Bla-Bla-Bla und keine Statistik.


Craig133

Craig133 aktiv_icon

16:17 Uhr, 14.09.2015

Antworten
Wie geht man denn in der Statistik mit fehlenden Werten um und dann bezogen auf meine Daten? Interpolierbar sind diese hier nicht. Daher wollte ich es auf einen Nenner bringen. Und das hat wirklich nix mit Statistik zu tun? Was meine Aufgabe bzw. mein Ziel ist, ist doch für das Problem irrelevant. Mein Anliegen bleibt das selbe.
Antwort
DrBoogie

DrBoogie aktiv_icon

16:32 Uhr, 14.09.2015

Antworten
Es gibt viele Methoden, mit fehlenden Werten umzugehen.
Welche am besten ist, lässt sich schwer feststellen, aber auf jeden Fall ist es abhängig davon, was für Daten es sind und was man mit ihnen tun will.
Die einfachste Methode besteht darin, fehlende Werte mit Mittelwerten zu ersetzen (das ist nicht dasselbe, was Du tust), aber bei dieser Aufgabe ist es nicht unbedingt die beste Methode. Ich würde eher Mittelwerte pro Tag benutzen.

Ob es Statistik ist oder nicht, hängt von dem Ziel des Ganzen ab. Wenn Du z.B. einen statistischen Test für den Vergleich der Werte machen würdest, wäre es eine statistische Aufgabe.