Hallo liebe Mitmenschen,
ich bin was Mathe angeht leider ein ziemlicher Noob und brauche mal eure Hilfe bei folgendem Problem:
Problembeschreibung:
Ich habe zwei Datenreihen (zur Vereinfachung damit ihr wisst was das für Datenreihen genau sind; die unten aufgeführten Tests wurden an der eigentlicheN Datenreihe durchgeführt und nicht an denen hier beschriebenen; die Art bleibt aber erhalten):
- Datenreihe 1 ist eine Messung einer chemischen konzentration über Zeit (also eine Ganglinie)
Für diese Datenreihe sei mal für die folgenden Zeiten Minuten folgende Reihenfolge der Werte gegeben: 1,2,<kein Wert>,<kein Wert>,3,4
- Datenreihe 2 ist ebenfalls eine solche Messung
Für diese Datenreihe sei mal für die folgenden Zeiten Minuten folgende Reihenfolge der Werte gegeben: Problem:
- Datensatz 1 weist in Mitte der zeitlichen Reihe also eine Messlücke auf und soll nun durch Datensatz 2 ergänzt werden, für welche für diese Zeitpunkte eben durchaus Messungen bestehen.
. der ergänzte Datensatz für oben genannten Zeitintervalle wäre: . Soweit so gut.
Beide Datensätze zeigen zwar Messergebnisse der chemischen Konzentrationen auf, aber da es sich um verschiedene Labore handelt, gibt es immer typische Unterschiede. Professor meinte nun ich könne irgendwelche Konfidenzintervalle berechnen, damit man schauen kann, ob die ermittelten Werte aus dem zweiten Labor, welche die Datenlücken füllen, allgemein mit zu der Datenreihe 1 hinzugenommen werden können; hatte aber nur so etwa mir das in 3 Sekunden das gesagt und keine Zeit das weiter zu erläutern - und ich bin was Mathe angeht ziemlicher Vollnoob :-P) Irgendwie kann ich die Datensätze plotten, muss dann aber wenn ich zu der Ganglinie auf Basis von Datensatz 1 Datensatz 2 für die Lücken nehme eine zweite Y-Achse für die Konfidenzintervalle hinzu packen. Ich hab aber keine Ahnung wie das geht.
Mein Lösungsansatz 1:
Ich habe mich bereits etwas schlau gemacht. . soweit es mein arg eingerostetes Matheverständnis zulässt.
Vorraussetzung für die Ermittlung von Konfidenzintervallen ist - soweit ich weiß - eine Normalverteilung. Also habe ich mal einfach die komplette Datenreihe 2 genommen und die Messwerte mittels OriginLab mehreren Tests unterzogen, nachdem ich bereits Exzess und Schiefe via Excel bestimmt hatte ( =keine Normalverteilung) (wie die genau funktionieren versteh ich nun leider nicht; bin aber primär auch erstmal an der Lösung des eigentlichen problems interessiert)
- Shapiro-Wilk Test ergibt DF=48Statistik=0,95458p-Wert=0,06102Normalverteilung kann nicht zurückgewiesen werden. - Lilliefors ergibt DF=48Statistik=0,12032p-Wert=0,07944Normalverteilung kann nicht zurückgewiesen werden. - Kolmogorov-Shmirov ergibt DF=48Statistik=0,12032p-Wert=0,46072Normalverteilung kann nicht zurückgewiesen werden. - Anderson_Darling-Test ergibt Statistik=0,6342p-Wert=0,09262Normalverteilung kann nicht zurückgewiesen werden. - DAgostino Test Quadrat ergibt D'Agostino OmnibusStatistik=6,99623p-Wert=0,03025Normalverteilung zurückweisen D'Agostino SchiefeStatistik=0,68664p-Wert=0,49231Normalverteilung kann nicht zurückgewiesen werden. D'Agostino KurtosisStatistik=-2,55436p-Wert=0,01064Normalverteilung zurückweisen - Chen Shapiro Test ergibt Statistik=0,03229p-Wert=0,0038 (krisitscher Wert)=0,03053Normalverteilung zurückweisen
Nun ist es so, dass ich irgendwo gelesen habe, dass der Shapiro-Wilk eindeutig ein guter Test ist und sehr aussagekräftig. Zu den anderen habe ich nicht viel Informationen.
Folglich besteht im Sinne des Shapiro-Wilk keine Normalverteilung.
Lösungsansatz 2: Ich bestimmt die Konfidenzintervalle des Mittelwertes für die erste Datenreihe. Ich male mir mal den Mittelwert grafisch auf sowie die oberen und unteren Schranken und schaue einfach, ob die Messungen des Datensatzes 2 innerhalb diesen bereiches liegen. Ist dem nicht so, kann ich Datensatz 2 nicht verwenden. Vorraussetzung bildet aber auch hierfür die Normalverteilung (welche auch hier nicht gegeben ist(diese Testergebnisse habe ich jetzt nicht gezeigt))
Frage ist nun folgende:
- Könnte die Argumentation ausreichen zu begründen keine Konfidenzintervalle zu berechnen? - Könnte ich auf Basis der Ergebnisse der Tests dennoch die Berechnung der Konfidenzintervalle vornehmen ? - Sofern ich die Berechnung der Konfidenzintervalle vornehmen kann: So geht dies doch nur anhand des Mittelwertes oder? - Sofern ich das Konfidenzintervall für Datensatz 2 beispielsweise für den Messwert 7 (Minute berechnen wollte, so bräuchte ich doch für diese Messzeit mehr als nur einen Messwert oder nicht? Anders gesagt: Die Bestimmung der Konfidenzintervalle anhand der Mittelwerte aus allen Messungen bringt mir rein gar nichts, wenn ich das obige Ziel, nämlich für den einzelnen Messpunkt ein Konfidenzintervall zu berechnen, erreichen will. Ich muss eigentlich nämlich dann den Mittelwert aus einer Messschar für eine Messzeit bestimmen. Erst dann lässt sich in der geforderten Grafik auch eine zweite Y-Achse hinzufügen, welcher ggü. ich für den Messzeitpunkt ein Konfidenzintervall ablesen kann. Ist diese Annahme so richtig? - siehe Lösungsansatz wäre das möglich? - Was kann ich tun?
Leider verstehe ich nicht viel von höherer Mathematik. Sofern ich aber eine gute Begründung habe, wieso ich diese Darstellung nicht anwende, knickt mein Prof vielleicht ein und ich komm drum herum. Bin unter argen Druck gerade, also wenn wer eine zugängliche Hilfestellung hat, wäre ich hierfür dankbar :-)
Lg und Vielen Dank fürs Lesen
Für alle, die mir helfen möchten (automatisch von OnlineMathe generiert): "Ich bräuchte bitte einen kompletten Lösungsweg." (setzt voraus, dass der Fragesteller alle seine Lösungsversuche zur Frage hinzufügt und sich aktiv an der Problemlösung beteiligt.) |