Mathematik online lernen im Mathe-Forum. Nachhilfe online

Startseite » Forum » loglineare Regression

loglineare Regression

Universität / Fachhochschule

Verteilungsfunktionen

Zufallsvariablen

Tags: Lognormalverteilung, regression, Versicherungsmathematik, Verteilungsfunktion, Zufallsvariablen

anonymous

18:27 Uhr, 08.08.2019

Hallo Leute.
Ich habe mich im Rahmen meiner Bachelorarbeit mit der Chain-Ladder Methode aus der Versicherungsmathematik befasst und im Anschluss einen Tailfaktor berechnet. Dafür habe ich gesagt, dass die Chain-Ladder Faktoren lognormalverteilt sind und als Entwicklungsfunktion die Exponentialfunktion gewählt (Warum?). Die beiden Parameter a und

b

der Exponentialfunktion sollen dann mit Hilfe einer log-linearen Regression geschätzt/berechnet werden (Warum?). Diese Vorgehensweise habe ich aus dem angehängten Screenshot entnommen.

Nun stehe ich an dieser Stelle leider auf dem Schlauch.:(
Warum wählen wir die Exponentialfunktion als Entwicklung der Faktoren?
Warum kann ich sagen, dass die CL-Faktoren lognormalverteilt sind.
Wie berechne ich die Parameter a und

b

mit der Regression?

Meine Ideen:
Sind Abwicklungsfaktoren immer lognormalverteilt, also auch bei anderen Verfahren? oder sind sie lognormalverteilt, weil wir die Exponentialfunktion als Entwicklungsfunktion nehmen?

Tut mir leid, ich komme da an der Stelle gar nicht weiter mit dem Zusammenhang des Ganzen... Ich hoffe jemand kann mir dringend helfen. :-)

Liebe Grüße!

Für alle, die mir helfen möchten (automatisch von OnlineMathe generiert):
"Ich bräuchte bitte einen kompletten Lösungsweg." (setzt voraus, dass der Fragesteller alle seine Lösungsversuche zur Frage hinzufügt und sich aktiv an der Problemlösung beteiligt.)

Roman-22

19:11 Uhr, 08.08.2019

f (k) = 1 + a \cdot e^{b \cdot k} | - 1

f (k) - 1 = a \cdot e^{b \cdot k} | ln ()

ln (f (k) - 1) = ln (a) + b \cdot k

Mit

y := ln (f (k) - 1)

und

x := k

ergibt sich dann die lineare Funktion

y = b \cdot x + ln (a)

Im Text wird hier anstelle von

ln (a)

einfach nur a geschrieben, was im Grunde falsch ist, denn innerhalb einer Rechnung sollte ein Bezeichner nicht für zwei unterschiedliche Dinge stehen.
Man könnte ja

a' := ln (a)

definieren und und hat dann die lineare Funktion

y (x) = b \cdot x + a'

.
Hat man dann vermöge der Regression

a'

(und

b)

ermittelt, kommt man mit

a = e x p (a')

auf den Parameter

a

.

Der Grund für dieses Logarithmieren der um 1 verminderten f-Werte ist, dass man nun für

x

und

y

nur eine lineare Regression durchführen muss und das zumindest händisch deutlich einfacher ist, als eine nichtlineare. Für ein entsprechendes Programm sollte es keinen Unterschied machen und man könnte auch direkt die Regression mit dem Original-Funktionstyp durchführen.
Im Text ist etwas von einem Makro die Rede - vermutlich soll die Berechnung in Excel durchgeführt werden, wo man sich mit linearer Regression auch leichter tut.

Da du so oft von "log-normalverteilt" sprichst - mit logarithmischer Normalverteilung einer Zufallsvariablen hat das Thema, soweit ich das sehe, nichts zu tun. Diese Formulierung sollte man daher vermeiden.
Aufgrund meiner geringen Ahnung von der Finanzmathematik und meiner Unkenntnis was Chain-Ladder, Tailfunktion, etc, anlangt, kann ich dir die Frage, warum

f (k)

so aussieht wie hier angegeben und ob Abwicklungsfaktoren immer diesem Funktionstyp folgen, leider nicht beantworten.
Vielleicht gibt es Helfer hier im Forum, die mit dieser Thematik besser vertraut sind.

anonymous

19:32 Uhr, 08.08.2019

Wow, vielen Dank! Das leuchtet direkt ein!
Ja die Berechnung läuft in Excel, aber mir geht es um das Verständnis wie man dahin kommt.

Ich verstehe leider noch nicht warum denn die Exponentialfunktion als Entwicklungsfunktion für die Chain-Ladder Abwicklungsfaktoren gewählt wird?

Wie komme ich denn am Ende auf die Formeln, um die besagten Parameter

a'

und

b

aus y=a'+bx zu berechnen? also wie führe ich die loglineare Regression an sich durch?

Danke danke danke! :-)))

Roman-22

22:36 Uhr, 08.08.2019

> Ich verstehe leider noch nicht warum denn die Exponentialfunktion als Entwicklungsfunktion für die Chain-Ladder Abwicklungsfaktoren gewählt wird?
Nun, wie schon gesagt, fehlt mir da das Wissen darum, was denn ein Chain-Ladder Abwicklungsfaktor überhaupt genau ist. Dass es bei Problemen, die mehr oder weniger mit Verzinsung zu tun haben, auf eine Exponentialfunktion hinausläuft, ist aber nicht überraschend.

> Wie komme ich denn am Ende auf die Formeln, um die besagten Parameter a′ und b aus y=a'+bx zu berechnen? also wie führe ich die loglineare Regression an sich durch?
Nun, in x und y ist das ja eine einfache lineare Regression. Excel kann das (und auch eine Reihe weiterer Regressionsmodelle) out-of-the box.
Falls du das aber wirklich mit konkreten Daten "zu Fuß" erledigen musst, findest du zu dem Thema genügend Anleitungen in der Fachliteratur oder zur Not auch im Netz.

anonymous

23:35 Uhr, 08.08.2019

Danke für deine Hilfe! :-)

Roman-22

23:56 Uhr, 08.08.2019

> Danke für deine Hilfe! :-)
gern geschehen, ist aber kein Grund, sich deswegen gleich wieder vom Forum abzumelden

HAL9000

13:32 Uhr, 09.08.2019

> Für ein entsprechendes Programm sollte es keinen Unterschied machen und man könnte auch direkt die Regression mit dem Original-Funktionstyp durchführen.

Eine kleine Anmerkung dazu (auch wenn es den Originalfrager wohl gar nicht mehr interessiert):

Inhaltlich macht es schon einen Unterschied ob man die MKQ (=Methode der kleinsten Quadrate) auf die Originalwerte

(x_{i}, y_{i})

per Funktion

f (x) = 1 + a \exp (b x)

oder aber auf

(x_{i}, \ln (y_{i} - 1))

per linearer Funktion anwendet. Ersteres bedeutet nämlich

\sum_{i = 1}^{n} {(1 + a \exp (b x_{i}) - y_{i})}^{2} \to min!

bzgl.

a, b

während letzteres ja auf

\sum_{i = 1}^{n} {(\ln (a) + b x_{i} - \ln (y_{i} - 1))}^{2} \to min!

bzgl.

a, b

fußt. Bei ersterem Modell werden die Absolutabweichungen über das gesamte y-Wertespektrum gleich "bestraft", während das beim zweiten Modell durch die Logarithmierung unterschiedlich stark geschieht: Bei großen y-Werten wird die Abweichung geringer bestraft als bei kleinen y-Werten - mitunter ist das aber wohl auch so gewollt, so dass man nicht ohne weiteres sagen kann, welches Modell "besser" ist. Das zweite Modell hat auf alle Fälle den rechnerischen Vorteil auf seiner Seite (lineare Regression), während das erstere nur über Näherungsverfahren knackbar ist.

Roman-22

16:07 Uhr, 09.08.2019

ja, den Originalfrager gibts hier nicht mehr und meine Anmerkung von wegen "kein Unterschied" bezog sich in erster Linie auf den zu betreibenden Aufwand, nicht auf das Ergebnis. Der Aufwand ist bei Verwendung eines passenden Programms tatsächlich der gleiche (nämlich nahezu Null). Muss man Excel verwenden sieht das ein wenig anders aus.
Welches Verfahren "besser" ist hängt davon ab, wie man "besser" definiert und auch davon, ob die Messfehler absolut oder relativ sind.
In der Praxis führen idR beide Möglichkeiten zu brauchbaren Ergebnissen.
Im Anhang spaßeshalber die beiden Wege im Vergleich, einmal mit absolutem Zufallsfehler

(\pm 1)

und einmal mit relativem

(\pm 30 %)

HAL9000

17:45 Uhr, 09.08.2019

> Der Aufwand ist bei Verwendung eines passenden Programms tatsächlich der gleiche (nämlich nahezu Null).

Ich denke da in anderen Kategorien: Wenn das beispielsweise auf einem (energie-)sparsamen Microcontroller geschehen muss, und das vielleicht 100mal pro Sekunde...

Roman-22

18:40 Uhr, 09.08.2019

>

Wenn das beispielsweise auf einem (energie-)sparsamen Microcontroller geschehen muss, und das vielleicht 100mal pro Sekunde...
Ist bei dieser konkreten Anwendung aber eher nicht der Fall, oder?

Abgesehen davon kostet das Logarithmieren trotz der eventuellen Verwendung von lookup-tables auch Zeit und für numerische verfahren wie einen modifizierten Levenberg-Marquart gibts schon recht sparsame und schnelle Implementationen.
Generell verlieren ja die alten Tricks (wie eben zB Linearisierungen) zur Laufzeitoptimierung und Speicherersparnis zunehmend an Bedeutung, wenn man sich die kontinuierlich steigende Leistungsfähigkeit der Bausteine ansieht. Wartbarkeit und Reusability des Codes gewinnt dafür zunehmend an Bedeutung.
Dennoch muss man durchaus auch heute noch etwa bei Echtzeitanwendungen Kompromisse eingehen.

1477866

1477811

	Status: nicht eingeloggt	Noch nicht registriert?