QReferate - referate pentru educatia ta.
Referatele noastre - sursa ta de inspiratie! Referate oferite gratuit, lucrari si proiecte cu imagini si grafice. Fiecare referat, proiect sau comentariu il poti downloada rapid si il poti folosi pentru temele tale de acasa.



AdministratieAlimentatieArta culturaAsistenta socialaAstronomie
BiologieChimieComunicareConstructiiCosmetica
DesenDiverseDreptEconomieEngleza
FilozofieFizicaFrancezaGeografieGermana
InformaticaIstorieLatinaManagementMarketing
MatematicaMecanicaMedicinaPedagogiePsihologie
RomanaStiinte politiceTransporturiTurism
Esti aici: Qreferat » Referate matematica

Problema pentru regresia liniara simpla



Problema pentru regresia liniara simpla


O firma de asigurari vrea sa gaseasca o legatura intre valoarea prejudiciului provocat de incediul unei locuinte si distanta dintre locul incendiului si cea mai apropiata statie de pompieri. Pentru aceasta, realizeaza un studiu, intr-o anumita regiune, luand in considerare cele mai recente 15 incendii. Sunt inregistrate date referitoare la valoarea prejudiciului si distanta dintre incendiu si cea mai apropiata statie de pompieri:


Nr. crt.



Distanta fata de statia de pompieri (zeci km)

Valoarea prejudiciului (mii Euro)














































Cerintele sunt:

Analizati grafic existenta, sensul si forma legaturii dintre cele doua variabile stabilind care este variabila explicativa si care este variabila explicata;

Pe baza datelor din esantion, determinati coeficientii modelului de regresie adecvat analizei dependentei dintre cele doua variabile si interpretati valorile obtinute;

Testati validitatea modelului de regresie liniara la un prag de semnificatie de 5%;

Masurati intensitatea legaturii dintre cele doua variabile folosind coeficientul liniar de corelatie Pearson;

Calculati raportul de corelatie, testati semnificatia (validitatea) acestuia si interpretati rezultatul obtinut;

Calculati coeficientul de determinatie si interpretati rezultatul obtinut;

Testati ipotezele referitoare la semnificatia parametrilor modelului de regresie, la un nivel de semnificatie de 5%;

Determinati intervalele de incredere 95% pentru parametrii modelului;

Rezolvati problema in Excel

Estimati punctual si printr-un interval de incredere 95% nivelul prejudiciului, daca distanta intre locul incendiului si statia de pompieri ar fi de 6,5 zeci de kilometri (prognoza sau previziunea punctuala si prin interval de incredere).


REZOLVARE

Variabilele sunt:

X - variabila care arata distanta dintre incendiu si cea mai apropiata statie de pompieri, exprimata in zeci de km

(variabila independenta sau variabila explicativa sau variabila exogena)

Y - variabila care arata valoarea prejudiciului, exprimata in mii Euro

(variabila dependenta sau variabila explicata sau variabila endogena)

Corelograma

Sintaxa Excel:    Insert

Chart

XY(Scatter)


Corelograma sugereaza ca exista legatura directa si liniara intre cele doua variabile.

Exista o functie f astfel incat variabila X explica variabila Y prin functia f, , o functie liniara .

Modelul liniar de regresie este .


  1. Coeficientii modelului de regresie linira simpla

Pentru fiecare dintre cele n=15 incendii s-au notat valorile celor doua variabile, X si Y, obtinindu-se astfel seria de date sau . Pe baza acestui esantion vom determina estimatorii a si b ai parametrilor si ai modelului de regresie. Estimatorii a si b reprezinta solutia sistemului ecuatiilor normale:

Rezolvarea sistemului folosind metoda determinantilor: si ,

unde este determinantul matricei sistemului de ecuatii,

iar , sunt minorii corespunzatori celor doua necunoscute.


Calculele intermediare sunt prezentate in tabelul de mai jos:

Valorile xi ale variabilei X

Valorile yi ale variabilei Y

x

y

(x1)2=11,56

(y1)2=686,44

x ·y1=89,08

x

y

(x2)2=3,24

(y2)2=316,84

x ·y2=32,04

x

y

(x3)2=21,16

(y3)2=979,69

x ·y3=143,98
























































x

y

(x15)2=14,44

(y15)2=681,21

x ·y15=99,18


Se obtine:  


prin urmare dreapta de regresie este de ecuatie ,

ecuatia de regresie liniara in esantion este ,

iar valorile ajustate ale observatiilor prin regresie sunt


Interpretarea valorilor coeficientilor

b arata ca valoarea prejudiciului creste cu 4,9193 mii euro daca distanta dintre incediu si statia de pompieri creste cu o unitate, adica 10 km

a arata ca valoarea prejudiciului este, in medie, egala cu 10,2779 mii euro daca incendiul ar fi langa statia de pompieri.




  1. Validitatea modelului de regresie

Pentru testarea validitatii modelului se formuleaza cele doua ipoteze:

H0: modelul de regresie este nevalid statistic

cu alternativa

H1: modelul de regresie este valid statistic


Statistica utilizata pentru a decide care dintre ipoteze se accepta este:

,

unde k este numarul de variabile explicative din modelul de regresie (in cazul nostru, k=1 deoarece avem un model de regresie liniara unifactoriala sau simpla, adica cu o singura variabila explicativa).

Fie α' nivelul sau pragul de semnificatie al testului, iar 1-α' este nivelul de incredere al testului.

Daca nu se specifica, vom considera in general ca α'=0,05 (sau α'·100=5%),

iar 1-α'=0,95 (sau (1-α')·100=95%).

Pentru calculul statisticii folosim tabelul ANOVA:


Sursa

variatiei

Suma patratelor

(SS-Sum of Squares)

Grade de libertate

(df - degrees of freedom)

Media patratelor

(MS- Mean of Squares)

Dispersiile corectate

Valoarea statisticii F

Fcritic

Datorata regresiei

(Regression)

k


Reziduala

(Residual)

n - k -

Totala

n -


Regula de decizie: daca adica Fcalc se gaseste in regiunea critica, atunci respingem H0 si acceptam H1, ca modelul de regresie este valid statistic.


Calculele intermediare sunt prezentate in tabelul urmator:












































































































Tabelul ANOVA

Sursa

variatiei

Suma patratelor

(SS-Sum of Squares)

Grade de libertate

(df - degrees of freedom)

Media patratelor

(MS - Mean of Squares)

Valoarea statisticii F

Fcritic

Datorata regresiei

(Regression)

k


Reziduala

(Residual)

n - k - 1 = 13

Totala

n


Cum , respingem ipoteza nula si concluzionam ca modelul de regresie este valid statistic

(modelul este semnificativ statistic sau modelul este corect specificat).

Masurati intensitatea legaturii dintre cele doua variabile folosind coeficientul liniar de corelatie Pearson



Valoarea coeficientului de corelatie Pearson, pozitiva si foarte apropiata de 1, arata ca intre cele doua variabile exista o legatura liniara directa si puternica.


Calculati raportul de corelatie, testati validitatea acestuia si interpretati rezultatul obtinut.

Testarea validitatii sau semnificatiei raportului de corelatie consta in testarea

H0: Raportul de corelatie este nesemnificativ statistic

(variabila X nu are influenta semnificativa asupra lui Y)

cu alternativa

H1: Raportul de corelatie este semnificativ statistic

(semnificativ diferit de 0, adica variabila X are influenta semnificativa asupra lui Y).

Statistica testului este

Valoarea calculata a statisticii testului este

acceasi valoare ca la testarea validitatii modelului de regresie folosind ANOVA.

Daca testearea se realizeaza la un prag de semnificatie α'=0,05, atunci

Comparam Fcalc=156,89 > 4,67=Fcritic, respingem ipoteza nula H0 si concluzionam ca raportul de corelatie este semnificativ diferit de zero, adica variabila X (distanta) are o influenta semnificativa asupra variabilei Y (prejudiciul).


Coeficientul de determinatie este

sau si arata ca 92,35% (adica R2%) din variatia totala a prejudiciului cauzat de incendii este explicata de variatia variabilei independente (distanta intre locul incendiului si statia de pompieri).


Testarea semnificatiei parametrului α al modelului linear de regresie

H0: α=0 (parametrul este nesemnificativ statistic)

H1: α≠0 (parametrul α este semnificativ statistic, adica semnificativ diferit de 0)

Statistica testului este

unde este abaterea standard (eroarea standard) a estimatorului a, este disperia reziduala, iar este abaterea standard reziduala (eroarea standard reziduala sau a erorilor)

Valoarea calculata a statisticii testului, in ipoteza ca H0 este adevarata, adica α=0, este , deci , cu sa=1,42.

Daca nivelul de semnificatie este α'=0,05, atunci regiunea critica a testului este

Cum , atunci , deci respingen H0 si concluzionam ca α este semnificativ statistic, cu o probabilitate de 0,05 de a comite o eroare de primul tip (sa respingem H0 cand aceasta este adevarata).

Observatie: Valoarea , care se citeste din tabelul cu cuantilele repartitiei Student, se mai noteaza cu tcritic.


Testarea semnificatiei parametrului β al modelului linear de regresie

H0: β=0 (parametrul este nesemnificativ statistic)

H1: β≠0 (parametrul β este semnificativ statistic, adica semnificativ diferit de 0)

Statistica testului este

unde este abaterea standard (eroarea standard) a estimatorului b,

este disperia reziduala, iar este abaterea standard reziduala (eroarea standard reziduala)

Valoarea calculata a statisticii testului, in ipoteza ca H0 este adevarata, adica β=0, este , deci , cu sb=0,39.

Daca nivelul de semnificaatie este α'=0,05, atunci regiunea critica a testului este

Cum , atunci , deci respingen H0 si concluzionam ca β este semnificativ statistic, cu o probabilitate de 0,05 de a comite o eroare de primul tip (sa respingem H0 cand aceasta este adevarata).


Intervalul de incredere (1-α')·100% = 95% pentru parametrul α al modelului linear de regresie , determinat pe baza esantionului observat, este:

unde sa este eroarea standard a estimatorului a.

In cazul nostru, a=10,2779, sa=1,42, α'=0,05, , deci intervalul [7,2; 13,3] acopera valoarea adevarata a parametrului α cu probabilitatea 0,95, adica intervalul de valori [7,2; 13,3] mii Eur acopera nivelul prejudiciului provocat de incendiu, daca acesta se produce chiar langa statia de pompieri.

Cum intervalul de incredere 95% determinat pentru parametrul α nu acopera valoarea 0, atunci putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.

Daca insa, intervalul de incredere pentru α ar fi acoperit, adica ar fi continut, si valoarea 0, atunci concluzionam ca parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).


Intervalul de incredere (1-α')·100% = 95% pentru parametrul β al modelului linear de regresie , determinat pe baza esantionului observat, este:

unde sb este eroarea standard a estimatorului b.

In cazul nostru, b=4,9193, sb=0,39, α'=0,05, , deci intervalul [4,07; 5,76] acopera valoarea adevarata a parametrului β cu probabilitatea 0,95. Cu alte cuvinte, daca distanta devine mai mare cu o unitate (10 km), nivelul prejudiciului creste cu o valoare acoperita de intervalul [4,07; 5,76] mii Eur, cu o probabilitate de 0,95.

Cum intervalul de incredere 95% determinat pentru parametrul β nu acopera valoarea 0, atunci putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.

Daca insa, intervalul de incredere pentru β ar fi acoperit, adica ar fi continut, si valoarea 0, atunci concluzionam ca parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).



Rezolvarea in Excel


In Excel, exista modulul Data Analysis, optiunea Regression care furnizeaza intr-un output specific toate aceste calcule prezentate pana acum.

Astfel, intr-o foaie de lucru, se introduce setul de date , in cazul nostru n=15, iar apoi din meniul principal alegem Data, submeniul Data Analysis si apoi Regression, daca se lucreaza in Excel 2007. Daca aveti la dispozitie Excel 2003, alegeti din meniul principal Tools, apoi Data Analysis si apoi Regression.





In fereastra care va apare, trebuie:

- sa alegeti care este sirul de valori corespunzatoare variabilei dependente Y (Input Y Range) si care este sirul de valori corespunzatoare variabilei independente X (Input X Range),

- sa specificati nivelulde incredere al testului, de obicei 95%,

- sa precizati celula din foaia de lucru de la care se vor afisa rezultatele, adica outputul (Output Range),

- sa bifati optiunea Residuals si, optional, Line Fit Plots.


Output-ul este prezentat in tabelul urmator:


SUMMARY OUTPUT





Regression Statistics


Multiple R

R

= raportul de corelatie

R Square

R

= coeficientul de determinatie

Adjusted R Square



Standard Error

se

= eroarea standard sau abaterea standard a erorilor

Observations

n

= numarul de perechi de observatii din esantion


ANOVA







df

SS

MS

F

Significance F

Regression

1 = k

1,2478E-08

Residual

13 = n-k-1



Total

14 = n-1






Coefficients

Standard Error

t Stat

P-value

Lower 95%

(Limita inferioara a intervalului de incredere 95%)

Upper 95%

(Limita superioara a intervalului incredere 95%)

Intercept

a

sa

6,59E-06

=

=

X Variable 1

b

sb

1,25E-08

=

=


RESIDUAL OUTPUT






Observation

Predicted Y

Residuals

















































Nu se poate descarca referatul
Acest referat nu se poate descarca

E posibil sa te intereseze alte referate despre:


Copyright © 2024 - Toate drepturile rezervate QReferat.com Folositi referatele, proiectele sau lucrarile afisate ca sursa de inspiratie. Va recomandam sa nu copiati textul, ci sa compuneti propriul referat pe baza referatelor de pe site.
{ Home } { Contact } { Termeni si conditii }