Izračunajte metodom najmanjih kvadrata. Aproksimacija eksperimentalnih podataka

  • Uvodna lekcija besplatno;
  • Veliki broj iskusnih nastavnika (maternji i ruski);
  • Kursevi NISU za određeni period (mjesec, šest mjeseci, godina), već za određeni broj časova (5, 10, 20, 50);
  • Više od 10.000 zadovoljnih kupaca.
  • Cijena jedne lekcije sa nastavnikom koji govori ruski je od 600 rubalja, sa izvornim govornikom - od 1500 rubalja

Suština metode najmanjih kvadrata je u pronalaženju parametara modela trenda koji najbolje opisuje tendenciju razvoja bilo koje slučajne pojave u vremenu ili prostoru (trend je linija koja karakteriše tendenciju ovog razvoja). Zadatak metode najmanjih kvadrata (LSM) svodi se na pronalaženje ne samo nekog trend modela, već na pronalaženje najboljeg ili optimalnog modela. Ovaj model će biti optimalan ako je zbroj kvadratnih odstupanja između uočenih stvarnih vrijednosti i odgovarajućih izračunatih vrijednosti trenda minimalan (najmanji):

gdje je kvadratna devijacija između uočene stvarne vrijednosti

i odgovarajuću izračunatu vrijednost trenda,

Stvarna (uočena) vrijednost fenomena koji se proučava,

Izračunata vrijednost modela trenda,

Broj zapažanja fenomena koji se proučava.

MNC se vrlo rijetko koristi samostalno. U pravilu se najčešće koristi samo kao neophodna tehnička tehnika u studijama korelacije. Treba imati na umu da informaciona osnova OLS-a može biti samo pouzdana statistička serija, a broj zapažanja ne bi trebao biti manji od 4, u suprotnom procedure izglađivanja OLS-a mogu izgubiti zdrav razum.

MNC komplet alata se svodi na sljedeće procedure:

Prva procedura. Ispostavlja se postoji li uopće tendencija promjene rezultantnog atributa kada se promijeni odabrani faktor-argument, ili drugim riječima, postoji li veza između “ at " i " X ».

Drugi postupak. Utvrđuje se koja linija (trajektorija) može najbolje opisati ili okarakterizirati ovaj trend.

Treći postupak.

Primjer. Recimo da imamo informacije o prosječnom prinosu suncokreta za farmu koja se proučava (Tabela 9.1).

Tabela 9.1

Broj zapažanja

Produktivnost, c/ha

Budući da je nivo tehnologije proizvodnje suncokreta u našoj zemlji ostao praktično nepromenjen u poslednjih 10 godina, to znači da su, očigledno, fluktuacije prinosa u analiziranom periodu u velikoj meri zavisile od fluktuacija vremenskih i klimatskih uslova. Da li je ovo zaista istina?

Prva OLS procedura. Ispituje se hipoteza o postojanju trenda promene prinosa suncokreta u zavisnosti od promena vremenskih i klimatskih uslova tokom analiziranih 10 godina.

U ovom primjeru, za " y " preporučljivo je uzeti prinos suncokreta, a za " x » – broj posmatrane godine u analiziranom periodu. Testiranje hipoteze o postojanju bilo kakvog odnosa između " x " i " y » može se izvršiti na dva načina: ručno i korištenjem kompjuterski programi. Naravno, uz dostupnost kompjuterske tehnologije, ovaj problem se može riješiti sam od sebe. Ali da bismo bolje razumjeli MNC alate, preporučljivo je testirati hipotezu o postojanju veze između “ x " i " y » ručno, kada su pri ruci samo olovka i običan kalkulator. U takvim slučajevima hipotezu o postojanju trenda najbolje je vizualno provjeriti lokacijom grafičke slike analizirane serije dinamike – korelacijskog polja:

Korelacijsko polje u našem primjeru nalazi se oko linije koja se polako povećava. To samo po sebi ukazuje na postojanje određenog trenda promjene prinosa suncokreta. Nemoguće je govoriti o prisutnosti bilo kakve tendencije samo kada korelacijsko polje izgleda kao krug, krug, strogo vertikalni ili striktno horizontalni oblak, ili se sastoji od haotično raštrkanih tačaka. U svim ostalim slučajevima, hipoteza o postojanju veze između “ x " i " y “, i nastaviti istraživanje.

Druga OLS procedura. Utvrđuje se koja linija (traktorija) najbolje može opisati ili okarakterizirati trend promjene prinosa suncokreta u analiziranom periodu.

Ako imate kompjutersku tehnologiju, odabir optimalnog trenda se dešava automatski. U "ručnoj" obradi odabir optimalne funkcije se po pravilu vrši vizualno - prema lokaciji korelacionog polja. Odnosno, na osnovu tipa grafa, bira se jednačina linije koja najbolje odgovara empirijskom trendu (stvarnoj putanji).

Kao što je poznato, u prirodi postoji ogromna raznolikost funkcionalnih ovisnosti, pa je vrlo teško vizualno analizirati čak i mali dio njih. Srećom, u realnoj ekonomskoj praksi većina odnosa može se prilično precizno opisati ili parabolom, ili hiperbolom, ili pravom linijom. S tim u vezi, uz “ručnu” opciju odabira najbolje funkcije, možete se ograničiti samo na ova tri modela.

hiperbola:

Parabola drugog reda: :

Lako je uočiti da je u našem primjeru trend promjene prinosa suncokreta u analiziranih 10 godina najbolje okarakterisan ravnom linijom, pa će jednačina regresije biti jednačina prave linije.

Treći postupak. Izračunavaju se parametri regresione jednačine koja karakteriše ovu liniju, odnosno određuje se analitička formula koja opisuje najbolji model trenda.

Pronalaženje vrijednosti parametara jednadžbe regresije, u našem slučaju parametara i , je srž OLS-a. Ovaj proces se svodi na rješavanje sistema normalnih jednačina.

(9.2)

Ovaj sistem jednačina može se prilično lako riješiti Gaussovom metodom. Podsjetimo da su kao rezultat rješenja, u našem primjeru, pronađene vrijednosti parametara i. Dakle, pronađena jednačina regresije će imati sljedeći oblik:

Ima mnogo aplikacija, jer omogućava približan prikaz date funkcije drugim jednostavnijim. LSM može biti izuzetno koristan u obradi zapažanja, a aktivno se koristi za procjenu nekih veličina na osnovu rezultata mjerenja drugih koji sadrže slučajne greške. U ovom članku ćete naučiti kako implementirati izračune najmanjih kvadrata u Excelu.

Iskazivanje problema na konkretnom primjeru

Pretpostavimo da postoje dva indikatora X i Y. Štaviše, Y zavisi od X. Budući da nas OLS zanima sa stanovišta regresione analize (u Excelu se njegove metode implementiraju pomoću ugrađenih funkcija), treba odmah preći na razmatranje konkretan problem.

Dakle, neka je X maloprodajni prostor prodavnice prehrambenih proizvoda, mjeren kvadratnim metrima, a Y godišnji promet, mjeren milionima rubalja.

Potrebno je napraviti prognozu koliki će promet (Y) trgovina imati ako ima ovaj ili onaj maloprodajni prostor. Očigledno, funkcija Y = f (X) raste, jer hipermarket prodaje više robe od tezge.

Nekoliko riječi o ispravnosti početnih podataka korištenih za predviđanje

Recimo da imamo tabelu napravljenu koristeći podatke za n prodavnica.

Prema matematičkoj statistici, rezultati će biti manje-više tačni ako se ispitaju podaci o najmanje 5-6 objekata. Osim toga, "anomalni" rezultati se ne mogu koristiti. Konkretno, elitni mali butik može imati promet koji je nekoliko puta veći od prometa velikih maloprodajnih objekata klase „masmarket“.

Suština metode

Podaci tabele mogu se prikazati na kartezijanskoj ravni u obliku tačaka M 1 (x 1, y 1), ... M n (x n, y n). Sada će se rješenje problema svesti na izbor aproksimirajuće funkcije y = f (x), koja ima graf koji prolazi što bliže tačkama M 1, M 2, .. M n.

Naravno, možete koristiti polinom visok stepen, ali ova opcija nije samo teška za implementaciju, već je i jednostavno netočna, jer neće odražavati glavni trend koji treba otkriti. Najrazumnije rješenje je traženje prave linije y = ax + b, koja najbolje aproksimira eksperimentalne podatke, tačnije, koeficijente a i b.

Procjena tačnosti

Uz bilo kakvu aproksimaciju, procjena njegove tačnosti je od posebne važnosti. Označimo sa e i razliku (odstupanje) između funkcionalne i eksperimentalne vrijednosti za tačku x i, tj. e i = y i - f (x i).

Očigledno, da biste procijenili tačnost aproksimacije, možete koristiti zbir odstupanja, odnosno, kada birate pravu liniju za približni prikaz zavisnosti X od Y, morate dati prednost onoj sa najmanju vrijednost sume e i u svim razmatranim tačkama. Međutim, nije sve tako jednostavno, jer će uz pozitivne devijacije biti i negativnih.

Problem se može riješiti korištenjem modula odstupanja ili njihovih kvadrata. Posljednja metoda je najčešće korištena. Koristi se u mnogim oblastima, uključujući regresijsku analizu (implementirana u Excelu pomoću dvije ugrađene funkcije), i odavno je dokazala svoju učinkovitost.

Metoda najmanjeg kvadrata

Excel, kao što znate, ima ugrađenu funkciju AutoSum koja vam omogućava da izračunate vrijednosti svih vrijednosti koje se nalaze u odabranom rasponu. Dakle, ništa nas neće spriječiti da izračunamo vrijednost izraza (e 1 2 + e 2 2 + e 3 2 + ... e n 2).

U matematičkoj notaciji ovo izgleda ovako:

Pošto je prvobitno donesena odluka da se aproksimira pomoću prave linije, imamo:

Dakle, zadatak pronalaženja prave linije koja najbolje opisuje specifičnu zavisnost veličina X i Y svodi se na izračunavanje minimuma funkcije dvije varijable:

Da biste to učinili, morate parcijalne derivacije u odnosu na nove varijable a i b izjednačiti sa nulom, i riješiti primitivni sistem koji se sastoji od dvije jednadžbe sa 2 nepoznate forme:

Nakon nekoliko jednostavnih transformacija, uključujući dijeljenje sa 2 i manipulaciju suma, dobijamo:

Rješavajući ga, na primjer, Cramerovom metodom, dobijamo stacionarnu tačku sa određenim koeficijentima a * i b *. Ovo je minimum, tj. da se predvidi koliki će promet trgovina imati za određeno područje, prikladna je ravna linija y = a * x + b *, koja je regresijski model za predmetni primjer. Naravno, to vam neće omogućiti da pronađete točan rezultat, ali će vam pomoći da steknete ideju o tome hoće li se kupovina određenog područja na kredit u trgovini isplatiti.

Kako implementirati najmanje kvadrate u Excelu

Excel ima funkciju za izračunavanje vrijednosti pomoću najmanjih kvadrata. Ima sljedeći oblik: “TREND” (poznate Y vrijednosti; poznate X vrijednosti; nove X vrijednosti; konstanta). Primijenimo formulu za izračunavanje OLS-a u Excelu na našu tablicu.

Da biste to učinili, unesite znak "=" u ćeliju u kojoj bi trebao biti prikazan rezultat izračuna pomoću metode najmanjih kvadrata u Excelu i odaberite funkciju "TREND". U prozoru koji se otvori popunite odgovarajuća polja, naglašavajući:

  • raspon poznatih vrijednosti za Y (u ovom slučaju podaci za trgovinski promet);
  • raspon x 1 , …x n , odnosno veličina maloprodajnog prostora;
  • i poznate i nepoznate vrijednosti x, za koje morate saznati veličinu prometa (za informacije o njihovoj lokaciji na radnom listu, pogledajte dolje).

Dodatno, formula sadrži logičku varijablu “Const”. Ako u odgovarajuće polje unesete 1, to će značiti da trebate izvršiti proračune, pod pretpostavkom da je b = 0.

Ako trebate saznati prognozu za više od jedne vrijednosti x, tada nakon unosa formule ne biste trebali pritisnuti "Enter", već morate upisati kombinaciju "Shift" + "Control" + "Enter" na tastaturi.

Neke karakteristike

Regresiona analiza može biti dostupna čak i lutkama. Excel formulu za predviđanje vrijednosti niza nepoznatih varijabli – TREND – mogu koristiti čak i oni koji nikada nisu čuli za najmanje kvadrate. Dovoljno je samo znati neke od karakteristika njegovog rada. posebno:

  • Ako raspoređujete raspon poznatih vrijednosti varijable y u jedan red ili kolonu, tada svaki red (kolona) sa poznate vrednosti x će program tretirati kao zasebna varijabla.
  • Ako raspon sa poznatim x nije naveden u prozoru TREND, tada će ga, kada se koristi funkcija u Excelu, program tretirati kao niz koji se sastoji od cijelih brojeva, čiji broj odgovara rasponu sa datim vrijednostima varijabla y.
  • Za izlaz niza "predviđenih" vrijednosti, izraz za izračunavanje trenda se mora unijeti kao formula niza.
  • Ako nove vrijednosti x nisu specificirane, funkcija TREND ih smatra jednakim poznatim. Ako nisu specificirani, tada se niz 1 uzima kao argument; 2; 3; 4;…, što je srazmerno opsegu sa već navedenim parametrima y.
  • Raspon koji sadrži nove vrijednosti x mora imati iste ili više redova ili stupaca kao raspon koji sadrži date vrijednosti y. Drugim riječima, mora biti proporcionalan nezavisnim varijablama.
  • Niz sa poznatim x vrijednostima može sadržavati više varijabli. Međutim, ako govorimo samo o jednom, onda je potrebno da opsezi sa datim vrijednostima x i y budu proporcionalni. U slučaju više varijabli, potrebno je da raspon sa datim y vrijednostima stane u jednu kolonu ili jedan red.

Funkcija PREDICTION

Implementirano korištenjem nekoliko funkcija. Jedna od njih se zove “PREDIKCIJA”. Sličan je "TREND", tj. daje rezultat proračuna metodom najmanjih kvadrata. Međutim, samo za jedan X, za koji je vrijednost Y nepoznata.

Sada znate formule u Excelu za lutke koje vam omogućavaju da predvidite buduću vrijednost određenog indikatora prema linearnom trendu.

Koji nalazi najširu primenu u raznim oblastima nauke i praktične aktivnosti. To može biti fizika, hemija, biologija, ekonomija, sociologija, psihologija i tako dalje i tako dalje. Voljom sudbine, često moram da se bavim ekonomijom, i zato ću danas za vas organizovati putovanje u neverovatnu zemlju tzv. Ekonometrija=) ...Kako to ne želiš?! Tamo je jako dobro - samo treba da se odlučite! ...Ali ono što sigurno želite je naučiti kako rješavati probleme metoda najmanjih kvadrata. A posebno marljivi čitaoci naučiće da ih rešavaju ne samo precizno, već i VEOMA BRZO ;-) Ali prvo opšta izjava o problemu+ prateći primjer:

Proučavajmo indikatore u određenoj predmetnoj oblasti koji imaju kvantitativni izraz. Istovremeno, postoje svi razlozi za vjerovanje da indikator ovisi o indikatoru. Ova pretpostavka može biti ili naučna hipoteza ili zasnovana na osnovnom zdravom razumu. Ostavimo, međutim, nauku po strani i istražimo privlačnija područja – naime, trgovine prehrambenim proizvodima. Označimo sa:

– maloprodajni prostor trgovine, m2,
– godišnji promet prehrambene prodavnice, milion rubalja.

Apsolutno je jasno da što je veća površina prodavnice, to će u većini slučajeva biti veći njen promet.

Pretpostavimo da nakon izvođenja zapažanja/eksperimenata/proračunavanja/plesa uz tamburu imamo na raspolaganju numeričke podatke:

Sa prehrambenim prodavnicama mislim da je sve jasno: - ovo je površina 1. prodavnice, - njen godišnji promet, - površina 2. prodavnice, - njen godišnji promet itd. Uzgred, uopšte nije potrebno imati pristup klasifikovanim materijalima - prilično tačna procena trgovinskog prometa može se dobiti pomoću matematičke statistike. Ipak, nemojmo se ometati, kurs komercijalne špijunaže je već plaćen =)

Tabelarni podaci se također mogu napisati u obliku tačaka i prikazati u poznatom obliku Kartezijanski sistem .

Mi ćemo odgovoriti važno pitanje: Koliko bodova je potrebno za kvalitativnu studiju?

Što veće, to bolje. Minimalni prihvatljivi set se sastoji od 5-6 bodova. Osim toga, kada je količina podataka mala, “anomalni” rezultati se ne mogu uključiti u uzorak. Tako, na primjer, mala elitna radnja može zaraditi redove veličine više od "njenih kolega", čime se iskrivljuje opći obrazac koji trebate pronaći!

Vrlo jednostavno rečeno, moramo odabrati funkciju, raspored koji prolazi što bliže tačkama . Ova funkcija se zove aproksimativno (aproksimacija - aproksimacija) ili teorijska funkcija . Uopšteno govoreći, ovdje se odmah pojavljuje očigledan "konkurent" - polinom visokog stupnja, čiji graf prolazi kroz SVE tačke. Ali ova opcija je komplikovana i često jednostavno netočna. (pošto će se grafikon stalno "petljati" i loše odražavati glavni trend).

Dakle, tražena funkcija mora biti prilično jednostavna i istovremeno adekvatno odražavati ovisnost. Kao što možete pretpostaviti, jedna od metoda za pronalaženje takvih funkcija se zove metoda najmanjih kvadrata. Prvo, pogledajmo njegovu suštinu općenito. Neka neka funkcija aproksimira eksperimentalne podatke:


Kako ocijeniti tačnost ove aproksimacije? Izračunajmo i razlike (odstupanja) između eksperimentalnih i funkcionalna značenja (učimo crtež). Prva misao koja vam pada na pamet je procijeniti koliki je zbroj, ali problem je što razlike mogu biti negativne (Na primjer, ) a odstupanja kao rezultat takvog zbrajanja će se poništiti. Stoga, kao procjenu tačnosti aproksimacije, treba uzeti zbir moduli odstupanja:

ili srušeno: (u slučaju da neko ne zna: – ovo je ikona sume, i – pomoćna varijabla „brojača“, koja uzima vrijednosti od 1 do ).

Aproksimacijom eksperimentalnih tačaka različitim funkcijama dobićemo različita značenja, i očito, gdje je ovaj iznos manji, ta funkcija je tačnija.

Takav metod postoji i zove se metoda najmanjeg modula. Međutim, u praksi je postao mnogo rašireniji metoda najmanjeg kvadrata, u kojem se moguće negativne vrijednosti eliminiraju ne modulom, već kvadriranjem odstupanja:

, nakon čega se radi na odabiru funkcije takve da je zbir kvadrata odstupanja bio što manji. Zapravo, odatle potiče naziv metode.

A sada se vraćamo na nešto drugo važna tačka: kao što je gore navedeno, odabrana funkcija bi trebala biti prilično jednostavna - ali postoji i mnogo takvih funkcija: linearno , hiperbolično, eksponencijalna, logaritamski, kvadratni itd. I, naravno, ovdje bih odmah želio „smanjiti polje aktivnosti“. Koju klasu funkcija trebam odabrati za istraživanje? Primitivna, ali efikasna tehnika:

– Najlakši način je da prikažete tačke na crtežu i analizirati njihovu lokaciju. Ako imaju tendenciju da trče u pravoj liniji, onda biste trebali potražiti jednačina prave sa optimalnim vrijednostima i . Drugim riječima, zadatak je pronaći TAKVE koeficijente tako da zbir kvadrata odstupanja bude najmanji.

Ako se tačke nalaze, na primjer, uzduž hiperbola, onda je očito jasno da će linearna funkcija dati lošu aproksimaciju. U ovom slučaju tražimo najpovoljnije koeficijente za jednadžbu hiperbole – oni koji daju minimalni zbir kvadrata .

Sada imajte na umu da u oba slučaja govorimo funkcije dvije varijable, čiji su argumenti pretraživali parametre zavisnosti:

A u suštini moramo riješiti standardni problem - pronaći minimalna funkcija dvije varijable.

Prisjetimo se našeg primjera: pretpostavimo da se tačke "prodavnice" obično nalaze u pravoj liniji i postoji svaki razlog vjerovati da linearna zavisnost promet od maloprodajnog prostora. Nađimo TAKVE koeficijente “a” i “be” takve da je zbir kvadrata odstupanja bio najmanji. Sve je kao i obično - prvo Parcijalni derivati ​​1. reda. Prema pravilo linearnosti Možete razlikovati odmah ispod ikone sume:

Ako želite da iskoristite ove informacije za esej ili seminarski rad, bit ću vam veoma zahvalan na linku u listi izvora; ovako detaljne proračune ćete naći na nekoliko mjesta:

Kreirajmo standardni sistem:

Svaku jednačinu smanjujemo za "dva" i, pored toga, "razbijamo" zbrojeve:

Bilješka : nezavisno analizirati zašto se “a” i “be” mogu izdvojiti izvan ikone zbira. Inače, formalno se to može učiniti sa sumom

Prepišimo sistem u "primijenjenom" obliku:

nakon čega počinje da se pojavljuje algoritam za rješavanje našeg problema:

Znamo li koordinate tačaka? Mi znamo. Iznosi možemo li ga naći? Lako. Hajde da napravimo najjednostavnije sistem dvije linearne jednadžbe u dvije nepoznate(“a” i “biti”). Rešavamo sistem, npr. Cramerova metoda, kao rezultat toga dobijamo stacionarnu tačku. Provjeravam dovoljan uslov za ekstrem, možemo potvrditi da je u ovom trenutku funkcija dostiže tačno minimum. Provjera uključuje dodatne proračune i stoga ćemo je ostaviti iza scene (ako je potrebno, okvir koji nedostaje može se vidjeti). Izvlačimo konačan zaključak:

Funkcija najbolji način (barem u usporedbi s bilo kojom drugom linearnom funkcijom) približava eksperimentalne tačke . Grubo govoreći, njegov graf prolazi što je moguće bliže ovim tačkama. U tradiciji ekonometrija rezultirajuća aproksimirajuća funkcija se također poziva uparena jednačina linearne regresije .

Problem koji se razmatra je od velike praktične važnosti. U našem primjeru, jednadžba. omogućava vam da predvidite koji trgovinski promet ("Igrek") trgovina će imati jednu ili drugu vrijednost prodajnog prostora (jedno ili drugo značenje "x"). Da, rezultirajuća prognoza će biti samo prognoza, ali će se u mnogim slučajevima pokazati prilično tačnom.

Analiziraću samo jedan problem sa „pravim“ brojevima, jer u tome nema poteškoća - svi proračuni su na nivou nastavnog plana i programa 7.-8. U 95 posto slučajeva od vas će se tražiti da pronađete samo linearnu funkciju, ali na samom kraju članka pokazaću da nije teže pronaći jednadžbe optimalne hiperbole, eksponencijalne i nekih drugih funkcija.

U stvari, ostaje samo distribuirati obećane dobrote - tako da možete naučiti rješavati takve primjere ne samo precizno, već i brzo. Pažljivo proučavamo standard:

Zadatak

Kao rezultat proučavanja odnosa između dva indikatora, dobijeni su sljedeći parovi brojeva:

Koristeći metodu najmanjih kvadrata, pronađite linearnu funkciju koja najbolje aproksimira empirijsku (iskusan) podaci. Napravite crtež na kojem ćete konstruirati eksperimentalne točke i graf aproksimirajuće funkcije u kartezijanskom pravokutnom koordinatnom sistemu . Pronađite zbroj kvadrata odstupanja između empirijske i teorijske vrijednosti. Saznajte da li bi ova funkcija bila bolja (sa stanovišta metode najmanjih kvadrata) približiti eksperimentalne tačke.

Imajte na umu da su značenja “x” prirodna, a ovo ima karakteristično smisleno značenje, o kojem ću govoriti malo kasnije; ali oni, naravno, mogu biti i razlomci. Osim toga, ovisno o sadržaju određenog zadatka, vrijednosti "X" i "igra" mogu biti potpuno ili djelomično negativne. Pa, dobili smo zadatak „bez lica“ i počinjemo ga rješenje:

Nalazimo koeficijente optimalne funkcije kao rješenje sistema:

U svrhu kompaktnijeg snimanja, varijabla “counter” može se izostaviti, jer je već jasno da se zbrajanje vrši od 1 do .

Pogodnije je izračunati potrebne količine u obliku tabele:


Izračuni se mogu izvršiti na mikrokalkulatoru, ali je mnogo bolje koristiti Excel - i brže i bez grešaka; pogledajte kratak video:

Tako dobijamo sledeće sistem:

Ovdje možete pomnožiti drugu jednačinu sa 3 i oduzmi 2. od 1. jednačine član po član. Ali to je sreća - u praksi sistemi često nisu dar, au takvim slučajevima štedi Cramerova metoda:
, što znači da sistem ima jedinstveno rješenje.

Hajde da proverimo. Razumijem da ne želite, ali zašto preskakati greške tamo gdje se apsolutno ne mogu propustiti? Zamijenimo pronađeno rješenje u lijeva strana svaka jednadžba sistema:

Dobijene su desne strane odgovarajućih jednačina, što znači da je sistem ispravno riješen.

Dakle, željena aproksimirajuća funkcija: – od sve linearne funkcije Ona je ta koja najbolje aproksimira eksperimentalne podatke.

Za razliku od ravno zavisnost prometa prodavnice od njene površine, pronađena zavisnost je obrnuto (princip "što više, to manje"), a tu činjenicu odmah otkriva negativac nagib. Funkcija nam govori da povećanjem određenog indikatora za 1 jedinicu, vrijednost zavisnog indikatora opada prosjek za 0,65 jedinica. Kako kažu, što je veća cijena heljde, to se manje prodaje.

Da bismo nacrtali graf aproksimirajuće funkcije, nalazimo njene dvije vrijednosti:

i izvedite crtež:


Konstruisana prava linija se zove linija trenda (naime, linearna linija trenda, tj. u opštem slučaju, trend nije nužno ravna linija). Svima je poznat izraz “biti u trendu” i mislim da ovaj termin ne treba dodatno komentarisati.

Izračunajmo zbir kvadrata odstupanja između empirijskih i teorijskih vrijednosti. Geometrijski, ovo je zbir kvadrata dužina segmenata "maline" (od kojih su dva toliko mala da se ni ne vide).

Sumiramo proračune u tabeli:


Opet, mogu se raditi ručno; za svaki slučaj, dat ću primjer za 1. točku:

ali mnogo je efikasnije to učiniti na već poznati način:

Ponavljamo još jednom: Šta znači dobijeni rezultat? Od sve linearne funkcije y funkcija indikator je najmanji, odnosno u svojoj porodici je najbolja aproksimacija. I ovdje, usput, konačno pitanje problema nije slučajno: šta ako je predložena eksponencijalna funkcija da li bi bilo bolje približiti eksperimentalne tačke?

Nađimo odgovarajući zbir kvadrata odstupanja - da bismo ih razlikovali, označit ću ih slovom "epsilon". Tehnika je potpuno ista:


I opet, za svaki slučaj, kalkulacije za 1. tačku:

U Excelu koristimo standardnu ​​funkciju EXP (sintaksu možete pronaći u Excel pomoći).

Zaključak: , što znači da eksponencijalna funkcija aproksimira eksperimentalne tačke lošije od prave linije .

Ali ovdje treba napomenuti da je „gore“. ne znači još, šta nije uredu. Sada sam napravio graf ove eksponencijalne funkcije - i on takođe prolazi blizu tačaka - toliko da je bez analitičkog istraživanja teško reći koja je funkcija preciznija.

Ovim je rješenje završeno i vraćam se na pitanje prirodnih vrijednosti argumenta. U različitim studijama, obično ekonomskim ili sociološkim, prirodni "X" se koriste za brojenje mjeseci, godina ili drugih jednakih vremenskih intervala. Razmotrite, na primjer, sljedeći problem.

Metoda običnih najmanjih kvadrata (OLS).- matematička metoda koja se koristi za rješavanje različitih problema, zasnovana na minimiziranju sume kvadrata odstupanja određenih funkcija od željenih varijabli. Može se koristiti za "rješavanje" preodređenih sistema jednadžbi (kada broj jednačina prelazi broj nepoznatih), za pronalaženje rješenja u slučaju običnih (ne preodređenih) nelinearnih sistema jednadžbi, za aproksimaciju tačaka vrijednosti nekih funkcija. OLS je jedna od osnovnih metoda regresione analize za procjenu nepoznatih parametara regresionih modela iz podataka uzorka.

Enciklopedijski YouTube

    1 / 5

    ✪ Metoda najmanjih kvadrata. Predmet

    ✪ Metoda najmanjih kvadrata, lekcija 1/2. Linearna funkcija

    ✪ Ekonometrija. Predavanje 5. Metoda najmanjih kvadrata

    ✪ Mitin I.V. - Obrada fizičkih rezultata. eksperiment - metoda najmanjih kvadrata (predavanje 4)

    ✪ Ekonometrija: Suština metode najmanjih kvadrata #2

    Titlovi

Priča

Sve do početka 19. vijeka. naučnici nisu imali određena pravila za rješavanje sistema jednačina u kojem je broj nepoznatih manji od broja jednačina; Do tada su se koristile privatne tehnike koje su zavisile od vrste jednačina i od pameti kalkulatora, pa su različiti kalkulatori, na osnovu istih podataka posmatranja, dolazili do različitih zaključaka. Gauss (1795) je prvi upotrijebio metodu, a Legendre (1805) ga je samostalno otkrio i objavio pod modernim imenom (franc. Méthode des moindres quarrés) . Laplas je povezao metodu sa teorijom verovatnoće, a američki matematičar Adrain (1808) razmatrao je njene teorijske primene. Metoda je široko rasprostranjena i poboljšana daljim istraživanjima Enckea, Bessela, Hansena i drugih.

Suština metode najmanjih kvadrata

Neka x (\displaystyle x)- komplet n (\displaystyle n) nepoznate varijable (parametri), f i (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- skup funkcija iz ovog skupa varijabli. Zadatak je odabrati takve vrijednosti x (\displaystyle x), tako da vrijednosti ovih funkcija budu što bliže određenim vrijednostima y i (\displaystyle y_(i)). U suštini govorimo o “rješenju” preodređenog sistema jednačina f i (x) = y i (\displaystyle f_(i)(x)=y_(i)), i = 1 , … , m (\displaystyle i=1,\ldots,m) u naznačenom smislu maksimalne blizine lijevog i desni delovi sistemima. Suština metode najmanjih kvadrata je da se kao "mjera blizine" odabere zbir kvadrata odstupanja lijeve i desne strane | f i (x) − y i | (\displaystyle |f_(i)(x)-y_(i)|). Dakle, suština MNC-a se može izraziti na sljedeći način:

∑ i e i 2 = ∑ i (y i − f i (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\strelica desno \min _(x)).

Ako sistem jednadžbi ima rješenje, onda će minimum zbira kvadrata biti jednak nuli i tačna rješenja sistema jednadžbi mogu se pronaći analitički ili, na primjer, korištenjem različitih numeričkih metoda optimizacije. Ako je sistem preodređen, odnosno, slobodno govoreći, broj nezavisnih jednačina je veći od broja željenih varijabli, tada sistem nema tačno rješenje i metoda najmanjih kvadrata nam omogućava da pronađemo neki „optimalni“ vektor x (\displaystyle x) u smislu maksimalne blizine vektora y (\displaystyle y) I f (x) (\displaystyle f(x)) ili maksimalna blizina vektora devijacije e (\displaystyle e) na nulu (blizina se shvata u smislu euklidske udaljenosti).

Primjer - sistem linearnih jednačina

Konkretno, metoda najmanjih kvadrata se može koristiti za "rješavanje" sistema linearnih jednačina

A x = b (\displaystyle Ax=b),

Gdje A (\displaystyle A) matrica pravokutne veličine m × n , m > n (\displaystyle m\puta n,m>n)(tj. broj redova matrice A je veći od broja traženih varijabli).

U opštem slučaju, takav sistem jednačina nema rješenja. Stoga se ovaj sistem može „riješiti“ samo u smislu izbora takvog vektora x (\displaystyle x) kako bi se minimizirala "udaljenost" između vektora A x (\displaystyle Ax) I b (\displaystyle b). Da biste to učinili, možete primijeniti kriterij minimiziranja zbira kvadrata razlika između lijeve i desne strane jednadžbe sistema, tj. (A x − b) T (A x − b) → min x (\displaystyle (Ax-b)^(T)(Ax-b)\strelica desno \min _(x)). Lako je pokazati da rješavanje ovog problema minimizacije vodi do rješavanja sljedećeg sistema jednačina

A T A x = A T b ⇒ x = (A T A) − 1 A T b (\displaystyle A^(T)Ax=A^(T)b\Rightarrow x=(A^(T)A)^(-1)A^ (T)b).

OLS u regresionoj analizi (aproksimacija podataka)

Neka bude n (\displaystyle n) vrijednosti neke varijable y (\displaystyle y)(ovo bi mogli biti rezultati opservacija, eksperimenata, itd.) i povezane varijable x (\displaystyle x). Izazov je osigurati da odnos između y (\displaystyle y) I x (\displaystyle x) aproksimira nekom funkcijom poznatom u okviru nekih nepoznatih parametara b (\displaystyle b), odnosno zapravo pronaći najbolje vrijednosti parametara b (\displaystyle b), maksimalno aproksimirajući vrijednosti f (x, b) (\displaystyle f(x,b)) na stvarne vrednosti y (\displaystyle y). U stvari, ovo se svodi na slučaj „rešavanja“ preodređenog sistema jednačina u odnosu na b (\displaystyle b):

F (x t , b) = y t , t = 1 , … , n (\displaystyle f(x_(t),b)=y_(t),t=1,\ldots,n).

U regresionoj analizi, a posebno u ekonometriji, koriste se probabilistički modeli zavisnosti između varijabli

Y t = f (x t , b) + ε t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

Gdje ε t (\displaystyle \varepsilon _(t))- takozvani slučajne greške modeli.

Shodno tome, odstupanja uočenih vrijednosti y (\displaystyle y) od modela f (x, b) (\displaystyle f(x,b)) već se pretpostavlja u samom modelu. Suština metode najmanjih kvadrata (obična, klasična) je pronalaženje takvih parametara b (\displaystyle b), pri čemu je zbir kvadrata odstupanja (greške, za regresijske modele često se nazivaju regresijskim rezidualima) e t (\displaystyle e_(t)) bit će minimalno:

b ^ O L S = arg ⁡ min b R S S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS(b)),

Gdje R S S (\displaystyle RSS)- Engleski Preostali zbir kvadrata je definisan kao:

R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t, b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\suma _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

U opštem slučaju, ovaj problem se može rešiti metodama numeričke optimizacije (minimizacije). U ovom slučaju govore o nelinearni najmanji kvadrati(NLS ili NLLS - engleski nelinearni najmanji kvadrati). U mnogim slučajevima moguće je dobiti analitičko rješenje. Da bi se riješio problem minimizacije, potrebno je pronaći stacionarne tačke funkcije R S S (b) (\displaystyle RSS(b)), diferencirajući ga prema nepoznatim parametrima b (\displaystyle b), izjednačavanje izvoda sa nulom i rješavanje rezultirajućeg sistema jednačina:

∑ t = 1 n (y t − f (x t, b)) ∂ f (x t, b) ∂ b = 0 (\displaystyle \sum _(t=1)^(n)(y_(t)-f(x_ (t),b))(\frac (\djelomično f(x_(t),b))(\djelomično b))=0).

OLS u slučaju linearne regresije

Neka je zavisnost regresije linearna:

y t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

Neka y je vektor stupca zapažanja varijable koja se objašnjava, i X (\displaystyle X)- Ovo (n × k) (\displaystyle ((n\puta k)))-matrica zapažanja faktora (redovi matrice su vektori faktorskih vrijednosti u datom zapažanju, kolone su vektor vrijednosti datog faktora u svim opservacijama). Matrični prikaz linearnog modela ima oblik:

y = X b + ε (\displaystyle y=Xb+\varepsilon ).

Tada će vektor procjena objašnjene varijable i vektor reziduala regresije biti jednaki

y ^ = X b , e = y − y ^ = y − X b (\displaystyle (\hat (y))=Xb,\quad e=y-(\hat (y))=y-Xb).

Prema tome, zbir kvadrata reziduala regresije će biti jednak

R S S = e T e = (y − X b) T (y − X b) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

Diferenciranje ove funkcije s obzirom na vektor parametara b (\displaystyle b) i izjednačavajući derivate sa nulom, dobijamo sistem jednačina (u matričnom obliku):

(X T X) b = X T y (\displaystyle (X^(T)X)b=X^(T)y).

U dešifrovanom matričnom obliku, ovaj sistem jednačina izgleda ovako:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 3 … ∑ t 2 x t x 3 … ∑ t x t x 1 x x t 3 x t 2 ∑ x t 3 2 … ∑ x t 3 x t k ⋮ ⋮ ⋮ ⋱ ⋮ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3 … ∑ x t k 2) (b 1 b x 2) (b 1 b x 2) (b 1 b x t ∑ x t 2 y t ∑ x t 3 y t ⋮ ∑ x t k y t) , (\displaystyle (\begin(pmatrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ldots &\suma x_(t1)x_(tk)\\\suma x_(t2)x_(t1)&\suma x_(t2)^(2)&\suma x_(t2)x_(t3)&\ldots &\ zbroj x_(t2)x_(tk)\\\suma x_(t3)x_(t1)&\suma x_(t3)x_(t2)&\suma x_(t3)^(2)&\ldots &\zbroj x_ (t3)x_(tk)\\\vdots &\vdots &\vdots &\ddots &\vdots \\\sum x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ldots &\suma x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3 )\\\vdots \\b_(k)\\\end(pmatrix))=(\begin(pmatrix)\suma x_(t1)y_(t)\\\suma x_(t2)y_(t)\\ \sum x_(t3)y_(t)\\\vdots \\\sum x_(tk)y_(t)\\\end(pmatrix)),) gdje su svi zbroji preuzeti preko svih važećih vrijednosti t (\displaystyle t).

Ako je konstanta uključena u model (kao i obično), onda x t 1 = 1 (\displaystyle x_(t1)=1) pred svima t (\displaystyle t), stoga se u gornjem lijevom uglu matrice sistema jednadžbi nalazi broj zapažanja n (\displaystyle n), a u preostalim elementima prvog reda i prve kolone - jednostavno sume vrijednosti varijabli: ∑ x t j (\displaystyle \sum x_(tj)) a prvi element desne strane sistema je ∑ y t (\displaystyle \sum y_(t)).

Rješenje ovog sistema jednačina daje opšta formula OLS procjene za linearni model:

b ^ O L S = (X T X) − 1 X T y = (1 n X T X) − 1 1 n X T y = V x − 1 C x y (\displaystyle (\hat (b))_(OLS)=(X^(T )X)^(-1)X^(T)y=\left((\frac (1)(n))X^(T)X\desno)^(-1)(\frac (1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).

Za analitičke svrhe, posljednji prikaz ove formule se pokazao korisnim (u sistemu jednačina pri dijeljenju sa n umjesto zbroja pojavljuju se aritmetičke sredine). Ako u regresijskom modelu podaci centriran, onda u ovom prikazu prva matrica ima značenje uzorka kovarijanci matrice faktora, a druga je vektor kovarijansi faktora sa zavisnom varijablom. Ako su pored toga i podaci normalizovano na MSE (to jest, na kraju standardizovan), tada prva matrica ima značenje uzorka korelacione matrice faktora, drugi vektor - vektor uzorka korelacije faktora sa zavisnom varijablom.

Važno svojstvo OLS procjena za modele sa konstantom- linija konstruirane regresije prolazi kroz težište podataka uzorka, odnosno zadovoljena je jednakost:

y ¯ = b 1 ^ + ∑ j = 2 k b ^ j x ¯ j (\displaystyle (\bar (y))=(\hat (b_(1)))+\sum _(j=2)^(k) (\šešir (b))_(j)(\bar (x))_(j)).

Konkretno, u ekstremnom slučaju, kada je jedini regresor konstanta, nalazimo da je OLS procjena jedinog parametra (same konstante) jednaka srednjoj vrijednosti objašnjene varijable. To jest, aritmetička sredina, poznata po svojoj dobra svojstva iz zakona velikih brojeva, je i procjena najmanjih kvadrata - ona zadovoljava kriterij minimalnog zbira kvadrata odstupanja od nje.

Najjednostavniji specijalni slučajevi

U slučaju uparene linearne regresije y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t)), kada se procijeni linearna ovisnost jedne varijable od druge, formule za proračun su pojednostavljene (možete bez matrične algebre). Sistem jednačina ima oblik:

(1 x ¯ x ¯ x 2 ¯) (a b) = (y ¯ x y ¯) (\displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2)))\\\end(pmatrix))(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline (xy))\\\end(pmatrix))).

Odavde je lako pronaći procjene koeficijenata:

( b ^ = Cov ⁡ (x, y) Var ⁡ (x) = x y ¯ − x ¯ y ¯ x 2 ¯ − x ¯ 2 , a ^ = y ¯ − b x ¯ . (\displaystyle (\begin(cases) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2))),\\( \hat (a))=(\bar (y))-b(\bar (x)).\end(slučajevi)))

Uprkos činjenici da su u opštem slučaju modeli sa konstantom poželjniji, u nekim slučajevima je iz teorijskih razmatranja poznato da konstanta a (\displaystyle a) mora biti jednak nuli. Na primjer, u fizici je odnos između napona i struje U = I ⋅ R (\displaystyle U=I\cdot R); Prilikom mjerenja napona i struje potrebno je procijeniti otpor. U ovom slučaju govorimo o modelu y = b x (\displaystyle y=bx). U ovom slučaju, umjesto sistema jednačina imamo jednu jednačinu

(∑ x t 2) b = ∑ x t y t (\displaystyle \left(\sum x_(t)^(2)\right)b=\sum x_(t)y_(t)).

Stoga formula za procjenu pojedinačnog koeficijenta ima oblik

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t )y_(t))(\suma _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) ))).

Slučaj polinomskog modela

Ako se podaci uklapaju pomoću funkcije polinomske regresije jedne varijable f (x) = b 0 + ∑ i = 1 k b i x i (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i)), zatim, opažanje stepeni x i (\displaystyle x^(i)) kao nezavisni faktori za svaki i (\displaystyle i) moguće je procijeniti parametre modela na osnovu opće formule za procjenu parametara linearnog modela. Da biste to učinili, dovoljno je uzeti u obzir u općoj formuli da s takvim tumačenjem x t i x t j = x t i x t j = x t i + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j)) I x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). Prema tome, matrične jednadžbe u ovom slučaju će poprimiti oblik:

(n ∑ n x t … ∑ n x t k ∑ n x t ∑ n x t 2 … ∑ n x t k + 1 ⋮ ⋮ ⋱ ⋮ ∑ n x t k ∑ n x t k + 1 ... ∑ n x t k + 1 … 1) = [ ∑ n y t ∑ n x t y t ⋮ ∑ n x t k y t ] . (\displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\suma \limits _( n)x_(t)&\sum \limits _(n)x_(t)^(2)&\ldots &\suma \limits _(n)x_(t)^(k+1)\\\vdots & \vdots &\ddots &\vdots \\\suma \ograničenja _(n)x_(t)^(k)&\suma \ograničenja _(n)x_(t)^(k+1)&\ldots &\ suma \ograničenja _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatrica)).)

Statistička svojstva OLS estimatora

Prije svega, napominjemo da su za linearne modele procjene OLS linearne procjene, kao što slijedi iz gornje formule. Za nepristrasne procjene OLS-a, potrebno je i dovoljno izvršiti najvažniji uslov regresiona analiza: uslovljeno faktorima, matematičko očekivanje slučajne greške mora biti jednako nuli. Ovo stanje, posebno je zadovoljan ako

  1. matematičko očekivanje slučajnih grešaka je nula, i
  2. faktori i slučajne greške su nezavisne slučajne varijable.

Drugi uslov - uslov egzogenosti faktora - je fundamentalan. Ako ovo svojstvo nije ispunjeno, onda možemo pretpostaviti da će gotovo sve procjene biti krajnje nezadovoljavajuće: neće biti čak ni konzistentne (odnosno, čak i vrlo velika količina podataka ne dozvoljava nam da dobijemo visokokvalitetne procjene u ovom slučaju ). U klasičnom slučaju, jača se pretpostavka o determinizmu faktora, za razliku od slučajne greške, što automatski znači da je uslov egzogenosti ispunjen. U općem slučaju, za konzistentnost procjena, dovoljno je zadovoljiti uvjet egzogenosti zajedno sa konvergencijom matrice V x (\displaystyle V_(x)) na neku nesingularnu matricu kako se veličina uzorka povećava do beskonačnosti.

Da bi, osim konzistentnosti i nepristrasnosti, procjene (običnih) najmanjih kvadrata bile i efikasne (najbolje u klasi linearnih nepristrasnih procjena), moraju biti zadovoljena dodatna svojstva slučajne greške:

Ove pretpostavke se mogu formulisati za matricu kovarijanse vektora slučajne greške V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).

Linearni model koji zadovoljava ove uslove naziva se klasična. OLS procjene za klasičnu linearnu regresiju su nepristrasne, dosljedne i najefikasnije procjene u klasi svih linearnih nepristrasnih procjena (u engleskoj literaturi ponekad se koristi skraćenica PLAVA (Najbolji linearni nepristrasni procjenitelj) - najbolja linearna nepristrasna procjena; U ruskoj književnosti češće se citira Gauss-Markovljeva teorema). Kao što je lako pokazati, matrica kovarijanse vektora procjena koeficijenata bit će jednaka:

V (b ^ O L S) = σ 2 (X T X) − 1 (\displaystyle V((\hat (b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).

Efikasnost znači da je ova matrica kovarijanse „minimalna“ (svaka linearna kombinacija koeficijenata, a posebno sami koeficijenti, imaju minimalnu varijansu), odnosno, u klasi linearnih nepristrasnih estimatora, OLS estimatori su najbolji. Dijagonalni elementi ove matrice – varijanse procjena koeficijenata – bitni su parametri kvaliteta dobijenih procjena. Međutim, nije moguće izračunati matricu kovarijanse jer je varijansa slučajne greške nepoznata. Može se dokazati da je nepristrasna i konzistentna (za klasični linearni model) procjena varijanse slučajnih grešaka veličina:

S 2 = R S S / (n − k) (\displaystyle s^(2)=RSS/(n-k)).

Zamjenom ove vrijednosti u formulu za matricu kovarijanse dobijamo procjenu matrice kovarijanse. Rezultirajuće procjene su također nepristrasne i konzistentne. Takođe je važno da su procena varijanse greške (a samim tim i varijanse koeficijenata) i procene parametara modela nezavisne slučajne varijable, što omogućava dobijanje test statistike za testiranje hipoteza o koeficijentima modela.

Treba napomenuti da ako klasične pretpostavke nisu ispunjene, procjene parametara OLS nisu najefikasnije i gdje W (\displaystyle W) je neka simetrična matrica pozitive određene težine. Konvencionalni najmanji kvadrati je poseban slučaj ovog pristupa, gdje je matrica težine proporcionalna matrici identiteta. Kao što je poznato, za simetrične matrice (ili operatore) postoji ekspanzija W = P T P (\displaystyle W=P^(T)P). Stoga se navedena funkcionalnost može predstaviti na sljedeći način e T P T P e = (P e) T P e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)), odnosno ovaj funkcional se može predstaviti kao zbir kvadrata nekih transformiranih „ostataka“. Dakle, možemo razlikovati klasu metoda najmanjih kvadrata - LS metode (Least Squares).

Dokazano je (Aitkenova teorema) da su za generalizovani model linearne regresije (u kojem se ne nameću ograničenja na matricu kovarijanse slučajnih grešaka) najefikasnije (u klasi linearnih nepristrasnih procjena) tzv. generalizirani najmanji kvadrati (GLS - generalizirani najmanji kvadrati)- LS metoda sa težinskom matricom jednakom inverznoj kovarijansnoj matrici slučajnih grešaka: W = V ε − 1 (\displaystyle W=V_(\varepsilon )^(-1)).

Može se pokazati da formula za GLS procjene parametara linearnog modela ima oblik

B ^ G L S = (X T V − 1 X) − 1 X T V − 1 y (\displaystyle (\hat (b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y).

Matrica kovarijanse ovih procjena će prema tome biti jednaka

V (b ^ G L S) = (X T V − 1 X) − 1 (\displaystyle V((\šešir (b))_(GLS))=(X^(T)V^(-1)X)^(- 1)).

Zapravo, suština OLS-a leži u određenoj (linearnoj) transformaciji (P) izvornih podataka i primjeni običnog OLS-a na transformirane podatke. Svrha ove transformacije je da za transformirane podatke slučajne greške već zadovoljavaju klasične pretpostavke.

Weighted OLS

U slučaju dijagonalne matrice težine (a samim tim i matrice kovarijanse slučajnih grešaka), imamo takozvane ponderisane najmanje kvadrate (WLS). U ovom slučaju, ponderisani zbir kvadrata reziduala modela je minimiziran, odnosno svako opažanje dobija „težinu“ koja je obrnuto proporcionalna varijansi slučajne greške u ovom zapažanju: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ sigma_(t)^(2)))). U stvari, podaci se transformišu ponderisanjem zapažanja (deljenjem sa količinom proporcionalnom procenjenoj standardnoj devijaciji slučajnih grešaka), a obični OLS se primenjuje na ponderisane podatke.

ISBN 978-5-7749-0473-0 .

  • Ekonometrija. Udžbenik / Ed. Eliseeva I.I. - 2. izd. - M.: Finansije i statistika, 2006. - 576 str. - ISBN 5-279-02786-3.
  • Aleksandrova N.V. Povijest matematičkih pojmova, pojmova, zapisa: rječnik-priručnik. - 3. izd. - M.: LKI, 2008. - 248 str. - ISBN 978-5-382-00839-4. I.V. Mitin, Rusakov V.S. Analiza i obrada eksperimentalnih podataka - 5. izdanje - 24 str.
  • Metoda najmanjih kvadrata (OLS) omogućava procjenu različitih veličina koristeći rezultate mnogih mjerenja koja sadrže slučajne greške.

    Karakteristike MNE

    Osnovna ideja ove metode je da se zbir grešaka na kvadrat smatra kriterijem za tačnost rješavanja problema, koji nastoje minimizirati. Pri korištenju ove metode mogu se koristiti i numerički i analitički pristupi.

    Konkretno, kao numerička implementacija, metoda najmanjih kvadrata uključuje uzimanje što više mjerenja nepoznate slučajne varijable. Štaviše, što je više proračuna, to će rješenje biti preciznije. Na osnovu ovog skupa proračuna (početnih podataka) dobija se još jedan skup procenjenih rešenja iz kojih se zatim bira najbolje. Ako je skup rješenja parametrizovan, tada će se metoda najmanjih kvadrata svesti na pronalaženje optimalne vrijednosti parametara.

    Kao analitički pristup implementaciji LSM-a na skup početnih podataka (mjerenja) i očekivani skup rješenja, određuje se određeno (funkcionalno) koje se može izraziti formulom dobijenom kao određena hipoteza koja zahtijeva potvrdu. U ovom slučaju, metoda najmanjih kvadrata se svodi na pronalaženje minimuma ovog funkcionala na skupu kvadrata grešaka originalnih podataka.

    Imajte na umu da to nisu same greške, već kvadrati grešaka. Zašto? Činjenica je da su često odstupanja mjerenja od tačne vrijednosti i pozitivna i negativna. Prilikom određivanja prosjeka, jednostavno zbrajanje može dovesti do pogrešnog zaključka o kvaliteti procjene, jer će poništavanje pozitivnih i negativnih vrijednosti smanjiti snagu uzorkovanja višestrukih mjerenja. I, shodno tome, tačnost procjene.

    Da se to ne bi dogodilo, kvadratna odstupanja se zbrajaju. Štaviše, da bi se izjednačila dimenzija izmjerene vrijednosti i konačne procjene, izdvaja se zbir grešaka na kvadrat

    Neke MNC aplikacije

    MNC se široko koristi u raznim oblastima. Na primjer, u teoriji vjerojatnosti i matematičkoj statistici, metoda se koristi za određivanje takve karakteristike slučajne varijable kao što je standardna devijacija, koja određuje širinu raspona vrijednosti slučajne varijable.



    Ako pronađete grešku, odaberite dio teksta i pritisnite Ctrl+Enter.