En küçük kareler yöntemini kullanarak hesaplayın. Deneysel verilerin yaklaşımı

  • Giriş dersi ücretsiz;
  • Çok sayıda deneyimli öğretmen (anadili ve Rusça konuşan);
  • Kurslar belirli bir süre (ay, altı ay, yıl) DEĞİL, belirli sayıda ders (5, 10, 20, 50) içindir;
  • 10.000'den fazla memnun müşteri.
  • Rusça konuşan bir öğretmenle bir dersin maliyeti 600 ruble'den, anadili İngilizce olan biriyle - 1500 ruble'den

En küçük kareler yönteminin özü şudur: herhangi bir rastgele olgunun zaman veya mekandaki gelişme eğilimini en iyi tanımlayan bir eğilim modelinin parametrelerini bulmada (eğilim, bu gelişmenin eğilimini karakterize eden bir çizgidir). En küçük kareler yönteminin (LSM) görevi yalnızca bir trend modeli bulmak değil, aynı zamanda en iyi veya en uygun modeli bulmaktır. Gözlemlenen gerçek değerler ile karşılık gelen hesaplanan eğilim değerleri arasındaki sapmaların karelerinin toplamı minimum (en küçük) ise bu model optimal olacaktır:

gözlemlenen gerçek değer arasındaki sapmanın karesi nerede

ve karşılık gelen hesaplanan trend değeri,

İncelenen olgunun gerçek (gözlenen) değeri,

Trend modelinin hesaplanan değeri,

İncelenen olgunun gözlem sayısı.

MNC tek başına oldukça nadir kullanılır. Kural olarak, çoğu zaman korelasyon çalışmalarında yalnızca gerekli bir teknik teknik olarak kullanılır. OLS'nin bilgi tabanının ancak güvenilir bir istatistiksel seri olabileceği ve gözlem sayısının 4'ten az olmaması gerektiği, aksi takdirde OLS'nin yumuşatma işlemlerinin sağduyuyu kaybedebileceği unutulmamalıdır.

MNC araç seti aşağıdaki prosedürlerden oluşur:

İlk prosedür. Seçilen faktör-argüman değiştiğinde ortaya çıkan niteliği değiştirmeye yönelik herhangi bir eğilimin olup olmadığı, başka bir deyişle “arasında bir bağlantı olup olmadığı” ortaya çıkıyor. en " Ve " X ».

İkinci prosedür. Hangi çizginin (yörüngenin) bu eğilimi en iyi şekilde tanımlayabileceği veya karakterize edebileceği belirlenir.

Üçüncü prosedür.

Örnek. Diyelim ki incelenen çiftliğin ortalama ayçiçeği verimi hakkında bilgimiz var (Tablo 9.1).

Tablo 9.1

Gözlem numarası

Verimlilik, c/ha

Ülkemizde ayçiçeği üretimindeki teknoloji seviyesi son 10 yılda neredeyse hiç değişmediğinden, bu, analiz edilen dönemde verimdeki dalgalanmaların büyük ölçüde hava ve iklim koşullarındaki dalgalanmalara bağlı olduğu anlamına geliyor. Bu gerçekten doğru mu?

İlk OLS prosedürü. Analiz edilen 10 yıl boyunca ayçiçeği verim değişimlerinde hava ve iklim koşullarındaki değişikliklere bağlı bir eğilimin varlığına ilişkin hipotez test edilmiştir.

Bu örnekte " sen " Ayçiçeği veriminin alınması tavsiye edilir ve bunun için " X » – analiz edilen dönemde gözlemlenen yılın sayısı. arasında herhangi bir ilişkinin varlığına ilişkin hipotezin test edilmesi" X " Ve " sen » iki şekilde yapılabilir: manuel olarak ve kullanılarak bilgisayar programları. Elbette bilgisayar teknolojisinin kullanılabilirliği ile bu sorun kendi kendine çözülebilir. Ancak ÇUŞ araçlarını daha iyi anlayabilmek için “arasındaki ilişkinin varlığına ilişkin hipotezin test edilmesi tavsiye edilmektedir” X " Ve " sen » Yalnızca bir kalem ve sıradan bir hesap makinesi elinizde olduğunda manuel olarak. Bu gibi durumlarda, bir eğilimin varlığına ilişkin hipotez, analiz edilen dinamik serisinin grafik görüntüsünün (korelasyon alanı) konumuyla görsel olarak en iyi şekilde kontrol edilir:

Örneğimizdeki korelasyon alanı yavaş yavaş artan bir çizginin etrafında yer almaktadır. Bu durum başlı başına ayçiçeği rekoltesindeki değişimlerde belli bir eğilimin varlığına işaret etmektedir. Korelasyon alanı yalnızca bir daireye, bir daireye, tam olarak dikey veya tam olarak yatay bir buluta benzediğinde veya düzensiz dağılmış noktalardan oluştuğunda herhangi bir eğilimin varlığından bahsetmek mümkün değildir. Diğer tüm durumlarda, “arasında bir ilişkinin varlığına ilişkin hipotez” X " Ve " sen "ve araştırmaya devam edin.

İkinci OLS prosedürü. Analiz edilen dönem boyunca ayçiçeği verimindeki değişim eğilimini hangi çizginin (yörüngenin) en iyi şekilde tanımlayabileceği veya karakterize edebileceği belirlenir.

Bilgisayar teknolojiniz varsa optimum trendin seçimi otomatik olarak gerçekleşir. "Manuel" işlemede, en uygun fonksiyonun seçimi, kural olarak, görsel olarak - korelasyon alanının konumuna göre gerçekleştirilir. Yani grafiğin türüne göre ampirik eğilime (gerçek yörüngeye) en iyi uyan çizginin denklemi seçilir.

Bilindiği gibi doğada çok çeşitli fonksiyonel bağımlılıklar vardır, bu nedenle bunların küçük bir kısmını bile görsel olarak analiz etmek son derece zordur. Neyse ki, gerçek ekonomik uygulamada çoğu ilişki bir parabol, bir hiperbol veya bir düz çizgi ile oldukça doğru bir şekilde tanımlanabilir. Bu bakımdan en iyi fonksiyonun seçildiği “manuel” seçeneği ile kendinizi yalnızca bu üç modelle sınırlandırabilirsiniz.

Hiperbol:

İkinci dereceden parabol: :

Örneğimizde, analiz edilen 10 yıl boyunca ayçiçeği verimindeki değişim eğiliminin en iyi şekilde düz bir çizgiyle karakterize edildiğini görmek kolaydır, dolayısıyla regresyon denklemi bir düz çizginin denklemi olacaktır.

Üçüncü prosedür. Bu çizgiyi karakterize eden regresyon denkleminin parametreleri hesaplanır veya başka bir deyişle en iyi trend modelini tanımlayan analitik bir formül belirlenir.

Regresyon denkleminin parametrelerinin değerlerini bulmak, bizim durumumuzda ve parametreleri, OLS'nin özüdür. Bu süreç bir normal denklem sisteminin çözümüne indirgenir.

(9.2)

Bu denklem sistemi Gauss yöntemiyle oldukça kolay bir şekilde çözülebilir. Çözüm sonucunda örneğimizde parametre ve değerlerinin bulunduğunu hatırlayalım. Böylece bulunan regresyon denklemi aşağıdaki forma sahip olacaktır:

Belirli bir fonksiyonun diğer basit fonksiyonlarla yaklaşık olarak temsil edilmesine izin verdiği için birçok uygulamaya sahiptir. LSM, gözlemlerin işlenmesinde son derece yararlı olabilir ve rastgele hatalar içeren diğerlerinin ölçüm sonuçlarına dayanarak bazı miktarları tahmin etmek için aktif olarak kullanılır. Bu makalede Excel'de en küçük kareler hesaplamalarının nasıl uygulanacağını öğreneceksiniz.

Belirli bir örnek kullanarak sorunun ifadesi

Diyelim ki X ve Y olmak üzere iki gösterge var. Üstelik Y, X'e bağlı. OLS bizi regresyon analizi açısından ilgilendirdiğinden (Excel'de yöntemleri yerleşik işlevler kullanılarak uygulanır), hemen bir değerlendirmeye geçmeliyiz: spesifik sorun.

Öyleyse X, bir bakkalın metrekare cinsinden perakende alanı olsun ve Y, milyonlarca ruble cinsinden ölçülen yıllık ciro olsun.

Mağazanın şu veya bu perakende alanına sahip olması durumunda ne kadar ciroya (Y) sahip olacağına dair bir tahmin yapılması gerekir. Açıkçası, hipermarket tezgahtan daha fazla mal sattığı için Y = f (X) fonksiyonu artıyor.

Tahmin için kullanılan ilk verilerin doğruluğu hakkında birkaç kelime

Diyelim ki n mağazanın verilerini kullanarak oluşturulmuş bir tablomuz var.

Matematiksel istatistiklere göre en az 5-6 nesneye ait veriler incelenirse sonuçlar az çok doğru olacaktır. Ayrıca “anormal” sonuçlar kullanılamaz. Özellikle elit bir küçük butik, "masmarket" sınıfının büyük perakende satış mağazalarının cirosundan birkaç kat daha fazla ciroya sahip olabilir.

Yöntemin özü

Tablo verileri Kartezyen düzlemde M 1 (x 1, y 1), ... M n (x n, y n) noktaları şeklinde gösterilebilir. Şimdi problemin çözümü, M 1, M 2, .. M n noktalarına mümkün olduğu kadar yakın geçen bir grafiği olan, yaklaşık bir y = f (x) fonksiyonunun seçimine indirgenecektir.

Tabii ki bir polinom kullanabilirsiniz yüksek derece ancak bu seçeneğin uygulanması sadece zor değil, aynı zamanda tespit edilmesi gereken ana eğilimi yansıtmayacağı için yanlıştır. En makul çözüm, deneysel verilere en iyi yaklaşan y = ax + b düz çizgisini veya daha doğrusu a ve b katsayılarını aramaktır.

Doğruluk değerlendirmesi

Herhangi bir yaklaşımda doğruluğunun değerlendirilmesi özellikle önemlidir. x i noktası için fonksiyonel ve deneysel değerler arasındaki farkı (sapmayı) e i ile gösterelim, yani. e i = y i - f (x i).

Açıkçası, yaklaşımın doğruluğunu değerlendirmek için sapmaların toplamını kullanabilirsiniz, yani X'in Y'ye bağımlılığının yaklaşık bir temsili için düz bir çizgi seçerken, aşağıdakilere sahip olanı tercih etmeniz gerekir: en küçük değer dikkate alınan tüm noktalarda e i'yi toplar. Ancak her şey o kadar basit değil çünkü olumlu sapmaların yanı sıra olumsuz sapmalar da olacaktır.

Sorun sapma modülleri veya bunların kareleri kullanılarak çözülebilir. Son yöntem en yaygın kullanılanıdır. Regresyon analizi (iki yerleşik işlev kullanılarak Excel'de uygulanır) dahil olmak üzere birçok alanda kullanılır ve etkinliği uzun süredir kanıtlanmıştır.

En küçük kareler yöntemi

Bildiğiniz gibi Excel, seçilen aralıkta bulunan tüm değerlerin değerlerini hesaplamanıza olanak tanıyan yerleşik bir Otomatik Toplam işlevine sahiptir. Dolayısıyla hiçbir şey bizi (e 1 2 + e 2 2 + e 3 2 + ... e n 2) ifadesinin değerini hesaplamaktan alıkoyamaz.

Matematiksel gösterimde bu şöyle görünür:

Karar başlangıçta düz bir çizgi kullanılarak yaklaşık olarak verildiğinden, elimizde:

Dolayısıyla, X ve Y niceliklerinin spesifik bağımlılığını en iyi tanımlayan düz çizgiyi bulma görevi, iki değişkenli bir fonksiyonun minimumunun hesaplanmasına indirgenir:

Bunu yapmak için, yeni a ve b değişkenlerine göre kısmi türevleri sıfıra eşitlemeniz ve 2 bilinmeyenli iki denklemden oluşan ilkel sistemi çözmeniz gerekir:

2'ye bölme ve toplamların manipülasyonu da dahil olmak üzere bazı basit dönüşümlerden sonra şunu elde ederiz:

Örneğin Cramer yöntemini kullanarak çözerek, belirli a * ve b * katsayılarına sahip sabit bir nokta elde ederiz. Bu minimumdur, yani bir mağazanın belirli bir alan için ne kadar ciroya sahip olacağını tahmin etmek için söz konusu örnek için bir regresyon modeli olan y = a * x + b * düz çizgisi uygundur. Elbette kesin sonucu bulmanıza izin vermeyecek ancak mağaza kredisiyle belirli bir alanı satın almanın işe yarayıp yaramayacağı konusunda fikir edinmenize yardımcı olacaktır.

Excel'de En Küçük Kareler Nasıl Uygulanır?

Excel'in en küçük kareleri kullanarak değerleri hesaplama işlevi vardır. Şu biçimdedir: “TREND” (bilinen Y değerleri; bilinen X değerleri; yeni X değerleri; sabit). Excel'de OLS hesaplama formülünü tablomuza uygulayalım.

Bunu yapmak için Excel'de en küçük kareler yöntemini kullanarak hesaplama sonucunun görüntülenmesi gereken hücreye “=” işaretini girin ve “TREND” işlevini seçin. Açılan pencerede aşağıdakileri vurgulayarak uygun alanları doldurun:

  • Y için bilinen değer aralığı (bu durumda ticari ciro verileri);
  • aralık x 1 , …x n , yani perakende satış alanının boyutu;
  • Cironun boyutunu bulmanız gereken x'in hem bilinen hem de bilinmeyen değerleri (çalışma sayfasındaki konumları hakkında bilgi için aşağıya bakın).

Ayrıca formül "Const" mantıksal değişkenini de içerir. İlgili alana 1 girmeniz, hesaplamaları b = 0 varsayımıyla yapmanız gerektiği anlamına gelecektir.

Birden fazla x değeri için tahmin bulmanız gerekiyorsa, formülü girdikten sonra "Enter" tuşuna basmamalısınız, ancak klavyede "Shift" + "Control" + "Enter" kombinasyonunu yazmanız gerekir.

Bazı özellikler

Regresyon analizine kuklalar bile erişebilir. Bilinmeyen değişkenler dizisinin değerini tahmin etmeye yönelik Excel formülü (TREND), en küçük kareler kavramını hiç duymamış kişiler tarafından bile kullanılabilir. Sadece işinin bazı özelliklerini bilmek yeterlidir. Özellikle:

  • Y değişkeninin bilinen değerlerinin aralığını bir satır veya sütunda düzenlerseniz, o zaman her satır (sütun) bilinen değerler x program tarafından ayrı bir değişken olarak ele alınacaktır.
  • TREND penceresinde bilinen x'li bir aralık belirtilmemişse, o zaman Excel'deki işlevi kullanırken, program bunu, sayısı verilen değerlere sahip aralığa karşılık gelen tam sayılardan oluşan bir dizi olarak ele alacaktır. değişken y.
  • Bir "tahmin edilen" değerler dizisinin çıktısını almak için, trendin hesaplanmasına yönelik ifadenin bir dizi formülü olarak girilmesi gerekir.
  • X'in yeni değerleri belirtilmezse, TREND işlevi bunları bilinenlere eşit olarak değerlendirir. Belirtilmezse dizi 1 argüman olarak alınır; 2; 3; 4;…, önceden belirlenmiş y parametrelerinin aralığıyla orantılıdır.
  • Yeni x değerlerini içeren aralık, verilen y değerlerini içeren aralıkla aynı veya daha fazla satır veya sütuna sahip olmalıdır. Başka bir deyişle bağımsız değişkenlerle orantılı olması gerekir.
  • Bilinen x değerlerine sahip bir dizi birden fazla değişken içerebilir. Ancak sadece bir taneden bahsediyorsak o zaman verilen x ve y değerlerine sahip aralıkların orantılı olması gerekir. Birden fazla değişken olması durumunda, verilen y değerlerine sahip aralığın bir sütuna veya bir satıra sığması gerekir.

TAHMİN işlevi

Çeşitli işlevler kullanılarak uygulanır. Bunlardan birine “TAHMİN” denir. “TREND”e benzer yani en küçük kareler yöntemini kullanarak yapılan hesaplamaların sonucunu verir. Ancak yalnızca Y'nin değeri bilinmeyen bir X için.

Artık Excel'de belirli bir göstergenin gelecekteki değerini doğrusal bir eğilime göre tahmin etmenize olanak tanıyan kuklalar için formülleri biliyorsunuz.

Bilimin çeşitli alanlarında en geniş uygulamayı bulan ve pratik aktiviteler. Bu fizik, kimya, biyoloji, ekonomi, sosyoloji, psikoloji vb. olabilir. Kaderin iradesiyle sık sık ekonomiyle uğraşmak zorunda kalıyorum ve bu nedenle bugün sizin için muhteşem bir ülkeye bir gezi ayarlayacağım. Ekonometri=) ...Nasıl istemezsin?! Orası çok iyi; sadece karar vermeniz gerekiyor! ...Ama muhtemelen kesinlikle isteyeceğiniz şey sorunların nasıl çözüleceğini öğrenmektir en küçük kareler yöntemi. Ve özellikle dikkatli okuyucular, bunları yalnızca doğru bir şekilde değil, aynı zamanda ÇOK HIZLI bir şekilde çözmeyi öğrenecekler ;-) Ama önce sorunun genel ifadesi+ eşlik eden örnek:

Belirli bir konu alanındaki niceliksel ifadeye sahip göstergeleri inceleyelim. Aynı zamanda göstergenin göstergeye bağlı olduğuna inanmak için her türlü neden vardır. Bu varsayım bilimsel bir hipotez olabilir veya temel sağduyuya dayanabilir. Ancak bilimi bir kenara bırakıp daha iştah açıcı alanları yani marketleri keşfedelim. Şununla belirtelim:

– bir bakkalın perakende alanı, m2,
– bir bakkalın yıllık cirosu, milyon ruble.

Mağaza alanı ne kadar büyük olursa, çoğu durumda cironun da o kadar büyük olacağı kesinlikle açıktır.

Tefle gözlemler/deneyler/hesaplamalar/danslar yaptıktan sonra elimizde sayısal verilere sahip olduğumuzu varsayalım:

Bakkallarda her şeyin açık olduğunu düşünüyorum: - bu 1. mağazanın alanı, - yıllık cirosu, - 2. mağazanın alanı, - yıllık cirosu vb. Bu arada, gizli materyallere erişime sahip olmak hiç de gerekli değil - ticaret cirosunun oldukça doğru bir değerlendirmesi şu şekilde elde edilebilir: matematiksel istatistik. Ancak dikkatimizi dağıtmayalım, ticari casusluk kursu zaten ücretli =)

Tablo verileri aynı zamanda noktalar biçiminde de yazılabilir ve bilinen biçimde gösterilebilir. Kartezyen sistem .

Cevap vereceğiz önemli soru: Nitel bir çalışma için kaç puan gerekir?

Daha büyük daha iyi. Kabul edilebilir minimum set 5-6 puandan oluşur. Ayrıca veri miktarı az olduğunda “anormal” sonuçlar örnekleme dahil edilememektedir. Yani, örneğin küçük bir elit mağaza, "meslektaşlarından" daha büyük siparişler kazanabilir, böylece bulmanız gereken genel modeli bozabilir!

Çok basit bir şekilde ifade etmek gerekirse, bir fonksiyon seçmemiz gerekiyor, takvim noktalara mümkün olduğu kadar yakından geçen . Bu fonksiyon denir yaklaşık (yaklaşım - yaklaşım) veya teorik fonksiyon . Genel olarak konuşursak, burada hemen bariz bir "rakip" ortaya çıkıyor - grafiği TÜM noktalardan geçen yüksek dereceli bir polinom. Ancak bu seçenek karmaşıktır ve çoğunlukla yanlıştır. (grafik her zaman “döngüye gireceğinden” ve ana eğilimi zayıf şekilde yansıtacağından).

Bu nedenle aranan fonksiyonun oldukça basit olması ve aynı zamanda bağımlılığı yeterince yansıtması gerekir. Tahmin edebileceğiniz gibi, bu tür işlevleri bulma yöntemlerinden birine denir. en küçük kareler yöntemi. Öncelikle genel hatlarıyla özüne bakalım. Bazı fonksiyonların deneysel verilere yakın olmasına izin verin:


Bu yaklaşımın doğruluğu nasıl değerlendirilir? Deneysel ve deneysel arasındaki farkları (sapmaları) da hesaplayalım. işlevsel anlamlar (çizi inceliyoruz). Akla gelen ilk düşünce toplamın ne kadar büyük olduğunu tahmin etmektir, ancak sorun şu ki farklar negatif olabilir (Örneğin, ) ve bu toplamanın sonucunda ortaya çıkan sapmalar birbirini iptal edecektir. Bu nedenle, yaklaşımın doğruluğunun bir tahmini olarak toplamın alınması gerekir. modüller sapmalar:

veya çöktü: (Herkesin bilmemesi durumunda: – bu toplam simgesidir ve – 1'den 1'e kadar değerleri alan yardımcı bir "sayaç" değişkenidir).

Deneysel noktaları çeşitli fonksiyonlara yaklaştırarak şunu elde ederiz: Farklı anlamlar ve açıkçası bu miktarın daha küçük olduğu yerde bu işlev daha doğrudur.

Böyle bir yöntem var ve buna denir en az modül yöntemi. Ancak pratikte çok daha yaygın hale geldi. en küçük kareler yöntemi olası negatif değerlerin modül tarafından değil, sapmaların karesi alınarak ortadan kaldırıldığı:

Bundan sonra çabalar, sapmaların karelerinin toplamı olacak şekilde bir fonksiyonun seçilmesini amaçlamaktadır. mümkün olduğu kadar küçüktü. Aslında yöntemin ismi de buradan geliyor.

Ve şimdi başka bir şeye geri dönüyoruz önemli nokta: yukarıda belirtildiği gibi, seçilen işlev oldukça basit olmalıdır - ancak buna benzer birçok işlev de vardır: doğrusal , hiperbolik, üstel, logaritmik, ikinci dereceden vesaire. Ve tabii ki burada hemen "faaliyet alanını daraltmak" istiyorum. Araştırma için hangi fonksiyon sınıfını seçmeliyim? İlkel ama etkili bir teknik:

– En kolay yol noktaları tasvir etmektir çizim üzerinde ve konumlarını analiz edin. Düz bir çizgide koşma eğilimindeyseler, bir çizginin denklemi optimal değerlerle ve . Başka bir deyişle görev, karesel sapmaların toplamı en küçük olacak şekilde BÖYLE katsayıları bulmaktır.

Noktalar örneğin birlikte bulunuyorsa abartı ise doğrusal fonksiyonun zayıf bir yaklaşım vereceği açıktır. Bu durumda hiperbol denklemi için en "uygun" katsayıları arıyoruz – minimum kareler toplamını verenler .

Şimdi her iki durumda da bahsettiğimize dikkat edin. iki değişkenli fonksiyonlar, kimin argümanları aranan bağımlılık parametreleri:

Ve aslında standart bir problemi çözmemiz gerekiyor - bul iki değişkenli minimum fonksiyon.

Örneğimizi hatırlayalım: "depolama" noktalarının düz bir çizgide yer aldığını ve buna inanmak için her türlü nedenin bulunduğunu varsayalım. doğrusal bağımlılık perakende alanından elde edilen ciro. Sapmaların karesi toplamı olacak şekilde BÖYLE katsayıları “a” ve “be” bulalım. en küçüğüydü. Her şey her zamanki gibi - ilk önce 1. dereceden kısmi türevler. Buna göre doğrusallık kuralı Toplam simgesinin hemen altında ayırt edebilirsiniz:

Bu bilgiyi bir makale veya dönem ödevi için kullanmak isterseniz, kaynak listesindeki bağlantıya çok minnettar olacağım; bu kadar ayrıntılı hesaplamaları birkaç yerde bulacaksınız:

Standart bir sistem oluşturalım:

Her denklemi "iki" azaltıyoruz ve ayrıca toplamları "parçalıyoruz":

Not : “a” ve “be”nin neden toplam simgesinin ötesine çıkarılabileceğini bağımsız olarak analiz edin. Bu arada, resmi olarak bu toplamla yapılabilir

Sistemi “uygulamalı” biçimde yeniden yazalım:

bundan sonra sorunumuzu çözecek algoritma ortaya çıkmaya başlıyor:

Noktaların koordinatlarını biliyor muyuz? Biliyoruz. Tutarlar bulabilir miyiz? Kolayca. En basitini yapalım iki bilinmeyenli iki doğrusal denklem sistemi(“a” ve “olmak”). Sistemi çözüyoruz, örneğin, Cramer'in yöntemi bunun sonucunda durağan bir nokta elde ederiz. Kontrol etme bir ekstremum için yeterli koşul, bu noktada işlevin olduğunu doğrulayabiliriz tam olarak ulaşıyor minimum. Kontrol ek hesaplamalar içeriyor ve bu nedenle bunu perde arkasında bırakacağız (Gerekirse eksik çerçeve görüntülenebilir). Nihai sonucu çıkarıyoruz:

İşlev en iyi yol (en azından diğer herhangi bir doğrusal fonksiyonla karşılaştırıldığında) deneysel noktaları yakınlaştırır . Kabaca söylemek gerekirse grafiği bu noktalara mümkün olduğu kadar yakından geçer. Gelenekte Ekonometri sonuçta ortaya çıkan yaklaşım fonksiyonuna da denir eşleştirilmiş doğrusal regresyon denklemi .

Söz konusu sorun büyük pratik öneme sahiptir. Örnek durumumuzda, Denk. hangi ticaret cirosunu tahmin etmenizi sağlar ("İgrek") mağaza satış alanının şu veya bu değerine sahip olacak (“x”in bir veya başka anlamı). Evet, ortaya çıkan tahmin yalnızca bir tahmin olacaktır, ancak çoğu durumda oldukça doğru olduğu ortaya çıkacaktır.

Sadece bir problemi “gerçek” sayılarla analiz edeceğim çünkü bunda hiçbir zorluk yok - tüm hesaplamalar 7-8. sınıf okul müfredatı düzeyinde. Vakaların yüzde 95'inde sizden yalnızca doğrusal bir fonksiyon bulmanız istenecektir, ancak makalenin en sonunda optimal hiperbol, üstel ve diğer bazı fonksiyonların denklemlerini bulmanın artık zor olmadığını göstereceğim.

Aslında geriye kalan tek şey vaat edilen güzellikleri dağıtmaktır - böylece bu tür örnekleri yalnızca doğru değil, aynı zamanda hızlı bir şekilde çözmeyi öğrenebilirsiniz. Standardı dikkatlice inceliyoruz:

Görev

İki gösterge arasındaki ilişkinin incelenmesi sonucunda aşağıdaki sayı çiftleri elde edildi:

En küçük kareler yöntemini kullanarak ampirik değere en iyi yaklaşan doğrusal fonksiyonu bulun. (Tecrübeli) veri. Kartezyen dikdörtgen koordinat sisteminde deneysel noktaların ve yaklaşık fonksiyonun grafiğinin oluşturulacağı bir çizim yapın . Ampirik ve teorik değerler arasındaki sapmaların karelerinin toplamını bulun. Özelliğin daha iyi olup olmayacağını öğrenin (en küçük kareler yöntemi açısından) Deneysel noktaları yaklaştırın.

Lütfen “x” anlamlarının doğal olduğunu ve bunun biraz sonra bahsedeceğim karakteristik anlamlı bir anlamı olduğunu unutmayın; ama elbette kesirli de olabilirler. Ayrıca belirli bir görevin içeriğine bağlı olarak hem “X” hem de “oyun” değerleri tamamen veya kısmen negatif olabilir. Bize "meçhul" bir görev verildi ve başlıyoruz çözüm:

Sistemin çözümü olarak optimal fonksiyonun katsayılarını buluyoruz:

Daha kompakt kayıt amacıyla, toplamanın 1'den .'ye kadar gerçekleştirildiği zaten açık olduğundan "sayaç" değişkeni çıkarılabilir.

Gerekli miktarları tablo halinde hesaplamak daha uygundur:


Hesaplamalar bir mikro hesap makinesinde yapılabilir, ancak Excel'i kullanmak çok daha iyidir - hem daha hızlı hem de hatasız; kısa bir video izleyin:

Böylece aşağıdakileri elde ederiz sistem:

Burada ikinci denklemi 3 ile çarpabilir ve 2.yi 1. denklemden terim bazında çıkar. Ancak bu şanstır; pratikte sistemler genellikle bir hediye değildir ve bu gibi durumlarda tasarruf sağlar Cramer'in yöntemi:
Bu, sistemin benzersiz bir çözümü olduğu anlamına gelir.

Hadi kontrol edelim. İstemediğinizi anlıyorum, ama neden kesinlikle gözden kaçırılmayacak hataları atlayasınız ki? Bulunan çözümü yerine koyalım Sol Taraf sistemin her denklemi:

Karşılık gelen denklemlerin sağ tarafları elde edilir, bu da sistemin doğru çözüldüğü anlamına gelir.

Böylece istenen yaklaşım fonksiyonu: – itibaren tüm doğrusal fonksiyonlar Deneysel verilere en iyi yaklaşan kişi odur.

Farklı dümdüz mağazanın cirosunun kendi alanına bağımlılığı, bulunan bağımlılık tersi (ilke “ne kadar çoksa o kadar az”) ve bu gerçek olumsuzluklarla hemen ortaya çıkıyor eğim. İşlev belirli bir göstergenin 1 birim artmasıyla bağımlı göstergenin değerinin azaldığını söyler ortalama 0,65 birim arttı. Dedikleri gibi karabuğdayın fiyatı ne kadar yüksek olursa o kadar az satılır.

Yaklaşım fonksiyonunun grafiğini çizmek için iki değerini buluyoruz:

ve çizimi yürütün:


Oluşturulan düz çizgiye denir eğilim çizgisi (yani doğrusal bir trend çizgisi, yani genel durumda bir trendin mutlaka düz bir çizgi olması gerekmez). Herkes “trendde olmak” tabirine aşinadır ve bu terimin ek yorumlara ihtiyacı olmadığını düşünüyorum.

Sapmaların karelerinin toplamını hesaplayalım Ampirik ve teorik değerler arasında. Geometrik olarak bu, "ahududu" bölümlerinin uzunluklarının karelerinin toplamıdır. (ikisi o kadar küçük ki görülemiyor bile).

Hesaplamaları bir tabloda özetleyelim:


Yine manuel olarak da yapılabilirler, ne olur ne olmaz diye 1. maddeye örnek vereyim:

ancak bunu zaten bilinen şekilde yapmak çok daha etkilidir:

Bir kez daha tekrarlıyoruz: Elde edilen sonucun anlamı nedir?İtibaren tüm doğrusal fonksiyonlar y fonksiyonu gösterge en küçüğüdür, yani ailesindeki en iyi yaklaşımdır. Ve bu arada, problemin son sorusu tesadüfi değil: ya önerilen üstel fonksiyon Deney noktalarını yakınlaştırmak daha iyi olur mu?

Karşılık gelen kare sapmaların toplamını bulalım - ayırt etmek için bunları "epsilon" harfiyle göstereceğim. Teknik tamamen aynı:


Ve yine, her ihtimale karşı, 1. nokta için hesaplamalar:

Excel'de standart işlevi kullanıyoruz tecrübe (söz dizimi Excel Yardımında bulunabilir).

Çözüm: , bu, üstel fonksiyonun deneysel noktalara düz bir çizgiden daha kötü bir şekilde yaklaştığı anlamına gelir .

Ancak burada şunu da belirtmek gerekir ki “daha ​​kötüsü” henüz anlamına gelmiyor, Yanlış olan ne. Şimdi bu üstel fonksiyonun bir grafiğini oluşturdum - ve aynı zamanda noktaların yakınından geçiyor - öyle ki analitik araştırma olmadan hangi fonksiyonun daha doğru olduğunu söylemek zordur.

Bu, çözümü sonuçlandırıyor ve argümanın doğal değerleri sorusuna dönüyorum. Genellikle ekonomik veya sosyolojik olan çeşitli çalışmalarda, ayları, yılları veya diğer eşit zaman aralıklarını numaralandırmak için doğal “X”ler kullanılır. Örneğin aşağıdaki problemi düşünün.

Sıradan En Küçük Kareler (OLS) yöntemi- belirli fonksiyonların istenen değişkenlerden sapmalarının karelerinin toplamının en aza indirilmesine dayanan, çeşitli problemleri çözmek için kullanılan matematiksel bir yöntem. Aşırı belirlenmiş denklem sistemlerini “çözmek” için (denklem sayısı bilinmeyenlerin sayısını aştığında), sıradan (aşırı belirlenmemiş) doğrusal olmayan denklem sistemleri durumunda çözümler bulmak, bazılarının nokta değerlerine yaklaşmak için kullanılabilir. işlev. OLS, örnek verilerden regresyon modellerinin bilinmeyen parametrelerini tahmin etmek için kullanılan temel regresyon analizi yöntemlerinden biridir.

Ansiklopedik YouTube

    1 / 5

    ✪ En küçük kareler yöntemi. Ders

    ✪ En küçük kareler yöntemi, ders 1/2. Doğrusal fonksiyon

    ✪ Ekonometri. Ders 5. En Küçük Kareler Yöntemi

    ✪ Mitin I.V. - Fiziksel sonuçların işlenmesi. deney - En küçük kareler yöntemi (Ders 4)

    ✪ Ekonometri: En küçük kareler yönteminin özü #2

    Altyazılar

Hikaye

19. yüzyılın başlarına kadar. bilim adamlarının, bilinmeyenlerin sayısının denklem sayısından az olduğu bir denklem sistemini çözmek için belirli kuralları yoktu; O zamana kadar denklemlerin türüne ve hesap makinelerinin zekasına bağlı özel teknikler kullanıldı ve bu nedenle aynı gözlem verilerine dayanan farklı hesap makineleri farklı sonuçlara vardı. Bu yöntemi ilk kullanan Gauss (1795) oldu ve Legendre (1805) bunu bağımsız olarak keşfedip modern adı (Fransızca) altında yayınladı. En İyi Yöntemler). Laplace yöntemi olasılık teorisiyle ilişkilendirdi ve Amerikalı matematikçi Adrain (1808) onun olasılık teorisi uygulamalarını değerlendirdi. Yöntem, Encke, Bessel, Hansen ve diğerlerinin daha ileri araştırmalarıyla yaygınlaştırıldı ve geliştirildi.

En küçük kareler yönteminin özü

İzin vermek x (\displaystyle x)- kit n (\displaystyle n) bilinmeyen değişkenler (parametreler), f ben (x) (\displaystyle f_(i)(x)), , m > n (\displaystyle m>n)- bu değişkenler kümesinden bir dizi işlev. Görev bu değerleri seçmektir x (\displaystyle x) böylece bu fonksiyonların değerleri belirli değerlere mümkün olduğunca yakın olur. y ben (\displaystyle y_(i)). Esasen aşırı belirlenmiş bir denklem sisteminin “çözümünden” bahsediyoruz f ben (x) = y ben (\displaystyle f_(i)(x)=y_(i)), i = 1 , … , m (\displaystyle i=1,\ldots ,m) soldaki belirtilen maksimum yakınlık anlamında ve doğru parçalar sistemler. En küçük kareler yönteminin özü, sol ve sağ tarafların sapmalarının karelerinin toplamını bir “yakınlık ölçüsü” olarak seçmektir. | f ben (x) − y ben | (\displaystyle |f_(i)(x)-y_(i)|). Dolayısıyla MNC'nin özü şu şekilde ifade edilebilir:

∑ ben e ben 2 = ∑ ben (y ben − f ben (x)) 2 → min x (\displaystyle \sum _(i)e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\rightarrow \min _(x)).

Denklem sisteminin bir çözümü varsa, kareler toplamının minimumu sıfıra eşit olacaktır ve denklem sisteminin kesin çözümleri analitik olarak veya örneğin çeşitli sayısal optimizasyon yöntemleri kullanılarak bulunabilir. Eğer sistem aşırı belirlenmişse, yani genel anlamda bağımsız denklemlerin sayısı istenen değişkenlerin sayısından fazlaysa, o zaman sistemin kesin bir çözümü yoktur ve en küçük kareler yöntemi bazı "optimal" vektörleri bulmamıza izin verir. x (\displaystyle x) vektörlerin maksimum yakınlığı anlamında y (\displaystyle y) Ve f (x) (\displaystyle f(x)) veya sapma vektörünün maksimum yakınlığı e (\displaystyle e) sıfıra (yakınlık Öklid uzaklığı anlamında anlaşılmaktadır).

Örnek - doğrusal denklem sistemi

Özellikle, en küçük kareler yöntemi bir doğrusal denklem sistemini "çözmek" için kullanılabilir.

A x = b (\displaystyle Ax=b),

Nerede bir (\displaystyle A) dikdörtgen boyutlu matris m × n , m > n (\displaystyle m\times n,m>n)(yani A matrisinin satır sayısı aranan değişken sayısından daha fazladır).

Genel durumda böyle bir denklem sisteminin çözümü yoktur. Dolayısıyla bu sistem ancak böyle bir vektörün seçilmesi anlamında “çözülebilir” x (\displaystyle x) vektörler arasındaki "mesafeyi" en aza indirmek için A x (\displaystyle Ax) Ve b (\displaystyle b). Bunu yapmak için sistem denklemlerinin sol ve sağ tarafları arasındaki farkların karelerinin toplamını en aza indirme kriterini uygulayabilirsiniz; (A x − b) T (A x − b) → min x (\displaystyle (Ax-b)^(T)(Ax-b)\rightarrow \min _(x)). Bu minimizasyon problemini çözmenin aşağıdaki denklem sisteminin çözümüne yol açtığını göstermek kolaydır.

A T A x = A T b ⇒ x = (A T A) − 1 A T b (\displaystyle A^(T)Ax=A^(T)b\Rightarrow x=(A^(T)A)^(-1)A^ (T)b).

Regresyon analizinde OLS (veri yaklaşımı)

Olsun n (\displaystyle n) bazı değişkenlerin değerleri y (\displaystyle y)(bu gözlemlerin, deneylerin vb. sonuçları olabilir) ve ilgili değişkenler x (\displaystyle x). Buradaki zorluk, arasındaki ilişkinin sağlanmasıdır. y (\displaystyle y) Ve x (\displaystyle x) bazı bilinmeyen parametreler dahilinde bilinen bazı fonksiyonlara göre yaklaşık b (\displaystyle b) yani aslında parametrelerin en iyi değerlerini bulmak b (\displaystyle b) değerlerin maksimuma yakınlaştırılması f (x , b) (\displaystyle f(x,b)) gerçek değerlere y (\displaystyle y). Aslında bu, aşırı belirlenmiş bir denklem sisteminin "çözülmesi" durumuna gelir. b (\displaystyle b):

F (x t , b) = y t , t = 1 , … , n (\displaystyle f(x_(t),b)=y_(t),t=1,\ldots ,n).

Regresyon analizinde ve özellikle ekonometride değişkenler arasındaki olasılıksal bağımlılık modelleri kullanılır

Y t = f (x t , b) + ε t (\displaystyle y_(t)=f(x_(t),b)+\varepsilon _(t)),

Nerede ε t (\displaystyle \varepsilon _(t))- Lafta rastgele hatalar modeller.

Buna göre gözlenen değerlerin sapmaları y (\displaystyle y) modelden f (x , b) (\displaystyle f(x,b)) modelin kendisinde zaten varsayılmaktadır. En küçük kareler yönteminin (sıradan, klasik) özü bu tür parametreleri bulmaktır. b (\displaystyle b), burada sapmaların karelerinin toplamı (hatalar, regresyon modelleri için bunlara genellikle regresyon artıkları denir) e t (\displaystyle e_(t)) minimum olacaktır:

b ^ O L S = arg ⁡ min b R S S (b) (\displaystyle (\hat (b))_(OLS)=\arg \min _(b)RSS(b)),

Nerede R S S (\displaystyle RSS)- İngilizce Artık Kareler Toplamı şu şekilde tanımlanır:

R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t − f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\toplam _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

Genel durumda bu problem sayısal optimizasyon (minimizasyon) yöntemleriyle çözülebilir. Bu durumda onlar hakkında konuşuyorlar doğrusal olmayan en küçük kareler(NLS veya NLLS - İngilizce Doğrusal Olmayan En Küçük Kareler). Çoğu durumda analitik bir çözüm elde etmek mümkündür. Minimizasyon problemini çözmek için fonksiyonun durağan noktalarının bulunması gerekir. R S S (b) (\displaystyle RSS(b)) bilinmeyen parametrelere göre ayırt edilmesi b (\displaystyle b), türevleri sıfıra eşitlemek ve elde edilen denklem sistemini çözmek:

∑ t = 1 n (y t − f (x t , b)) ∂ f (x t , b) ∂ b = 0 (\displaystyle \sum _(t=1)^(n)(y_(t)-f(x_) (t),b))(\frac (\kısmi f(x_(t),b))(\kısmi b))=0).

Doğrusal regresyon durumunda OLS

Regresyon bağımlılığının doğrusal olmasına izin verin:

y t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

İzin vermek sen açıklanan değişkenin gözlemlerinin sütun vektörüdür ve X (\displaystyle X)- Bu (n × k) (\displaystyle ((n\time k)))-faktör gözlemlerinin matrisi (matrisin satırları, belirli bir gözlemdeki faktör değerlerinin vektörleridir, sütunlar, tüm gözlemlerdeki belirli bir faktörün değerlerinin bir vektörüdür). Doğrusal modelin matris gösterimi şu şekildedir:

y = X b + ε (\displaystyle y=Xb+\varepsilon ).

Daha sonra açıklanan değişkenin tahmin vektörü ile regresyon artıklarının vektörü eşit olacaktır.

y ^ = X b , e = y − y ^ = y − X b (\displaystyle (\hat (y))=Xb,\quad e=y-(\hat (y))=y-Xb).

Buna göre regresyon artıklarının kareleri toplamı şuna eşit olacaktır:

R S S = e T e = (y − X b) T (y − X b) (\displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

Bu fonksiyonun parametre vektörüne göre türevini almak b (\displaystyle b) ve türevleri sıfıra eşitleyerek bir denklem sistemi elde ederiz (matris formunda):

(X T X) b = X T y (\displaystyle (X^(T)X)b=X^(T)y).

Şifresi çözülmüş matris formunda bu denklem sistemi şuna benzer:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 3 … ∑ x t 2 x t k ∑ x t 3 x t 1 ∑ x t 3 x t 2 ∑ x t 3 2 … ∑ x t 3 x t k ⋮ ⋮ ⋮ ⋱ ⋮ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3 … ∑ x t k 2) (b 1 b 2 b 3 ⋮ b k) = (∑ x t 1 y t ∑ x t 2 y t ∑ x t 3 y t ⋮ ∑ x t k y t) , (\displaystyle (\begin(pmatrix)\toplam x_(t1)^(2)&\toplam x_(t1)x_(t2)&\toplam x_(t1)x_(t3)&\ldots &\toplam x_(t1)x_(tk)\\\toplam x_(t2)x_(t1)&\toplam x_(t2)^(2)&\toplam x_(t2)x_(t3)&\ldots &\ toplam x_(t2)x_(tk)\\\toplam x_(t3)x_(t1)&\toplam x_(t3)x_(t2)&\toplam x_(t3)^(2)&\ldots &\sum x_ (t3)x_(tk)\\\vdots &\vdots &\vdots &\ddots &\vdots \\\toplam x_(tk)x_(t1)&\toplam x_(tk)x_(t2)&\toplam x_ (tk)x_(t3)&\ldots &\toplam x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3 )\\\vdots \\b_(k)\\\end(pmatrix))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \sum x_(t3)y_(t)\\\vdots \\\sum x_(tk)y_(t)\\\end(pmatrix))),) tüm toplamların tüm geçerli değerler üzerinden alındığı yer t (\displaystyle t).

Modele bir sabit dahil edilmişse (her zamanki gibi), o zaman x t 1 = 1 (\displaystyle x_(t1)=1) herkesin önünde t (\displaystyle t) bu nedenle denklem sistemi matrisinin sol üst köşesinde gözlem sayısı vardır n (\displaystyle n) ve ilk satırın ve ilk sütunun geri kalan öğelerinde - yalnızca değişken değerlerinin toplamları: ∑ x t j (\displaystyle \toplam x_(tj)) ve sistemin sağ tarafındaki ilk eleman ∑ y t (\displaystyle \toplam y_(t)).

Bu denklem sisteminin çözümü şunu verir: Genel formül Doğrusal model için OLS tahminleri:

b ^ Ö L S = (X T X) − 1 X T y = (1 n X T X) − 1 1 n X T y = V x − 1 C x y (\displaystyle (\hat (b))_(OLS)=(X^(T) )X)^(-1)X^(T)y=\left((\frac (1)(n))X^(T)X\right)^(-1)(\frac (1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).

Analitik amaçlar için, bu formülün son temsilinin faydalı olduğu ortaya çıkıyor (denklem sisteminde n'ye bölünürken toplamlar yerine aritmetik ortalamalar görünür). Bir regresyon modelinde veriler merkezli, o zaman bu gösterimde ilk matris, faktörlerin örnek bir kovaryans matrisi anlamına gelir ve ikincisi, faktörlerin bağımlı değişkenle kovaryanslarının bir vektörüdür. Ayrıca veriler aynı zamanda normalleştirilmiş MSE'ye (yani sonuçta standartlaştırılmış), o zaman ilk matris, faktörlerin örnek korelasyon matrisi anlamına gelir, ikinci vektör, faktörlerin bağımlı değişkenle örnek korelasyonlarının bir vektörüdür.

Modeller için OLS tahminlerinin önemli bir özelliği sabit ile- oluşturulan regresyonun çizgisi örnek verilerin ağırlık merkezinden geçer, yani eşitlik sağlanır:

y ¯ = b 1 ^ + ∑ j = 2 k b ^ j x ¯ j (\displaystyle (\bar (y))=(\hat (b_(1)))+\sum _(j=2)^(k) (\hat (b))_(j)(\bar (x))_(j)).

Özellikle, tek regresörün bir sabit olduğu uç durumda, tek parametrenin (sabitin kendisi) OLS tahmininin, açıklanan değişkenin ortalama değerine eşit olduğunu buluruz. Yani, bilinen aritmetik ortalama iyi özellikler büyük sayılar yasalarından, aynı zamanda en küçük kareler tahminidir - ondan sapmaların minimum kare toplamı kriterini karşılar.

En basit özel durumlar

Eşleştirilmiş doğrusal regresyon durumunda y t = a + b x t + ε t (\displaystyle y_(t)=a+bx_(t)+\varepsilon _(t)) Bir değişkenin diğerine doğrusal bağımlılığı tahmin edildiğinde hesaplama formülleri basitleştirilir (matris cebiri olmadan yapabilirsiniz). Denklem sistemi şu şekildedir:

(1 x ¯ x ¯ x 2 ¯) (a b) = (y ¯ x y ¯) (\displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2)))\\\end(pmatrix)(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline (xy))\\\end(pmatrix))).

Buradan katsayı tahminlerini bulmak kolaydır:

( b ^ = Cov ⁡ (x , y) Var ⁡ (x) = x y ¯ − x ¯ y ¯ x 2 ¯ − x ¯ 2 , a ^ = y ¯ − b x ¯ . (\displaystyle (\begin(cases) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline) (xy))-(\bar (x))(\bar (y))))((\overline (x^(2))))-(\overline (x))^(2))),\\( \hat (a))=(\bar (y))-b(\bar (x))).\end(cases)))

Genel durumda sabitli modellerin tercih edilmesi gerçeğine rağmen, bazı durumlarda teorik değerlendirmelerden sabitin olduğu bilinmektedir. a (\displaystyle a) sıfıra eşit olmalıdır. Örneğin fizikte gerilim ve akım arasındaki ilişki şöyledir: U = I ⋅ R (\displaystyle U=I\cdot R); Gerilim ve akımı ölçerken direnci tahmin etmek gerekir. Bu durumda modelden bahsediyoruz. y = b x (\displaystyle y=bx). Bu durumda bir denklem sistemi yerine tek bir denklemimiz olur

(∑ x t 2) b = ∑ x t y t (\displaystyle \sol(\toplam x_(t)^(2)\sağ)b=\toplam x_(t)y_(t)).

Bu nedenle, tek katsayıyı tahmin etmeye yönelik formül şu şekildedir:

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t) )y_(t))(\toplam _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) )))).

Bir polinom modelinin durumu

Veriler bir değişkenin polinom regresyon fonksiyonuna uyuyorsa f (x) = b 0 + ∑ ben = 1 k b ben x ben (\displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i)) o zaman dereceleri algılamak x ben (\displaystyle x^(i)) her biri için bağımsız faktörler olarak ben (\displaystyle i) Doğrusal bir modelin parametrelerini tahmin etmeye yönelik genel formüle dayalı olarak model parametrelerini tahmin etmek mümkündür. Bunu yapmak için genel formülde böyle bir yorumla dikkate alınması yeterlidir. x t ben x t j = x t ben x t j = x t ben + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j)) Ve x t j y t = x t j y t (\displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). Sonuç olarak, bu durumda matris denklemleri şu şekli alacaktır:

(n ∑ n x t … ∑ n x t k ∑ n x t ∑ n x t 2 … ∑ n x t k + 1 ⋮ ⋮ ⋱ ⋮ ∑ n x t k ∑ n x t k + 1 … ∑ n x t 2 k) [ b 0 b 1 ⋮ b k ] = [ ∑ n y t ∑ n x t y t ⋮ ∑ n x t k y t ] . (\displaystyle (\begin(pmatrix)n&\toplam \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\toplam \limits _( n)x_(t)&\sum \limits _(n)x_(t)^(2)&\ldots &\sum \limits _(n)x_(t)^(k+1)\\\vdots & \vdots &\ddots &\vdots \\\sum \limits _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ toplam \limits _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatrix))).)

OLS tahmincilerinin istatistiksel özellikleri

Öncelikle yukarıdaki formülden de anlaşılacağı gibi doğrusal modeller için OLS tahminlerinin doğrusal tahminler olduğunu not ediyoruz. Tarafsız OLS tahminleri için aşağıdakilerin gerçekleştirilmesi gerekli ve yeterlidir: en önemli koşul Regresyon analizi: faktörlere bağlı olarak, rastgele hatanın matematiksel beklentisi sıfıra eşit olmalıdır. Bu durumözellikle eğer tatmin olursa

  1. rastgele hataların matematiksel beklentisi sıfırdır ve
  2. faktörler ve rastgele hatalar bağımsız rastgele  değişkenlerdir.

İkinci koşul - faktörlerin dışsallığı koşulu - temeldir. Bu özellik karşılanmazsa, hemen hemen tüm tahminlerin son derece yetersiz olacağını varsayabiliriz: tutarlı bile olmayacaklar (yani, çok büyük miktarda veri bile bu durumda yüksek kaliteli tahminler elde etmemize izin vermiyor) ). Klasik durumda, dışsallık koşulunun otomatik olarak karşılandığı anlamına gelen rastgele hatanın aksine, faktörlerin determinizmi hakkında daha güçlü bir varsayım yapılır. Genel durumda tahminlerin tutarlılığı için matrisin yakınsaması ile birlikte dışsallık koşulunun sağlanması yeterlidir. Vx (\displaystyle V_(x))Örnek boyutu sonsuza arttıkça bazı tekil olmayan matrislere.

Tutarlılık ve tarafsızlığa ek olarak (sıradan) en küçük kareler tahminlerinin de etkili olabilmesi için (doğrusal tarafsız tahminler sınıfının en iyisi), rastgele hatanın ek özelliklerinin karşılanması gerekir:

Bu varsayımlar rastgele hata vektörünün kovaryans matrisi için formüle edilebilir. V (ε) = σ 2 I (\displaystyle V(\varepsilon)=\sigma ^(2)I).

Bu koşulları sağlayan doğrusal modele denir. klasik. Klasik doğrusal regresyon için OLS tahminleri tarafsızdır, tutarlıdır ve tüm doğrusal tarafsız tahminler sınıfındaki en etkili tahminlerdir (İngiliz literatüründe bazen kısaltma kullanılır) MAVİ (En İyi Doğrusal Tarafsız Tahminci) - en iyi doğrusal tarafsız tahmin; Rus edebiyatında Gauss-Markov teoremine daha sık başvurulur). Gösterilmesi kolay olduğu gibi, katsayı tahminleri vektörünün kovaryans matrisi şuna eşit olacaktır:

V (b ^ Ö L S) = σ 2 (X T X) − 1 (\displaystyle V((\hat (b))_(OLS))=\sigma ^(2)(X^(T)X)^(-1 )).

Verimlilik, bu kovaryans matrisinin "minimum" olduğu anlamına gelir (katsayıların herhangi bir doğrusal kombinasyonu ve özellikle katsayıların kendileri minimum varyansa sahiptir), yani doğrusal tarafsız tahminciler sınıfında OLS tahmincileri en iyisidir. Bu matrisin çapraz elemanları (katsayı tahminlerinin varyansları) elde edilen tahminlerin kalitesinin önemli parametreleridir. Ancak rastgele hata varyansı bilinmediğinden kovaryans matrisini hesaplamak mümkün değildir. Rastgele hataların varyansının tarafsız ve tutarlı (klasik doğrusal model için) tahmininin miktar olduğu kanıtlanabilir:

S 2 = R S S / (n − k) (\displaystyle s^(2)=RSS/(n-k)).

Bu değeri kovaryans matrisi formülünde yerine koyarak kovaryans matrisinin bir tahminini elde ederiz. Ortaya çıkan tahminler aynı zamanda tarafsız ve tutarlıdır. Hata varyansının tahmininin (ve dolayısıyla katsayıların varyansının) ve model parametrelerinin tahminlerinin bağımsız rastgele değişkenler olması da önemlidir; bu, model katsayıları hakkındaki hipotezlerin test edilmesi için test istatistiklerinin elde edilmesini mümkün kılar.

Klasik varsayımların karşılanmaması durumunda OLS parametre tahminlerinin en verimli olmadığı ve W (\displaystyle W) bazı simetrik pozitif tanımlı ağırlık matrisidir. Geleneksel en küçük kareler, ağırlık matrisinin birim matrisle orantılı olduğu bu yaklaşımın özel bir durumudur. Bilindiği gibi simetrik matrisler (veya operatörler) için bir genişleme vardır. W = P T P (\displaystyle W=P^(T)P). Bu nedenle, belirtilen fonksiyonel aşağıdaki gibi temsil edilebilir e T P T P e = (P e) T P e = e ∗ T e ∗ (\displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)) yani bu fonksiyonel bazı dönüştürülmüş "kalanların" karelerinin toplamı olarak temsil edilebilir. Böylece, en küçük kareler yöntemlerinin bir sınıfını - LS yöntemlerini (En Küçük Kareler) - ayırt edebiliriz.

Genelleştirilmiş bir doğrusal regresyon modeli için (rastgele hataların kovaryans matrisine hiçbir kısıtlama getirilmeyen), en etkili olanın (doğrusal tarafsız tahminler sınıfında) sözde tahminler olduğu kanıtlanmıştır (Aitken teoremi). genelleştirilmiş En Küçük Kareler (GLS - Genelleştirilmiş En Küçük Kareler)- Rastgele hataların ters kovaryans matrisine eşit ağırlık matrisine sahip LS yöntemi: W = V ε − 1 (\displaystyle W=V_(\varepsilon )^(-1)).

Doğrusal bir modelin parametrelerinin GLS tahminlerine yönelik formülün şu şekilde olduğu gösterilebilir:

B ^ G L S = (X T V − 1 X) − 1 X T V − 1 y (\displaystyle (\hat (b))_(GLS)=(X^(T)V^(-1)X)^(-1) X^(T)V^(-1)y).

Bu tahminlerin kovaryans matrisi buna göre şuna eşit olacaktır:

V (b ^ G L S) = (X T V − 1 X) − 1 (\displaystyle V((\hat (b))_(GLS))=(X^(T)V^(-1)X)^(- 1)).

Aslında OLS'nin özü, orijinal verilerin belirli (doğrusal) bir dönüşümünde (P) ve sıradan OLS'nin dönüştürülmüş verilere uygulanmasında yatmaktadır. Bu dönüşümün amacı, dönüştürülen veriler için rastgele hataların zaten klasik varsayımları sağlamasıdır.

Ağırlıklı OLS

Çapraz ağırlık matrisi (ve dolayısıyla rastgele hataların kovaryans matrisi) durumunda, ağırlıklı En Küçük Kareler (WLS) olarak adlandırılan matrise sahibiz. Bu durumda, model artıklarının ağırlıklı kareler toplamı en aza indirilir, yani her gözlem, bu gözlemdeki rastgele hatanın varyansıyla ters orantılı bir "ağırlık" alır: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ sigma_(t)^(2)))). Aslında veriler, gözlemlerin ağırlıklandırılmasıyla (rastgele hataların tahmin edilen standart sapması ile orantılı bir miktara bölünerek) dönüştürülür ve ağırlıklı verilere sıradan OLS uygulanır.

ISBN 978-5-7749-0473-0 .

  • Ekonometri. Ders Kitabı / Ed. Eliseeva II - 2. baskı. - M .: Finans ve İstatistik, 2006. - 576 s. - ISBN 5-279-02786-3.
  • Alexandrova N.V. Matematiksel terimlerin, kavramların, notasyonların tarihi: sözlük-referans kitabı. - 3. baskı - M.: LKI, 2008. - 248 s. - ISBN 978-5-382-00839-4. IV Mitin, Rusakov V.S. Deneysel verilerin analizi ve işlenmesi - 5. baskı - 24 s.
  • En küçük kareler yöntemi (OLS), rastgele hatalar içeren birçok ölçümün sonuçlarını kullanarak çeşitli miktarları tahmin etmenize olanak tanır.

    Çokuluslu Şirketlerin Özellikleri

    Bu yöntemin ana fikri, karesel hataların toplamının, en aza indirilmeye çalışılan problemin çözümünün doğruluğu için bir kriter olarak kabul edilmesidir. Bu yöntemi kullanırken hem sayısal hem de analitik yaklaşımlar kullanılabilir.

    Özellikle sayısal bir uygulama olarak en küçük kareler yöntemi, bilinmeyen bir rastgele değişkenin mümkün olduğu kadar çok ölçümünün alınmasını içerir. Üstelik ne kadar çok hesaplama yapılırsa çözüm o kadar doğru olacaktır. Bu hesaplama setine (ilk verilere) dayanarak, en iyisinin seçildiği başka bir tahmini çözüm seti elde edilir. Çözüm kümesi parametrelendirilmişse, en küçük kareler yöntemi parametrelerin optimal değerini bulmaya indirgenecektir.

    LSM'nin bir dizi başlangıç ​​verisi (ölçümler) ve beklenen bir çözüm kümesi üzerinde uygulanmasına analitik bir yaklaşım olarak, onay gerektiren belirli bir hipotez olarak elde edilen bir formülle ifade edilebilecek belirli bir (işlevsel) belirlenir. Bu durumda, en küçük kareler yöntemi, orijinal verinin hata kareleri kümesinde bu fonksiyonelin minimumunu bulmaya gelir.

    Lütfen bunun hataların kendisi değil, hataların kareleri olduğunu unutmayın. Neden? Gerçek şu ki, ölçümlerin kesin değerden sapmaları çoğu zaman hem olumlu hem de olumsuzdur. Ortalamayı belirlerken pozitif ve negatif değerlerin iptali, birden fazla ölçümün örnekleme gücünü azaltacağından basit toplama, tahminin kalitesi hakkında yanlış bir sonuca yol açabilir. Ve sonuç olarak değerlendirmenin doğruluğu.

    Bunun olmasını önlemek için sapmaların kareleri toplanır. Ayrıca, ölçülen değerin ve nihai tahminin boyutunu eşitlemek için hataların kareleri toplamı çıkarılır.

    Bazı MNC uygulamaları

    MNC çeşitli alanlarda yaygın olarak kullanılmaktadır. Örneğin, olasılık teorisinde ve matematiksel istatistikte, rastgele değişkenin değer aralığının genişliğini belirleyen standart sapma gibi rastgele bir değişkenin böyle bir özelliğini belirlemek için yöntem kullanılır.



    Bir hata bulursanız lütfen bir metin parçası seçin ve Ctrl+Enter tuşlarına basın.