CHAPTER 6 SIMPLE LINEAR REGRESSION

CHAPTER 6 SIMPLE LINEAR REGRESSION Bu bölümdeki amacımız değişkenler arasındaki ilişkiyi gösteren en uygun eşitliği kurmaktır. Konuya giriş için şu ö...
Author: Guest
11 downloads 0 Views 572KB Size
CHAPTER 6 SIMPLE LINEAR REGRESSION

Bu bölümdeki amacımız değişkenler arasındaki ilişkiyi gösteren en uygun eşitliği kurmaktır. Konuya giriş için şu örnekle başlayalım; Diyelim ki Mr. Bump adındaki birisi rastgele seçilmiş 10 hafta için ürettiği sütlerin satış fiyatları ile satış miktarlarını inceliyor ve şu tablo ortaya çıkıyor;

1

Tablo incelenirse Y ve X değişkenleri arasında “negative linear relationship” vardır. Yani fiyat arttıkça satış düşüyor. Ve aradaki ilişkinin ne derecede olduğunu ölçmek için “correlation coefficient” hesabı yapıyor sonuç -.86 çıkıyor. Sonucun negatif olması “negative linear relationship” olduğunun göstergesidir. Çıkan sonuç şunu gösteriyor ki X ve Y arasında kuvvetli bir ters ilişki var. Sonra aklına şu soru takılıyor: Miktardaki azalışın fiyattaki artışa olan etkisi nedir? Bu sorunun çözümü için yapılması gereken aşağıdaki diagrama uygun doğrusal bir line çizmektir. Bunun için de veriler incelenerek en uygun equation hazırlanıp line çizilir.

Line’ın eğimi(𝑏1 ), fiyattaki her yükseliş için miktardaki ortalama düşüşü gösterir. Daha sonra Mr. Bump diagramdaki noktalara en uygun şekilde göz kararı bir line çizdi. Başka biri olsa belki biraz daha farklı bir line çizebilirdi. Göz kararı olarak her kim ne kadar uygun bir line çizmeye çalışırsa çalışsın en uygun yöntem “fitted regression equation” oluşturarak çizim yapmaktır. Bu eşitlikle ortaya çıkan line, diagramdaki noktalara en yakın olacak olan line’dır. Bu equation’ın denklemi ise şu şekildedir;

𝑌̂ = 𝑏0 + 𝑏1 𝑋 𝑏0 , doğrunun y eksenini kestiği noktadır. Yani X’in 0 olduğu yerde y’nin aldığı değerdir. 𝑏1 , ise eğimdir. Bu da X’teki bir birimlik artışın Y’de meydana getirdiği değişim miktarını gösterir. Yukarıdaki grafikteki noktaların line’a olan uzaklıklarının kareleri toplamı diğer göz kararı çizilmiş line’lara göre en düşük olanıdır. Yani gerçek değerlere en çok yaklaşan line budur. Nokta ile line arasındaki mesafe “residual” olarak adlandırılıyor. Bunun bir diğer ismi de “error”’dur. Grafikteki noktalar orijinal datadan alınmış gerçek değerlerdir. Bizim bu noktalara göre equation kullanarak oluşturduğumuz line ise tablodaki değerlere en yakın sonucu veren equation’ın line’ıdır. Mesela; x=1 için y= 32,14 – 14,54 = 17,60’tır. Gerçek değer ise grafikten anlaşılacağı gibi 17’ye yakın bir sayıyı işaret etmektedir.

2

Observation = Fit + Residual

𝑌 = 𝑌̂ + (𝑌 − 𝑌̂) Gerçek değere ulaşmak için tahminlediğimiz değerler (𝑌̂) ile “residual”ları (𝑌 − 𝑌̂) toplarız. Şu iki formül birbirine karıştırılmamalıdır;

𝑌̂ = 𝑏0 + 𝑏1 𝑋 𝑌 = 𝑏0 + 𝑏1 𝑋 + 𝜖 STANDARD ERROR OF THE ESTIMATE Şimdi de Mr. Bump datadaki noktaların line’a olan uzunluğunu ölçmek istiyor. Bunun için “standard error” hesabı yapılmalıdır. Regresyon analizinde “standar error” hesabı yapıldığında “standard error”un küçük bir sayı çıkması regresyon grafiğindeki noktaların grafikteki line’a çok yakın olduğunu gösterir. Eğer “standard error” büyük bir sayı çıktıysa bu noktalar line’dan uzaktır. Örneğin örnekteki standart sapma 2.72’dir. Standart sapma fazla olduğu için denilebilir ki “satışlarda meydana gelen değişiklikler fiyat ile açıklanamaz.” Eğer standart sapma düşük olsaydı diyebilirdik ki satışlardaki değişimi fiyat ile açıklayabiliriz. Yani aşağıdaki tabloya bakacak olursak mesela en başta 10 galon süt üretildiğinde fiyat 1.30 iken 5. sırada yine 10 galon süt üretilmiş fakat fiyat 1.60. Öte yandan 7. sırada 5 galon süt üretilmiş tablodaki verilere göre fiyat artması gerekirken 1.60’da kalmış. ?????????????????????????????????????????? FORECASTING Y Fitted regression line’ı Y değerini bulmak için kullanırız. Fiyat şu kadar olursa satışlar şu şekilde olur gibisinden...

Mesela Mr. Bump $1,63 satış fiyatından satılacak süt miktarını hesaplamak istiyor;

𝑌̂ = 32.14 − 14.54(1.63) = 8.440 Daha sonra fark ediyor ki bulduğu değer yani line üzerindeki değer ile grafikteki gerçek değer (nokta ile gösterilen değer) aynı değil. İkisi

3

arasındaki fark residual’dır yani error’dur. Grafikteki line 10 tane sample temel alınarak hesaplandı. Eğer farklı bir 10 sample seçilseydi daha farklı bir line ortaya çıkacaktı. Böylece yerine 1.63 koyarak bulduğumuz Y değeri daha farklı olacaktı. “Fitted regression equation” kullanılarak hesaplanan bir noktanın belirsizliğinin iki sebebi vardır; -

Noktaların regresyon çizgisi etrafında dağılım göstermesinden kaynaklanan belirsizlik Örneklem(sample=datadaki 10 örneklem) regression çizgisinin popülasyon(datadaki tüm değerler) regresyon çizgisine yakın dağılım göstermesinden kaynaklanan yani ikisinin aynı olmamasından kaynaklanan belirsizlik.???????????????????????????????

Y’nin aralık tahmini bu iki belirsizliği göz önünde bulundurularak yapılmaktadır.

4

Kitaptaki formüle göre hesaplanan “prediction interval” (1.73, 15.15) dir. Yani bu da 1,730 ile 15,550 galona tekabül etmektedir. Rastgele seçilmiş 10 hafta için bu kadar geniş bir tahmin aralığının olması Y’nin hesaplanması için bir değer ifade etmemektedir. Tahmin aralığı ne kadar dar olursa işimize o kadar çok yarayacaktır. Öte yandan Mr. Bump X=3.00 için hesaplama yapmak isterse bu değer tabloda olmayan yüksek bir değerdir. Böyle bir data collect edilmediği için yapılan herhangi bir tahminleme büyük bir olasılıkla doğru sonucu vermeyecektir. (highly suspect) Ayrıca X’in büyük bir değer almasıyla tahminlemenin standart sapması da genişleyecektir buna nispeten (𝑋 − 𝑋̅)2 de geniş olacaktır. Sütün $3 olduğundaki durumu tahminlemek için Mr. Bump straight line modelinin geçerli olduğunu varsaymalıdır. Fakat şunu da bilmelidir ki elinde bu varsayımı destekleyecek kesin bir delil de yoktur.

DECOMPOSITION OF VARIANCE Decomposition of Variability; SST = SSR + SSE

SST= Total sum of square SSR= Sum of square regression SSE= Sum of square error

Y’deki varyasyonun bir kısmı SSR ile ölçülür ve SSR ile ölçülemeyen diğer kısım da SSE ile ölçülür. İkisinin toplamı da toplam varyasyonu yani SST’yi verir. Bu “decomposition of variability” olarak adlandırılır ve bunlara karşılık gelen değerler “analysis of variance” olarak bilinen ANOVA tablosunda gösterilir. (bkz. sf. 231)

Şimdi örneğe dönecek olursak, Mr. Bump’ın analizi 10 haftalık satış verileri bilgisi ile başladı. Eğer bundan başka bilgi olmasaydı(fiyatlar belli olmasaydı) Mr. Bump ortalama haftalık ne kadar süt satıldığını ölçmek için “sample average” yani bu 10 verinin ortalamasını alıp bu ortalamayı kullanacaktı (11.2). Sadece satış miktarlarının verildiği bu durumda residuals yani error’larımız 𝑌 − 𝑌̅, yani actual (gerçek) değerler ile ortalama(11.2) arasındaki fark olacaktı. ve SST ise bu değerlerin kareleri toplamı olacaktı. Diğer yandan Mr. Bump’ın X’e dair bilgileri de var. X, gallon başı fiyatı gösteriyor. Hatırlarsak en başta “correlation coefficient”ı 0.86 olarak bulmuştuk. Bu bilgi ile o, Y değerlerindeki farkların yani varyasyonun bir kısmını açıklayabilir. Aşağıdaki iki tablodan birinde X değişkenin yani fiyat değişkeninin olmadığı yani sadece Y değerlerinin ortalamasının kullanılması sonucu elde ettiğimiz residul’lar var diğerinde ise X değerlerinden faydalanılarak elde edilmiş residual’lar var. Bu iki tabloyu karşılaştıracak olursak görüldüğü gibi X değerlerinden faydalanılarak elde edilen residuallar mutlak değerce diğerine göre daha küçüktür. Yani sağdaki tablonun seçilmesi hatayı azaltıyor.

5

X’in hangi oranda yardımcı olduğunu anlamak için ise “decomposition of variability” bize yardımcı oluyor. Tablodaki verilerden faydalanarak;

𝑆𝑆𝑇 = ∑(𝑌 − 𝑌̅)2 = 233.60 𝑆𝑆𝐸 = ∑(𝑌 − 𝑌̂)2 = 59.41

6

SSR = SST – SSE olduğundan; 𝑆𝑆𝑅 = ∑(𝑌 − 𝑌̅)2 = 233.60 − 59.41 = 174.19’dur. ve decomposition of variablity de; SST

=

SSR

+

233.60 = 174.19 +

SSE 59.41

Explained

Unexplained

Variation

Variation

Yüzdelik dilimi bulmak için gerekli oranlamayı yaparsak; 𝑆𝑆𝑅 174.19 = = .75 𝑆𝑆𝑇 233.60 buluruz. Bu da şunu gösteriyor ki (1-.75 =.25) unexplained’dir. Yani %75’lik kısım Y’nin X ile olan ilişkisine bakılarak açıklanabilir. Sonuç olarak da X’in bilinmesiyle Y için yaptığımız tahminlemeler Y’lerin ortalamasının kullanılmasıyla elde edilenden daha iyi bir sonuç ortaya çıkarmıştır.

COEFFICIENT OF DETERMINATION (𝐑𝟐 ) Regresyon doğrusunun gözlemlere ne denli uyduğunu ortaya koyan göstergelerden biri determinasyon (belirlilik) katsayısıdır. Bu katsayı aynı zamanda, bağımlı değişkendeki değişmelerin yüzde kaçının bağımsız değişken ya da değişkenler tarafından açıklandığını gösterir. Determinasyon katsayısı 0 ile 1 arasında pozitif bir değer olup, korelasyonun karesidir. Determinasyon katsayısından hareketle regresyon modelinin bir bütün olarak geçerliliğini de test etmek mümkündür. Bir regresyon denkleminin başarısı açıklanabilen bağımlı değişkenin büyüklüğüne diğer bir ifadeyle determinasyon katsayısının büyüklüğü ile yakından ilgilidir. Bütün gözlemler(grafikteki noktalar) regresyon doğrusu üzerinde olursa R2 = 1 olur. Regresyon doğrusu, gözlemleri temsil etmekten uzaklaştıkça R2 de küçülür. R2 değeri bağımlı değişkenin ne kadarının bağımsız değişkenler tarafından açıklandığını gösterirken 1- R2 değeri ise modelde yer almayan diğer bağımsız değişkenlerce açıklanan kısmı vermektedir. Bu bilgileri aldıktan sonra tekrar örneğimize dönecek olursak Mr. Bump “coefficient of determination” hesabı yapıyor;

𝑅2 =

𝑆𝑆𝑅 174.19 = = .746 𝑆𝑆𝑇 233.60

bu da şunu gösteriyor ki süt satışlarındaki değişimin %75’i X’teki yani fiyattaki farklılıklarla açıklanabilir. Fakat %25’lik kısım fiyat ile açıklanamaz. Bu kısım ancak bu örnekte bahsedilmemiş faktörlerce açıklanabilir. Mesela sütün kalitesi, yapılan reklamlar ya da sütün yerine tercih edilebilecek ürünlerin varlığı örnek olarak verilebilir. Şunu belirtmekte de fayda var; Coefficient of determination = (𝐶𝑜𝑒𝑓𝑓𝑖𝑐𝑖𝑒𝑛𝑡 𝑜𝑓 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑡𝑖𝑜𝑛)2 𝑅 2 = (𝑟)2 . 746 = (−.863)2 Peki regresyon analizinde neden bu ikisi ayrı ayrı tanımlanıyor? Çünkü her ikisi de bize farklı bilgiler veriyor. Correlation coefficient, değişkenler arasındaki ilişkinin gücü ve yönü hakkında bilgi verirken coefficient of

7

determination Y ile X arasındaki ilişkinin gücünü correlation coefficient’tan farklı bir şekilde ölçüyor. 𝑅 2 , X’teki farklılıklardan faydalanarak Y’deki değişimi ölçüyor ve bu yöntem Y ile birden fazla X arasındaki yani Y ile farklı farklı değişkenler arasındaki ilişkinin ölçümünde de kullanılabilir.

Soldaki grafik 𝑅 2 = 0 olan durumdur. Yani Y’deki değişimler X ile açıklanamaz ama sağdaki grafikte tüm noktalar line’ın tam üzerinde bu da 𝑅 2 = 1 olduğunu gösterir ve Y’deki tüm değişimlerin X değerleri ile açıklanabileceğinin kanıtıdır.

Regresyon analiz tablosunda “p value”nun 0.05’ten küçük olması modelin significant olduğunun göstergesidir. Öyleyse 𝐻0 : 𝛽1 = 0 hipotezi reddedilir. Bu hipotez X ve Y arasında lineer bir ilişki olmadığını iddia etmektedir.

. . .

8