🎰 Korelasyon Ve Regresyon Analizi Örnekleri

ArialFutura Md BT Times New Roman Symbol Wingdings Default Design Picture (Enhanced Metafile) Microsoft Word Belgesi Regresyon Analizi PowerPoint Presentation Regresyon Analizi Basit Doğrusal Regresyon Önce hipotez kuralım Basit Doğrusal Regresyon Testi (SPSS) Basit doğrusal regresyon test sonucu Tabloların yorumu Saçılım grafiği Birbağımlı ve birden daha fazla bağımsız değişkenin bulunduğu regresyon analizi problemlerine çoklu regresyon analizi adı verilir. n adet gözleme sahip bir veri setinde y bağımlı değişken ve k adet bağımsız değişken olmak üzere gözlem birimleri için ölçüm sonuçları yer alabilir (s 124, Tablo 4.8). KapakTürü. : Karton kapak. Bu kitap; İstatistik ve Ekonometri bölümlerinin 3. ve 4. sınıflarında zorunlu derslerden olan "Regresyon Analizi" dersinin içeriğine uygun olarak hazırlanmıştır. Ayrıca bu konu sosyal bilimler alanında yapılan araştırmalarda "Yordama Analizi" veya "Bağlanım Analizi" adlarıyla da yaygın olarak Basit doğrusal regresyon analizi sonuçlarına göre, yaş değişkeninin iş doyumunun anlamlı bir yordayıcısı olduğu bulunmuştur (t = 5.420; p < .05). Buna göre, yaş değişkeni ile kurulan model iş doyumu puanlarındaki %48.8’i ise bu araştırmada kullanılmayan başka değişkenlerce açıklanmaktadır. Bütün bu bulgular RegresyonYöntemleri ve Korelasyon Analizi en uygun fiyat, hızlı kargo ve kapıda ödeme seçenekleriyle bkmkitap.com’da. Regresyon Yöntemleri ve Korelasyon Analizi avantajlı fiyatlarıyla hemen satın almak için tıklayın! QhFHJFm. Regresyon analizi nedir örnek?Regresyon analizi, iki ya da daha çok nicel değişken arasındaki ilişkiyi ölçmek için kullanılan analiz metodudur. … Regresyonda, değişkenlerden biri bağımlı diğerleri bağımsız değişken olmalıdır. Buradaki mantık eşitliğin solunda yer alan değişkenin sağında yer alan değişkenlerden regresyon nedir?İki büyüklükteki eş ilişki veya ilişkiyi belirleyen istatistiksel bir ölçü korelasyon olarak bilinir. Regresyon, bağımsız bir değişkenin, bağımlı değişkenle sayısal olarak nasıl ilişkili olduğunu açıklar. İki değişken arasındaki doğrusal ilişkiyi temsil etmek için korelasyon regresyon analizi nedir?İki ya da daha çok değişken arasında ilişki olup olmadığını, ilişki varsa yönünü ve gücünü inceleyen “korelasyon analizi” ile değişkenlerden birisi belirli bir birim değiştiğinde diğerinin nasıl bir değişim gösterdiğini inceleyen “regresyon analizi” sağlık bilimlerinde çok kullanılan istatistiksel analizleri nelerdir?Korelasyon analizi; değişkenler arasındaki ilişki, bu ilişkinin yönü ve şiddeti ile ilgili bilgiler sağlayan istatiksel bir yöntemdir. İki ya da daha çok değişken arasındaki ilişkinin matematiksel bağıntısı “Regresyon Analizi” ile ilişkinin yönü ve derecesi ise “Korelasyon Analizi” ile regresyon ne demek?Regresyon tıpta ne demek? Bir hastalık belirtisinin gerilemesi, şiddetinin türleri nelerdir?Regresyon Türleri Nelerdir?Doğrusal Regresyon Linear Regression … Basit Doğrusal Regresyon ve Çoklu Doğrusal Regresyon. … 3. Lojistik Regresyon Logistic Regression … Ridge Regresyon. … Lasso Regresyon. … Polinom katsayısına göre ilişkinin gücü nasıl yorumlanır?KORELASYON ANALİZİ Korelasyon katsayısı negatif ise iki değişken arasında ters ilişki vardır, yani "değişkenlerden biri artarken diğeri azalmaktadır" denir. Korelasyon katsayısı pozitif ise "değişkenlerden biri artarken diğeride artmaktadır" yorumu yapılır. ise çok yüksek korelasyon olduğu yorumu yapılır. Portföy yönetimi ile ilgili modelleri anlamak için temel istatistik kavramlarının bilinmesi büyük önem taşımaktadır. Portföy çeşitlendirmesi için gereken bu istatistiksel hesaplamalardan birisi de "regresyon" dur. Bu yazıda regresyon analizleri hakkında temel bilgiler yer almaktadır. Regresyon bağlanım olarak Türkçe'ye çevrilebilir. Kovaryans ve korelasyon analizlerinde olduğu gibi regresyon da iki değişken arasındaki ilişkiyi tanımlamak için kullanılmaktadır. Regresyonun en önemli farkı değişkenlerin geçmiş verilerine dayanarak geleceğe dair bir tahminde bulunmak için kullanılmasıdır. Regresyon analizlerinden bir çok alanda sebep sonuç ilişkilerine dayalı tahminler yapmak için faydalanmak mümkündür, örneğin hisse senedi fiyatlarının, ürün satış rakamlarının ya da bir eğitim programının sonucunun tahmininde kullanılabilir. İki farklı regresyon analizinden bahsedilebilir; Tek değişkenli regresyon analizi Bir bağımlı değişken ve bir bağımsız değişken arasındaki ilişkidir. Bu ilişki bir doğrusal denklem ile tanımlanır. Çok değişkenli regresyon analizi Bir bağımlı değişken ve birden çok bağımsız değişken arasındaki ilişkidir. Bağımsız değişken sebep, bağımlı değişken ise sonuç olarak tanımlanabilir. Regresyon analizi sonucunda elde bulunan geçmiş datalardan oluşan "en ideal grafik" tespit edilmiş olur, bu grafik sayesinde de bağımlı değişkenin gelecekte nasıl hareket edeceğine dair tahminler geliştirilebilir. Aşağıda örnek bir regresyon analizi görülebilir Örnek Regresyon Analizi Aşağıda tek değişkenli, yani basit regresyon modeli ile ilgili örnek görülebilir. Bu örnekte bir işletmenin reklam harcamaları ile satışları arasındaki ilişki izlenmektedir. Örnek tabloda ay bazında reklam harcamaları ve ilgili aya ait satışlar yer almaktadır. İşletmenin amacı reklam harcamalarının bağımsız değişken satışları bağımlı değişken nasıl etkilediğini görmek ve buna göre reklam planlaması yapmaktır Yukarıdaki tabloda bulunan datalar grafik üzerinde aşağıdaki şekilde gösterilebilir Yalnızca bu bilgiler ile grafiğe bakılarak reklam harcamaları ve satışlar arasında bir ilişki olduğu görülebilmektedir. Noktalar belirli bir doğrultuda ilerlemektedir. Bu ilişkiyi korelasyon katsayısı ile matematiksel olarak ortaya koymak mümkündür. Hatırlatmak gerekirse; korelasyon iki değişken arasındaki bağın gücünü ölçmek için kullanılır ve 1 ile -1 arasında bir değer alır. 1'e yaklaşan değer çok güçlü bağı, sıfıra yakın değerler zayıf bağı, -1'e yakın değerler ise ters bağı göstermektedir. Regresyon analizi ile geleceğe dönük bir tahmin yapabilmek için değişkenler arasında arasında bir korelasyon katsayısı hesaplanmış olması beklenir. Yukarıdaki tabloda yer alan veriler ile hesaplanan korelasyon katsayısı Bu da reklam harcamaları ile satışlar arasında kuvvetli pozitif bir ilişki olduğunu göstermektedir. Bu durumda regresyon analizi yapmak bize doğru tahminlerde bulunmak için yardımcı olabilir. Değişkenler arasındaki korelasyonun tespitinden sonra regresyon doğrusu oluşturulabilir Yukarıdaki grafikte yer alan mor çizgi regresyon doğrusudur. Regresyon doğrusu datalar ile doğru arasındaki en düşük mesafeler grubunun en iyi alternatif belirlenmesi ile çizilir. Bu doğru "en küçük kareler" yöntemi ile belirlenmektedir. Bilgisayar yardımı ile hesaplanabilecek bu yöntem ile en düşük hata payı içeren regresyon doğrusunun çizilmesi mümkündür. Regresyon doğrusu aynı doğrultuda uzatıldığı takdirde geleceğe dönük tahmini veriler elde edilmiş olur. Peki regresyon analizi piyasalarda nasıl kullanılabilir? Aşağıdaki grafik i hisse senedi ile borsa endeksi getirisini göstermektedir, diğer bir ifade ile bir hisse senedinin genel piyasa ortalamasına göre nasıl hareket ettiğini göstermektedir. Bir önceki örnekte olduğu gibi her bir tarih için hissenin ve endeksin getirilerinden bir tablo oluşturulmuş, daha sonra regresyon doğrusu hesaplanarak aşağıdaki grafik elde edilmiştir; Görüldüğü üzere i hisse senedi ile endeks arasında pozitif bir ilişki bulunmaktadır. Regresyon doğrusu kullanılarak ilgili hisse senedinin gelecekte endeks piyasa getirisine göre nasıl performans göstereceği tahmin edilebilir. Regresyon doğrusunu matematiksel olarak şu şekilde gösterebiliriz; Ri = beta x Rm + alpha Ri hisse senedi getirisini, rm ise endeks pazar getirisini temsil etmektedir. Regresyon hesaplamaları bize beta katsayısının nasıl hesaplandığını da göstermiş oldu. Beta katsayısı finans piyasaları için oldukça önemlidir ve yatırımcılar tarafından sık kullanılan bir analiz aracıdır. Beta katsayısının doğrunun eğimine eşit olduğuna dikkat ediniz. Bu durumda beta katsayısının, "hisse senedi getirisinin borsa endeksindeki hareketlere duyarlılığını" ölçtüğü görülebilir. Beta katsayısına başka bir yazıda geniş bir şekilde yer verilecektir. Alpha ise piyasadan bağımsız hisse senedi getirisini göstermektedir. Grafikte de görüldüğü üzere pazar getirisi sıfıra eşit olsa da hisse senedi alpha kadar getiri elde etmiştir. Alpha finans piyasasında portföy fon yöneticisinin performansı ile hisse senedine kattığı katma değer olarak yorumlanmaktadır. Bu bilgiler çeşitli portföy modellerinde kullanılmakta olup bu modeller hakkında bilgiler farklı yazılarda verilecektir. Bu yazıdaki grafik ve örnek hazırlanırken Columbia Üniversitesi PreMBA programı dökümanlarından faydalanılmıştır. Oluşturulma Tarihi Haziran 28, 2021 0109Regresyon analizinin kapsamlı bir kullanımı, bağımlı değişkenin değerlerini doğru bir şekilde tahmin eden veri kümeleri üzerinde modeller oluşturmaktır. Regresyon nedir ve nasıl analiz edilir gibi sorular hakkında tüm detayları analizi, bağımsız değişkenlerin bağımlı bir değişkenle ne kadar yakından ilişkili olduğunu ölçmek için kullanılabilen bir makine öğrenme Analizi Nedir ve Nasıl Yapılır?Regresyon analizinin başlangıcında, bir veri kümesi iki gruba ayrılabilir. Bunlar eğitim veri kümesi ve bir test veri kümesidir. Eğitim veri kümesi, grafiğe en uygun çizgiyi uygulamak için en iyi yaklaşımı bulmak üzere bir model oluşturmak için kullanılabilir. Bu nedenle, bağımsız değişken ya da değişkenlerin bağımlı değişkene karşı grafiğine kolayca uyan düz bir çizgi veya bir eğri yeni oluşturulan model, test veri kümesinin bağımlı değişkenini tahmin etmek için kullanılabilir. Daha sonra, tahmin edilen değerler, R-kare, kök ortalama kare hatası, kök ortalama hata, pearson korelasyon katsayısı ve diğerleri gibi farklı doğruluk ölçüleri kullanılarak orijinal bağımlı değişken değerleriyle puanı yeterince doğru değilse ve daha güçlü bir model oluşturulmak istiyorsa, eğitim ve test veri kümelerine tahsis edilen veri kümelerinin yüzdesi değiştirilebilir. Örneğin, eğitim veri kümesinde veri kümesinin% 70'i ve% 30'luk test veri kümesine sahipse, eğitim veri kümesi artık veri kümesinin% 80'ine sahip olabilir ve test veri kümesi% 20'ye sahip Regresyon Analizi BiçimleriDoğrusal RegresyonDoğrusal Regresyon, bağımlı değişkenin değerlerini tahmin etmek için bağımsız bir değişken kullanarak regresyonda, daha sonra test veri setinin değerlerini tahmin etmek için kullanılabilen eğitim veri setinden bir denklem elde etmek için en iyi uyan bir çizgi kullanılır. Denklem şu biçimde olabilir y = mx + b burada y tahmin edilen değerdir, m doğrunun gradyanıdır ve b, çizginin y eksenine çarptığı noktadır. Aşağıda python'da doğrusal regresyon çalıştırmak için bir dizi kod bulunmaktadır;Kod, FIFA 19 oyuncu derecelendirmelerinden oluşan bir veri kümesine göre yapıldı. Burada, oyuncuların genel puanlarını tahmin etmek için potansiyel RegresyonPolinom Regresyon, bağımlı değişkenin değerlerini tahmin etmek için bağımsız bir değişken regresyonunda, daha sonra test veri setinin değerlerini tahmin etmek için kullanılabilen eğitim veri setinden bir denklem elde etmek için en uygun eğri regresyon durumunda denklem şu biçimde olabilir y = ax ^ n + bx ^ n-1 +… + c burada y tahmin edilen değerdir, a ve b denklemin sabitleridir, n en yüksek derecedir eğrinin şeklini belirleyen denklemin ve c, x'in 0 olduğu noktadır . n'nin değerine bağlı olarak, denklem ikinci derece, üçüncü derece, dördüncü derece veya çok daha fazlası olabilir. Aşağıda python'da polinom regresyonu çalıştırmak için bir dizi kod bulunmaktadır;Kod, FIFA 19 oyuncu derecelendirmelerinden oluşan bir veri kümesine göre yapıldı. Burada, oyuncuların genel puanlarını tahmin etmek için potansiyel Doğrusal RegresyonÇoklu Doğrusal Regresyon, bağımlı değişkenin değerlerini tahmin etmek için iki veya daha fazla bağımsız değişken doğrusal regresyonda, daha sonra test veri setinin değerlerini tahmin etmek için kullanılabilen eğitim veri setinden genel bir denklem elde etmek için en uygun çoklu satırlar kullanılır. Genel denklem şu biçimde olabilir y = ax + bx2 +… + c burada y tahmin edilen değerdir, a ve b bağımsız değişkenleri bağımlı değişkene bağlayan çizgilerin gradyanlarıdır ve c, doğrunun bulunduğu noktadır. y eksenine çarpıyor. Aşağıda python'da çoklu doğrusal regresyon çalıştırmak için bir dizi kod bulunmaktadır;Kod, FIFA 19 oyuncu derecelendirmelerinden oluşan bir veri kümesine göre yapıldı. Oyuncuların genel puanlarını tahmin etmek için yaş, potansiyel, parasal değer ve serbest bırakma maddesi Polinom RegresyonÇoklu Polinom Regresyon, bağımlı değişkenin değerlerini tahmin etmek için iki veya daha fazla bağımsız değişken kullanılarak polinom regresyonu için, daha sonra test veri setinin değerlerini tahmin etmek için kullanılabilen eğitim veri setinden genel bir denklem elde etmek için en iyi uyan çoklu eğriler polinom regresyon durumunda, genel denklem formunda olabilir y = ax ^ n + x ^ n-1 + ... + c burada y tahmin değer, a ve b denkleminin sabitleri vardır n olduğu Eğrilerin şeklini belirleyen denklemin en yüksek derecesi ve c, x’in 0 olduğu noktadır. N'nin değerine bağlı olarak, denklem ikinci derece, üçüncü derece, dördüncü derece veya çok daha fazlası olabilir. Aşağıda python'da çoklu polinom regresyonu çalıştırmak için bir dizi kod bulunmaktadır;Kod, FIFA 19 oyuncu derecelendirmelerinden oluşan bir veri kümesine göre yapıldı. Oyuncuların genel puanlarını tahmin etmek için yaş, potansiyel, parasal değer ve serbest bırakma maddesi kullanılıyor. Korelasyon Nedir ? İki veya daha fazla değişken arasındaki fonksiyonel ilişki bizim için bazen yeterli olmayabilir. Bu değişkenler arasındaki ilişkinin değerini bilmek isteyebiliriz. İşte bunun için korelasyon teorisini kullanırız. Korelasyon kat sayısı, -1 ile 1 arasında değer alır. -1 değişkenler arasında ters yönlü tam bir ilişkinin olduğunu ifade eder 1 ise değişkenler arası doğru yönlü tam bir ilişki olduğunu ifade eder. Korelasyon kat sayısı " R " ile ifade edilir. Determinasyon Nedir ? Determinasyon kat sayısı r2 ile gösterilir. Korelasyon kat sayısının karesi determinasyon kat sayısını verir. Peki bu determinasyon kat sayısı ne işe yarar ? Mesela; %80 çıkması halinde bağımlı değişkendeki toplam değişimin %80'i bağımsız değişken tarafından veya değişkenler tarafından belirlenmiştir. Geriye kalan %20 ise tesadüfen veya dikkate alınmayan başka değişkenlerce belirlenmiştir. Örnek Bağımlı değişken nüfus Bağımsız değişkenler doğum oranı Yukarıdaki değerler korelasyon kat sayısıdır. Determinasyon kat sayısını bulmak için karelerini buluyoruz. Doğum oranı 0,992 karesini alırsak 0,98 değerini buluruz. Bu da nüfustaki değişimin %98'i doğum oranı tarafından belirlenmektedir. Korelasyon ve Regresyon İki Değişkenli Analizler Bu bölümde sayısal olarak kodlanmış iki veya daha fazla değişken arasındaki ilişkileri anlamaya çalışacağız. İstatistiki modellerde çoğunlukla çıktı değerini ifade eden bir bağımlı değişken ve bu çıktı değerini etkileyen bir veya daha fazla girdi değişkeni bağımsız değişkenler/açıklayıcı değişkenler bulunur. Bağımlı değişken “y” harfi ile gösterilirken bağımsız değişkenler ise “x” harfi ile gösterilir. İlk aşamada sadece bir bağımlı ve bir bağımsız değişken ile örneklerimizi oluşturacağız. İki nümerik değişken arasındaki ilişkiyi en hızlı ve etkili şekilde anlamak için çoğunlukla “saçınım grafikleri/scatter plots” kullanılır. Saçınım grafikleri x ve y boyutlarının eksenlere işlendiği ve her bir noktanın ilgili değişken değerine denk geldiği grafik tipidir. İlke olarak saçınım grafiklerinde bağımlı değişken y ekseninde, bağımsız değişken ise x ekseninde gösterilir. Bu bölümde 2018 Haziran ve 2015 Kasım seçim sonuçlarını il bazında barındıran “dat” isimli veri tabanı kullanacağız. Öncelikle bu veri tabanını yükleyelim. dat % filter mhp2018 > 45 %>% dplyrselect NAME_TR NAME_TR 1 HARRAN Korelasyon Yukarıdaki örneklerde ilişkilerin yapısını gözlemledik ama kuvvetlerini sayısal hale dönüştürmedik. İlişkilerin kuvvetini belirten sayısal değeri ortaya koyan istatistiğe korelasyon denir. Korelasyon değeri/katsayısı -1 ve +1 değerleri arasında yer alır. Buradaki - ve + değerleri ilişkinin yönünü pozitif/aynı yönde ve negatif/ters yönde olmak üzere tanımlar. Korelasyon katsayısının büyüklüğü ise ilişkinin kuvvetini betimler. Bu değer “+1”e yaklaştıkça kuvvetli aynı yönde ilişki ve “-1”e yaklaştıkça ise ters yönde kuvvetli ilişki saptanmış olur. “± e yakın değerler orta seviye ilişkiyi, “± yakın değerler zayıf ilişkileri ifade eder. Lineer bir ilişkinin olmadığı durumlarda korelasyon katsayısı “0” değerine yakın olur. Korelasyon katsayısı hakkında unutulmaması gereken bir nokta bu katsayının lineer ilişkiler için kuvveti hesaplıyor olmasıdır. Dolayısıyla korelasyon katsayısının bir anlam ifade etmesi için ilişkinin lineerliği kontrol edilmelidir. Aşağıdaki grafikte gösterilen karesel ilişkinin korelasyon katsayısı hesaplandığında “0” değerine yakın çıkacaktır ama bu değişkenler arasında ilişki olmadığı anlamına gelmez. Karesel ilişki İstatistik bilimi içerisinde korelasyon değeri çeşitli yöntemler ile tanımlansa da en sık kullanılanı kısaca “r” değeri olarak bilenen “Pearson product-moment correlation” adıyla bilenen hesaplama yöntemidir. Teknik notasyonunu aşağıda görebilirsiniz. Korelasyon Formülü corx,y fonksiyonu x ve y değişkenleri arasındaki korelasyon katsayısını hesaplar. Aşağıdaki kod CHP parti adayı ve parti oyu arasındaki korelasyonu hesaplıyor. Son kısımda bulunan use= argümanı veride bulunabilecek NA değerlerini yani kayıp veriyi hesaba katmadan bu işlemi gerçekleştirmek için kullanılır. kor_chp % summarizeN = n, r = corchp2018, mi, use = " kor_chp N r 1 970 Görüldüğü üzere Muharrem İnce ve CHP oyları arasında aynı yönde ve kuvvetli bir ilişki bulunuyor. Korelasyon analizlerinde asla unutulmaması gereken bir konuya dikkat çekmek gerekir. Korelasyon değişkenler arasındaki bağlantıya işaret eder ama değişkenler arasında nedensellik kurmaz. Yani bir korelasyon testinde yüksek çıkan r katsayısı, x değişkenindeki değişime y değişkenindeki değişkenliğin neden olduğu anlamına gelmez. Bu kullanım hatasına, sıkça, gazetelerde yayınlanan bilimsel araştırma haberlerinde rastlayabilirsiniz. Özetle KORELASYON NEDENSELLİK GÖSTERMEZ! Basit Lineer Regresyon Regresyon bir bağımlı değişken ile bir veya birden fazla bağımsız değişken arasındaki ilişkinin incelenmesi için kullanılan istatistiki yönteme verilen isimdir. Regresyon testleri iki amaç için kullanılır tahmin ve nedenselliğin incelenmesi Buradaki amaç bağımlı değişkeni tahmin etmek için bağımsız değişkenlerin gözlemlenmiş değerlerini kullanarak bir formül üretmektir. Örn Salıverilmiş bir suçlunun tekrar tutuklanması ihtimalinin kestirimi için, işlediği suç, yaşı, daha önce işlediği suç miktarı gibi değişkenlerin kullanımı Nedensellik Bu analizde bağımsız değişkenler bağımlı değişkenin “nedenleri” olarak varsayılır. Amaç varsayılan bağımsız değişkenlerin gerçekten bağımlı değişken ile bağlantısı olup olmadığını ve varsa bu bağlantının boyutunu anlamaktır. Lineer regresyona bu isimin verilmesinin nedeni doğrusal olması yani doğrusal bir denklem kullanmasından kaynaklanır. Doğrusal denklem ise adını grafik olarak çizildiğinde bir doğru üretmesi nedeniyle alır. Doğrusal denklem bağımlı değişken üzerinde tek bir bağımsız değişken incelendiğinde net olarak görünür. Bu denklemde “y” bağımlı değişken, “a” kesen, “b” eğimkatsayı ve “x” ise bağımsız değişkeni ifade eder. Regresyon analizinde çoğunlukla birden fazla bağımsız değişken kullanılır. Böylece bir bağımsız değişkenin etkisine bakılırken diğer bağımsız değişken kontrol edilmiş olur. Bir önceki örneğe “yaş” değişkenini de katalım. GELİR = 6000 + 800 x Eğitim Yılı +400 x Yaş 14 yıl eğitim almış 40 yaşında birisinin gelirini hesapladığımızda GELİR = 6000 + 800 x 14 +400 x 40 = 33200 Bu hesaplamanın yazımı ise aşağıdaki gibidir. Regresyon analizlerinde nümerik değerler veya kategorik değişkenlerin nümerik halleri kullanılır. Rastlantısal çekilmiş örneklemin ürettiği gözlemler ve vaka sayısının artması analizin kuvvetini arttırır. Eğer değişkenin sadece iki kategorisi varsa örn evet - hayır değişkenlere sayı değerleri verilerek regresyon analizi için kullanılır hale getirilebilir. Bu değişkenlere “göstermelik değişken” veya “kukla değişken” denir. Regresyon formülünde bulunan katsayıların a ve b1, b2, … ler hesaplanması için başvurulan yöntemlerin en popüleri OLSOrdinary Least Squares/En Küçük Kareler yöntemidir. Regresyon katsayıları bilindiğinde doğrusal denklemi kullanarak bağımlı değişkeni tahmin edebiliriz. Kesen değeri 0 x, eğitim katsayısı b1 1000 ve yaş katsayısı b2 500 olarak tanımlanmış lineer denklemi sınayan aşağıdaki örneğe bir göz atalım Şekilden de görüldüğü üzere bu katsayıları kullanarak yapılan 3 hesaplamada 1. ve 3. hesaplamalarda belli bir hata payı oluştu. 2. hesaplama tamamen şans eseri bir hata üretmedi!. Hiç hatasız bir tahmin yapmak sosyal bilimlerde mümkün olmadığından amaçlanan şey en az hatadır ve en küçük kareler kriteri de bu kullanılan katsayıları en az hata ile saptamak için kullanılır tahminde gerçekleşen hataların kareleri alınıp toplandığında en ufak değerin oluşması hedeflenir. Örnekte oluşan hatalar 9000’ın karesi 81000 0’ın karesi 0 9000’ın karesi 81000 ….. ….. Toplam 12,296,499,985 Acaba bu değer olası en küçük değer midir? Bu hesabı bilgisayara yaptırttığımızda oluşan regresyon katsayıları ve formülü GELİR = - 25965 + 2057 x Eğitim Yılı + 600 x Yaş Kareler toplamı 9,364,695,694 bizim tahminimizden %24 daha küçük Bu denklemden şunu anlıyoruz gelir geçirilen her bir yıl fazla eğitim için 2057 lira ve fazladan her yaş için 600 lira artmaktadır. Regresyon ile tahmin geliştirebiliriz ama bu tahminin ne kadar güçlü olduğunu anlamak için belirleme katsayısı R2 Coefficient of determination isimli başka bir teste daha ihtiyaç duyulur. Bu denklem için R2 değeri olarak hesaplandı. Buradan şu anlaşılmaktadır Eğitimde geçirilen yıl ve yaş gelirdeki değişikliğin yüzde 28’ini açıklar. Son olarak katsayıların kuvvetinin yorumlanması konusuna değinelim. Regresyon analizi sonucunda oluşan katsayıların kuvvetini anlamak için hipotez testi kullanılır. Bir bağımsız değişkenin bağımlı değişken üzerinde etkisi yoksa katsayısı sıfır olacaktır. Hipotez testi ile sıfır değerinden farklı bir katsayı üretildiğinde bu katsayının hata sonucu oluşup oluşmadığını anlamak mümkün olur. Hipotez testi ile sorumuza Katsayı sıfırdan farklı ama bu durum gerçekten böyle mi? basit “evet hatalı” veya “hayır hatasız” cevabı vermez. Hipotez testi ile bu duruma ait hatalı olma veya olmama bir olasılık hesabı yapılır. Bu hesaptan çıkan değer “p” değeri olarak adlandırılır. p değeri katsayıların standart hatalarına bölünmesi ile bulunan “t” değeri ile saptanır. p değerinin düşük çıkması katsayının sıfırdan farklı olduğunun kanıtı olarak değerlendirilir. Örneğimizde yaş için katsayı olan 600 standart hata olan 210 a bölündüğünde, t değeri olarak elde edilir. t değeri olan p değeri .005 civarındadır. Bu sonuçtan şu yorum yapılır Eğer yaş için gerçek katsayı sıfır olsaydı yani bu bağımsız değişkenin bağımlı değişken üzerinde hiçbir etkisi bulunmasaydı, bu OLS ile hesapladığımız regresyon katsayısını bulma olasılığımız, .005, binde 5, iki yüzde bir olacaktı. Yani katsayının sıfırdan farklı olma olasılığı gayet yüksektir. İlkesel olarak düşük p değerleri katsayıların sıfırdan farklılığının ve dolayısıyla katsayıların gücünün ispatı olarak yorumlanır. Sosyal bilimler analizlerinde regresyon katsayılarına ait p değerlerinin .05 veya düşük olması genel bir beklentidir. Lineer Regresyonun Görselleştirilmesi Lineer regresyon modelleri saçınım grafiği üzerinde düz bir çizgi ile görselleştirilir. Bu düz çizgi tüm noktalara uzaklığı en aza indirgeyerek saçınım grafiğinde bulunan noktaların arasından geçer. ggplot2 paketinde bulunan geom_smooth fonksiyonu saçınım grafikleri üzerine regresyon modelini çizmek için kullanılır. Bu fonksiyon eğer lineer regresyon modelini çizmek için kullanılıyorsa “lm” argümanı le beraber kullanılmalıdır. Şimdi 2018 seçim verimizi kullanarak İyi Parti oyları ile Meral Akşener oylarını saçınım grafiğine yerleştirelim. libraryggplot2 ggplotdata = dat, aesx = iyi2018, y = ma + geom_point Şimdi aynı grafiğe regresyon modeline ait çizgiyi ekleyelim. ggplotdata = dat, aesx = iyi2018, y = ma + geom_point + geom_smoothmethod = "lm", se = FALSE Bu modelin çizginin ne anlama geldiğini anlamak regresyon analizi için son derece önemlidir. İstatistiki modeller bağımlı değişkeni bağımsız değişkenin bir fonksiyonu olarak tanımamakla beraber işin içine açıklanamayan ve rastlantısal olduğu varsayılan bir bileşke ekler. Modellerde bu bileşke noise/gürültü olarak adlandırılır ve hem sabit bir standart sapmaya sahip olduğu hem de rastlantısal olarak dağıldığı varsayılır. Anlatılanı notasyona dökersek Y bağımlı değişken, beta 0 kesen, beta bir eğim/katsayı, epsilon ise gürültüyü temsil etmektedir. Eğer denklemden epsilonu çıkarırsak bu fonksiyon gözlemler üzerinden hesaplanmış değerleri ortaya koyan bir fonksiyon haline gelir. Bu tip fonksiyonlar ise “şapka”lı olarak yazılır Y ve şapkalı Y arasındaki fark ise Y’nin gerçekte gözlemlenen değeri, şapkalı Y’nin ise modelin hesapladığı bağımsız değişken değerini ifade etmesinden kaynaklanır. Y ve şapkalı Y arasındaki fark ise residual/artık değer olarak adlandırılır. Dolayısıyla şapkalı Y’yi elimizdeki bağımsız değişken x’i kullanarak yapabildiğimiz en iyi tahmin olarak düşünebiliriz. Regresyon Modellerinin Yorumlanması Şimdi openintro paketinde bulunan bdims verisi ile bazı modeller oluşturalım. Bu veri tabanında bulunan wgt değişkeni deneklerin kilosunu, hgt değişkeni ise boylarını ifade ediyor. libraryopenintro databdims headbdims 1 2 3 4 5 6 1 2 3 4 5 6 age wgt hgt sex 1 21 1 2 23 1 3 28 1 4 23 1 5 22 1 6 21 1 Deneklerin kilolarını boylarının bir fonksiyonu olarak tanımlayan model için kod aşağıdaki gibi yazılır lmwgt ~ hgt, data = bdims Call lmformula = wgt ~ hgt, data = bdims Coefficients Intercept hgt Yukarıdaki hesaplamayı notasyon olarak aşağıdaki gibi yazılır Bu notasyona göre lineer modelimiz deneklerin boylarında hgt gerçekleşen bir birimlik artışın ki buradaki birim cm olarak kaydedilmiş, deneklerin kilolarında wgt birimlik ki burada kilo cinsinden kaydedilmiş bir artışa denk geldiği tahmin etmektedir. Tahmin etmektedir diyoruz zira wgt şapka altında ifade edilmiş. Daha düz bir Türkçe ile fazladan her bir cm kabaca bir kiloya denk gelmektedir. Regresyon modellerini R nesnesi olarak sakladığımızda modelin içinde bulunan birçok bilgiye de erişme şansımız olur. Yukarıdaki modeli “mod” adı ile kaydedelim ve model ile ilgili bilgilere summary fonksiyonu ile erişelim. mod t Intercept 62.... $ hgt 18... $ .fitted 7... $ . $ .resid -... $ .hat $ .sigma 9... $ .cooksd $ . Regresyon modellerinin en önemli özelliklerinden biri modelde tahmin edilen değerleri fitted values modelin kullandığı değerlerden başka değerler üzerinde kullanarak tahmin üretmesidir. Buna “örneklem dışı tahmin/out-of-sample prediction” adı verilir. Yukarıdaki regresyon işlemi kişilerin kilolarını boylarının bir fonksiyonu olarak modellemişti. Ağırlığı kg ve boyu olan bir deneğe ait olan tek gözlemli bir veri tabanı yaratalım ve modelimizi bu veri tabanı üzerinde predict fonksiyonu ve newdata argümanı kullanarak çalıştıralım. Bu işlem için yeni veri tabanının kullandığı bağımlı ve bağımsız değişken isimlerinin aynı olması gerekir. yeni veri tabanı wgt 150377422259, 260483376854, 320432342985, 280405224... $ duration 3, 7, 3, 3, 1, 3, 1, 1, 3, 7, 1, 1, 1, 1, 7, 7, 3, ... $ nBids 20, 13, 16, 18, 20, 19, 13, 15, 29, 8, 15, 15, 13, ... $ cond new, used, new, new, new, new, used, new, used, use... $ startPr $ shipPr $ totalPr 53... $ shipSp standard, firstClass, firstClass, standard, media, ... $ sellerRate 1580, 365, 998, 7, 820, 270144, 7284, 4858, 27, 201... $ stockPhoto yes, yes, no, yes, yes, yes, yes, yes, yes, no, yes... $ wheels 1, 1, 1, 1, 2, 0, 0, 2, 1, 1, 2, 2, 2, 2, 1, 0, 1, ... $ title ~~ Wii MARIO KART & WHEEL ~ NINTENDO Wii ~ BRAN... Buradaki modelde amacımız tek bir değişken ile değil, birden fazla değişken kullanarak oyunun fiyatınıtotalPr modellemek olacak. Bunun için oyunun kullanılmış veya sıfır olduğunu içeren cond değişkenini, oyun paketi ile beraber verilen direksiyon adedini gösteren wheels değişkeni ile beraber kullanacağız. Bu tipteki yani bir nümerik direksiyon sayısı bir de kategorik değişken kullanılmış/used veya sıfır durumda/new içeren modellere “paralel eğimler modeli/parallel slopes model” adı verilir. Aşağıdaki kod bu işlemi gerçekleştiriyor. mario_model t Intercept 53... $ wheels 1, 1, 1, 1, 2, 0, 0, 2, 1, 1, 2, 2, 2, 2, 1, 0, 1, ... $ cond new, used, new, new, new, new, used, new, used, use... $ .fitted 4... $ . $ .resid $ .hat $ .sigma 4... $ .cooksd $ . ... Grupları kullanılmış veya sıfır durumda renk ile ayrıştıran saçınım grafiği mario_grafik t Intercept % mutatenoise = rnormnrowmarioKart yeni model oluşturalım mario_model2 t Intercept 1 1 new 2 1 used 3 1 new 4 44 1 new 5 71 2 new 6 45 0 new 7 0 used 8 2 new 9 47 1 used 10 50 1 used ... with 131 more rows, and 1 more variable . Etkileşim terimleri Regresyon modellerinde kullandığımız bağımsız değişkenler bağımlı değişkenler üzerinde kimi zaman beraberce etki üretebilirler. Oyun konsolu örneğini düşünelim bir oyun konsolunun fiyatını ebay’de açık arttırmada durduğu süre ve kullanılmış olup olmadığına göre modelleyebiliriz, zira bu her iki özellik de bağımsız olarak oyun konsolunun fiyatını belirler. Ancak eğer bir konsol hem kullanılmış hem de uzun süre açık arttırmada duruyorsa, yani uzun süredir satılmadıysa, fiyatının daha düşük olması gerektiğini de düşünebiliriz. Bu gibi durumlarda düşündüğümüz değişkenleri modelimize etkileşim değişkeni interaction term olarak ekleyebiliriz. Bu iş için aşağıdaki kod şablonu kullanılır. lmy ~ x + z + xz, data = veritabanı Yukarıdaki örnekte x ve z değişkenlerinin etkileşimi modele “” işareti kullanılarak üçüncü bir değişken olarak eklenmiş. Şimdi oyun konsolu ile ilgili yukarıdaki örneği modelleyelim. Modelde kullanılan “totalPr” konsolun fiyatını, “duration” konsolun açık arttırmada kaldığı süreyi ve “cond” ise konsolun kullanılmış olup olmadığını ifade eden değişkenlerdir. lmtotalPr ~ duration + cond + condduration, data = marioKart Call lmformula = totalPr ~ duration + cond + condduration, data = marioKart Coefficients Intercept duration condused durationcondused Etkileşim modellerdeki eğimlerin birbirine paralel olmaktan çıkartır. Yukarıdaki model için bu cümleyi uygularsak; konsolun fiyatı ile açık arttırmada durduğu süre arasındaki ilişki, konsolun kullanılmış olup olmadığı tarafından şekillendirilmektedir moderated. Yukarıdaki modeli ggplot ile grafiklediğimizde, “cond” değişkeni için birbirine paralel olmayan iki ayrı regresyon çizgisi oluştuğunu görürüz. etkileşim grafiği ggplotmarioKart, aesy = totalPr, x = duration, color = cond + geom_point + geom_smoothmethod = "lm", se = FALSE Yukarıdaki grafikten de anlaşılacağı üzere bir konsolun fiyatı açık arttırmada geçirdiği süre dikkate alınarak değerlendirildiğinde o konsolun kullanılmış olup olmaması fiyat üzerinde farklı bir etki yaratmaktadır. Bu duruma yani iki değişken arasındaki ilişkinin, bağımsız değişkenin alt gruplara/kategorilere bölündüğünde yön değiştirmesine Simpson Tezatı adı verilir. Bir oyun konsolunun açık arttırmada geçirdiği süre arttıkça fiyatının düşmesini bekleyebiliriz. Satıcıların ürünleri satılmadıkça fiyatları düşürme eğilimine girmesi gayet doğaldır. Aşağıdaki grafik bu ilişkiyi regresyon modeli ile anlatmaktadır. slr z Intercept GPA * - Signif. codes 0 '' '' '' '.' ' ' 1 Dispersion parameter for binomial family taken to be 1 Null deviance on 54 degrees of freedom Residual deviance on 53 degrees of freedom AIC Number of Fisher Scoring iterations 4 Oluşan modeli grafikleyelim ac_model2 1 0 2 1 3 1 4 1 5 1 6 1 7 1 8 0 9 1 10 1 ... with 45 more rows Ouluşan tablodaki “.fitted” sütunu modele göre her bir öğrencinin üniversiteye kabul edilme ihtimalini olasılık olarak ifade ediyor. Örneğin modelimiz 7. satırda bulunan ve ortalamaya sahip öğrencinin üniversiteye kabul edilme olasılığını yüzde 88 olarak hesaplıyor. Yukarıdaki tabloda aslında bu öğrencinin gerçekten üniversiteye kabul edilip edilmediğini de “Acceptance” sütunundan görebiliyoruz. Bu açıdan bakıldığında olasılık cinsinden tahmin yerine ikili tahmin, kabul veya red, yapma şansımız ortaya çıkar. Böylece modelimizin ne kadar başarılı olduğunu anlayabiliriz. Aşağıdaki kod bu işlemi gerçekleştiriyor. Modelimizin olasılık tahminini içeren sütuna " ve gerçekten kabul edilme durumunu belirtilen sütununa "gerçek durum "adını verelim ve veri tabanını yaratalım ac_model3_t % mutate = round.fitted %>% mutate = Acceptance confusion matrix ac_model3_t%>% select %>% table 0 1 0 16 9 1 6 24 “Confusion matrix” adı verilen bu tablodan şunu anlıyoruz modelimiz 22 öğrencinin red, 33 öğrencinin kabul alacağını tahmin ederken yukarıdan aşağıya okuma, gerçekte 25 öğrenci red 30 öğrenci kabul almış sağdan sola okuma. Hem modelin hem de gerçek durumun kesiştiği diyagonaldeki 16 ve 24 sayılarını toplayıp toplam gözleme böldüğümüzde modelin başarısını hesaplamış oluruz 40/55 =

korelasyon ve regresyon analizi örnekleri