今天主要內容是線性回歸的介紹 原則:在進行任何正式分析之前,先要對數據進行可視化分析,看看直觀效果。 當沒有任何其他附加信息的情況下,對一個變數的最佳假設也是最基本的假設,就是其均值。(前提是使用平方誤差作為衡量準則時) 第二層信息就是可以被利用的二元或多元區分型的信息,這類信息可以輔助我們的預測。 ...
今天主要內容是線性回歸的介紹
原則:在進行任何正式分析之前,先要對數據進行可視化分析,看看直觀效果。
當沒有任何其他附加信息的情況下,對一個變數的最佳假設也是最基本的假設,就是其均值。(前提是使用平方誤差作為衡量準則時)
第二層信息就是可以被利用的二元或多元區分型的信息,這類信息可以輔助我們的預測。
第三層,也就是要討論的線性回歸。為的是充分利用非二元區分性的輸入或者一次使用多重信息。
ggplot(top.1000.sites,aes(x=log(PageViews),y=log(UniqueVisitors))) + geom_point() + geom_smooth(method='lm',se=FALSE)
這句是調用lm線性回歸模型可視化的典型語句。另外還要註意,當數據信息的可視化很糟糕的時候,考慮使用log。
另一種方式:
lm.fit <- lm(log(PageViews) ~ log(UniqueVisitors),data=top.1000.sites)
這種方式可以在後續使用summary函數查看詳細回歸參數。
t-value;Multiple R-squared;幾個參數的含義還要詳細研究。
驗證模型效果的黃金標準是:它在未知數據上的預測能力,而不是在用於擬合它的數據上的效果。
另外,可以通過單因數的lm和summary中的R2 值來分離性地觀察其對總方差的解釋比例,就可以看出哪個因數更加重要。
相關性:僅僅告訴你兩個變數之間有關係,並不能告訴你任何因果關係。計算相關性,需要進行刻度變換,運用scale函數。