PHI TUYẾN LÀ GÌ

 - 
Chương 11 Hàm hồi quy phi tuyến

Cho đến tiếng ta mặc định hàm hồi quy là đường tính, tức là tđắm đuối số nghiêng của hàm hồi quy là hằng số. Điều này ẩn ý, tác động lên (Y) của một đơn vị biến hóa của (X) không dựa vào vào quý giá của (X). Nếu tác động này thật sự dựa vào vào quý hiếm của (X), ta rất cần phải áp dụng hàm hồi quy phi con đường.

Bạn đang xem: Phi tuyến là gì


# prepare the datadata(CASchools)CASchools$size CASchools$students/CASchools$teachersCASchools$score (CASchools$read + CASchools$math) / 2cor(CASchools$income, CASchools$score)
## <1> 0.7124308Ta thấy bao gồm sự đối sánh đường tính dương làm việc hai đổi mới này: thu nhập cá nhân bên trên mức độ vừa phải thì điểm thi trên vừa đủ. Liệu hồi quy đường tính tất cả ước lượng được quan hệ tài liệu.


# fit a simple linear modellinear_Model lm(score ~ income, data = CASchools)# plot the observationsplot(CASchools$income, CASchools$score, col = "steelblue", pch = trăng tròn, xlab = "District Income (thousands of dollars)", ylab = "Test Score", cex.main = 0.9, main = "Test Score vs. District Income và a Linear OLS Regression Function")# add the regression line to lớn the plotabline(linear_Mã Sản Phẩm, col = "red", lwd = 2)

*

Ta thấy rằng lúc thu nhập cá nhân cao thì con đường hồi quy vẫn ước tính “lố” tình dục đúng tuy vậy lúc thu nhập vừa đủ thì con đường hồi quy lại khoảng chừng “không đủ”.

Ta chú ý một quy mô bậc nhị nhỏng sau.

< extĐiểm thi = eta_0 + eta_1 extThu nhập_i + eta_2 extThu nhập_i^2 + u_i>

Lúc đó ( extThu nhập_i^2) được dùng nlỗi một phát triển thành lý giải không giống mang đến điểm thi. Ta để mắt tới tác dụng trong R nlỗi sau.

income3.851***
(0.268)
I(income2)-0.042***
(0.005)
Constant607.302***
(2.902)
Notes:***Significant at the 1 percent level.
**Significant at the 5 percent cấp độ.
*Significant at the 10 percent level.

Mô hình này có thể chấp nhận được ta kiểm định tình dục giữa thu nhập cá nhân và điểm thi là tuyến tính tốt phi tuyến đường bậc nhị. Nói bí quyết khác:

<egincases H_0: eta_2 = 0 \ H_A: eta_2 e 0 endcases>

Ta thấy rằng (H_0) bị bác bỏ vứt làm việc bất kỳ nấc ý nghĩa thông thường làm sao, cho nên vì vậy ta tóm lại tình dục thân hai phát triển thành là phi tuyến. Vấn đề này cũng trùng khớp cùng với hình mẫu vẽ tiếp sau đây.


# draw a scatterplot of the observations for income and kiểm tra scoreplot(CASchools$income, CASchools$score, col = "steelblue", pch = trăng tròn, xlab = "District Income (thousands of dollars)", ylab = "Test Score", main = "Estimated Linear and Quadratic Regression Functions")# add a linear function khổng lồ the plotabline(linear_mã sản phẩm, col = "black", lwd = 2)# add quatratic function lớn the plotorder_id order(CASchools$income)lines(x = CASchools$income, y = fitted(quadratic_model), col = "red", lwd = 2)

*


11.2 Hàm phi tuyến so với đổi thay solo nhất


11.2.1 Hàm nhiều thức

Từ ý tưởng phát minh hàm bậc nhị, ta hoàn toàn có thể không ngừng mở rộng ra thành hàm nhiều thức tổng quát:

Trong R ta sử dụng hàm poly() để diễn đạt số bậc quy mô. Chẳng hạn với quy mô bậc 3 ta code nhỏng sau.


# estimate a cubic modelcubic_mã sản phẩm lm(score ~ poly(income, degree = 3, raw = TRUE), data = CASchools)
Ta có thể cần sử dụng kiểm tra những thống kê (F) nhằm xác thực mô hình đường tính tuyệt phi tuyến đường đến bậc như thế nào kia. Chẳng hạn, ta quyên tâm mang lại bậc 3 quy mô.


# thử nghiệm the hypothesis of a linear model against quadratic or polynomial# alternatives# set up hypothesis matrixR rbind(c(0, 0, 1, 0), c(0, 0, 0, 1))# vì chưng the testlinearHypothesis(cubic_mã sản phẩm, hypothesis.matrix = R, trắng.adj = "hc1")
## Linear hypothesis test## ## Hypothesis:## poly(income, degree = 3, raw = TRUE)2 = 0## poly(income, degree = 3, raw = TRUE)3 = 0## ## Model 1: restricted model## Model 2: score ~ poly(income, degree = 3, raw = TRUE)## ## Note: Coefficient covariance matrix supplied.## ## Res.Df Df F Pr(>F) ## 1 418 ## 2 416 2 37.691 9.043e-16 ***## ---## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1Tại đây ta vẫn chú ý mang thuyết (H_0: eta_2 = eta_3 = 0) bằng cách lợi dụng phxay toán ma trận:

<eginaligned mathbfReta &= s \ eginpmatrix 0 và 0 và 1 và 0 \ 0 và 0 và 0 & 1 endpmatrix eginpmatrix eta_0 \ eta_1 \ eta_2 \ eta_3 endpmatrix &= eginpmatrix 0 \ 0 endpmatrix \ eginpmatrix eta_2 \ eta_3 endpmatrix &= eginpmatrix 0 \ 0 endpmatrix endaligned>

Bởi vì hàm linearHypothesis() áp dụng những vector (0) nên việc sử dụng một ma trận (mathbfR) đang rút ngắn được đoạn code. Ta thấy (p)-value tương đối bé dại cùng vì thế ta chưng quăng quật (H_0).

Trong thực tế, nhằm khẳng định được bậc quy mô, ta đề xuất kiểm nghiệm (t) những lần trường đoản cú một số bậc lớn số 1 như thế nào kia (r). Ta rất có thể thấy trong đoạn code sau đây.


summary(cubic_model)
## ## Call:## lm(formula = score ~ poly(income, degree = 3, raw = TRUE), data = CASchools)## ## Residuals:## Min 1Q Median 3Q Max ## -44.28 -9.21 0.trăng tròn 8.32 31.16 ## ## Coefficients:## Estimate Std. Error t value## (Intercept) 6.001e+02 5.830e+00 102.937## poly(income, degree = 3, raw = TRUE)1 5.019e+00 8.595e-01 5.839## poly(income, degree = 3, raw = TRUE)2 -9.581e-02 3.736e-02 -2.564## poly(income, degree = 3, raw = TRUE)3 6.855e-04 4.720e-04 1.452## Pr(>|t|) ## (Intercept)
# kiểm tra the hypothesis using robust standard errorscoeftest(cubic_Model, vcov. = vcovHC, type = "HC1")
## ## t demo of coefficients:## ## Estimate Std. Error t value## (Intercept) 6.0008e+02 5.1021e+00 117.6150## poly(income, degree = 3, raw = TRUE)1 5.0187e+00 7.0735e-01 7.0950## poly(income, degree = 3, raw = TRUE)2 -9.5805e-02 2.8954e-02 -3.3089## poly(income, degree = 3, raw = TRUE)3 6.8549e-04 3.4706e-04 1.9751## Pr(>|t|) ## (Intercept) Lúc thực hiện ước lượng vững vàng, ta thấy hiệu quả gồm sự thay đổi ở tầm mức ý nghĩa của hệ số đổi thay bậc 3. Điều này còn có nghĩa ta chưng vứt giả tmáu (H_0) hàm hồi quy là bậc nhị với (H_A) hàm hồi quy bậc bố tại nút ý nghĩa sâu sắc (5\%).


11.2.2 Giải phù hợp thông số hồi quy

Chẳng hạn quy mô hồi quy gồm dạng

do đó Khi tăng thu nhập cá nhân trường đoản cú (10) lên (11) thì điểm thi tăng (2.96) điểm, nhưng Lúc thu nhập tăng tự (40) lên (41) thì điểm thi chỉ tăng (0.42). Cho thấy độ nghiêng của hàm hồi quy dốc rộng ở tầm mức thu nhập thấp cùng thoải hơn ở tầm mức thu nhập cao.


# compute and assign the quadratic modelquadriatic_Model lm(score ~ income + I(income^2), data = CASchools)# set up data for predictionnew_data data.frame(income = c(10, 11))# vì the predictionY_hat predict(quadriatic_Mã Sản Phẩm, newdata = new_data)# compute the differencediff(Y_hat)
## 2 ## 2.962517

11.2.3 Hàm Logarithms

Một phương pháp khác để quy biện pháp hàm số phi đường là dùng hàm lograthims lên biến chuyển (Y) hoặc/và (X). Chuyển hàm logarithms đổi khác những biến đổi quý phái phần trăm thay đổi. Có nhiều phương pháp để tạo ra mô hình Theo phong cách tiếp cận logarithm.

Trường phù hợp 1: logarithm (X)

Mô hình trnghỉ ngơi thành:


# estimate a level-log modelLinearLog_Model lm(score ~ log(income), data = CASchools)# compute robust summarycoeftest(LinearLog_Mã Sản Phẩm, vcov = vcovHC, type = "HC1")
## ## t kiểm tra of coefficients:## ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 557.8323 3.8399 145.271 Ta vẽ mặt đường hồi qugiống như sau.


# draw a scatterplotplot(score ~ income, col = "steelblue", pch = 20, data = CASchools, main = "Linear-Log Regression Line")# add the linear-log regression lineorder_id order(CASchools$income)lines(CASchools$income, fitted(LinearLog_model), col = "red", lwd = 2)

*

Ta có thể lý giải (hateta_1) nlỗi sau. (1\%) lớn lên thu nhập cá nhân thì điểm thi tăng (0.01 imes 36.42 = 0.36) điểm.

Trường phù hợp 2: logarithm (Y)

Mô hình vào trường thích hợp nàgiống như sau.


# estimate a log-linear Model LogLinear_model lm(log(score) ~ income, data = CASchools)# obtain a robust coefficient summarycoeftest(LogLinear_Model, vcov = vcovHC, type = "HC1")
## ## t demo of coefficients:## ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 6.43936234 0.00289382 2225.210 lúc thu nhập cá nhân tăng 1 đơn vị chức năng các khoản thu nhập, điểm thi tăng ((100 imes 0.00284)\% = 0.284\%).

lúc dùng hàm chuyển dạng cho thay đổi (Y) ta cần cẩn trọng. Mô hình hồi quy đã mang đến ta ước lượng của (ln(Y)), một bí quyết thường thì, ta rất có thể chuyển về (hatY) bởi hàm exp(). Lúc đó, quy mô tất cả dạng:

Từ đó, ta có:

Vì (E(u_i|X_i)=0) buộc phải (E(e^u_i|X_i) = 1), có thể nói rằng, (E(e^u_i|X_i) e 0). Do kia ước tính (hatY = e^hateta_0 + hateta_1X_i) sẽ ảnh hưởng thiên lệch bởi vì thiếu hụt mất thành tố (E(e^u_i|X_i)). Hình vẽ tiếp sau đây vẫn biểu lộ sự thiên lệch này.


# draw a scatterplotorder_id order(CASchools$income)par(mfrow = c(1,2))plot(score ~ income, col = "steelblue", pch = đôi mươi, data = CASchools, main = "Regression Line with Log Transformation")abline(linear_Model, col = "black", lwd = 2)# add the linear-log regression linelines(CASchools$income, exp(fitted(LogLinear_model)), col = "red", lwd = 2)# draw with different y-axisplot(log(score) ~ income, col = "steelblue", pch = đôi mươi, data = CASchools, main = "Log-Linear Regression Function")lines(CASchools$income, fitted(LogLinear_model), col = "red", lwd = 2)

*

Một cách xử lý sẽ là nỗ lực ước lượng thành tố thiếu hụt (E(e^u_i|X_i)). Tuy nhiên nếu (u_i) gồm hiện tượng lạ heteroskedasticity thì câu hỏi khoảng chừng càng phức tạp hơn.

Một giải pháp xử lý khác chính là không thay đổi (ln(Y)). Trong tài chính, vấn đề đó rất có thể gật đầu đồng ý được Khi so sánh cốt truyện giá chỉ tài sản, nghĩa là phiên bản (ln(Y)) gồm chân thành và ý nghĩa tài chính.

Trường vừa lòng 2: logarithm (X) với (Y)

Hồi quy log-log gồm dạng như sau


# estimate the log-log modelLogLog_mã sản phẩm lm(log(score) ~ log(income), data = CASchools)# print robust coefficient summary lớn the consolecoeftest(LogLog_Mã Sản Phẩm, vcov = vcovHC, type = "HC1")

# generate a scatterplotplot(log(score) ~ income, col = "steelblue", pch = đôi mươi, data = CASchools, main = "Log-Linear Regression Function")# add the log-linear regression lineorder_id order(CASchools$income)# add the log-log regression linelines(sort(CASchools$income), fitted(LogLog_model), col = "red", lwd = 2)

*

Ta hoàn toàn có thể mở rộng chuyển đổi logarithms bằng cách kết hợp với nhiều thức, ta bao gồm hàm polylog, chẳng hạn như sau.

< extĐiểm thi_i = eta_0 + eta_1 ln( extThu nhập_i) + eta_2 ln( extThu nhập_i)^2 + eta_3 ln( extThu nhập_i)^3 + u_i>


# estimate the polylog modelpolyLog_model lm(score ~ log(income) + I(log(income)^2) + I(log(income)^3), data = CASchools)# print robust summary khổng lồ the consolecoeftest(polyLog_Mã Sản Phẩm, vcov = vcovHC, type = "HC1")

# compute the adj. R^2 for the nonlinear modelsadj_R2 rbind("Quadratic" = summary(quadratic_model)$adj.r.squared, "Cubic" = summary(cubic_model)$adj.r.squared, "LinearLog" = summary(LinearLog_model)$adj.r.squared, "LogLinear" = summary(LogLinear_model)$adj.r.squared, "LogLog" = summary(LogLog_model)$adj.r.squared, "PolyLog" = summary(polyLog_model)$adj.r.squared)

Adjusted (R^2)
Quadratic0.5540444
Cubic0.5552279
LinearLog0.5614605
LogLinear0.4970106
LogLog0.5567251
PolyLog0.5599944
Ta thấy những thông số (R^2) hiệu chỉnh ngay sát xê dịch nhau. Ta hoàn toàn có thể đối chiếu thiết bị thị của các quy mô này, ví dụ như sau.


# generate a scatterplotplot(score ~ income, data = CASchools, col = "steelblue", pch = 20, main = "Linear-Log & Cubic Regression Functions")# add the linear-log regression lineorder_id order(CASchools$income)lines(CASchools$income, fitted(LinearLog_model), col = "darkgreen", lwd = 2)# add the cubic regression linelines(x = CASchools$income, y = fitted(cubic_model), col = "darkred", lwd = 2)

*

Cả hai tuyến đường phần đông ngay sát giống hệt. Tuy nhiên ta thấy mô hình linear-log được ưu tiên rộng vì chưng ít tsi số rộng, ta ko cần những hàm bậc cao.


11.3 Sự liên quan giữa những biến đổi độc lập

Có nhiều vấn đề trong thực tế tương quan cho tác động lên thay đổi (Y) của việc biến hóa một biến (X_i) lại nhờ vào vào quý hiếm của một biến đổi (X_j) ((j e i)) khác. Chẳng hạn, liệu các khu vực nhiều học viên học tập giờ đồng hồ Anh đã đạt được lợi gì về phương diện điểm số ko từ việc bớt bài bản lớp học. Tgiỏi do thắc mắc hồi quy thông thường: điểm số sẽ ảnh hưởng ảnh hưởng tác động như thế nào ví như sút bài bản lớp học tập. Để nhận xét vấn đề này, ta nên cấp dưỡng quy mô một sự xúc tiến thân các biến đổi (X).

Ta xét ba trường hợp:

sự cửa hàng giữa nhị trở nên nhị phân.sự ảnh hưởng giữa một đổi thay nhị phân và một trở nên liên tục.sự ảnh hưởng thân nhị biến thường xuyên.

Xem thêm: Sau Avoid Là Gì - Cấu Trúc Avoid Và Những Điều Cần Biết


11.3.1 Sự liên can giữa hai biến hóa nhị phân

Mô hình tất cả dạng

Giả sử:

<eginaligned Y_i &= ln( extThu nhập)_i \ D_1i &= egincases 1 ext ví như người sản phẩm công nghệ i có bằng cao đẳng \ 0 endcases \ D_2i &= egincases 1 ext giả dụ người sản phẩm i là nữ \ 0 endcases endaligned>

Ta biết rằng (eta_1) đo lường sự biệt lập vào logarithm thu nhập vừa phải thân nhì nhóm người có bằng cao đẳng với người ko, còn (eta_2) đo lường và thống kê sự khác biệt vào logarithm các khoản thu nhập vừa phải giữa phái nam với phái nữ. Tuy nhiên quy mô này không có thể chấp nhận được ta Review sự ảnh hưởng của một người có đặc điểm của cả (D_1) cùng (D_2). Do đó ta kiểm soát và điều chỉnh quy mô lời khuyên thành:

(D_1i imes D_2i) được hotline là trở nên địa chỉ. Ta thấy:

<eginaligned &E(Y_i|D_1i = 0, D_2i= d_2) = eta_0 + eta_2 imes d_2 \ &E(Y_i|D_1i = 1, D_2i= d_2) = eta_0 +eta_1+eta_2 imes d_2 +eta_3 imes d_2 \&E(Y_i|D_1i = 1, D_2i= d_2) -E(Y_i|D_1i = 0, D_2i= d_2) = eta_1+eta_3 imes d_2 endaligned>

<eginaligned &E(Y_i|D_1i = d_1, D_2i= 0) = eta_0 + eta_1 imes d_1 \ &E(Y_i|D_1i = d_1, D_2i= 1) = eta_0 +eta_1 imes d_1+eta_2 +eta_3 imes d_1 \&E(Y_i|D_1i = d_1, D_2i= 1) -E(Y_i|D_1i = d_1, D_2i= 0) = eta_2+eta_3 imes d_1 endaligned>

Theo kia ta đang giải thích được ý nghĩa thông số (eta_3).

Trong R, ta điều tra sự liên can giữa phát triển thành STR cùng PctEL. Đặt:

<eginaligned &HiSTR = egincases 1 ext nếu STR ge trăng tròn \ 0 endcases \ &HiEL = egincases 1 ext nếu PctEL ge 10 \ 0 endcases endaligned>


# appover HiSTR lớn CASchoolsCASchools$HiSTR as.numeric(CASchools$form size >= 20)# append HiEL khổng lồ CASchoolsCASchools$HiEL as.numeric(CASchools$english >= 10)
Ta khoảng chừng quy mô.


# estimate the Model with a binary interaction termbi_model lm(score ~ HiSTR * HiEL, data = CASchools)# print a robust summary of the coefficientscoeftest(bi_mã sản phẩm, vcov. = vcovHC, type = "HC1")
## ## t kiểm tra of coefficients:## ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 664.1433 1.3881 478.4589

11.3.2 Sự liên can giữa một đổi mới thường xuyên và vươn lên là nhị phân

Đặt (X_i) mô tả số năm kinh nghiệm của người sản phẩm (i), là phát triển thành bỗng dưng tiếp tục. Ta chuyển đổi (D_1i) thành thay đổi (D_i). Mô hình mới đề xuất:

Ta cấp dưỡng tác động cửa hàng bằng phương pháp thêm biến hóa ((X_i imes D_i)) vào mô hình. Điều này đang làm độ nghiêng đường hồi quy phụ thuộc vào trở nên (D_i). Có ba ngôi trường hợp:

thuộc độ nghiêng cơ mà không giống intercept: (Y_i = eta_0 + eta_1 X_i + eta_2 D_i + u_i)thuộc intercept tuy nhiên khác độ nghiêng: (Y_i = eta_0 + eta_1 X_i + eta_2 (X_i imes D_i) + u_i)không giống intercept khác độ nghiêng: (Y_i = eta_0 + eta_1 X_i + eta_2 D_i + eta_3 (X_i imes D_i) u_i)

# generate artificial datamix.seed(1)X runif(200,0, 15)D sample(0:1, 200, replace = T)Y 450 + 150 * X + 500 * D + 50 * (X * D) + rnorm(200, sd = 300)# divide plotting area accordinglym rbind(c(1, 2), c(3, 0))graphics::layout(m)# estimate the models và plot the regression lines# 1. (baseline model)plot(X, log(Y), pch = trăng tròn, col = "steelblue", main = "Different Intercepts, Same Slope")mod1_coef lm(log(Y) ~ X + D)$coefficientsabline(coef = c(mod1_coef<1>, mod1_coef<2>), col = "red", lwd = 1.5)abline(coef = c(mod1_coef<1> + mod1_coef<3>, mod1_coef<2>), col = "green", lwd = 1.5) # 2. (baseline Model + interaction term)plot(X, log(Y), pch = đôi mươi, col = "steelblue", main = "Different Intercepts, Different Slopes")mod2_coef lm(log(Y) ~ X + D + X:D)$coefficientsabline(coef = c(mod2_coef<1>, mod2_coef<2>), col = "red", lwd = 1.5)abline(coef = c(mod2_coef<1> + mod2_coef<3>, mod2_coef<2> + mod2_coef<4>), col = "green", lwd = 1.5)# 3. (omission of D as regressor + interaction term)plot(X, log(Y), pch = 20, col = "steelblue", main = "Same Intercept, Different Slopes")mod3_coef lm(log(Y) ~ X + X:D)$coefficientsabline(coef = c(mod3_coef<1>, mod3_coef<2>), col = "red", lwd = 1.5)abline(coef = c(mod3_coef<1>, mod3_coef<2> + mod3_coef<3>), col = "green", lwd = 1.5)

*

Ta vận dụng trong R bằng phương pháp review ảnh hưởng giữa form size và HiEL theo mô hình máy cha.


# estimate the modelbci_mã sản phẩm lm(score ~ size + HiEL + kích thước * HiEL, data = CASchools)# print robust summary of coefficients to the consolecoeftest(bci_model, vcov. = vcovHC, type = "HC1")
# identify observations with PctEL >= 10id CASchools$english >= 10# plot observations with HiEL = 0 as red dotsplot(CASchools$size, CASchools$score, xlyên = c(0, 27), yllặng = c(600, 720), pch = 20, col = "red", main = "", xlab = "Class Size", ylab = "Test Score")# plot observations with HiEL = 1 as green dotspoints(CASchools$size, CASchools$score, pch = trăng tròn, col = "green")# read out estimated coefficients of bci_modelcoefs bci_model$coefficients# draw the estimated regression line for HiEL = 0abline(coef = c(coefs<1>, coefs<2>), col = "red", lwd = 1.5)# draw the estimated regression line for HiEL = 1abline(coef = c(coefs<1> + coefs<3>, coefs<2> + coefs<4>), col = "green", lwd = 1.5 )# add a legend to the plotlegend("topright", pch = c(đôi mươi, 20), col = c("red", "green"), legend = c("HiEL = 0", "HiEL = 1"))

*


11.3.3 Sự xúc tiến thân hai biến hóa liên tục

Sự hệ trọng giữa nhị đổi mới liên tục (X_1) cùng (X_2) được đánh giá trải qua (X_1 imes X_2). Lúc kia, quy mô trở thành:

Đánh giá chỉ đạo hàm theo (X_1) và (X_2) ta đã có:

Áp dụng trong R, ta Đánh Giá kích thước cùng english.


# estimate regression mã sản phẩm including the interaction between 'PctEL' & 'size'cci_mã sản phẩm lm(score ~ form size + english + english * kích thước, data = CASchools) # print a summary khổng lồ the consolecoeftest(cci_mã sản phẩm, vcov. = vcovHC, type = "HC1")
## ## t kiểm tra of coefficients:## ## Estimate Std. Error t value Pr(>|t|) ## (Intercept) 686.3385268 11.7593466 58.3654

11.3.4 Phân tích tài liệu Cầu Economic Journals

Trong phần này, ta so với tài liệu Journals trong package AER, gồm những quan lại giáp của 180 tập san công nghệ những năm 2000. Ta đo lường và tính toán giá thành cho mỗi citation cùng tính toán tuổi của journal cùng số lượng cam kết từ cho mỗi journal.


data("Journals")# define và rename variablesJournals$PricePerCitation Journals$price/Journals$citationsJournals$Age 2000 - Journals$foundingyearJournals$Characters Journals$charpp * Journals$pages/10^6Journals$Subscriptions Journals$subs
Vùng quý hiếm của PricePerCitation tương đối rộng lớn với giàn trải.


# compute summary statistics for price per citationsummary(Journals$PricePerCitation)
(ln (Subscriptions_i) = eta_0 + eta_1 ln (PricePerCitation_i) + u_i)(ln (Subscription_i) = eta_0 +eta_1 ln(PricePerCitation_i) + eta_4ln(Age_i) + eta_6 ln(Characters_i) + u_i)(ln (Subscription_i) = eta_0 +eta_1 ln(PricePerCitation_i) + eta_2 ln(PricePerCitation_i)^2+eta_3 ln(PricePerCitation_i)^3 + eta_4ln(Age_i) + eta_5 + eta_6 ln(Characters_i) + u_i)(ln (Subscription_i) = eta_0 +eta_1 ln(PricePerCitation_i) + eta_4ln(Age_i) +eta_5+ eta_6 ln(Characters_i) + u_i)

# Estimate models (I) - (IV)Journals_mod1 lm(log(Subscriptions) ~ log(PricePerCitation), data = Journals)Journals_mod2 lm(log(Subscriptions) ~ log(PricePerCitation) + log(Age) + log(Characters), data = Journals)Journals_mod3 lm(log(Subscriptions) ~ log(PricePerCitation) + I(log(PricePerCitation)^2) + I(log(PricePerCitation)^3) + log(Age) + log(Age):log(PricePerCitation) + log(Characters), data = Journals)Journals_mod4 lm(log(Subscriptions) ~ log(PricePerCitation) + log(Age) + log(Age):log(PricePerCitation) + log(Characters), data = Journals)
Sử dụng summary() ta giành được hiệu quả sau.

(ln (hatSubscriptions_i) = 4.77 - 0.53 ln (PricePerCitation_i))(eginalignedln (hatSubscriptions_i) = &3.21 - 0.41 ln(PricePerCitation_i) + 0.42ln(Age_i) \&+ 0.21 ln(Characters_i) endaligned)(eginalignedln (hatSubscriptions_i) = &3.41 -0.96 ln(PricePerCitation_i) + 0.02 ln(PricePerCitation_i)^2\&+0.004 ln(PricePerCitation_i)^3 + 0.37ln(Age_i) \&+ 0.16 + 0.23 ln(Characters_i)endaligned)(eginalignedln (hatSubscriptions_i) = &3.43 -0.90 ln(PricePerCitation_i) + 0.37ln(Age_i) \&+0.14+ 0.23 ln(Characters_i)endaligned)

Ta rất có thể sử dụng chu chỉnh (F) để đánh giá quy cách polylog so với biến đổi (ln(PricePerCitation_i)).


# F-Test for significance of cubic termslinearHypothesis(Journals_mod3, c("I(log(PricePerCitation)^2)=0", "I(log(PricePerCitation)^3)=0"), vcov. = vcovHC, type = "HC1")
## Linear hypothesis test## ## Hypothesis:## I(log(PricePerCitation)^2) = 0## I(log(PricePerCitation)^3) = 0## ## Model 1: restricted model## Model 2: log(Subscriptions) ~ log(PricePerCitation) + I(log(PricePerCitation)^2) + ## I(log(PricePerCitation)^3) + log(Age) + log(Age):log(PricePerCitation) + ## log(Characters)## ## Note: Coefficient covariance matrix supplied.## ## Res.Df Df F Pr(>F)## 1 175 ## 2 173 2 0.1943 0.8236Ta chẳng thể bác bỏ vứt (H_0:eta_3 = eta_4 = 0) đối với mô hình (III). Kết quả mô hình được biểu hiện vào bảng sau đây.

log(Subscriptions)
(I)(II)(III)(IV)
(1)(2)(3)(4)
log(PricePerCitation)-0.533***-0.408***-0.961***-0.899***
(0.034)(0.044)(0.160)(0.145)
I(log(PricePerCitation)2)0.017
(0.025)
I(log(PricePerCitation)3)0.004
(0.006)
log(Age)0.424***0.373***0.374***
(0.119)(0.118)(0.118)
log(Characters)0.206**0.235**0.229**
(0.098)(0.098)(0.096)
log(PricePerCitation):log(Age)0.156***0.141***
(0.052)(0.040)
Constant4.766***3.207***3.408***3.434***
(0.055)(0.380)(0.374)(0.367)
Observations180180180180
R20.5570.6130.6350.634
Adjusted R20.5550.6070.6220.626
Residual Std. Error0.750 (df = 178)0.705 (df = 176)0.691 (df = 173)0.688 (df = 175)
F Statistic224.037*** (df = 1; 178)93.009*** (df = 3; 176)50.149*** (df = 6; 173)75.749*** (df = 4; 175)
Notes:***Significant at the 1 percent level.
**Significant at the 5 percent level.
*Significant at the 10 percent màn chơi.

Hình hoạ những mô hình nlỗi sau.


# divide plotting aream rbind(c(1, 2), c(3, 0))graphics::layout(m)# scatterplotplot(Journals$PricePerCitation, Journals$Subscriptions, pch = 20, col = "steelblue", ylab = "Subscriptions", xlab = "ln(Price per ciation)", main = "(a)")# log-log scatterplot và estimated regression line (I)plot(log(Journals$PricePerCitation), log(Journals$Subscriptions), pch = 20, col = "steelblue", ylab = "ln(Subscriptions)", xlab = "ln(Price per ciation)", main = "(b)")abline(Journals_mod1, lwd = 1.5)# log-log scatterplot và regression lines (IV) for Age = 5 and Age = 80plot(log(Journals$PricePerCitation), log(Journals$Subscriptions), pch = 20, col = "steelblue", ylab = "ln(Subscriptions)", xlab = "ln(Price per ciation)", main = "(c)")JM4C $coefficients# Age = 80abline(coef = c(JM4C<1> + JM4C<3> * log(80), JM4C<2> + JM4C<5> * log(80)), col = "darkred", lwd = 1.5)# Age = 5abline(coef = c(JM4C<1> + JM4C<3> * log(5), JM4C<2> + JM4C<5> * log(5)), col = "darkgreen", lwd = 1.5)

*

Những kết luận có thể được rút ra:

Cầu của tạp chí co giãn những so với những tạp chí tthấp tuổi.Việc ko bác bỏ quăng quật (H_0) của kiểm nghiệm (F) so với quy mô (III) thống độc nhất với dục tình con đường tính giữa log(subscriptions) cùng log(price).Cầu cao hơn nữa đối với tạp chí những cam kết trường đoản cú, với cái giá với tuổi không biến đổi.

Cầu tập san phi co và giãn với giá: ta thấy quy mô (IV), của cả tập san tthấp tuổi ((Age=5)) ta thấy ước lượng độ co và giãn giá chỉ (-0.899+0.374 imes ln(5)+ 0.141 imes approx -0.3), nghĩa là một trong những phần trăm tăng giá dẫn cho cầu bớt chỉ (0.3) Phần Trăm. Kết trái này không tồn tại gì quá bất ngờ do mối cung cấp tiêu trúc đầu ra output của các tạp chí thường là những thư viện.


11.4 Bài tập


11.4.1 Bài 1: Hệ số tương quan và Phi tuyến đường 1

Xem xét mô hình đối chọi giản:

với (medv) là trung vị giá nhà đất cùng (lstat) là phần trăm hộ mái ấm gia đình với chứng trạng tài chính phải chăng, trong cỗ dữ liệu Boston.

Tính thông số đối sánh giữa (medv) cùng (lstat) cùng lưu vào trở thành corr.Đồ thị hoá medv với lstat với chế tạo con đường hồi quy thủ thuật. Nhận xét.
eyJsYW5ndWFnZSI6InIiLCJzYW1wbGUiOiJkYXRhKFwiQm9zdG9uXCIpXG5tb2QgPC0gbG0obWVkdiB+IGxzdGF0ICwgZGF0YSA9IEJvc3RvbilcbiMgY29tcHV0ZSB0aGUgY29ycmVsYXRpb24gYmV0d2VlbiBtZWR2IGFuZCBsc3RhdFxuXG5cbiMgcGxvdCBtZWR2IGFnYWluc3QgbHN0YXQgYW5kIGFkZCB0aGUgcmVncmVzc2lvbiBsaW5lIiwic29sdXRpb24iOiIjIGNvbXB1dGUgdGhlIGNvcnJlbGF0aW9uIGJldHdlZW4gbWVkdiBhbmQgbHN0YXRcbmNvcnIgPC0gY29yKEJvc3RvbiRtZWR2LCBCb3N0b24kbHN0YXQpXG5cbiMgcGxvdCBtZWR2IGFnYWluc3QgbHN0YXQgYW5kIGFkZCB0aGUgcmVncmVzc2lvbiBsaW5lXG5wbG90KG1lZHYgfiBsc3RhdCwgZGF0YSA9IEJvc3RvbilcbmFibGluZShyZWcgPSBtb2QsIGNvbCA9IFwicmVkXCIpIn0=

11.4.2 Bài 2: Hệ số đối sánh cùng Phi tuyến 2

Ta chú ý mối quan hệ dưới đây.

Thực hiện tại hồi quy cùng tàng trữ vào đổi thay log_mod.Mô tả điểm rải và cung ứng con đường hồi quy. So sánh với công dụng bài bác trước.
eyJsYW5ndWFnZSI6InIiLCJzYW1wbGUiOiIjIGNvbmR1Y3QgdGhlIHJlZ3Jlc3Npb24gYW5kIGFzc2lnbiBpdCB0byBtb2RfbG9nXG5cblxuIyBkcmF3IGEgc2NhdHRlcnBsb3QgYW5kIGFkZCB0aGUgcmVncmVzc2lvbiBsaW5lIiwic29sdXRpb24iOiIjIGNvbmR1Y3QgdGhlIHJlZ3Jlc3Npb24gYW5kIGFzc2lnbiBpdCB0byBtb2RfbG9nXG5tb2RfbG9nIDwtIGxtKG1lZHYgfiBsb2cobHN0YXQpLCBkYXRhID0gQm9zdG9uKVxuXG4jIGRyYXcgYSBzY2F0dGVycGxvdCBhbmQgYWRkIHRoZSByZWdyZXNzaW9uIGxpbmVcbnBsb3QobWVkdiB+IGxvZyhsc3RhdCksIGRhdGEgPSBCb3N0b24pXG5hYmxpbmUobW9kX2xvZywgY29sID0gXCJyZWRcIikifQ==

11.4.3 Bài 3: Bậc nhiều thức về tối ưu

Ta thấy sinh sống bài xích tập trước quy cách (medv_i = eta_0 + eta_1 imes log(lstat_i) + u_i) là 1 trong sự gạn lọc hợp lý và phải chăng. Tuy nhiên, đa thức bậc cao so với (log(lstat_i)) hoàn toàn có thể phù hợp rộng.

Giả sử bậc cao nhất chú ý là (r=4), sử dụng for() để chọn ra bậc tối ưu Theo phong cách tiếp sau đây.

Ước lượng quy mô, thủ thuật, bắt đầu trường đoản cú (r=4).Lưu biến (p)-value vững của những tmê man số liên quan và so sánh với khoảng chân thành và ý nghĩa (0.05).Nếu quan trọng chưng vứt mô hình, lặp lại bước (i) cùng (ii) so với bậc thấp rộng.Dừng lại cho tới Khi lựa chọn ra được bậc về tối ưu.

Tính (R^2) của mô hình được lựa chọn cùng phân chia vào R2.


eyJsYW5ndWFnZSI6InIiLCJzYW1wbGUiOiIjIGZpbmQgdGhlIG9wdGltYWwgcG9seW5vbWlhbCBvcmRlciBvZiB0aGUgcG9seWxvZyBtb2RlbFxuXG5cblxuXG5cblxuXG5cblxuIyBleHRyYWN0IHRoZSBSXjIgZnJvbSB0aGUgc2VsZWN0ZWQgbW9kZWwgYW5kIGFzc2lnbiBpdCB0byBSMiIsInNvbHV0aW9uIjoiIyBmaW5kIHRoZSBvcHRpbWFsIHBvbHlub21pYWwgb3JkZXIgb2YgdGhlIHBvbHlsb2cgbW9kZWxcbmZvcihpIGluIDQ6MSl7XG5tb2QgIDwtIGxtKG1lZHYgfiBwb2x5KGxvZyhsc3RhdCksIGksIHJhdyA9IFQpLCBkYXRhID0gQm9zdG9uKVxucHZhbCA8LSBjb2VmdGVzdChtb2QsIHZjb3YgPSB2Y292SEMpWyhpKzEpLCA0XVxuaWYocHZhbCA8IDAuMDUpe1xuICBwcmludChpKVxuICBicmVha1xuICB9XG59XG5cbiMgZXh0cmFjdCB0aGUgUl4yIGZyb20gdGhlIHNlbGVjdGVkIG1vZGVsIGFuZCBhc3NpZ24gaXQgdG8gUjJcblIyIDwtIHN1bW1hcnkobW9kKSRyLnNxdWFyZWQifQ==

11.4.4 Bài 4: Tương tác thân những biến hóa tự do 1

Xem quy mô hồi quy

trong những số ấy (chas_i) với (old_i) là những đổi mới giả. Đối với vươn lên là đầu, với giá trị (1) giả dụ sông Charles (một con sông cạnh bên Boston) đi qua khu vực vự (i), vươn lên là sau sở hữu quý giá (1) giả dụ (age ge 95).

Tạo lập biến hóa trả old.Thực hiện tại hồi quy trong mod_bb.Tổng hòa hợp hệ số hồi quy vững.
eyJsYW5ndWFnZSI6InIiLCJzYW1wbGUiOiIjIGdlbmVyYXRlIHRoZSBiaW5hcnkgdmFyaWFibGUgYG9sZGAgYW5kIGFwcGVuZCBpdCB0byB0aGUgZGF0YXNldFxuXG5cbiMgY29uZHVjdCB0aGUgcmVncmVzc2lvbiBhbmQgYXNzaWduIGl0IHRvIGBtb2RfYmJgXG5cblxuIyBwcmludCBhIHJvYnVzdCBzdW1tYXJ5IHRvIHRoZSBjb25zb2xlIiwic29sdXRpb24iOiIjIGdlbmVyYXRlIHRoZSBiaW5hcnkgdmFyaWFibGUgYG9sZGAgYW5kIGFwcGVuZCBpdCB0byB0aGUgZGF0YXNldFxuQm9zdG9uJG9sZCA8LSBhcy5udW1lcmljKEJvc3RvbiRhZ2UgPj0gOTUpXG5cbiMgY29uZHVjdCB0aGUgcmVncmVzc2lvbiBhbmQgYXNzaWduIGl0IHRvIGBtb2RfYmJgXG5tb2RfYmIgPC0gbG0obWVkdiB+IGNoYXMqb2xkLCBkYXRhID0gQm9zdG9uKVxuXG4jIHByaW50IGEgcm9idXN0IHN1bW1hcnkgdG8gdGhlIGNvbnNvbGVcbmNvZWZ0ZXN0KG1vZF9iYiwgdmNvdi4gPSB2Y292SEMpIn0=

11.4.5 Bài 5: Tương tác giữa những đổi thay độc lập 2

Bây giờ đồng hồ để mắt tới quy mô hồi quy

Dùng ?Boston để tìm hiểu thêm chân thành và ý nghĩa những biến trong mô hình. Biến old đã được append vào cỗ dữ liệu Boston.

Xem thêm: Nghĩa Của Từ Pursuant Là Gì, Nghĩa Của Từ Pursuant, Nghĩa Của Từ Pursuant, Từ Pursuant Là Gì

Ước lượng mô hình hồi quy với lưu vào biến mod_bc.Lấy những thông số hồi quy giữ vào đổi thay params.Vẽ mặt đường hồi quy medv cùng indus mang lại nhị trường đúng theo của old.
eyJsYW5ndWFnZSI6InIiLCJzYW1wbGUiOiIjIGNvbmR1Y3QgdGhlIHJlZ3Jlc3Npb24gYW5kIGFzc2lnbiBpdCB0byBtb2RfYmMuXG5cblxuIyBleHRyYWN0IHRoZSBlc3RpbWF0ZWQgbW9kZWwgY29lZmZpY2llbnRzIGFuZCBhc3NpZ24gdGhlbSB0byBwYXJhbXMuXG5cblxuIyBwbG90IG1lZHYgYWdhaW5zdCBpbmR1cyBhbmQgYWRkIHRoZSByZWdyZXNzaW9uIGxpbmVzLiIsInNvbHV0aW9uIjoiIyBjb25kdWN0IHRoZSByZWdyZXNzaW9uIGFuZCBhc3NpZ24gaXQgdG8gbW9kX2JjLlxubW9kX2JjIDwtIGxtKG1lZHYgfiBpbmR1cypvbGQsIGRhdGEgPSBCb3N0b24pXG5cbiMgZXh0cmFjdCB0aGUgZXN0aW1hdGVkIG1vZGVsIGNvZWZmaWNpZW50cyBhbmQgYXNzaWduIHRoZW0gdG8gcGFyYW1zLlxucGFyYW1zIDwtIGNvZWYobW9kX2JjKVxuXG4jIHBsb3QgbWVkdiBhZ2FpbnN0IGluZHVzIGFuZCBhZGQgdGhlIHJlZ3Jlc3Npb24gbGluZXMuXG5wbG90KG1lZHYgfiBpbmR1cywgZGF0YSA9IEJvc3RvbilcbmFibGluZShhID0gcGFyYW1zWzFdLCBiID0gcGFyYW1zWzJdLCBjb2wgPSBcInJlZFwiKVxuYWJsaW5lKGEgPSBwYXJhbXNbMV0gKyBwYXJhbXNbM10sIGIgPSBwYXJhbXNbMl0gKyBwYXJhbXNbNF0sIGNvbCA9IFwiZGFya2JsdWVcIikifQ==