Предположим, изначально у нас было одно полное облако точек. Мы разделили его на три непересекающихся подмножества (обозначены цветами). В каждом из цветных облаков есть значимая взаимосвязь между переменными \(X\) и \(Y\), которую обнаруживают любые регрессионные методы (приведены три: классический МНК, квантильная регрессия при \(q=0{,}5\) и локально линейная регрессия первой степени).
Однако если взглянуть на изначальное облако из всех точек всех трёх цветов, то эффекта никакого не будет (эта ничтожно слабая и малозначимая зависимость показана толстой чёрной линией). Получается парадокс: если индивид относится к зелёной подвыборке, то в ней влияние \(X\) на \(Y\) есть. То же верно и для всех остальных подвыборок. Везде эффект положительный! Однако одновременно для всех точек никакого эффекта нет.
Зависимая переменная: Y | ||||
Вся выборка | Синие | Зелёные | Красные | |
X | 0.013 | 0.839*** | 0.482*** | 0.598*** |
(0.030) | (0.024) | (0.048) | (0.046) | |
Константа | 0.004 | 0.013 | -1.202*** | 1.245*** |
(0.031) | (0.019) | (0.055) | (0.053) | |
Наблюдений | 1000 | 386 | 307 | 307 |
R2 | 0.0002 | 0.756 | 0.252 | 0.361 |
Adjusted R2 | -0.001 | 0.755 | 0.250 | 0.359 |
Residual Std. Error | 0.981 (df = 998) | 0.373 (df = 384) | 0.667 (df = 305) | 0.640 (df = 305) |
F Statistic | 0.198 (df = 1; 998) | 1,187.609*** (df = 1; 384) | 102.762*** (df = 1; 305) | 172.266*** (df = 1; 305) |
Note: | *p<0.1; **p<0.05; ***p<0.01 |
Вывод: чем более избирательно исследователь будет составлять выборку для исследования («пожилое коренное население, которое до этого трудилось на работах, не требующих высокой квалификации»), тем больше вероятность, что он что-нибудь да обнаружит... и что эта находка будет ложной.
Код для репликации в R (отчего-то плагин глючит и склеивает всё в строку):
n <- 1000;
set.seed(100);
x <- rnorm(n);
y <- rnorm(n);
th <- 0.7;
g1 <- (y < x + th) & (y > x - th);
g2 <- (y <= x - th);
g3 <- (y >= x + th);
m <- lm(y~x);
m1 <- lm(y~x, subset=g1);
m2 <- lm(y~x, subset=g2);
m3 <- lm(y~x, subset=g3)