Что делать, если в майские праздники укусила собака?

Скоро грядут майские праздники (причём по уровню нелепости названия День весны и труда можно приравнять только ко Дню зимы и Петропавловской крепости), и парки наводнят владельцы бульдогов, бультерьеров и прочих бульбазавров. Что делать, если вы мирно тарахтели на своём велосипеде по прогулочной дорожке, а на вас внезапно выскочил рычащий Баргест и укусил вас за самое дорогое, что у вас есть, — за мясистую ляжку?

Так вот, математика даёт ответ на этот непростой вопрос. Надо было заранее решить математическую задачу!

Задача. На улице на прямой пешеходной дорожке стоит хозяин с собакой на натянутом поводке длины \(r\) (поводок натянут параллельно дорожке). На расстоянии \(l < r\) по велосипедной дорожке, параллельной пешеходной дорожке, едет велосипедист со скоростью \(v_2\). Как только велосипедист попадает в радиус досягаемости собаки (радиус поводка) в момент \(t_0\), она бежит к нему по траектории, минимизирующей время от момента попадания велосипедиста в предел досягаемости до укуса, со скоростью \(v_1\).

  • Найдите предельное значение скорости велосипедиста \(v_2(v_1, l, r)\), при котором собака не сможет его укусить.
  • В предположении, что при данных параметрах \(r\), \(l\), \(v_1\), \(v_2\) существует траектория, позволяющая собаке успеть добежать до велосипедиста и укусить его, выведите уравнение этой траектории \(x(t), y(t)\) и рассчитайте время \(t^*\), которое пройдёт с момента \(t_0\) до укуса.

P.S. Наверно, вам давно глаза не резали скверные и наспех сделанные иллюстрации? Так вот нате, вот, пожалуйста вам в шапочку...

О вреде дробления выборки

Предположим, изначально у нас было одно полное облако точек. Мы разделили его на три непересекающихся подмножества (обозначены цветами). В каждом из цветных облаков есть значимая взаимосвязь между переменными \(X\) и \(Y\), которую обнаруживают любые регрессионные методы (приведены три: классический МНК, квантильная регрессия при \(q=0{,}5\) и локально линейная регрессия первой степени).

Ложные значимые эффекты на подвыборках

Однако если взглянуть на изначальное облако из всех точек всех трёх цветов, то эффекта никакого не будет (эта ничтожно слабая и малозначимая зависимость показана толстой чёрной линией). Получается парадокс: если индивид относится к зелёной подвыборке, то в ней влияние \(X\) на \(Y\) есть. То же верно и для всех остальных подвыборок. Везде эффект положительный! Однако одновременно для всех точек никакого эффекта нет.

Зависимая переменная: Y
Вся выборка Синие Зелёные Красные
X 0.013 0.839*** 0.482*** 0.598***
(0.030) (0.024) (0.048) (0.046)
Константа 0.004 0.013 -1.202*** 1.245***
(0.031) (0.019) (0.055) (0.053)
Наблюдений 1000 386 307 307
R2 0.0002 0.756 0.252 0.361
Adjusted R2 -0.001 0.755 0.250 0.359
Residual Std. Error 0.981 (df = 998) 0.373 (df = 384) 0.667 (df = 305) 0.640 (df = 305)
F Statistic 0.198 (df = 1; 998) 1,187.609*** (df = 1; 384) 102.762*** (df = 1; 305) 172.266*** (df = 1; 305)
Note: *p<0.1; **p<0.05; ***p<0.01

Вывод: чем более избирательно исследователь будет составлять выборку для исследования («пожилое коренное население, которое до этого трудилось на работах, не требующих высокой квалификации»), тем больше вероятность, что он что-нибудь да обнаружит... и что эта находка будет ложной.

Код для репликации в R (отчего-то плагин глючит и склеивает всё в строку):

n <- 1000; set.seed(100); x <- rnorm(n); y <- rnorm(n); th <- 0.7; g1 <- (y < x + th) & (y > x - th);
g2 <- (y <= x - th); g3 <- (y >= x + th);
m <- lm(y~x); m1 <- lm(y~x, subset=g1); m2 <- lm(y~x, subset=g2); m3 <- lm(y~x, subset=g3)

Самое кошмарное музыкальное произведение

В Сети есть страница с очень интересным списком произведений, озаглавленная «The Darker Side of Classical Music» («Тёмная сторона классической музыки»). На ней собраны образцы наиболее трагичных произведений, которые вышибают у слушателей слезу или вселяют в них ужас. Некоторые записи в нём спорны (Шостакович?), некоторые не вызывают никакого сомнения (Шестая симфония Чайковского, «Плач по жертвам Хиросимы» Пендерецкого, «Остров мёртвых» Рахманинова). Как и в любом подобном списке, в нём есть фамилии забытых позднеромантических композиторов второго эшелона.

Однако одной записи в нём не хватает. Не хватает упоминания композитора, известного как «Чёрный Балакирев» благодаря разрушительной и мрачной силе, присутствующей в его произведениях. Это Сергей Михайлович Ляпунов, родной брат Александра Ляпунова. Он является автором двух симфоний и двух фортепианных концертов. Каждый из них играет тысячами разных красок: Первый концерт — классическая русская печаль, Второй концерт — новь, свежее дыхание, короткий, но изящный эксперимент с гармонией, Первая симфония — эпическое произведение, весь финал которого представляет собой пиррову победу, радость со слезами на глазах...

Однако у Ляпунова есть одно произведение, о котором почти никто не знает. Его почти никогда не исполняют. Во всём зарубежном интернете нет ни одной статьи, посвящённой ему. Это Вторая симфония — самая острая музыкальная катастрофа, чёрный кошмар, падение в пропасть безумия, олицетворение демона самоубийства и символ гибели России. Написанное в 1917 году, оно содержит максимальную концентрацию трагических чувств в первой части. Если у Скрябина первая часть Второй симфонии — это непрерывная борьба с Природой, напряжённая и предвещающая грозу, то у Ляпунова намного больше личного трагизма: мировая война, революция (после которой композитор эмигрировал в Париж), нежелание принять крах великой империи, приходящейся ему родной страной... Всегда бывший мрачным и угнетающим, во Второй симфонии композитор зашёл за грань разрушительного и разбивающего сердце.

Сегодня исполнился ровно год с того самого момента, как в библиотеке Cité Universitaire была совершена самая катастрофическая ошибка 2015 года — была открыта, прослушана и переслушана симфония Ляпунова №2 си-бимоль минор. Именно 18 апреля все демоны, роившиеся внутри этого сундука, вырвались на свободу. Автор убедительно просит неподготовленного читателя смириться с тем, что полчище ночных бесов будет подталкивает прослушивающего эту симфонию сброситься с моста, вспороть живот, взрезать горло или что-нибудь похуже. Все, кто не боится перейти на чёрную сторону искусства, приглашаются к прослушиванию этой музыкальной гибели целой страны только в высококачественных наушниках или перед полноценной акустической системой. Помощи вам ждать неоткуда, никто к вам не придёт. Если вдруг вы не сможете остановиться, заставьте кого-нибудь заставьте вас поклясться самому/самой себе, что никогда в жизни вы больше не переслушаете этого произведения.

Экспонента Ляпунова / Lyapunov Exponent / Exposant de Liapounov

У композитора Ляпунова произведения настолько мрачные и сокрушающие, что экспонента Ляпунова отрицательная, но хаос при этом растёт!

The music of composer Lyapunov is so dark and crushing that Lyapunov’s exponent is negative, but his chaos is growing!

La musique de compositeur Liapounov est si sombre et écrasante que son exposant est négatif mais son chaos s’accroît!

P.S. I would not mind if someone translated this into German so that we could witness four spellings (together with Ljapunow) in one post.

«Школьная» задача про возраст членов семьи

Три версии одной и той же задачки. Числа и формулировки немного разные, ответ одинаковый.

  • Вася младше своей мамы на 21 год. 15 лет назад отношение возраста Васи к разнице их с мамой возрастов было меньше возраста мамы в то время ровно в 9 раз. Вопрос: где сейчас Васина бабушка?
  • Вася младше своей мамы на 28 лет. 8 лет назад отношение возраста Васи к разнице их с мамой возрастов составляло ровно 15 % возраста мамы в то время. Вопрос: где сейчас Васин дедушка?
  • Вася младше своей мамы на 24 года. 18 лет назад отношение возраста Васи к разнице их с мамой возрастов составляло ровно 9,5 % возраста мамы в то время. Вопрос: где сейчас Васина бабушка?


Матожидание ошибок при симуляции МНК

Я больше года мучился, не понимал, почему аддитивность/мультипликативность нормальных ошибок играет такую большую роль, и даже разъяснение преподавателя не помогало. Почти год назад я написал этот пост: http://kostyrka.ru/blog/archives/1246 — и, оказывается, впустую! Сегодня на эконометрике ко мне пришло видение этой проблемы в свете того, что матожидание от функции не равно функции от матожидания. Конкретно это имеет значение, если вас просят оценить уравнение, в котором ошибка мультипликативна и, следовательно, при логарифмировании её матожидание должно дать ноль. Что делает плохой студент? Генерирует мультипликативную ошибку со средним 1 из первого попавшегося распределения!

Предположим, вы хотите научиться оценивать уравнение
\[Q = a K^\alpha L^\beta \cdot \varepsilon,\]
где \(\mathbb{E}(\varepsilon\mid K, L)=1\). Уже и компьютер включили, и gretl запустили. Какое распределение \(\varepsilon\) надо взять?

По прочтении условия очень хочется взять распределение ошибок \(\chi^2_1\), так как \(\mathbb{E}(\chi^2_1)=1\). Ещё очень хочется взять \(\mathcal{N}(1;\sigma^2)\). Некоторые кулибины берут \(\mathcal{U}[0{,}5;1{,}5]\) или \(\mathcal{U}[0;2]\). Так почему же нельзя брать ни то, ни другое, ни третье?

Ответ: так как по МНК уравнение будет оцениваться в логарифмах, то важно, чтобы не \(\mathbb{E}(\varepsilon)\) было единицей, а \(\mathbb{E}(\ln \varepsilon)\) было нулём. Матожидание не всепроникающее, поэтому матожидание логарифма не равно логарифму матожидания. Если бы выполнялась такая глупость, что \(\mathbb{E}\bigl(f(X)\bigr) = f \bigl( \mathbb{E}(X) \bigr)\), то было бы и \(\mathbb{E}(\ln X) = \ln \mathbb{E}(X)\), и \(\mathbb{E}(X^2) = \bigl(\mathbb{E}(X)\bigr)^2\), дисперсия стала бы тождественным нулём, и наступил бы конец света.

 

Хи-квадрат после логарифмирования начнёт себя вести очень плохо. Настолько плохо, что формулу для его матожидания я запишу в попустительской нотации:
\[ \varepsilon \sim \chi^2_1 \quad \Rightarrow \quad \mathbb{E}(\ln \varepsilon) = \mathbb{E}\bigl(\ln \mathcal{N}^2(0;1)\bigr) =\mathbb{E}\bigl(2\ln |\mathcal{N}(0;1)|\bigr) = 2\mathbb{E}\bigl(\ln |\mathcal{N}(0;1)|\bigr) \]

Во-первых, отрицательные значения перейдут вправо (распределение аргумента станет положительным). Во-вторых, из оставшихся логарифмов ошибок более 2/3 будут отрицательными (вероятность, что величина из нормального распределения по модулю будет меньше единицы, равна 68,27 %), причём некоторые из них будут убийственно отрицательными: логарифм близкой к нулю величины уходит глубоко под землю. Если уж идти до конца, то
\[ \varepsilon \sim \chi^2_1 \quad \Rightarrow \quad \mathbb{E}(\ln \varepsilon) = 2\mathbb{E}\bigl(\ln |\mathcal{N}(0;1)|\bigr) = \sqrt{\frac{2}{\pi}} \int\limits_{-\infty}^{+\infty} \ln x \cdot e^{ -\frac{x^2}{2}} \,\mathrm{d}x = -\gamma -\ln 2 \approx -1{,}270\,36, \]
где \(\gamma\) — постоянная Эйлера—Маскерони.

В общем случае матожидание логарифма хи-квадрата с \(k\) степенями свободы выражается через полигамма-функцию (даже дигамма-функцию):
\[ \mathbb{E}(\chi^2_k) = \ln 2 + \psi^{(0)}\left(\frac{k}{2} \right), \quad \psi^{(0)}(x) \equiv \frac{\Gamma'(x)}{\Gamma(x)} \]
Biased log of chi square
Если хотите, чтобы матожидание логарифма было равно нулю, то надо брать хи-квадрат с \(1{,}866\,025\) степенями свободы.

 

Нормальное распределение может выдать абсолютно любые значения случайной величины, так как функция плотности определена на \(\mathbb{R}\). Поэтому если ошибка мультипликативна и нормальна, то, вообще говоря, пропадают все значения, где ошибка получилась меньше нуля. Кроме того, если ошибка распределена как \(\mathcal{N}(1;\sigma^2)\), а наивные пользователи думают, что её логарифм в среднем даст ноль, то спешу их разочаровать следующей картиной:
Biased Log of Normal Distribution
Здесь avgleps — это \(\overline{\ln \varepsilon_i} = \mathbb{E}(\ln\varepsilon_i \mid \sigma)\), где \(\varepsilon_i \sim \mathcal{N}(1;\sigma^2)\). Любой желающий может в этом убедиться (если скрипт виснет, надо уменьшить размер выборки до, скажем, nulldata 5000):
nulldata 100000
scalar step=0.01
#
loop for (se=0.001; se<10; se+=step) --progressive series eps = randgen(N,1,se) series leps = ln(eps) genr avgleps = mean(leps) store biasedln.gdt se avgleps endloop # open biasedln.gdt gnuplot avgleps se --with-lines --output=display --suppress-fitted

На самом деле безусловное матожидание логарифма нормального распределения — это следующее аналитическое выражение:
\[ \varepsilon \sim \mathcal{N}(1;\sigma^2) \quad \Rightarrow \quad \mathbb{E}\bigl(\ln \varepsilon \bigr) = \frac{1}{2} \left(-{}_1\mathrm{F}_1\left(0;\frac{1}{2};-\frac{1}{2 \sigma ^2}\right)+\ln \left(\frac{\sigma ^2}{2}\right)-\gamma \right) + \frac12 i \pi \mathrm{erfc}\left(\frac{1}{\sqrt{2} \sigma}\right), \]
где \({}_1\mathrm{F}_1\) — вырожденная гипергеометрическая функция Куммера (Kummer confluent hypergeometric function).
Biased expectation
Чтобы избавиться от мнимой единицы, некоторые товарищи могут взять условное матожидание (\(x>0\)) или выкинуть все отрицательные значения (как на графике в gretl’е), то и тогда у них матожидание будет равно ещё более жуткому выражению (раскрываю свои карты) — и притом обе эти функции будут давать абсолютно одинаковые графики:
\[ \text{Expectation}[\log (x)\unicode{f3d3}x>0,x\approx \text{NormalDistribution}[1,\sigma ]] \]
\[ \frac{e^{-\frac{1}{2 \sigma ^2}} \left(-e^{\frac{1}{2 \sigma ^2}} \sigma \text{Hypergeometric1F1}^{(1,0,0)}\left(0,\frac{1}{2},-\frac{1}{2 \sigma ^2}\right)+\sqrt{\frac{2}{\pi }} \text{Hypergeometric1F1}^{(1,0,0)}\left(1,\frac{3}{2},\frac{1}{2 \sigma ^2}\right)+\gamma e^{\frac{1}{2 \sigma ^2}} \sigma \text{erfc}\left(\frac{1}{\sqrt{2} \sigma }\right)-e^{\frac{1}{2 \sigma ^2}} \sigma \log (2) \text{erfc}\left(\frac{1}{\sqrt{2} \sigma }\right)-2 e^{\frac{1}{2 \sigma ^2}} \sigma \text{erfc}\left(\frac{1}{\sqrt{2} \sigma }\right) \log (\sigma )-2 \gamma e^{\frac{1}{2 \sigma ^2}} \sigma +4 e^{\frac{1}{2 \sigma ^2}} \sigma \log (\sigma )\right)}{2 \sigma \left(\text{erf}\left(\frac{1}{\sqrt{2} \sigma }\right)+1\right)} \]

Вам это надо? Не надо. Симуляция уже показала вам, насколько велико смещение. Если \(\sigma\not\approx 1{,}092\,340\) (приблизительное решение этой страшной аналитической вещи относительно \(\sigma\)), то наличествует систематическая ошибка, и коэффициенты модели неверны, причём по вышеприведённым графикам можно оценить смещение. Даже если смещение равно 0,1, но наблюдений в выборке 100 000, то...

Совсем плохой случай: если в исходной модели ошибки мультипликативны и нормальны с нулевым матожиданием и дисперсией \(\sigma^2\), то при переходе к логарифмам их матожидание станет равным \(\frac{1}{2} \left(-\gamma + \ln \frac{\sigma^2}{2} \right)\), смещение принимает какое угодно значение, смещается оценка свободного члена, и ни при какой огромной выборке остальные истинные коэффициенты получить не удастся!

 

Если кто-то возьмёт равномерное распределение ошибок с матожиданием 1, то ясно, что для получения осмысленных ошибок нижняя граница интервала распределения может изменяться от 0 до 1, а верхняя — от 2 до 1 (зеркально). Посмотрим на матожидание ошибки при различных параметрах генерирования:
Biased Log of Uniform Distribution
nulldata 100000
scalar step=0.001
#
loop for (bnd=0.001; bnd<1; bnd+=step) --progressive series eps = randgen(u,bnd,2-bnd) series leps = ln(eps) genr avgleps = mean(leps) store biasedln.gdt bnd avgleps endloop # open biasedln.gdt gnuplot avgleps bnd --with-lines --output=display --suppress-fitted

Уже лучше, но всё равно плохо. Если ошибка имеет равномерное распределение от \(b\) до \((2-b)\), то её среднее равно одному, однако среднее её логарифма нулю никак не равно. А вот чему оно равно:
\[\varepsilon \sim \mathcal{U}[b;2-b] \quad \Rightarrow \quad \mathbb{E}\bigl(\ln \varepsilon\bigr) = \frac{-2 b+b \ln (2-b)+b \ln b-2 \ln (2-b)+2}{2 (b-1)} \]
Интересная функция. Её предел в нуле равен \(\ln 2 - 1 \approx -0{,}307\), а при стремлении к единице её значение стремится к нулю. Однако это значит, что для минимизации смещения требуется брать значения границ, равные \([0{,}95;1{,}05]\) или ещё у́же, а до такого додумается далеко не каждый: все будут бояться, что при таком малом разбросе ошибок получатся гигантские (\(\geqslant50\)) t-статистики, а сама регрессия потеряет всякий смысл, исчезнет случайность, а «наблюдаемые» значения будут лежать почти в одной гиперплоскости. При этом все забывают, что только лишь очень близкие к единице \(\varepsilon\) позволяют задействовать отношение эквивалентности \(\ln (1 + \delta) \sim \delta\) при \(\delta\approx 0\).
Biased log of uniform distribution

 

Мораль 1. При генерировании искусственных данных помните, что в модели с мультипликативными ошибками очень желательна нормальность их логарифмов с центром массы в нуле. Если матожидание ошибок, преобразованных в аддитивные, не равно нулю, коэффициенты МНК будут в порядке, но оценка константы будет смещённой и несостоятельной, что критично при оценке технологического фактора в модели Кобба—Дугласа.

Мораль 2. Решаете задачку, гоняете циферки, а вам нужны ошибки, которые не сместят коэффициентов? Берите \(\varepsilon = \exp\bigl(\mathcal{N}(0;1)\bigr)\).

 

P.S. Мне кажется, что при симуляции Монте-Карло имеет смысл поиграться с функциональной формой ошибок и добиться того, чтобы проверка выполнения условия \(\sum(y_i^* - {\boldsymbol{x}^*_i}'\boldsymbol\beta)=0\) начиналась на шаг ранее, когда исходная форма \(y_i = f(\boldsymbol{x}_i, \boldsymbol\beta, \varepsilon_i)\) преобразуется в \(y_i^* = f^{-1}(y_i) = f^{-1}\bigl(f(\boldsymbol{x}_i, \boldsymbol\beta, \varepsilon_i)\bigr) = {\boldsymbol{x}^*_i}'\boldsymbol\beta + \varepsilon_i^*\), и чтобы особое внимание уделялось условию \(\mathbb{E}(\varepsilon_i^*)=0\). Конечно, это не так важно, но всё-таки есть такое эмпирическое правило, что наличие значимой константы говорит о пропущенных переменных; поэтому если в истинной модели есть константа, но систематическая ошибка её сильно снижает, то может возникнуть ложное ощущение того, что в модели учтено достаточное количество влияющих факторов, в то время как друг на друга накладываются большая необъяснённая остаточная вариация и систематическая ошибка.

seed не должен быть ручным

Правило 1. Для того чтобы любой эксперимент Монте-Карло был воспроизводим, генератору псевдослучайных чисел необходимо сообщить seed — начальное число, с которого пойдёт поток чисел. Если при использовании одного и того же алгоритма я перед каждой процедурой генерирования случайных чисел задаю тот же seed, что и вы, то у нас не могут получиться разные результаты. В этом и состоит псевдослучайность.

Правило 2. Если вам нужно получить несколько независимых случайных величин, не устанавливайте один и тот же seed. Для воспроизводимости принципиально установить его вообще. Если в исследовании требуются три случайные переменные: \(X_1\), \(X_2\), \(X_3\) — и чтобы каждая имела распределение \(\mathcal{U}[\underline{x}\vphantom{x}_i;\overline{x}\vphantom{x}_i]\), ни в коем случае не пишите так:

set seed 100
series K=randgen(u,10,30)
set seed 100
series L=randgen(u,20,40)
set seed 100
series M=randgen(u,-50,50)

Это приведёт к вырождению процесса и к тому, что между случайными величинами будет абсолютная мультиколлинеарность (они будут равны друг другу с точностью до линейного преобразования), а коэффициент корреляции будет равен 1. Это ещё хуже, чем компьютер RANDU, у которого «каждое число случайно само по себе, но не гарантируется того же для большего их количества», а единичная корреляция следует из соотношения \(x_{k+2}=6x_{k+1}-9x_{k}\).

degen-random

Хороший эконометрист всегда задаёт большие и как можно более отличные друг от друга сиды и записывает их в надёжное место. Отличный эконометрист генерирует случайные сиды и записывает начальный сид для генератора сидов; отличный эконометрист всегда должен мыслить на один уровень случайности выше.

set seed 100
series K1=randgen(u,10,30)
set seed 200
series L1=randgen(u,20,40)
set seed 300
series M1=randgen(u,-50,50)

A truly random 3-dimensional uniform distribution

Не надо думать, что зиккурат-алгоритм или алгоритм Бокса—Мюллера вывезет. Не вывезет!

Если вам необходимо прогнать цикл из 10 000 симуляций, установите сид для первой симуляции и не трогайте его, пока не закончится десятитысячная. У современных генераторов достаточно длинные периоды, чтобы не зациклиться даже на миллионе циклов. Алгоритм KISS («Keep it Simple Stupid», или «Не усложняй, придурок») обладает периодом, бо́льшим на 40 порядков, чем число атомов во Вселенной. Если вам необходимо воспроизвести 6 234-ю итерацию, не надо задавать вручную все 10 000, а затем выбирать 6 234-й, нет! Достаточно после каждого цикла в некоторую переменную записывать состояние датчика случайных чисел (random number generator state, или начальное значение, которое он выбрал себе сам для новой итерации), а затем для воспроизведения 6234-й итерации взять seed из полученной переменной. Не обесчещивайте славное имя Джорджа Марсальи, посмотрите в руководство пользователя или исходный код, найдите переменную, в которую записывается состояние датчика, и копируйте её значения в летописи.

Вторая причина, по которой не надо устанавливать seed вручную, — это плохая «случайность» чисел, получаемых с ручным сидом. Если вы получили 50 000 значений случайной переменной и хотите получить ещё 50 000, надо быть волшебником, чтобы при выставлении второго сида не наткнуться на начальное значение, которое уже проскакивало в первом цикле итераций, иначе части первой и второй последовательностей псевдослучайных чисел могут совпасть! Это смертный приговор специалисту по временным рядам или исследователю систем бинарных уравнений, где у ошибок-инноваций не должно быть корреляции со всеми предыдущими значениями случайной переменной. А у вас стоит идеальная машина, изготовленная по технологическому процессу 22 нм (диаметр среднего атома всего лишь в сто раз меньше), куда подаётся ток совершенно определённой силы, поэтому положение каждого электрона в машине детерминировано, и это не даёт возможности получить истинно случайные числа. Вот что вы будете делать с абсолютной корреляцией и единичными корнями, которые возникли только потому, что вы своим указующим перстом установили seed, совпавший с тем, который использовался для 49 998-го значения? Л’Экюйера и Симара на вас не хватает (TestU01, Pierre L’Ecuyer, Richard Simard).

Гениальный сарказм

Как-то раз возле МГУ мне попалась в руки вот такая листовка. Написана она якобы от лица гуманитария. Каждое предложение вызывало у меня гомерический хохот, поэтому я не мог не поделиться этим шедевром с окружающим миром. Прикладываю оригинальный снимок, орфография и пунктуация сохранены.
sarcastic-note

Не понравилось? Перечитайте ещё раз. Перед вами блестящее подражание стилю письма выпускников вузов средней руки. Автор брошюры неизвестен, но так остроумно высмеять недовыпускников мог лишь человек недюжинного остроумия; возможно, профессиональный писатель-сатирик, приближающийся к уровню Жванецкого. Давайте разберём этот текст.

  • Орфография и пунктуация. В точности воспроизведены наиболее распространённые ошибки: пропущенные запятые, призирают (никто на них не собирается смотреть сочувственно и милосердно), НЕ обязательно (дешёвый крик заглавных букв и лишний пробел), 30-и (лень набрать полное числительное или посмотреть, как писать окончания в смешанной форме) и т. д. Самая вкусная еда — двойные пробелы, некорректные тире и кавычки, зверские абзацные отступы, оторванные предлоги и числа, пляшущий размер шрифта, преступное ручное форматирование.
  • Интеллектуальное слабоумие, интеллектуальная подлость. Да, это чувствуется. Я даже теряюсь в догадках, что такое «интеллектуальная подлость».
  • Разъяснения: грамотно (без ошибок), НЕ обязательно иметь мозги, ум. Без пояснений просто никуда. Даже и не догадались бы, что грамотно — это без ошибок, а ум связан с мозгами.
  • Чудовищное разбиение предложений, оторванные придаточные; деепричастие так и просит лица.
  • ...засоряют информационное поле человечества, гробят лес. Труды гробят лес, да. Об этом надо обязательно было сказать в конце!
  • Идеи сотовой связи. Без комментариев.
  • Ничего востребованного НЕ рожаем. Может, рождаем? Или это от слова «рожа»?
  • Слишком много чести «гуманитариям» полагать, что они создали коммунизм и фашизм.
  • Диагноз: «Открытой или скрытой формы интеллектуальной дебильности, переходящей в интеллектуальную подлость». Ещё раз интеллектуальная подлость. «Проповедник обязан иметь сердце сокрушенно...»
  • Пожизненное ля-ля-ля.
  • Отползайте от нас слабоумных гуманитариев, учите логику. Интересные призывы в одном предложении.
  • Игнорируйте публикации лиц с низким “IQ”. Ага. Как будто коэффициент IQ является хорошим индикатором отсутствия «интеллектуальной подлости».
  • Рейтинг приближается к плинтусу. Никогда ещё рейтинг не сравнивали с плинтусом. Не уровень, а именно сам рейтинг приближается конкретно к плинтусу.
  • ...поклоняющихся не законам природы. Оказывается, интеллектуалы должны поклоняться законам природы? Это как?
  • ...«картинкам» от пьяных художн. Коронное завершение номера. Надеюсь, ни один художн. не обиделся по прочтении сего фельетона.

Как сказал бы Жванецкий, при взгляде на этот текстик хочется вызывать уже не группу психологов, успокаивающих под девизом «то ли ещё будет», а настоящий мотовзвод огнестрельного сочувствия.

Как открыть WF1 в STATA без скачивания EViews

Наглядная инструкция со скриншотами.

  1. Скачать и установить gretl (а у кого-то x64).
  2. Открыть gretl. Нажать File — Open Data — User file — внизу обязательно выбрать тип файла (EViews — WF1) — на вопрос о временной или панельной интерпретации ответить отрицательно.
    wf1
  3. wf2
    wf3

  4. Нажать File — Export Data.
    wf4
  5. Нажать All, чтобы выбрать все переменные. Формат оставить CSV. Если спросит separator, выберите tab. ОК.
    wf5
  6. Запустить STATA.
  7. Нажать File — Import — Text data created by a spreadsheet. Выберите файл CSV оттуда, куда его сохранили, и радуйтесь, что всё могло быть гораздо хуже.
    wf6

Q1: Я не хочу качать gretl. Можно ли это сделать без него?
A1: Ваше время, ваши поисковые ресурсы. Это можно сделать в R или других бесплатных программах, но это немного сложнее.

Q2: Не потеряется ли что-либо при таком конвертировании?
A2: У любой программы в «родном» формате записана дополнительная информация, комментарии, описания переменных. К сожалению, если одна программа не может открыть «родной» формат другой программы, то это значит, что всю дополнительную информацию перенести не удастся.

Q3: Что такое CSV? Зачем надо было выбирать tab?
A3: CSV — это comma-separated values, «разделённые запятыми числа». tab — они будут разделены знаками табуляции (как пробел, только немного другой). На англоязычных системах по умолчанию десятичная часть отделяется точкой, а одно число от другого — запятой (отсюда и CSV). В некоторых странах Европы и РФ десятичная часть разделяется запятой, а разные числа — вообще как попало. Чтобы не возникало багов, договорились, что табулятор (tab) уж точно не спутать ни с чем так, как путают точку и запятую. Я не знаю, какие у вас настройки языка системы (точки и запятые), поэтому рекомендую самый отказоустойчивый вариант.
NB: если не оговорено иначе, вычислительные пакеты по умолчанию используют точку как разделитель дробной части вне зависимости от вашего языка. Так удобно. Все машинные вычисления идут с точкой.

Swing you sinners (Max Fleischer cartoon transcript)

This animated sequence of 1930 (!) is definitely my all-time favourite. The most disturbing, the most ingenious, the most vivid—it is a must-see.

However, due to the fact that everybody who was engaged in the production of this tiny treasure... well, their time had come before we could make out all the lyrics of the spooky version of the song. After an hour of web surfing, I came up with the complete version of the transcript. Sadly, I am by no means a native English speaker, so any feedback (in case you manage to decipher anything that was illegible or at least compose something very plausible, convincing and sound-alike) will be very welcome.

Slightly uncertain parts marked in blue. Heavily illegible parts marked in bold red. Recovered lines are marked in green (thank you active viewers!). Please find the complete “Swing you Sinners” lyrics below.

Swing you sinners title

The introduction is pretty standard:

You sinners, drop everything,
Let the harmony ring,
Up to Heaven and sing,
Swing you sinners!

Just wave your arms all about,
Let the Lord hear you shout.
Pour the music right out,
Swing you sinners!

Whenever there’s music,
The Devil kicks.
He don’t allow music
By the river Styx.

You’re wicked and you’re depraved,
And you’ve all misbehaved.
If you wanna be saved,
Swing you sinners!

Swing you Sinners tombstones
Then comes the overture to the mayhem.

Good night, this is your finish, brother.
You’re never going to get away.
“Oh no!”
“Oh yes!”
You’ll never rob another hen-house!
You’ve sinned, and now you must ordain.
“Oh no.”
“Oh yes.”

We’re going to pulverize you brother
(Ya needed it!)
And scatter all your bones away.

An intermission.
Swing you Sinners accusations

Chickens you used to steal—
I don’t steal no more!
Craps you used to shoot—
I don’t shoot no more!
Girls you used to chase—
I don’t chase no more.
Get ready, brother, your time has come!

Swing you Sinners dancing sack

Stand up you sinner,
We’ve got you at last.
You can’t get away, there’s no time to pray,
Your finish is going to be fast.

Brothers and sisters,
Come on get hot.
We’ll amputate your vo-do-de-o
And tie your bones in a knot.

sys05

— Brother, you sure are gonna get your face lifted!
— And a permanent shave!

sys06

— Where you want your body (set/sent)?
— Body? Huh! Ain’t gonna be no body!

sys07

You can’t make any excuse,
So you’ll quail in your boots
‘Till we’ve picked up the noose,
Swing you sinners!

For making chickens elope,
You’re at the end of your rope,
So just give up all hope,
Swing you sinners!

We’ll stretch you like a giraffe,
Maybe cut you in half,
Just to give us a laugh,
Swing you sinners!

I shall be grateful to anyone who will help me bring this whole beauty together.

Update 2014-04-04: Samuel St.Cyr suggested four restored lines. Merci beaucoup!

Update 2014-04-19: Simol Regan deciphered the most illegible line and fixed a whole quatrain. What a great deed!

Update 2014-05-03: Charles Anthony came up with a small refinement. Let’s thank him!

Update 2014-05-31: Jed Wentz carried out some experiments with slow playback and shed light on two lines. Today he is the one who deserves kudos.

Морозный студенческий юмор

Если вы студент и у вас спрашивают, с какого вы отделения (дневного или вечернего)...
Вы из физкультурного института? Отвечайте: «Потоотделения!» Вы из биотехнологического института? Отвечайте: «Отделения желтка от белка».
И вообще, пора бы получить ВыШэЭ образование.

Англичане отмечают день числа \(\pi\) («pi day») с размахом: едят пироги (pies), вспоминают наизусть цифры этого числа...
Почему французы не отмечают даже «вечер числа пи»? Потому что «вечер числа пи» — это «le pi soir».
— And how could they celebrate it? Eat urinal cake.

Отсталая, «лапотная» экономика Российской Федерации — лыкономика.
Грустно всё это. И почему я хочу работать эконометристом? Потому что economie triste, господа мои.
¹ Economie triste ([экономи трист]) — печальная экономика.

Объявляется конкурс на самое длинное комбо из односложных слов с одинаковыми гласными. Пока что побеждает следующее предложение:

Tu veux que je te le fais faire.
([Тю вё кё жё тё лё фэ фэр])

Историк, который всё откладывал на потом, — Plus-tardh.
([Плю тарх])

Как будет по-французски «красный нос»? Nez rouge ([нэ руж]). А почему на морозе краснеет нос? Потому что он расположен с-nez-rouge-и.
([С не руж и])

В Советском Союзе было очень много красноносых пьяниц. Поэтому гимн начинался так: «Союз nez-rouge-имый...»

Наступили холода. Что бы я сделал à ta place, если бы ты был главой коммунальной службы? Включил бы в домах отопляс.
À ta place ([а та пляс]) — на твоём месте.

Алешай Байбарысович, Ваш красный нос — Ваше о-rouge-ие: любого соплёй зашибёте.

И напоследок немного высшего экономического юмора.
Новый глагол во французском языке.
être — существовать (быть, находиться в состоянии покоя)
chumpêtre — существовать в динамике, как бы теряя части, разрушаясь, самосозидаясь и регенерируя в новых качествах, но оставаясь прежним единым целым.
(Для тех, кто в танке.)

Залог счастья

  1. Государственные чиновники до тех будут злоупотреблять властью, а население до тех пор будет это сглатывать, пока народ не начнёт с угрозами требовать от государственной статистики не только средние показатели, но и стандартные отклонения, моды, медианы, а в идеальном случае — эмпирические распределения.
  2. Власть предержащие будут купаться в золоте, а налогоплательщики будет этого в полной мере заслуживать, покуда они непросвещённы, косны и чужды пониманию математической экономики. Глупость населения всегда будет эксплуатироваться государственным аппаратом, поэтому слепое население, не видящее выгоды и не различающее добродетели и преступления, а самое главное — не стремящееся получить научные знания об окружающих процессах и разобраться в сути общественных и природных явлений, — достойно не большего внимания со стороны начальствующих господ, чем деревенская скотина.
  3. Власть является зеркалом народа, поэтому последний не вправе жаловаться на тех, кого сам избрал.
  4. Если человеку противны действия властей, то наиболее благородным и достойным подражания поступком с его стороны станет эмиграция в лучшие края; если же он жалуется на свою страну и продолжает в ней жить, не предпринимая попыток сбежать из ненавистного места, то он пустобрёх и враль, не достойный признания ни в стране проживания, ни в стране своей мечты. Человеку, являющемуся фундаментальным специалистом хотя бы в трёх непересекающихся областях знания, рады везде, поэтому не стремящиеся к саморазвитию человеческие особи не заслуживают права голоса ни в одном месте, и в своей стране в первую очередь.

Об астрологии

Можно просто сказать, что влияния знаков зодиака не существует. Однако в таком случае астрологи просто закидают высказавшегося тоннами макулатуры на свою тематику («Нет, существует, и вот какое!»). Поэтому лучше было бы объяснить то, что объясняет астрология, более понятными и точными терминами.

Единственное, от чего зависит знак зодиака, — это месяц рождения: год разбит на 12 частей с некоторым смещением. Тогда принадлежность к знаку зодиака — это всего лишь индикатор рождения в определённый момент цикла. Просто так получается, что Земля вращается периодчно, поэтому меняются средняя температура, проекция звёзд на поверхность и прочие вещи, связанные с поворотом планеты. Вместо того чтобы думать, что на нас из космического пространства смотрят какие-то несуществующие девы, раки и рыбы, созведия которых вообще не похожи на свои названия или даже на символы, гораздо удобнее присваивать наблюдаемому субъекту категориальную переменную от 1 до 12. Как разбивать год и с каким сдвигом — это вопрос вкуса.

В природе всё циклично (нормально, дискретно — продолжить ряд самостоятельно). Не нужно быть ясновидящим, чтобы догадаться, что продажи карандашей приходятся на пик тогда, когда солнце проходит над Девой, а хлопушкам и петардами (и их продавцам) покровительствует Козерог. Многие вещи можно объяснить сезонностью: летом доля населения гарантированно обгорает под солнечной радиацией (ещё за это платит огромные деньги, радуется и хвастается), а в праздники часть гарантированно перебирает сверх нормы. Рассмотрим новогодние праздники (Козерог, 22 декабря — 19 января). Беременность длится 9 месяцев. Поэтому сходство процессов, происходящих внутри тех, кто напился и перестал быть себе хозяйкой/хозяином, не может не отразиться на тех, кто родится под знаком Девы: у части из них будет прослеживаться определённая схожесть микроучастков ДНК. Оплодотворение, имеющее место летом, и вторая половина беременности, прошедшая зимой, одинаково скажутся на десятках миллионов родившихся весной, но количество исследований в этой области недостаточно, а сами закономерности очень слабо проявляются.

Получается примерно так же, как и в зарплатном уравнении: уровень образования влияет на зарплату, а образование матери влияет на образование ребёнка (и на зарплату). Значит, в уравнении зарплаты должны присутствовать образование, образование матери и их произведение (cross term). Значимы ли будут два последних коэффициента на тысяче наблюдений? Нет, так как громадный уровень шума от ошибок измерения других переменных и от неизвестности истинной функциональной формы уравнения. Однако если мы возьмём 7,1 миллиарда генеральной совокупности, то получим значимые коэффициенты. Точно так же можно медицински выяснить особенности формирования плода и изменчивости его генов, когда руки матери мёрзнут без перчаток (ранний/средний/поздний сроки), когда мать загорает на солнце и т. д. Эффект будет, но настолько слабый, что будет легко перекрываться аспектами воспитания, физической подготовки, обмена информацией и мнениями с окружающими, влиянием перенесённых болезней, пропорции белков, жиров и углеводов в рационе, детских психологических травм — всем.

Не стоит упускать из виду и то, что характер меняется на протяжении жизни, и эти изменения точно никак не могут быть связаны с датой рождения: наоборот, если бы дата рождения влияла на характер, то последний бы не менялся. Поведение человека зависит даже от ситуации, и здесь положение звёзд в момент его рождения ему не указка: в одной и той же ситуации он мог себя повести как согласно описанию, так и совершенно наоборот (это, собственно, и происходит).

Итак, то, что приписывают влиянию расположения звёзд, на самом деле зависит не от звёзд, а от положения Земли в пространстве и фазы цикла, и если в некоторых областях эффект цикличности или сезонности очень силён, то формирование характера почти не зависит от положения Земли в момент рождения и формируется под влиянием общества. Звёзды не могут влиять ни физически (сила их притяжения ничтожно мала, излучение их рассеивается), ни морально (если не читать и не воспринимать близко к сердцу, «какими должны быть Стрельцы» в соответствии с гороскопом, формирование характера будет происходить случайно). Кроме того, наблюдается ряд особенностей чтения гороскопов, искажающих восприятие. Не забывайте, что

  • Всё влияет на всё. Расширенное утверждение: всё влияет на всё по-разному (самое простое доказательство — ненулевая сила взаимодействия между любыми двумя объектами).
  • Не надо придавать внимания тому влиянию, которое может иметь разную направленность, степень которого нельзя точно установить и которое то проявляется у подходящих под описание, то не проявляется.
  • Не всё, что пишут в книгах, — правда: многие книги печатаются потому, что содержат сладкую ложь, которая приятна окружающим.
  • Не надо думать, что если несколько знакомых подходят под какой-то один расплывчатый критерий («они очень творческие» и проч.) из нескольких стоящих рядом расплывчатых критериев, то вся группа критериев верна.
  • Наблюдатели склонны переоценивать вероятность того, что они уже наблюдают, и недооценивать процент неудач, несовпадений или ошибок. Несбывшиеся предсказания и описания, как правило, забываются, а совпадения ярко запоминаются.

Верящий в гороскопы должен задать себе вопрос: «что значит „родиться под знаком Девы“?». Получив ответ «родиться в диапазоне дат», он должен задать второй вопрос: «Является ли рождение в диапазон дат определяющим фактором формирования личности и её поведения на протяжении всей жизни?» Ответ на второй вопрос и будет индикатором степени его пагубной доверчивости. На досуге он может подсчитать, сколько процентов его знакомых подходит под точное описание (согласно гороскопу, должно быть 8,33 %), сколько не подходит, какой процент ошибок и неточных соответствий, кому ещё можно приписать такой же гороскоп, и принять решение о силе корреляции характера и его зодиакального описания. (Ответ: одно и то же описание подходит равномерно одинаковой доле всего населения, равномерно представленной всеми датами рождения.) Пара совпадений по всем знакам ничего не объясняет, а утверждение «в каждом человеке есть что-то хорошее и что-то плохое» верно для 7,1 миллиардов человек, поэтому новой информации не сообщает и ценности не представляет.

Этот мир будет обречён на качественное развитие до тех пор, пока знакам зодиака будет уделяться внимания больше, чем знакам препинания, знакам при коэффициентах, денежным знакам и знакам на дорогах (а также знакам из-за соседнего столика).

P.S. А если верите в астрологию или хотите сделать верящему в астрологию подарок, то подарите ему картину из кристаллов Swarovski со знаком зодиака. Вам-то без разницы, что дарить (вы уже мысленно зарезервировали сумму, с которой готовы расстаться ради подарка), а я получу небольшой процент благодаря вашей покупке, так как создавал этот интернет-магазин. Раз уж вы верите в астрологию, то должно же мне быть как-нибудь от этого хорошо (надо чем-то положительным перекрывать полученное разочарование).

Два с половиною века камчатской мудрости

В исторических текстах присутствуют более чем забавные бытописания жителей Камчатки. Привожу два небольших отрывка (пунктуация и орфография скорректированы в пределах необходимого; авторский текст не изменён и не цензурирован). Итак, Камчатка, какой её описали 200–250 лет назад.

Kamchatka volcano

Пиры у них бывают, когда один острог соседей вздумает потчевать, особливо когда где бывает свадьба, или великой какой промысел, а препровождаются наибольше в объядении, в пляске и пении. В таких случаях хозяева гостей потчуют большими чашами опанги столь довольно, что их рвёт по нескольку раз.

Иногда употребляют для веселья и мухомор, известной оной гриб, которым у нас обыкновенно мух морят. Мочат его в кипрейном сусле, и пьют оное сусло, или и сухие грибы, свернув трубкою, целиком глотают, которой способ в большем употреблении.

Первой и обыкновенной знак, по чему усмотреть можно человека, что его мухомор разнимает, — дёргание членов, которое по прошествии часа или меньше последует, потом пьяные как в огневой бредят; и представляются им различные привидения, страшные или весёлые, по разности темпераментов: чего ради иные скачут, иные пляшут, иные плачут, и в великом ужасе находятся, иным скважины большими дверьми, и ложка воды морем кажется. Но сие о тех разуметь должно, которые чрез меру его употребляют, а которые немного, те чувствуют в себе чрезвычайную лёгкость, веселие, отвагу и бодрость, так как сказывают о турках, когда они опия наедаются.

Сие примечания достойно, что все, кои мухомор едали, единогласно утверждают, что какие они сумасбродства тогда ни делают, всё делают по приказу мухоморову, которой ими повелевает невидимо. Но все действия их столь им вредны, что если бы за ними не было присмотру, то бы редкой оставался в живых. Я о проказах камчатских, каковы они делают, не упомяну, ибо сам их не видывал, и камчадалы сказывают о том неохотно, но может быть, что у них дальних и не бывает, для того что они в него въелись, или что не употребляют чрез меру. Что ж касается до казаков, которые оной едали, то сообщу я некоторые сумасбродства, которые я отчасти сам видел, а отчасти слышал от самых тех, кои их делали, или от других людей, коим не верить нельзя.

The Kamchadals

Денщику подполковника Мерлина, которой был на Камчатке у следствия и розыску, приказал мухомор удавиться с таким представлением, что все ему дивиться будут. И сие действительно бы учинилось, если бы не сберегли его товарищи.

Другому из тамошних жителей показался ад и ужасная огненная пропасть, в которую надлежало быть низвержену: чего ради по приказу мухомора принуждён он был пасть на колени и исповедовать грехи свои, сколько мог вспомнить. Товарищи его, которых в ясачной избе, где пьяной приносил покаяние, было весьма много, слушали того с великим удовольствием, а ему казалось, что он втайне пред богом кается о грехах своих. По сей причине подвержен он был нарочитому посмеянию, ибо между тем сказывал то, о чём не всякому знать надлежало.

Некоторой служивой едал, сказывают, мухомор умеренно, когда ему в дальней путь идти надлежало, и таким образом переходил он знатное расстояние без всякого устатку; наконец, наевшись его допьяна, раздавил себе яйца и умер.

Бывшей у меня в толмачах большерецкой казачий сын, опоённый мухомором в незнании, разрезал было себе брюхо по приказу мухоморову, отчего насилу его избавить успели, ибо уже в самом замахе руку ему сдержали.

Камчадалы и сидячие коряки едят мухомор и тогда, когда убить кого намеряются. Впрочем, у сидячих коряк мухомор в такой чести, что пьяному не дают мочиться на пол, но подставляют посуду, и мочу его выпивают, отчего так же бесятся, как и те, кои гриб ели: ибо они мухомор получают у камчадалов, а в их сторонах не родится. Умеренное употребление — четыре гриба или меньше, а для пьянства едят до десяти грибов.

С. П. Крашенинников, «Описание земли Камчатки», гл. «О пирах и забавах камчатских» (1755).

Кому известен секретный рецепт приготовления напитка на кипрейном сусле?

Kamchatka

Камчадалы страстны столько к крепким напиткам, что не могут никак противостоять соблазну. Приехавший в острог купец подносит тотчас чарку вина своему хозяину безденежно; камчадал выпивает и просит другую, за которую уже платить должен; скоро покупает он третью, четвёртую и так далее. Когда находится ещё в чувствах, тогда пьёт вино без примеси; когда же опьянеет, то дают ему пополам с водою. Купцы, чтобы камчадалы не приметили такого обмана, возят вино в сосуде, называемом флягою, которая разделена внутри на две неравные части; меньшая наливается вином несмешанным, а большая весьма слабым. Сего последнего даёт купец камчадалу до тех пор, пока он не упадёт бесчувствен...

И. Ф. Крузенштерн, «Путешествие вокруг света», гл. «О нынешнем состоянии Камчатки» (1805).