?

Log in

No account? Create an account
Выборы в России: моделирование, применимость нормального распределения - nonenoun — LiveJournal
February 26th, 2013
07:35 am

[Link]

Previous Entry Share Next Entry
Выборы в России: моделирование, применимость нормального распределения
Рассмотрим, насколько применимо нормальное распределение к явке, в чём особенность различных видов гистограммы (по числу УИК, по числу избирателей и по числу голосов), и ещё раз вернёмся к вопросу пиков на круглых процентах.

Размеры участков в России сильно отличаются, хотя от выборов к выборам структура сохраняется:

Данная неравномерность заставляет более тщательно исследовать распределение явки. Возьмём идеальный случай - случай однородного электората. Под однородностью подразумевается одинаковая для всех избирателей вероятность участия в выборах (обозначим её как P и для удобства будем считать равной 0.5). Размеры участков возьмём те же, что в 2011 году, а явку искусственно создадим с помощью равномерного ГСЧ X = [0..1]. Если размер участка равен N, сгенерируем выборку размером N и посчитаем число элементов, где Xj < P, j=1..N. Так мы получим явку для данного участка. Применим процедуру ко всем участкам, после чего построим гистограмму:

Видно, что гистограммы явки в избирателях и голосах хорошо аппроксимируются нормальным распределением. Гораздо хуже обстоит ситуация с гистограммой явки в участках - у распределения тяжёлые хвосты из-за малых участков. Если отсечь участки размером меньше 500, то гистограмма становится похожей на остальные (на графике это не показано).

Теперь проведём более сложный эксперимент - для каждого участка установим своё P, которое будет равно явке на данном участке. Помимо явки промоделируем и голосование за ЕР - вероятность того, что виртуальный избиратель проголосует за данную партию, будет определяться результатом партии на данном участке.

Получились распределения, очень похожие на распределения для официальных данных. Главное отличие - отсутствие пиков на круглых процентах, несмотря на очень маленький бин (всего 0.2%). Это лишнее подтверждение тому, что пики вызваны вмешательством человека в процесс подсчёта голосов. Впрочем, если выбрать неудачный тип гистограммы, то пики на дробях с малым знаменателем проявятся и для смоделированных данных - они хорошо видны на гистограмме по участкам. Частично нивелировать этот эффект позволяет центрирование бина (оно применялось на предыдущих гистограммах):

На левом графике видны пики на 50%, 60% и 66.6% (1/2, 3/5 и 2/3). Если отсечь малые участки (меньше 500 избирателей), то пики исчезают (график справа). Так и должно быть - ведь речь идёт о смоделированных данных.

Теперь сравним четыре разных вида гистограммы результата на примере выборов в Москве-2011. На этих выборах активно применялся отъём голосов при переписывании протоколов (особенно сильно пострадало Яблоко), поэтому на гистограммах должен проявляться второй горб (левый хвост):

Гистограммы в участках, избирателях и голосах - все дают почти одинаковый результат - двугорбое распределение. А вот гистограмма, где по вертикали отложено число голосов за Яблоко, скрывает от исследователя важную аномалию.

Итого:
1) Нормальное распределение хорошо описывает явку при полностью однородном электорате, даже если размеры участков сильно отличаются.
2) Следует осторожно работать с гистограммой по участкам и учитывать влияние малых участков на хвосты и пики.
3) Стоит центрировать бин.
4) Надо помнить, что гистограмма в голосах за партию может скрывать некоторые аномалии.

(Leave a comment)

free counters Powered by LiveJournal.com