?

Log in

No account? Create an account
Выборы в Великобритании: причина корреляции результата и явки - nonenoun — LiveJournal
July 17th, 2013
01:10 am

[Link]

Previous Entry Share Next Entry
Выборы в Великобритании: причина корреляции результата и явки
(Это продолжение первой части, однако написанное как самостоятельное исследование) В статье анализируются результаты выборов 1997-2010 гг. и перепись 2001 и 2011 гг. Показано, что высокая неоднородность британского общества приводит к такой статистической аномалии, как корреляция результата и явки. Хотя данная аномалия не имеет ничего общего с аномалиями на российских выборах, исследователям стоит уделять больше внимания изучению неоднородности электората.

1. Введение
2. Электоральная система Великобритании
3. Устойчивость показателей на выборах в Англии
4. Перепись населения Великобритании, её связь с выборами
5. Карты Англии с результатами переписи и выборов
6. Что влияет на явку?
7. Методология
8. Выводы

1. Введение

Для тех, кто не слишком внимательно следит за российскими электоральными исследованиями, поясню, почему анализ британских выборов представляет особую научную и общественную ценность. После того, как ЦИК России стал выкладывать статистику выборов в публичный доступ, исследователи российских выборов заинтересовались возможностью поиска и оценки фальсификаций. Из сообщений в СМИ было ясно, что наиболее частым средством накрутки результата были вбросы и карусели (круизное голосование), поэтому необходимо было найти такие статистические признаки, которые появлялись бы при массовых вбросах и каруселях. И такие признаки были найдены, это: 1) высокая корреляция результата и явки; 2) тяжёлый правый хвост гистограммы явки; 3) тяжёлый правый хвост гистограммы результата и т.д. Однако статьи с анализом выборов были слабо распространены за пределами узкой прослойки граждан, внимательно следящих за политикой в России. Массовые протесты, вызванные фальсификацией выборов в Госдуму 4 декабря 2011 года, привели к популяризации таких исследований. Причём распространялись и сильно искажённые тезисы - например, что гистограмма результата должна иметь нормальное распределение (хотя исследователи, насколько мне известно, никогда подобного не утверждали). Но тезис, что явка не должна зависеть от результата, исследователи точно выдвигали. Хотя в большинстве случаев это действительно так (зависимость если и есть, то слабая), но есть и явные исключения, в число которых входят выборы в Великобритании. Именно эти выборы активно использовались кремлёвскими пропагандистами в Интернете, чтобы опровергнуть утверждения о массовых фальсификациях в России. Говорилось, что если на выборах в Великобритании корреляция высокая и при этом нет никаких сомнений в их честности, то и выборы в России - тоже честные. При этом игнорировался тот факт, что все признаки фальсификаций надо рассматривать в совокупности. Ведь массовые накрутки результата обязательно должны приводить к появлению целого ряда статистических аномалий (в предыдущей части я отмечал, что в России их существует не меньше 10), а в Великобритании наблюдается лишь одна значимая аномалия и вызвана она разделением на город и село. Если говорить более общим языком, то вызвана она высокой неоднородностью электората. О том, насколько неоднородно британское общество, можно прочитать в недавнем исследовании классовой структуры Великобритании (опубликовано в апреле 2013): A New Model of Social Class? Findings from the BBC’s Great British Class Survey Experiment (перевод).

Анализ неоднородности электората крайне важен при анализе выборов, ведь по сути все естественные аномалии так или иначе связаны с неоднородностью. Под неоднородностью здесь понимается сильно отличающийся социальный срез населения в различных частях страны или города. Предельным случаем неоднородности является гетто - обособленное место проживания меньшинства (этнического, расового и т.д.). Разумеется, такие районы голосуют обычно иначе, чем остальное население. Но и в тех странах, где нет расовой или этнической сегрегации, всё равно есть существенные неоднородности. Чаще всего деление идёт по следующим признакам: город/село, доход, образование. На голосование также влияют возраст, пол, религия и т.д. Для выявления неоднородностей можно использовать результаты переписи населения или другую информацию от служб, занимающихся государственной статистикой. Помогает и анализ результатов выборов различных уровней (муниципальных, региональных, федеральных). Хотя в тех странах, где практикуются массовые фальсификации, результаты выборов не всегда отражают реальную неоднородность - тут нужно анализировать архивные результаты и использовать методы восстановления результата. Важная особенность неоднородностей заключается в их устойчивости. Распределение доходов, уровень образования, возрастно-половая структура населения - всё это меняется крайне медленно. Данное обстоятельство не только помогает объяснить текущие результаты выборов и спрогнозировать будущие, но и выявить электоральные фальсификации, если таковые присутствуют. Но для этого надо уметь отделять естественные статаномалии (вызванные неоднородностью) от искусственных (вызванных фальсификациями). Отмечу, что неоднородности не останавливают соцслужбы от регулярного проведения соцопросов. Именно мировой опыт социологических исследований помогает научно обосновать некоторые методы поиска и оценки фальсификаций.

Одно из базовых понятий в статистике и социологии - репрезентативность выборки. Крайне затратно опрашивать всё население, чтобы выяснить общественное мнение. Поэтому опрашивается лишь очень малая часть (доли процента). Опросив всего несколько тысяч, социологи обобщают результаты на десятки миллионов человек. Когда журналисты пишут о результатах опроса, они часто используют такие фразы, как "30% населения поддерживает", "30% россиян согласны" и т.п. Это возможно благодаря свойству репрезентативности - если известен состав населения, то можно смоделировать выборку небольшого размера, которая будет с достаточной точностью отражать свойства всего населения. А состав населения можно узнать с помощью служб федеральной статистики (в России это, главным образом, Росстат). Задача социолога - опросить одну-две тысячи человек, чтобы в выборке было 54% женщин, 40% людей с высшим образованием и т.д. (приведённые числа - это результаты переписи 2010 года по Москве, при московских опросах социологи вполне могут опираться именно на эти данные). Из свойства репрезентативности вытекает ещё одно важное свойство - идентичности результатов для одинаковых выборок. Сделав две одинаковые по составу выборки (но опросив разных людей), мы должны получить очень близкие результаты. В неявном виде это свойство часто используется для поиска фальсификаций. Например, при анализе результатов на соседних участках, считается, что результаты не могут отличаться слишком сильно (на десятки процентов). Действительно, количество голосов на типичном городском участке почти равно размеру типичной выборки у социологов - около 1500 человек. И точность соцопросов существенно выше, чем десятки процентов. Разумеется, при поиске фальсификаций надо отсекать альтернативные версии - например, если к одному участку приписаны муниципальные дома, а к другому - элитный жилой комплекс, то результаты могут сильно отличаться (хотя в таких случаях речь идёт об отличии на 10-15%, а не на 30-60%, как было в Москве в декабре 2011). Если дома для обоих участков типовые (как чаще всего и бывает), то остаётся единственное объяснение для существенного отличия - фальсификация (либо придётся признать, что партия "Единая Россия" столь влиятельна, что отменила законы социологии и статистики в России). Дополнительно закрепить полученные выводы можно, если проанализировать предыдущие выборы (или дождаться следующих) - например, феноменальные различия результатов на соседних участках в Москве исчезли на президентских выборах в марте 2012 года (что стало следствием массовых митингов, установки веб-камер и усиления контроля на участках). Дело не должно ограничиваться соседними участками - можно анализировать соседние районы, города, субъекты федерации. И не только соседние - ведь найдя с помощью переписи районы или города с похожим социальным срезом, можно использовать их для проверки результатов выборов. Если в одном из районов/городов вдруг проявились существенные отличия - значит выборы там были сфальсифицированы. Причём, если для отдельных домов/участков найти социальный срез практически невозможно, то для районов/городов такую информацию найти гораздо проще.

2. Электоральная система Великобритании

В состав Великобритании входят 4 страны: Англия, Шотландия, Уэльс и Северная Ирландия. Законодательный орган Великобритании - Вестминстерский Парламент, нижняя палата которого (Палата общин) избирается на всеобщих выборах по мажоритарной системе. Национальная ассамблея Уэльса, Ассамблея Северной Ирландии, Парламент Шотландии - это местные законодательные органы, избираемые отдельно. В Великобритании существует три основных партии - Консервативная, Лейбористская и Либеральные демократы. Однако в Северной Ирландии эти партии почти не представлены, а в Уэльсе и Шотландии есть сильные конкуренты - Партия Уэльса (Plaid Cymru) и Шотландская национальная партия (Scottish National Party). В данном исследовании (как и в первой части) будет рассматриваться лишь Англия - во многом из-за наличия альтернативных политических сил. Включение Шотландии, Уэльса и Северной Ирландии усложнило бы анализ, но ничего не дало бы для понимания феномена электоральных неоднородностей. Следует отметить, что на Англию приходится примерно 530 избирательных округов (около 80% всех округов Великобритании), так что статистической информации для анализа вполне достаточно.

Такими были результаты выборов в Парламент Великобритании за последние 100 лет:


* По вертикали - число мандатов, синим цветом - консерваторы, красным - лейбористы, жёлтым - либерал-демократы.

Детализация по Англии:

Стоит обратить внимание на то, что либерал-демократы в 2010 году получили почти столько же голосов, сколько и лейбористы (24.2 и 28.1%), но мандатов получили в 4.5 раза меньше (43 и 191). Это следствие мажоритарной системы - где надо не только собрать голоса избирателей, но ещё и обеспечить превосходство над ближайшим конкурентом. При такой системе партия может получить 49% голосов по стране, но не иметь ни одного места в Парламенте (хотя такая ситуация возможна лишь в теории, но она хорошо демонстрирует главную особенность данной избирательной системы).

Также видно, что в 2010 году выросло число избирательных округов (с 529 до 533). Это произошло из-за того, что между выборами 2005 и 2010 гг. границы большинства английских округов были пересмотрены - при этом у 78 округов изменилось название, а 451 округ сохранил прежнее имя. В некоторых случаях за изменением названия стоит незначительное изменение границ, но бывает, что округа меняются до неузнаваемости. Пересмотром границ округов занимается Boundary Commission. Происходит это раз в 8-12 лет, причём в разных странах это происходит в разное время. Например, в Шотландии границы в последний раз менялись в 2005 году, а в Англии - в 2010 (точнее, в 2007 году, но были применены на выборах 2010 года). Основная задача при изменении границ - чтобы в каждом округе было примерно равное число избирателей.

Так выглядит гистограмма числа избирателей в каждом округе:

Результаты пересмотра границ налицо - гистограмма для 2010 года достаточно сильно отличается от остальных. В среднем на каждый округ приходится около 70 тысяч избирателей (в Москве на один район приходится около 60 тысяч).

Для анализа неоднородностей учёт границ округов крайне важен - мы должны знать, что в этом округе проживает то же население, что и 5 лет назад (миграция хоть и влияет на электоральную картину, но её эффектом можно пренебречь - она сказывается на существенно больших временных промежутках). Для английских выборов 1997, 2001 и 2005 гг. границы одни и те же - то есть эти выборы можно свободно сравнивать друг с другом. Но сравнение их с 2010 годом требует некоторой осторожности - проще всего сравнивать те округа, которые не поменяли название (у таких округов почти не изменились границы), но можно также найти соответствие между старым и новым названием. Для 59 округов из 78 мне удалось найти такое соответствие (которое определялось на глаз по площади пересечения). Если не обговорено иное, в статье используется простейший метод сравнения - по совпадению названия.

3. Устойчивость показателей на выборах в Англии

Корреляция явки и результата в Англии выглядит следующим образом:

После вычитания средних показателей нам открывается удивительная картина - зависимости почти не изменились за 13 лет. То есть данная корреляция является крайне устойчивой.

Построим гистограммы явки и результата за вычетом среднего:

Гистограммы также устойчивы. Можно отметить левый хвост гистограммы явки (напомню, что на фальсификации указывает правый хвост, а здесь хвост слева). По сравнению с 1997 годом явка стала более нормальной - в 2010 году мода даже совпала со средним значением. Бросается в глаза бимодальность лейбористов в 2010 году - при этом видно, что она не возникла внезапно, а стала следствием тенденций, проявившихся в 2005 году.

Теперь выясним, как зависят явка и результат от показателей на предыдущих выборах:

* Здесь и далее для построения регрессионной кривой используется алгоритм LOESS.

И опять мы видим устойчивость всех кривых - причём в большинстве случаев тренд параллелен диагональной линии. То есть результат или явка равномерно падают/вырастают. Так что, несмотря на высокую неоднородность Англии, отдельные избирательные округа ведут себя предсказуемо. А статистические аномалии если и происходят, то имеют объяснимую природу и связаны во многом с мажоритарной системой. Явным образом выделяются две аномалии (два округа): на графике для лейбористов 1997-2001 и на графике для явки 2001-2005 (2005-2010).

Аномалия №1. В 1997 году в избирательном округе Wyre Forest уверенную победу одержал кандидат лейбористов (David Lock), набрав 48.8%. К своей неосторожности, он поддержал реорганизацию местного госпиталя (Kidderminster Hospital), предусматривающую понижение статуса медучреждения (закрытие отделения амбулаторной помощи - Accident & Emergency department). Реорганизация была связана с сокращением финансирования со стороны NHS (английской системы здравоохранения). Жители округа были крайне возмущены и на этой волне возникло общественное движение за восстановление прежних функций госпиталя. На выборах 2001 года победил лидер этого движения - Dr Richard Taylor. Причём прежний обладатель мандата (David Lock) проиграл с разгромным счётом (58% и 22% соответственно), т.к. либерал-демократы не стали выставлять своего кандидата. Обычно в данном округе явка лишь чуть выше средней по стране (на 2-3%), но на этих выборах явка была выше аж на 8.6%. На следующих выборах Richard Taylor тоже победил, хоть и с меньшим перевесом (11%) - и опять либерал-демократы не стали оппонировать независимому кандидату. В последний раз независимому кандидату удавалось выигрывать два раза подряд лишь в 1979 году (Frank Maguire). На выборах 2010 года Richard Taylor проиграл кандидату от консерваторов (причём всего 5%) и на сей раз либерал-демократы выставили кандидата, который набрал 12%.

Аномалия №2. 2005 год, округ South Staffordshire. За неделю до выборов скончался кандидат от либерал-демократов. Поскольку регистрация участников к тому моменту была завершена, были назначены новые выборы, которые прошли спустя 1.5 месяца (либерал-демократы получили возможность заявить другого кандидата). К этому моменту уже были известны результаты по другим округам. Стало понятно, что выборы 2005 года ознаменовали серьёзное ослабление позиций лейбористов. Более того, в данном округе на предыдущих выборах уверенно выиграл кандидат от консерваторов. Исход выборов был предрешён и на них была зафиксирована крайне низкая явка.

Эти два примера иллюстрируют особенность всех естественных аномалий - всегда можно проследить их глубинную причину (и чем очевиднее аномалия, тем проще объяснение). А случай с госпиталем в Wyre Forest показывает, насколько чувствительна мажоритарная система к локальным политическим неудачам. Жители округа, встретившись с неприемлемой политикой властей, сразу же создали общественное движение, которое отодвинуло представителя лейбористов от власти (стоит отметить, что на тот момент большинство в Парламенте принадлежало именно лейбористам).

Заключительный график в данной главе - корреляция результатов и явки между различными выборами:

Всё ожидаемо - чем более удалены выборы друг от друга, тем меньше корреляция. В целом, значения корреляции высокие, но это хорошо видно и на предыдущих графиках.

4. Перепись населения Великобритании, её связь с выборами

Повторю цитату из Telegraph, которую я приводил в предыдущей части статьи: "Under the current electoral system, Labour benefits because it needs fewer votes on average than the Tories to win each of its seats, and its votes are more efficiently distributed. In England at the 2005 general election, the Conservatives won one seat for every 41,983 Conservative votes cast. Labour was able to win one seat for only 28,111 votes it secured. Academics have pointed out that the reason Labour does well is that its votes are just better distributed. While the Tories "pile up" votes in the south of England and rural areas, Labour does just enough to win seats in towns and cities, often on low turnouts, whereas Tory wins are often in seats with high turnout."

Итак, консерваторы собирают свои голоса преимущественно в сельской местности, причём там фиксируется более высокая явка. Именно это обстоятельство и приводит к появлению корреляции результата и явки. О том, что консерваторов активно поддерживают на селе, в Англии известно давно (достаточно поискать по словам Tories, countryside, rural). Однако мне захотелось проверить это численно, основываясь на данных из открытых источников. Я нашёл результаты переписи за 2001 и 2011 год в разрезе избирательных округов и стал изучать, какие показатели могут явным образом указывать на сельский характер местности. Всего я обнаружил три таких показателя: плотность населения, процент занятых в сельском хозяйстве и процент владельцев недвижимости (в городах недвижимость часто не покупают, а арендуют). Построив графики для различных сочетаний этих показателей, а также для явки и результата консерваторов, я планировал увидеть, что чем выше плотность, тем меньше явка; чем больше процент владельцев недвижимости, тем выше результат консерваторов и т.д.

Именно так и оказалось. То есть тезис о том, что за консерваторов голосуют на селе и там фиксируется более высокая явка, получил численное подтверждение.

Однако у переписи, помимо подтверждения известных фактов, есть другое важное применение, касающееся выборов. Перепись позволяет анализировать неоднородности и их динамику, а также помогает сопоставлять избирательные округа после изменения границ. И здесь серьёзным подспорьем могут стать результаты переписи в новых границах. Так, после пересмотра границ в 2007 году, результаты переписи 2001 года были пересчитаны и опубликованы. Проверим, насколько корректно использовать сравнение округов по совпадению названия, а также выясним, насколько адекватен поиск соответствия округов "на глаз" (по площади пересечения). В пересчитанной переписи отсутствовал показатель плотности населения, поэтому я сравнил два других показателя: процент занятых в сельском хозяйстве и процент владельцев недвижимости. В принципе, алгоритм сравнения следует выстраивать следующим образом - надо найти те показатели, которые наибольшим образом влияют на электоральный выбор и сравнивать именно их - если отличия минимальны, значит избирательные округа являются по сути идентичными. Здесь я не стал этого делать, так как это выходит за рамки данного исследования.

Видно, что большинство синих точек находится рядом с диагональной линией. То есть там, где имя округа не изменилось, там и показатели остались почти теми же (я уже отмечал, что сохранение названия указывает на почти полное сохранение границ). Лишь в нескольких округах произошли значимые изменения несмотря на сохранение названия. С оранжевыми точками ситуация намного хуже. Их всего 59, но значительная часть (5-10 штук) удалена от диагонали. Таким образом, поиск соответствия "на глаз" следует дополнять контролем по переписи, иначе мы будем сравнивать округа с сильно отличающимся социальным срезом.

Теперь сравним результаты переписи 2001 и 2011 годов. Поскольку у нас есть перепись 2001 года в границах 2007 года (эти границы использовались в 2011 году), мы можем сравнить весь массив данных (533 округа), не опасаясь, что изменение границ внесло искажения.

За 10 лет существенно просел процент занятых в сельском хозяйстве, а также уменьшился процент владельцев недвижимости.

Сравним перепись 2001 и 2011, но без учёта изменения границ (здесь появляется возможность сравнить плотность населения):

Плотность выросла почти во всех округах, причём особенно сильно там, где уже была высокой (т.е. в городах).

5. Карты Англии с результатами переписи и выборов

Полные результаты переписи населения 2011 года содержат больше 150 показателей. Отображение и анализ такого объёма данных потребует существенно больше места и времени. Поэтому здесь будут приведены лишь три показателя, используемые ранее:


Теперь отобразим результаты выборов 1997-2010 гг. Предварительно вычтем средние показатели - это поможет выявить структуру:

Несмотря на высокую неоднородность, видно, что сама структура сохраняется. То есть консервативные округа продолжают голосовать за консерваторов, а лейбористские - за лейбористов. То же относится и к явке - там, где явка была высокой, она остаётся высокой (и наоборот). И хотя средние показатели партий могут меняться (и значительно) - соотношения между округами сохраняются, несмотря на солидный временной интервал в 13 лет.

6. Что влияет на явку?

Логично, что партия, поддерживающая село, пользуется поддержкой села. Но почему на селе явка выше, чем в городе? И что вообще влияет на явку? Пожалуй, лучшее исследование по данной теме было написано в середине 2012 года - The embarrassment of riches? A meta-analysis of individual-level research on voter turnout. Это обзор 90 работ других исследователей. Среди учёных пока нет единого взгляда на то, как влияют различные факторы на явку - и данная статья является важным шагом для выработки подобной теории. Достаточно неожиданно выглядит вывод, что статистически значимая связь между явкой и урбанизацией не прослеживается. Однако есть сильная связь между явкой и владением недвижимостью, при этом чем больше срок владения, тем выше явка. Вот как объясняется данный эффект: "Citizens that own a property are usually more grounded in a community than those that rent, thus strengthening community ties. People that have been living in their community for a longer time are moreover better informed about (local) political affairs." То есть люди, владеющие недвижимостью, больше социализированы (обладают более тесными связями в местном сообществе), а высокая социализация ведёт к большей осведомлённости в политике (местной и не только). Именно высокий процент владельцев недвижимости может объяснять высокую явку на селе в Англии.

Применительно к России, следует обратить внимание на образование (согласно большинству исследований, это один из главных факторов, влияющих на явку). Более образованные чаще ходят на выборы и голосуют против власти (в России обнаруживается устойчивая отрицательная корреляция между голосованием за власть и уровнем образования). Поэтому в российских городах должна наблюдаться не положительная, а отрицательная корреляция между явкой и результатом (и на выборах в 2012 году в Москве она наблюдалась). Этот вопрос будет освещён отдельно в статье о московских выборах.

Отмечу и другие работы, где изучается явка на выборах. Исследование, проведённое IDEA (Institute for Democracy and Electoral Assistance), показало влияние выборной системы (в мажоритарных системах явка меньше, чем в пропорциональных), индекса HDI (чем выше Индекс развития человеческого потенциала, тем выше явка) и конкурентности (в тех странах, где партия побеждает с солидным перевесом, явка в среднем меньше).

Интересное исследование провели голландские учёные - они изучили влияние погоды на явку (есть расхожее мнение, что погода существенно влияет на явку) и выяснили, что влияние хоть и есть, но чрезвычайно слабое. Так, 25 мм осадков понижают явку всего на 1%. К похожим выводам пришли и американские исследователи: "For every inch of rain that a county receives above its average rainfall, turnout decreases roughly about 1%".

Другой американский учёный обнаружил связь между явкой и неоднородностью - Economic Inequality and political participation: scale matters. Выявилось, что неравенство доходов по сравнению с соседними районами явку понижает, а неравенство внутри района явку, наоборот, повышает: "Thus it is not simply the fact of "economic inequality" that influences participation; rather, it is the spatial patterning of that inequality that matters. Inequality across neighborhoods lowers rates of participation; inequality (i.e., low income homogeneity) within neighborhoods raises them."

7. Методология

Поиск исходной информации и её первичная обработка заняли не меньше времени, чем сам анализ. Поэтому хотелось бы осветить этот вопрос подробнее, чтобы другим исследователям было проще проверить и расширить полученные результаты.

В данной работе использованы данные выборов в Парламент Великобритании за 1997, 2001, 2005, 2010 гг., данные переписи за 2001 и 2011 гг., а также карты Англии для отображения этих данных.

Мне не удалось найти единый сайт, где были бы подробные результаты выборов за 1997-2010 гг. Так, на сайте electoralcommission.org.uk есть результаты лишь за 2005 и 2010 гг., а на сайте parliament.uk (1997, 2001) не указано число избирателей в округе (electorate). Данные за 1997 и 2001 год я взял из файла, опубликованного на hks.harvard.edu. Там же опубликовано и много другой полезной информации по британским выборам. Некоторые уточнения по числу избирателей в 2001 году были взяты с electoralcommission.org.uk.

Однако недостаточно скачать данные выборов за разные годы, надо ещё сделать так, чтобы их можно было сравнивать друг с другом. Для этого нужна процедура унификации названий (данная процедура применялась также к переписи и картам). На разных сайтах можно встретить разные имена таких округов как Mid Norfolk, South Dorset. На parliament.uk округ назывался South Dorset, а на сайте electoralcommission.org.uk - Dorset South. При автоматической обработке данных подобные различия являются критическими и должны быть устранены. Я использовал следующий принцип - если часть света (North, South, East, West, а также Mid и Central) в названии округа не образует исторически устоявшееся название (как в случае West Ham или South Shields), то она записывается в конце (т.е. в моих таблицах округ называется Dorset South). Также были проблемы с запятыми. Как правильно - "Manchester, Gorton" или "Manchester Gorton" (район Gorton входит в состав Манчестера)? Здесь принцип тоже прост - если слово не входит в перечень NSEW+MC, оно записывается через запятую. При этом в названии округа Manchester Central запятая не нужна. Существуют также разные написания округа Kingston upon Hull (East, West, North и т.д.) - часто его называют Hull (East, West, North). Я использовал сокращённое название. Другая тонкость - артикль "the" в названии округа - "The Wrekin" или "Wrekin, The"? У меня "the" записано в конце. Ну и последний момент - слово "and", которое везде было заменено на "&" (на сайтах можно встретить оба варианта).

С не меньшими трудностями я столкнулся при поиске результатов переписи. Необходимо было найти результаты в разрезе избирательных округов в табличном виде. Для 2001 года я нашёл лишь pdf-файлы, где результаты были опубликованы в текстовом виде на 30 страницах. Это потребовало написания программы для перевода данных в табличную форму. Для 2011 года перепись была записана в Excel-формате (что, конечно, намного удобнее), но при открытии файла доступна информация лишь по отдельным избирательным округам (нельзя отобразить информацию для всех округов сразу). Посмотрев на формулы, используемые в файле, я заметил, что вся информация хранится на скрытых листах. В русскоязычном Excel-2003 их можно отобразить с помощью "Формат-Лист-Отобразить". Всего таких листов 17. Листы с исходными данными оканчиваются на D, имена колонок имеют чёткую структуру: (CON/REG/CTRY)(Level/%)(Название поля). Для примера, CONLevelM на листе KS101D обозначает число (Level) мужчин (Male) в избирательном округе (Constituency), а CON%M - процент мужчин в округе. Сохранив отдельные листы и написав программу для сведения их в один файл, я получил нужные данные. Почему возникли такие сложности при поиске переписи? Дело в том, что британским исследователям доступны удобные интерфейсы, через которые они работают с переписью. То есть те данные, что использовал я, публикуются только в справочных целях и содержат лишь основные результаты переписи. Более того, британским исследователям доступны микроданные (результаты каждой анкеты), что резко увеличивает возможности поиска внутренних зависимостей и позволяет строить более точные аналитические модели.

Ссылки на перепись:
2001
2001 для границ 2011 года
2001 (немного другой список показателей)
2001 (подробная статистика для каждого изб. округа)
2011
О микроданных переписи
О переписи для учёта миграции ("flow data")
О границах территориальных единиц, используемых в переписи ("Boundary data") - для ГИС

Карты Англии я взял с Википедии - они были опубликованы в статьях о британских выборах 2005 и 2010 гг.

Отсюда можно скачать файлы, которые я непосредственно использовал в работе:
England_1997, England_2001, England_2005, England_2010 - результаты выборов для трёх основных партий (только Англия)
England_2001_Census - основные результаты переписи (вся Великобритания)
England_2001_Census_New_Bounds - основные результаты переписи в границах 2011 года (нет Северной Ирландии)
England_2011_Census - перепись (Англия и Уэльс)
England_2011_Census_Description - расшифровка названий колонок для переписи 2011 года
England_2005_2010_Mapping - попытка сопоставить границы 2005 и 2010 гг.
England_Map_2005, England_Map_2010 - карты


Напоследок, несколько полезных ссылок:
Office for National Statistics - главное статведомство Великобритании (много разной статистической информации)
Модель для прогнозирования результатов британских выборов
Результаты старых выборов (1987, 1992 и т.д.) - есть информация по отдельным округам
Результаты выборов 1918-2012 и много другой интересной информации - например, о том, как менялся состав британского парламента (возраст, пол, раса, образование, профессия и т.д.)
О географических паттернах на британских выборах

8. Выводы

Одним из признаков, указывающих на массовые фальсификации, является существенная корреляция явки и результата. Однако в некоторых случаях подобная корреляция может возникать в естественных условиях. Важно помнить, что при массовых фальсификациях должны проявляться многие другие аномалии - правый хвост гистограммы результата и явки, высокий разброс результатов и т.д. Анализ британских выборов показывает, что корреляция вызвана высокой неоднородностью британского общества. Есть два подхода, которые позволяют отделить естественные неоднородности от фальсификаций: 1) анализ выборов в динамике (следует рассматривать не только текущие, но и предыдущие выборы), 2) анализ факторов, влияющих на электоральный выбор (для этого можно использовать данные переписи и другую открытую информацию). Эти два подхода взаимно дополняют друг друга.

В статье приведены графики и тематические карты, показывающие, что несмотря на высокую неоднородность, на английских выборах сохраняется устойчивость всех основных статистических показателей (был исследован временной интервал в 13 лет - с 1997 по 2010 гг.). Устойчивыми являются: 1) гистограммы явки и результата, 2) корреляция явки и результата, 3) корреляция между различными выборами. Если нанести результаты и явку на карту Англии, то можно также убедиться в устойчивой структуре голосования - карты для 1997 и 2010 гг. очень похожи.

(13 comments | Leave a comment)

Comments
 
[User Picture]
From:barouh
Date:July 17th, 2013 06:42 am (UTC)
(Link)
Спасибо за титаническое исследование !

Правильно ли я понимаю, что зависимость явки от уровня урбанизированности округа заметно больше, чем зависимость результата консерваторов?
[User Picture]
From:nonenoun
Date:July 17th, 2013 07:03 am (UTC)
(Link)
Да, явка вроде обладает меньшим разбросом, если посмотреть на зависимости от трёх контрольных параметров. Но вряд ли здесь применимо слово "заметно".
[User Picture]
From:corbulon
Date:July 17th, 2013 01:23 pm (UTC)
(Link)
Спасибо за работу (работищу!)
Записал к себе в избранное.
[User Picture]
From:memoryfull
Date:July 17th, 2013 02:17 pm (UTC)
(Link)
Большое спасибо за исследование! Интересно было бы посмотреть и на пространственные корреляции результатов, а не только временные (1997, 2001, 2005, 2010).
[User Picture]
From:nonenoun
Date:July 17th, 2013 04:52 pm (UTC)
(Link)
А можно подробнее, какие зависимости интересуют? Ну или ссылку на статью, где вычисляют подобную корреляцию.
[User Picture]
From:memoryfull
Date:July 17th, 2013 08:09 pm (UTC)
(Link)
Прикладной пример — Darmofal (2006). Там даже не регрессии (что не делает работу менее интересной).
Теория — здесь (тот же автор). Надо понимать, что поле пространственной эконометрики широкое, и это лишь одно из возможных приложений.
[User Picture]
From:nonenoun
Date:July 18th, 2013 04:05 am (UTC)
(Link)
Понятно, эта штука нужна для кластеризации (и категоризации) пространственных данных. То есть для выделения групп граничащих районов с похожими свойствами.
[User Picture]
From:andirect
Date:July 29th, 2013 07:24 pm (UTC)
(Link)
Работа впечатляет. Единственно, хотелось бы уточнить по поводу отрицательной корреляции (результата выдвиженца партии власти?) и явки на президентских выборах в Москве. Отклонения распределения явки от нормального распределения (по всем партиям и отдельно по каждой) были столь малыми, пики по партиям столь схожи, что вызывает сомнения, что можно достоверно судить об отрицательной корреляции (или какой-либо ещё завимости). Лишь у Жириновского была заметна антикорреляция, а отнюдь не у лидера ЕР.
[User Picture]
From:nonenoun
Date:July 29th, 2013 08:01 pm (UTC)
(Link)
Отрицательная корреляция для кандидата от власти в Москве есть, причём крайне устойчивая (наблюдалась ещё в 1999 году). В моей следующей статье этот вопрос будет подробно исследован.
[User Picture]
From:barouh
Date:July 30th, 2013 11:00 am (UTC)
(Link)
Близость распределения к нормальному не значит, что нельзя использовать корреляционный анализ - "нормальные" отклонения точно так же можно сопоставлять с другими параметрами, как и "ненормальные". И небольшой размер дисперсии тоже не обесценивает данные корреляционного анализа
[User Picture]
From:andirect
Date:July 30th, 2013 11:19 am (UTC)
(Link)
Согласен полностью. Для не являющихся нормальными распределений корреляционный анализ применим даже эффективнее. И не в дисперсии дело. Смысл моего высказывания, исключительно к президентским выборам в Москве, когда распределение явки, что в целом, что голосов по отдельным кандидатам было очень близко к нормальному, причём распределения голосов по отдельным кандидатам были близки по основным своим параметрам - средней и дисперсии. При этом не должно быть заметной зависимости частоты голосования за какого-либо кандидата от явки (иначе это сразу отразилось бы на форме распределения). Если не отражается (сравнивая с массой других выборов-распределений), то зависимость эта слабая, и есть ли смысл досконально исследовать её? Как уже было сказано (я основываюсь на чисто зрительном взгляде на кривые распределения голосов от явки), эта зависимость больше всего у Жириновского. И что это нам даёт?

Другое дело, сравнивая эти небольшие цифры (как эталон) корреляции с возможно в будущем полученными большими, мы сможем утверждать, что значительный рост их будет свидетельствовать о махинациях с голосами.
[User Picture]
From:barouh
Date:October 5th, 2016 08:38 am (UTC)
(Link)
Вопрос возник в связи с новым витком дискуссий про "гаусса" - я правильно понимаю, что аналог Шпилькинского графика для Великобритании никто не рисовал? То есть график, где по оси Х явка, а по оси Y сумма голосов, полученная партией в округах, попавших в этот бин явки? (чтобы минимизировать влияние выставления - невыставления кандидата в округе, наверное правильнее было бы показывать не сумму голосов, а средний % кандидатов партии от списочной численности по тем округам, где были кандидаты)

Может быть совершите подвиг, покопаетесь в старых данных и нарисуете такой график?
[User Picture]
From:nonenoun
Date:October 7th, 2016 03:53 am (UTC)
(Link)
Сейчас не имею возможности нарисовать график, но выше в статье есть ссылка на результаты: https://docs.google.com/file/d/0B758qWml7RW9U3d4QkxNeFBmSEk/edit?usp=sharing
Или в Excel затруднительно построить подобный график? Может, oude_rus или podmoskovnik смогут помочь?

чтобы минимизировать влияние выставления - невыставления кандидата в округе
От трёх ведущих партий практически всегда есть кандидаты.
free counters Powered by LiveJournal.com