Цифры врут. Как не дать статистике обмануть себя - страница 2



Эту врезку читать необязательно, но, если вы не помните разницу между медианой и средним арифметическим, не пропускайте ее.

Понятия среднего арифметического, медианы и моды вы могли узнать в школе. Что такое среднее арифметическое, наверное, даже помните – нужно сумму нескольких чисел разделить на их количество. А медиана – это среднее число в последовательности чисел.

Разница вот в чем. Пусть население – 7 человек, причем один из них зарабатывает 1 фунт в год, один – 2 фунта и так далее – до 7. Если все эти числа сложить, получится 1 + 2 + 3 + 4 + 5 + 6 + 7 = 28. Разделив 28 на число людей (7), получим 4 фунта. Среднее арифметическое – 4 фунта.

А чтобы узнать медиану, числа не складывают, а располагают по возрастанию: с левого края заработок в 1 фунт, потом – 2, и так до 7 с правого края. Так вы увидите, кто оказался в середине – человек, получающий 4 фунта. Так что и медиана у нас равна 4 фунтам.

Теперь представим, что тот, кто зарабатывает 7 фунтов, продает свой технический стартап компании Facebook за миллиард. Наше среднее арифметическое внезапно становится равно (1 + 2 + 3 + 4 + 5 + 6 + 1 000 000 000) / 7 = 142 857 146 фунтам. Таким образом, хотя положение 6 из 7 человек никак не изменилось, «среднестатистический гражданин» стал мультимиллионером.[3]

В подобных случаях неравномерного распределения статистики часто предпочитают иметь дело с медианой. Если мы снова выстроим людей по порядку возрастания их зарплат, то в середине опять окажется тот, кто зарабатывает 4 фунта. При изучении реального населения, состоящего из миллионов человек, медиана дает лучшее представление о ситуации, чем среднее арифметическое, особенно если оно искажено зарплатами нескольких суперпреуспевающих работников.

А мода – это самое частое значение. Поэтому, если у вас есть 17 человек, зарабатывающих по 1 фунту, 25 – по 2 и 42 – по 3, то мода – 3 фунта. Все несколько усложняется, когда статистики принимаются с помощью моды описывать непрерывные величины вроде высоты, но об этом мы пока постараемся не думать…

Кажется, что рост медианной заработной платы – это хорошо. Но если рассмотреть отдельные группы населения США, то можно обнаружить нечто странное. Медианный заработок тех, кто окончил только среднюю школу, снизился на 7,9 %; тех, кто окончил старшие классы, – на 4,7 %. Медианный заработок людей с неполным высшим образованием снизился на 7,6 %, а с высшим образованием – на 1,2 %.

Окончившие и не окончившие старшие классы, окончившие и не окончившие колледж – медианная зарплата во всех группах с определенным уровнем образования снизилась, хотя медианная зарплата населения в целом повысилась.

Как так?

Дело в том, что количество людей с высшим образованием увеличилось, а их медианный заработок снизился. В результате с медианой происходят странности. Это называется парадоксом Симпсона – в 1951 году его впервые описал британский дешифровщик и статистик Эдвард Симпсон. Парадокс распространяется не только на медианы, но и на среднее арифметическое – однако в нашем примере мы поговорим о медианах.

Предположим, что население – 11 человек. Трое из них не пошли в старшие классы и зарабатывают по 5 фунтов в год; трое окончили школу и зарабатывают по 10; трое бросили университет и зарабатывают по 15; а двое закончили бакалавриат и зарабатывают по 20 фунтов. Медианная зарплата такой популяции в целом (то есть зарплата среднего человека при таком распределении доходов, см. врезку на предыдущей странице) составляет 10 фунтов.