C, PHP, VB, .NET

Дневникът на Филип Петров


* Парадоксът на Симпсън

Публикувано на 18 януари 2014 в раздел Математика.

Парадоксът на Симпсън е една от най-лесните за разгадаване статистически заблуди. За съжаление тя е често прилагана от политиците и е рядко забелязвана от журналисти и общество. Ще го демонстрирам с един измислен пример.

Нека имаме един учебен предмет и две различни методики на преподаване. Например това може да е експеримент за промяна на начина на провеждане на едно от упражненията в курса. Желаем да съпоставим методиките и да преценим коя от тях води до по-добри резултати при обучението студентите. За целта пускаме обучението паралелно в две различни групи, а в края на годината извършваме общ изпит, при който мерим подготовката на студентите чрез тест. На тестът могат да се съберат максимум 100 точки от всеки студент. Ако даден студент е изкарал 68 точки, ще казваме, че неговата успеваемост е 68%. Ние обаче се интересуваме от успеваемостта на цялата група. Ако тя например се състои от 10 човека, те биха могли да съберат общо максимум 1000 точки. Ако те са събрали общо 700, ще казваме, че успеваемостта на групата е 70%. Експериментът се провел в четири последователни години и отчел следните резултати:

Година

Методика 1

Методика 2

Максимален брой точки

Получени точки

Успеваемост

Максимален брой точки

Получени точки

Успеваемост

2010

1500

975

65%

1300

819

63%

2011

1800

1170

65%

1100

660

60%

2012

1000

800

80%

2000

1550

77,5%

2013

1200

864

72%

1400

994

71%

Виждаме, че през всяка една от учебните години имаме по-висока успеваемост при методика 1 спрямо методика 2 – винаги има налични между 1% и 5% преднина в полза на методика 1. Виждаме и общите тенденции – явно през 2010г. и 2011г. випуските са били по-слаби спрямо тези след тях (и двете групи имат по-ниски резултати през 2010 и 2011 спрямо 2012 и 2013). Това е нормално при подобни експерименти, които се провеждат с живи хора. Дотук бихме направили логичен извод, че методика 1 все пак е по-добра от методика 2.

Ако обаче направим обобщение за четирите години, ще видим следните:

  • Методика 1: Събрани са 3809 точки от 5500 възможни или успеваемост от 69,25%
  • Методика 2: Събрани са 4023 точки от 5800 възможни или успеваемост от 69,36%

Виждаме, че все пак методика 2 е дала по-добри обобщени резултати, макар и с минимална (с такива малки извадки бих казал напълно пренебрежима) разлика. И сега кое е вярното – няма разлика между методиките или пък методика 1 е по-добра? По важното в случая не е да гледаме конкретния пример, а математическата му основа – имаме категорична демонстрация за това как заради грешно моделиране един по-лош във всички частни случаи експеримент може да даде положителни резултати като цяло. Това естествено се получава тогава, когато в отделните частни случаи групите не са равнопоставени. От примерът през 2012г. в методика 1 групата е наполовина по-малка от групата на методика 2, а именно тогава резултатите са най-високи и обратно – при най-ниските резултати през 2011г. групата на методика 1 е със значително повече студенти. В този конкретен случай можем да твърдим, че отделни експерименти са проведени некоректно, откъдето и обобщените резултати също би трябвало да приемем за некоректни.

Подобни казуси, освен както споменах с любимото превръщане на статистиката в „стъкмистика“ от страна на политиците, изникват нерядко и в ежедневния живот в най-различни сфери. Има примери в медицината, където експериментални лечения показват отлични резултати в частни случаи, но лоши като цяло. Може да се моделират, че дори и намерят реални примери в спорта, демографията (преброявания на населението в различни години), и къде ли още не. Ето хубавият пример от Уикипедия, в който се съпоставят две различни лечения на камъни в бъбреците:

Лечение 1

Лечение 2

Малки камъни

Група 1.1

Група 2.1

93% (81/87)

87% (234/270)

Големи камъни

Група 1.2

Група 2.2

73% (192/263)

69% (55/80)

Обобщен резултат

78% (273/350)

83% (289/350)

Изводът от подобни примери трябва да е ясен за всеки човек – не съдете за ефективността на дадена мярка по лошо моделирани частни случаи, защото техните резултати ще бъдат некоректни, а от там и обобщенията няма как да са вярни.

П.П. Нееднократната ми препратка към политиката е свързана с наскоро гръмналите сензационни „новини“, че в България се е случила тотална и непреодолима демографска катастрофа, а до Х години тук всичко ще се обитава от цигани. Демографска криза има, но начините, по които тези хора я измерват, е меко казано скандално некоректен…

 



2 коментара


  1. Постове като този ме карат всяка сутрин да проверявам дали не си пуснал нещо ново :)

    Много често чувам „процента си е процент“, без значение на каква база.
    Вече знам на къде да препращам такива умници.

  2. Димитър каза:

    Добре е написано, но можеше и още по-ясно и задълбочено.
    В смисъл … че в Парадоксът на Симпсън по същината си представлява модел, в който винаги има фактор/ри които са пропуснати, а те от своя страна имат силна връзка с или дори детерминират зависимата/изследваната.
    Всъщност няма значение дали причината ще е в зле формирана извадка,кохортна специфика възраст или брой (както е в случая) важното е, че резултата в крайна сметка е по силно зависим от скрития фактор отколкото от изследвания.
    И все пак, дори и при тези условия, във сферата на точните науки може да се направят чисти оценки, затова има процедури и инструментите (имам предвид анализи, проверки описателна стат.) методите вероятно са повече от тези за които мага да се сетя.
    Проблема е, че в този хопотетичен пример нещата са крайно опростени и видими детерминираност на средния резултата от броя на учениците!! Това, едва ли може да подведе някой аналитик в оценката, но социалните явления не са толкова прости, политиците не са аналитици, а сред аналитиците винаги се намират такива, като от вица за Клинтън и Путин
    ПС: Клинтън бил на гости в Москва, като във връзка с политиката за здравословен живот било организирано надбягване между двамата, естествено Путин /добре трениран бивш кадър на ФСБ/ победил Клинтън и се класирал втори. И както е по риски обичай наредил на пресцентъра „Внимавайте какво ще напишете, да не обидим госта“
    След един час поличил следния информационен бюлетин „В днешното оспорвано състезание г-н Клинтън се класира втори, а г-н Путин предпоследен“
    Та те така, лошото е че понякога уловките и условностите са толкова много, а човек няма как да е специалист и да е запознат в дълбочина с всичко, дори когато то го засяга или представлява интерс за него (препратка към това каето искщаш да кажеш в “ … Браес“)

Добави коментар

Адресът на електронната поща няма да се публикува


*