Якось мені стало цікаво, а чи є зв’язки між різними статистичними показниками в Україні. Було взято більше 100 різних статистик — від результатів ЗНО і до кількості протестанських священників. Для кожної пари цих показників обчислено кореляцію, тобто взаємозв’язок, який показує як зміниться один показник, якщо збільшиться/зменшиться інший.
Найбільша проблема, насправді, в тлумаченні отриманих цифр. Далі наведені мої висновки, хоча ви можете ознайомитись з даними і сформувати свої власні думки.
Основний висновок, який я зробив — найголовніший чинник, що впливає на соціально-економічний розвиток українських регіонів — урбанізація (частка міського населення). Саме вона вливає і на злочинність, і на кількість церков, і на демографію, і на політичні вподобання, і на якість освіти та економічний розвиток.
Можливо, у вас є інші висновки? Цікаво було б їх почути.
Всі вихідні дані можна подивитись на Ґітхабі.
На десерт. Останнім часом активізувалась полеміка стосовно європейського курсу України. Деякі не дуже розумні люди закидають, що українці відриваються від свої коренів, від духовної та православної Росії та йдуть до содомського та гріховного Заходу. Маю для цих людей прикру новину, точніше кілька цифр:
Коментарі
Мене зацікавила "додаткова кореляція": злочинність + російська мова рідна. я не соціолог і хотів би зрозуміти, що це означає?
Населення з російською рідною живуть переважно в містах (кореляція - 0,76). В той же час саме в містах вища злочинність (кореляція - 0,8). Тому між злочинністю та часткою населення з російською рідною теж є зв'язок (0,86). Дивно було б якщо його не було, правда?
З іншої сторони остання кореляція більша ніж дві попередні.
Що тут причина, а що - наслідок - кожен вирішує сам.
дякую за пояснення. одне мене дещо бентежить: якщо модна так легко жонглювати причиною та наслідком, який тоді сенс від "демонстрації" зв'язку між явищами? якщо до практики: що має стати пріоритетом діяльності громадських організацій, що працюють у містах - українізація молоді чи попередження злочинності серед молоді?
Віддаючи належне тій роботі, що Ви, Пилипе, здійснили при підготовці цих кореляцій, хотіла би у Вас запитати, наскільки близько Ви знайомі зі статистикою? Чи знаєте Ви про таке як статистичні похибки? І чи знаєте, як ці похибки впливають на кінцевий результат будь-яких досліджень? У Ваших даних по кореляції, на мою думку, все крутиться у межах статистичної похибки. Якщо її врахувати, то можна зробити сенсаційний висновок, що ті, хто розмовляють укр. мовою(-о,68), погано знають математику(-0,66), або що користувачі Інтернету(0,66) голосують за КПУ(0,68) тощо. На Ваше щастя, я теж не зовсім статистикою займають, хоча активно цікавлюсь. Тому мені цікаво, наскільки науково обгрунтовані Ваші висновки, тим більше, з такими гучними результатами.
Богдане, насправді, це не жонглювання, а проблема виявлення помилкових кореляцій та визначення причино-наслідкових зв'язків. Я розрахував дані, які самі по собі нічого не говорять, їх треба інтерпретувати. В інфографіці наведена моя точка зору яка зводиться до того, що першопричина майже всіх явищ - частка міського населення. Саме специфіка життя в місті впливає на злочинність, знання мов, дохід, освіту та інше.
Щодо національності, і, відповідно знання мови, то тут інша причина - росіяни, як правило, в Україні селилися в містах і густонаселений і урбанізований схід - теж російський. Але що буде коли захід урбанізується?
Для підтвердження або спростування цього треба почекати кілька років, отримати дані нового перепису і національного складу і розрахувати нові цифри. Можливо, разом зі збільшенням частки міського населення на заході, і відповідно, збільшення там злочинності та інших негараздів, кореляція між російськомовними та злочинністю ослабне.
Щодо практичного застосування, то тут на базі розрахунків треба робити новий аналіз і ставити в центр дослідження злочинність і аналізувати кореляції цього показника.
На все це треба час, ресурси, яких, на жаль, в мене нема. Цей проект робився, скоріше як хобі. Можливо, він просто стане для когось відправною точкою і скоро ми побачимо більш повний аналіз.
Пилипе, дякую за відповідь! Ваше хобі змусило мене серйозно замислитись над цими взаємозв'язками. Цікаво, чому розумокмісоводемініціативні контори, які точно мають ресурси!!! не досліджують такі взаємозв'язки, а продовжують "годувати" народонаселення замовленими "висновками"...
Ну кожен робить свою справу. Може ніхто не фінансує подібне дослідження, може, визначення кореляцій не є якимось науково доцільним методом. Не знаю. Хоча в них є шикарний звіт http://www.irs.in.ua/index.php?option=com_content&view=article&id=1227%3A1&catid=51%3Astats&Itemid=79&lang=uk
Ось тут є де розуглятись, особливо якщо взяти в них цифри за областями, а ще краще - за районами. Але мені вже ліньки, своєї роботи багато. :)
Анастасіє, про похибки я знаю. Але для їх розрахунків треба знати, як мінімум, похибки використаних показників, але на таку розкіш в Україні можна не сподіватися :)
Похибка може змінити показник, наприклад, з 0,8 до 0,7, але вона кардинально не вплине на напрям зв'язку, скоріше на його силу.
До того ж Ви, здається трошки не так зрозуміли. Ось відкрийте файл з результатами на Ґітхабі. Там є строка №5075, де написано, що зв'язок між голосами за КПУ та користувачами Інтернету всього 0,13. Але у міського населення зв'язок з КПУ - 0,68, а зв'язок міського населення з Інтернетом - 0,66. Отже, бачимо, що дійсно ті, хто голосує за КПУ не сидять в Інтернеті (розрив між 0,66-0,68 та 0,13 - дуже великий).
А строка 3074 говорить про те, що між рідною українською і задовільними оцінками з ЗНО по математики зв'язок 0,3 - тобто його немає.
Дякую, Пилипе, за відповідь. Щодо похибок - знаючи з першоджерел, як ведеться статистика в Україні, думаю, що для використаних показників вона становить щонайменше 2%. Але, чесно кажучи, все одно не зрозуміло, як Ви вираховуєте ці взаємозв'язки. Чи можна почитати десь детальніше про використану Вами методологію? І було б усе-таки корисно навести тут думку від експерта з галузі.
Похибка в 2% виникає коли соціологічні дослідження з вибіркою в 1800-2000 респондентів екстраполюють на 46 млн. населення. В мене ж статистичні дані і з точки зору математики вони більш точні, бо, погодьтеся, тому ж самому МВС набагато простіше порахувати кількість зарєстрованих у них злочинів за період, ніж соціологам опросити репрезентативну вибірку. Інше питання, наскільки статистичні данні відповідають дійсності, бо в тій же сільскій місцевості злочинів може бути і більше ніж пораховано, просто менше їх реєструється. Але щоби оцінити все це треба знати методологію, а цього від нашої влади не дочекаєшся.
Щодо моєї методології, то тут взагалі все дуже просто. По кожному статистичному показнику є 27 цифр для кожної області та двох міст. Правильність цифр можна перевірити - всюди вказані першоджерела. Всі цифри відносні, тобто дані на душу населення, або як у ЗНО - на кільксть тих, що здали тест. Далі для кожної пари статистичних показників розраховується кореляцію. Я використав скрипт на Python та формулу Пірсона. Ви можете використати Excel та вбудовану в нього формулу кореляції (.csv файл прекрасно імпортується в Excel). Результати також виклав.
Отже, на Ґітхабі є вхідні статистичні дані, скрипт для розрахунку, вихідні дані. Більше того, ви можете взяти якусь свою статистику і розрахувати по ній кореляції.
Не бачу ніяких причин для сумнівів :)
Мабуть, вірити чи не вірити статистиці - справа кожного особисто. Цифри - це ще не все, повторююсь, з особистого досвіду знаю, як вони пишуться, тому у мене упереджене ставлення навіть до статистики, наданої МВС=))) Просто, знову ж таки, я не соціолог і не статист, щоб Вам заперечувати на професійному рівні, але Ви повинні враховувати всі ці фактори у тлумаченні своїх кореляцій=) Адже статистика, як відомо, дуже гнучка річ, і кожен її може тлумачити по-своєму=)) Ось схожі до моїх зауваження з Вікіпедії у підрозділі про Кореляції та взаємозв'язок величин(рос.) http://ru.wikipedia.org/wiki/Корреляция#
Ну ми, взагалі живемо в світі, де загальний опис фізичних процесів всього-навсього тільки теорія і для підтвердження чи спростування якої будують мільярдні колайдери, отримують за це Нобелівки, але в сухому залишку все-рівно не вирішують глобальних теоретичних протиріч.
А ви хочете, щоби простий український хлопець за тиждень описав вам модель суспільства та взаємозв'язки в ному. Що, насправді, набагато складніше ніж сталі та передбачувані причинно-наслідкові зв'язки в фізиці.
Це всього лиш моє бачення підходу, що хоч якось ґрунтується на цифрах і достовірність та повторюваність яких можна хоч якось перевірити.
Якщо вам відомі більш точні та достовірні інструменти вивчення взаємозв'язків в суспільстві - з радістю ознайомлюсь.
Якщо Ви читали те посилання на Вікіпедію, що я Вам запропонувала, то Вас мала б насторожити фраза: "Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи". Якщо не вірите рос. Вікіпедії, ось ще одне зауваження з укр. Вікіпедії у статті про Кореляційний аналіз(http://uk.wikipedia.org/wiki/Кореляційний аналіз), де у підрозділі "Обмеження кореляційного аналізу" грубим шрифтом написано: "Кореляція не означає причинність". Мабуть, саме з цього приводу ПРОФЕСІЙНІ соціолог. установи не займаються встановленням таких ВЗАЄМОЗВ'ЯЗКІВ.
Розумієте, це не просто цифри і висновки - хтось візьме їх на озброєння і почне втілювати у реальному житті. Ну як Ви собі це уявляєте: громадська організація почне висувати лозунги для своїх кампаній: "Говори українською - або станеш злодієм" чи "Ти не злодій, бо говориш українською", а внизу підпис "Згідно із дослідженнями "Українські кореляції", існує залежність між злочинністю і рос.мовою". Думаю, що від цього не вирішаться, а навпаки, тільки загостряться існуючі проблеми в країні.
Ну про це я вже писав в коментарях до Богдана:
"Богдане, насправді, це не жонглювання, а проблема виявлення помилкових кореляцій та визначення причино-наслідкових зв'язків. Я розрахував дані, які самі по собі нічого не говорять, їх треба інтерпретувати. В інфографіці наведена моя точка зору яка зводиться до того, що першопричина майже всіх явищ - частка міського населення. "
Щодо тлумачення цих цифр іншими людьми, то це їх особиста справа, ніяк на це вплинути не можу.
Так, про вплив сомалійських піратів на глобальне потепління я знаю :)
Я слідкую за коментарями інших читачів цієї статті, і саме тому мене насторожила реакція Богдана Маслича, який одразу побачив у Ваших даних заклики до діяльності. Тому не знімайте з себе відповідальності за викладені цифри.
По-друге, наскільки я зрозуміла з того, що пишеться про кореляцію у Вікіпедії, взаємозв'язок, отриманий після всіх формул, показує лише СТАТИСТИЧНИЙ зв'язок, який ніяк не може інтерпретуватися як причинно-наслідковий. З чим, як я розумію, Ви не погоджуєтесь, пропонуючи свою інтерпретацію.
І по-третє, статистика - річ оманлива. Навіть якщо взяти ті таблиці про духовність і бездуховність у країнах Європи та Росії, знову ж таки, вони ще нічого не означають. Наприклад, згідно з даними таблиці, в Італії ув'язнених трошки більше 100 на 100 тис. населення. Але це не говорить про те, що в Італії менша злочинність, ніж наприклад, в Україні. Є ряд факторів, які зумовлюють такі показники, зокрема, норми кримінального кодексу, які визначають інші типи покарань для злочинів, за які в Україні чи в Росії кидають за грати; специфічний судовий процес, який може тривати десятиліттями, при цьому підсудний знаходиться на волі, врешті, переповненість в'язниць, внаслідок якої зараз там оголошують амністію 240 тис. ув'язнених. Отже, цифри - це тільки цифри, вони не означають нічого без детального розгляду контексту. Саме у цьому криється пастка непрофесійної інтерпретації будь-яких статистичних даних.
Істинно, але...
Багатьом подобається бути "прокурором" кореляційного методу і вони змушують думати неофітів, що причинно-наслідкового зв'язку обов'язково немає там, де є кореляція. Звідси, наприклад, іронічна реакція на той факт, що у російськомовному середовищі значно більша злочинність. Це більша помилка, ніж думати, що кореляція - це і є причинно-наслідковий зв'язок.
Зв'язок може не бути, а може і бути. На практиці зазвичай є багато різних чинників та видів зв'язків, можуть бути навіть суперечливі.
Корелянти - на те і корелянти, що між ними вірогідно є т.зв. опосередкований зв'язок, тобто вони ростуть з одного кореня. Часто можна впливати на "корінь", впливаючи на наслідок. Часто - ні. "Корінь" зазвичай не має назви і не усвідомлюється, його "відкривають".
Висловлю свою точку зору на 2 піднятих тут питання:
1. "що має стати пріоритетом діяльності громадських організацій, що працюють у містах - українізація молоді чи попередження злочинності серед молоді?" - перше.
2. "Цікаво, чому розумокмісоводемініціативні контори, які точно мають ресурси!!! не досліджують такі взаємозв'язки, а продовжують "годувати" народонаселення замовленими "висновками"..." - тому що там "в грамм добьіча, в год - трудьі", цим займаються академічні соціолоґічні установи. З цієї ж причини я не хочу на цьому сайті писати, чому я вважаю, що працювати дійсно треба передусим з російською мовою. Хоча арґументів маю безліч.
Є академічний дискурс, а є - громадський. І все таки коли вони трошки перетиняються - це чудово.
ДУЖЕ ДЯКУЮ АВТОРУ СТАТТІ :)
Дуже дякую за чудове дослідження. Давно таким цікавлюся та маю низку своїх ідей. Жаль, зараз сил і часу обмаль :(
Якщо нічого не завадить, пізніше вийду на зв'язок і поділюся власними подібними дослідженнями.
Б-г у поміч!