Лъжлива корелация
Какво е лъжлива корелацияВ статистиката фалшивата корелация или фалшивостта се отнася до връзка между две променливи, която изглежда причинна, но не е. Лъжливите отношения често имат вид на една променлива, засягаща друга. Тази лъжлива корелация често се причинява от трети фактор, който не е очевиден по време на изследването, понякога наричан объркващ фактор.
Ключови заведения
- Лъжливата корелация или лъжливостта е когато два фактора изглеждат случайно свързани, но не са.
- Появата на причинно-следствената връзка често се дължи на подобно движение на диаграма, което се оказва случайно или причинено от трети „объркващ“ фактор.
- Лъжливата корелация често може да бъде причинена от малки размери на пробата или произволни крайни точки.
Как действа фалшивата корелация
Когато две произволни променливи се следят внимателно една върху графиката, е лесно да се подозира корелация или връзка между двата фактора, когато промяната засяга другия. Като оставим настрана „причинно-следствена връзка“, друга тема, това наблюдение може да накара читателя на диаграмата да повярва, че движението на променлива А е свързано с движението в променлива В или обратно. но понякога, при по-внимателно статистическо изследване, подравнените движения са случайни или причинени от трети фактор, който влияе върху първите два. Това е лъжлива корелация. Изследванията, направени с малки размери на пробата или произволни крайни точки, са особености, податливи на фалшивост.
Пример за фалшиви корелации
Не е твърде предизвикателно да откриете интересни корелации. Мнозина обаче ще се окажат фалшиви. За мъжките видове на Уолстрийт две популярни лъжливи корелации включват жени и спорт. Първоначална през 20-те години е теорията за дължината на полата, според която дължините на полата и посоката на фондовия пазар са свързани. Ако дължината на полата е дълга, това означава, че борсовият пазар намалява; ако те са къси, пазарът се увеличава. Около края на януари се говори за така наречения Super Bowl индикатор, който предполага, че печалба от екипа на AFC вероятно означава, че борсата ще се понижи през следващата година, докато победата на NFC екипа предвещава покачване на пазар. От 1966 г. показателят има точност на 80%. Това е забавно парче за разговор, но вероятно не е нещо, което сериозният финансов съветник би препоръчал като инвестиционна стратегия за клиентите.
Ето още няколко примера за често срещани лъжливи корелации:
- Удавките се покачват, когато се увеличат продажбите на сладолед. Може да изглежда, че увеличените продажби на сладолед причиняват повече удавяне, но в действителност нарастващата жега може да накара повече хора да плуват, както и да купуват повече сладолед.
- Процентът на убийствата в САЩ от 2006-2011 г. спадна със същия процент като използването на Microsoft Internet Explorer.
- Ръководителите, които казват, моля и благодаря, по-често се радват на по-доброто споделяне.
- Хората, които носят екипировка на екипа на Oakland Raiders, е по-вероятно да извършат престъпления.
Как да откриете лъжливи корелации
Статистиците и други учени, които анализират данни, непрекъснато трябва да са в състояние да наблюдават фалшиви отношения. Има много методи, които използват, включително:
- Осигуряване на подходяща представителна проба.
- Получаване на адекватен размер на пробата
- Внимавайте за произволни крайни точки.
- Контрол за възможно най-много външни променливи.
- Използване на нулева хипотеза и проверка за силна p-стойност.