Т-тест

Какво е Т-тест?

Т-тестът е вид инфекциозна статистика, използвана за определяне дали има значителна разлика между средствата на две групи, които могат да бъдат свързани по определени характеристики. Използва се най-вече, когато наборите от данни, като набора от данни, записан като резултат от прелистване на монета 100 пъти, ще последват нормално разпространение и може да имат неизвестни отклонения. Т-тестът се използва като инструмент за тестване на хипотези, който позволява тестване на предположение, приложимо за популация.

Т-тестът разглежда t-статистиката, стойностите на t-разпределението и степените на свобода, за да определи вероятността за разлика между два набора данни. За да проведете тест с три или повече променливи, трябва да използвате анализ на дисперсията.

01:38

Т-тест

Обяснение на Т-теста

По същество t-тест ни позволява да сравним средните стойности на двата набора от данни и да определим дали те са от една и съща популация. В горните примери, ако трябва да вземем извадка от ученици от клас А и друга извадка от ученици от клас Б, не бихме очаквали те да имат точно същото средно и стандартно отклонение. По същия начин, пробите, взети от контролираната група, приемана с плацебо, и тези, взети от предписаната с лекарството група, трябва да имат малко по-различно средно и стандартно отклонение.

Математически t-тестът взема извадка от всеки от двата набора и установява изложението на проблема, като приема нулева хипотеза, че двете средства са равни. Въз основа на приложимите формули се изчисляват и сравняват определени стойности спрямо стандартните стойности и предполагаемата нулева хипотеза се приема или отхвърля съответно.

Ако нулевата хипотеза отговаря на изискванията за отхвърляне, това показва, че четенето на данни е силно и не е случайно. T-тестът е само един от многото тестове, използвани за тази цел. Статистиците трябва допълнително да използват тестове, различни от t-теста, за да изследват повече променливи и тестове с по-голям размер на извадката. За голям размер на извадката статистиците използват z-тест. Други опции за тестване включват хи-квадрат тест и f-тест.

Има три типа t-тестове и те са категоризирани като зависими и независими t-тестове.

Ключови заведения

Т-тестът е вид инфекциозна статистика, използвана за определяне дали има значителна разлика между средствата на две групи, които могат да бъдат свързани по определени характеристики.
T-тестът е един от многото тестове, използвани за тестване на хипотези в статистиката.
Изчисляването на t-тест изисква три ключови стойности на данните. Те включват разликата между средните стойности от всеки набор от данни (наречени средна разлика), стандартното отклонение на всяка група и броя стойности на данните на всяка група.
Има няколко различни типа t-тест, които могат да бъдат извършени в зависимост от необходимите данни и вид анализ.

Нееднозначни резултати от теста

Помислете, че производител на лекарства иска да тества ново изобретено лекарство. Следва стандартната процедура за изпробване на лекарството върху една група пациенти и даване на плацебо на друга група, наречена контролна група. Плацебото, дадено на контролната група, е вещество без планирана терапевтична стойност и служи като еталон за измерване как реагира другата група, на която е дадено действителното лекарство.

След изпитването за наркотици, членовете на контролната група, приемана с плацебо, отчитат увеличение на средната продължителност на живота от три години, докато членовете на групата, на които е предписано новото лекарство, отчитат увеличение на средната продължителност на живота от четири години. Незабавното наблюдение може да показва, че лекарството наистина работи, тъй като резултатите са по-добри за групата, използваща лекарството. Възможно е обаче наблюдението да се дължи на случайно събитие, особено изненадващо късмет. Т-тест е полезен, за да се заключи дали резултатите действително са правилни и приложими за цялата популация.

В едно училище 100 ученици в клас А са оценили средно 85% със стандартно отклонение от 3%. Други 100 студенти, принадлежащи към клас Б, са оценили средно 87% със стандартно отклонение от 4%. Въпреки че средната стойност на клас Б е по-добра от тази на клас А, може да не е правилно да се стига до извода, че общата ефективност на учениците в клас Б е по-добра от тази на учениците от клас А. Това е така, защото наред с означава, че стандартното отклонение на клас В също е по-високо от това на клас А. Това показва, че техните крайни проценти, от по-ниски и по-високи страни, са били много по-разпределени в сравнение с тези от клас А. Т-тест може да помогне да се определи кой клас се представи по-добре.

Предположения за Т-тест

Първото предположение, направено по отношение на t-тестовете, се отнася до мащаба на измерване. Предположението за t-тест е, че измерваната скала, приложена към събраните данни, следва непрекъсната или порядъчна скала, като оценките за IQ тест.
Второто направено предположение е, че на обикновена случайна извадка, че данните се събират от представителна, произволно избрана част от общата съвкупност.
Третото предположение е, че данните, когато са начертани, водят до нормално разпределение, звънеобразна крива на разпределение.
Четвъртото предположение е разумно голям размер на извадката. По-големият размер на извадката означава, че разпределението на резултатите трябва да се доближава до нормална крива на камбана.
Крайното предположение е хомогенността на дисперсията. Хомогенна или равна вариация съществува, когато стандартните отклонения на пробите са приблизително равни.

Изчисляване на Т-тестове

Изчисляването на t-тест изисква три ключови стойности на данните. Те включват разликата между средните стойности от всеки набор от данни (наречени средна разлика), стандартното отклонение на всяка група и броя стойности на данните на всяка група.

Резултатът от t-теста произвежда t-стойността. Тази изчислена t-стойност след това се сравнява със стойност, получена от таблица с критични стойности (наречена T-разпределителна таблица). Това сравнение помага да се определи колко вероятна е разликата между средствата, възникнала случайно или дали наборите от данни наистина имат присъщи разлики. Т-тестът задава въпроса дали разликата между групите представлява истинска разлика в изследването или е вероятно безсмислена статистическа разлика.

Таблици с Т-разпределение

Таблицата за разпределение на Т е налична във формат с една опашка и с две опашки. Първият се използва за оценка на случаи, които имат фиксирана стойност или диапазон с ясна посока (положителна или отрицателна). Например, каква е вероятността стойността на изхода да остане под -3 или да получи повече от седем, когато хвърляте чифт зарчета? Последният се използва за анализ, свързан с обхват, като например питане дали координатите падат между -2 и +2.

Изчисленията могат да се извършват със стандартни софтуерни програми, които поддържат необходимите статистически функции, като тези, открити в MS Excel.

T-ценности и степени на свобода

T-тестът произвежда две стойности като своя изход: t-стойност и степени на свобода. T-стойността е съотношение на разликата между средната стойност на двата набора проби и разликата, която съществува в набор от проби. Докато стойността на числителя (разликата между средната стойност на двата извадкови набора) е проста за изчисляване, знаменателят (разликата, която съществува в наборите от извадки) може да стане малко сложен в зависимост от вида на съответните стойности на данни. Знаменателят на съотношението е измерване на дисперсията или променливостта. По-високите стойности на t-стойността, наричани също t-score, показват, че съществува голяма разлика между двата набора от проби. Колкото по-малка е t-стойността, толкова повече прилика има между двата набора проби.

Голям t-резултат показва, че групите са различни.
Малка t-оценка показва, че групите са сходни.

Степен на свобода се отнася до стойностите в изследване, което има свободата да варира и е от съществено значение за оценка на важността и валидността на нулевата хипотеза. Изчисляването на тези стойности обикновено зависи от броя на данните, налични в набора от извадки.

Съответстващ (или сдвоен) Т-тест

Корелираният t-тест се извършва, когато пробите обикновено се състоят от съчетани двойки сходни единици или когато има случаи на повторни мерки. Например, може да има случаи на едни и същи пациенти да бъдат тествани многократно - преди и след получаване на определено лечение. В такива случаи всеки пациент се използва като контролна проба срещу себе си.

Този метод се прилага и за случаите, когато пробите са свързани по някакъв начин или имат съвпадащи характеристики, като сравнителен анализ, включващ деца, родители или братя и сестри. Корелираните или сдвоени t-тестове са от зависим тип, тъй като те включват случаи, когато двата набора проби са свързани.

Формулата за изчисляване на t-стойността и степените на свобода за сдвоен t-тест е:

Средно1 и средно2 са средните стойности на всеки от пробните набори, докато var1 и var2 представляват дисперсията на всеки от пробните набори.

Останалите два вида принадлежат към независимите t-тестове. Пробите от тези типове са избрани независимо един от друг - тоест, наборите от данни в двете групи не се отнасят до едни и същи стойности. Те включват случаи като група от 100 пациенти, които са разделени на две групи по 50 пациенти всеки. Една от групите става контролната група и получава плацебо, докато другата група получава предписаното лечение. Това представлява две независими групи от извадки, които не са сдвоени.

Т-тест с еднаква вариация (или сбор)

T-тест за равна дисперсия се използва, когато броят на пробите във всяка група е еднакъв или дисперсията на двата набора от данни е сходна. Следната формула се използва за изчисляване на t-стойността и степента на свобода за t-тест с еднаква дисперсия:

T-стойност = средно1-средно2 (n1−1) × var12 + (n2−1) × var22n1 + n2−2 × 1n1 + 1n2, където: средно1 и средно2 = Средни стойности на извадката от множествата на пробатаvar1 и var2 = Вариант на всеки от примерни множестваn1 и n2 = Брой записи във всеки набор от проби \ започнем {подравнен} & \ текст {T-стойност} = \ frac {средно1 - средно2} {\ sqrt {\ frac {(n1 - 1) \ пъти var1 ^ 2 + (n2 - 1) \ пъти var2 ^ 2} {n1 + n2 - 2}} \ пъти \ sqrt {\ frac {1} {n1} + \ frac {1} {n2}}} \\ & \ textbf { където:} \\ & среден \ \ текст {и} средно2 = \ текст {средни стойности на всеки} \\ & \ текст {от примерните набори} \\ & var1 \ текст {и} var2 = \ текст {Вариант на всеки от примерни набори} \\ & n1 \ текст {и} n2 = \ текст {Брой записи във всеки набор проби} \\ \ край {подравнен} T-стойност = n1 + n2−2 (n1−1) × var12 + (n2 −1) × var22 × n11 + n21 средно1 - средно2, където: средно1 и средно2 = Средни стойности на съвкупността от пробиvar1 и var2 = Вариант на всеки от извадките от набор1 и n2 = Брой записи във всяка проба комплект

и,

Градуси на свобода = n1 + n2−2 където и да е: n1 и n2 = Брой записи във всеки набор от проби \ започнем {подравнено} & \ текст {Степени на свобода} = n1 + n2 - 2 \\ & \ textbf {където:} \\ & n1 \ текст {и} n2 = \ текст {Брой записи във всеки набор проби} \\ \ край {подравнен} Степени на свобода = n1 + n2−2 навсякъде: n1 и n2 = Брой записи във всеки набор от проби

T-тест за неравномерна вариация

Т-тестът за неравномерна дисперсия се използва, когато броят на пробите във всяка група е различен и дисперсията на двата набора от данни също е различна. Този тест се нарича още t-тест на Welch. Следната формула се използва за изчисляване на t-стойност и степени на свобода за t-тест на неравномерна дисперсия:

T-стойност = средно1 - средно2var12n1 + var22n2, където: средно1 и средно2 = Средни стойности на извадката от setvar1 и var2 = Вариант на всеки от извадките setn1 и n2 = Брой записи във всеки набор проби \ започнем {подравнен} & \ текст {T-стойност} = \ frac {mean1 - mean2} {\ sqrt {\ frac {var1 ^ 2} {n1} + \ frac {var2 ^ 2} {n2}}} \\ & \ textbf {където:} \ \ & mean1 \ text {и} mean2 = \ text {Средни стойности на всеки} \\ & \ текст {от примерните набори} \\ & var1 \ text {и} var2 = \ text {Вариант на всеки от пробните набори} \ \ & n1 \ текст {и} n2 = \ текст {Брой записи във всеки набор от проби} \\ \ край {подравнен} T-стойност = n1var12 + n2var22 средно1 - средно2, където: средно1 и средно2 = Средни стойности of eahof от извадката setvar1 и var2 = Вариант на всеки от извадките setn1 и n2 = Брой записи във всеки набор проби

и,

Градуси на свобода = (var12n1 + var22n2) 2 (var12n1) 2n1−1 + (var22n2) 2n2−1 някъде: var1 и var2 = Вариант на всеки набор от извадки n1 и n2 = Брой записи във всеки набор от проби \ започва {подравнено } & \ текст {Степени на свобода} = \ frac {\ наляво (\ frac {var1 ^ 2} {n1} + \ frac {var2 ^ 2} {n2} \ дясно) ^ 2} {\ frac {\ вляво ( \ frac {var1 ^ 2} {n1} \ дясно) ^ 2} {n1 - 1} + \ frac {\ наляво (\ frac {var2 ^ 2} {n2} \ дясно) ^ 2} {n2 - 1}} \\ & \ textbf {където:} \\ & var1 \ текст {и} var2 = \ текст {Вариант на всеки от примерните набори} \\ & n1 \ текст {и} n2 = \ текст {Брой записи във всеки набор от проби } \\ \ край {подредени} Степени на свобода = n1−1 (n1var12) 2 + n2−1 (n2var22) 2 (n1var12 + n2var22) 2, където: var1 и var2 = Вариант на всеки от извадките setn1 и n2 = Брой записи във всеки набор от проби

Определяне на правилния T-тест за използване

Следващата блок-схема може да се използва, за да се определи кой t-тест трябва да се използва въз основа на характеристиките на пробите. Ключовите елементи, които трябва да бъдат разгледани, включват дали примерните записи са сходни, броя записи на данни във всеки набор от проби и дисперсията на всеки набор от извадки.

Изображение от Джули Банг © Инвестопедия 2019

Пример за нееднакво измерение на Т-тест

Да приемем, че правим диагонално измерване на картини, получени в художествена галерия. Едната група от образци включва 10 картини, докато другата включва 20 картини. Наборите от данни със съответните средни и стойности на дисперсия са както следва:

	Набор 1	Задайте 2
	19.7	28.3
	20.4	26.7
	19.6	20.1
	17.8	23.3
	18.5	25.2
	18.9	22.1
	18.3	17.7
	18.9	27.6
	19.5	20.6
	21.95	13.7
		23.2
		17.5
		20.6
		18
		23.9
		21.6
		24.3
		20.4
		23.9
		13.3
Означава	19.4	21.6
вариране	1.4	17.1

Въпреки че средната стойност на Set 2 е по-висока от тази на Set 1, не можем да заключим, че всички картини са със средна дължина около 21, 6 единици, тъй като дисперсията на Set 2 е значително по-висока от Set 1. Това случайно ли е или наистина съществуват различия в цялото население на всички картини, получени в художествената галерия ">

Тъй като броят на записите на данни е различен (n1 = 10 и n2 = 20) и дисперсията също е различна, t-стойността и степента на свобода се изчисляват за горния набор от данни, използвайки формулата, спомената в T-Test на неравната вариация. секция.

Стойността на t е -2.24787. Тъй като знакът минус може да се игнорира при сравняване на двете t-стойности, изчислената стойност е 2, 24787.

Стойността на стойността на свободата е 24, 38 и е намалена до 24, поради дефиницията на формулата, изискваща закръгляне на стойността до най-малкото възможно цяло число.

Всеки път, когато се приеме нормално разпределение, човек може да определи ниво на вероятност (алфа ниво, ниво на значимост, p ) като критерий за приемане. В повечето случаи може да се приеме стойност от 5%.

Използвайки степента на стойността на свободата като 24 и 5% ниво на значимост, поглед към таблицата за разпределение на стойностите на t-стойността дава стойност 2.064. Сравняването на тази стойност с изчислената стойност от 2, 224 показва, че изчислената стойност на t е по-голяма от табличната стойност при ниво на значимост от 5%. Следователно е безопасно да се отхвърли нулевата хипотеза, че няма разлика между средствата. Наборът от население има присъщи разлики и те не са случайни.

Сравнете инвестиционни сметки Име на доставчика Описание Разкриване на рекламодатели × Офертите, които се появяват в тази таблица, са от партньорства, от които Investopedia получава компенсация.

Свързани условия

Как работи анализът на вариацията (ANOVA) Анализът на дисперсията (ANOVA) е инструмент за статистически анализ, който разделя общата променливост, открита в набора от данни, на два компонента: случайни и систематични фактори. повече Разбиране на T Разпределението AT е вид вероятностна функция, която е подходяща за оценка на параметрите на популацията за малки размери на пробата или неизвестни отклонения. повече Степени на свобода Определение Градусите на свободата се отнася до максималния брой логически независими стойности, които са стойности, които имат свобода да варират в извадката от данни. повече Как работи остатъчното стандартно отклонение Остатъчното стандартно отклонение е статистически термин, използван за описване на разликата в стандартните отклонения на наблюдаваните стойности спрямо прогнозираните стойности, както е показано в точки от регресионен анализ. повече Как работи статистиката на площада Чи Чи Статистиката на чи (квадрат 2) е тест, който измерва как очакванията се сравняват с реално наблюдаваните данни (или резултатите от модела). Данните, използвани при изчисляването на статистиката на квадратна чи, трябва да са произволни, сурови, взаимно изключващи се, да се черпят от независими променливи и да се черпят от достатъчно голяма извадка. повече Как се използва тестът на Wilcoxon Тестът Wilcoxon, който се отнася или до теста на Rank Sum, или до теста за подписан ранг, е непараметричен тест, който сравнява две сдвоени групи. повече партньорски връзки

← 10-те най-известни търговци на всички времена в света

Предизвикателства в развитието на недвижимите имоти →

Препоръчано

Оставете Коментар