Тестування гіпотез

Простий і короткий підручник з тестування гіпотез за допомогою Python

Зображення з: http://www.advanceinnovationgroup.com/blog/median-based-hypothesis-testing

У цьому блозі я розповім короткий підручник з тестування гіпотез із використанням статистичних методів у Python. Тестування гіпотез є частиною наукового методу, з яким ми всі знайомі, чогось, напевно, ми навчились у перші роки навчання. Однак у статистиці багато експериментів робиться на вибірці популяції.

«Визначення того, що вибірковий набір спостережень говорить нам про запропоноване пояснення, взагалі, вимагає від нас зробити висновок або, як ми це називаємо статистики, на міркування з невизначеністю. Обґрунтування невизначеності є основою статистичного висновку і, як правило, проводиться за допомогою методу, який називається тестуванням значущості гіпотези. -Вечі.

Як приклад цього блогу я буду використовувати набір даних європейського футболу, знайдений на Kaggle, і проведу перевірку гіпотез. Набір даних можна знайти тут.

Крок 1

Зробіть спостереження

Перший крок - спостереження за явищами. У цьому випадку це буде так: чи є вплив оборонної агресії на середньо допустимі цілі?

Крок 2

Вивчіть дослідження

Хороший розум для роботи - це розумніша робота не складніше. Хороша річ - це бачити, чи вже існують дослідження, пов'язані з вашим спостереженням. Якщо це так, це може допомогти відповісти на наше запитання. Усвідомлення вже існуючих досліджень або експериментів допоможе нам краще структурувати наш експеримент, а може навіть відповісти на наше запитання і не доведеться проводити експеримент в першу чергу.

Крок 3

Сформуйте нульову гіпотезу та альтернативну гіпотезу

Альтернативна гіпотеза - це наша освічена здогадка, а нульова гіпотеза - навпаки. Якщо в альтернативній гіпотезі існує значна залежність між двома змінними, нульова гіпотеза стверджує, що суттєвого зв'язку немає.

Наша нульова гіпотеза буде такою: Немає статистичної різниці в цілях, дозволених командам з рейтингом захисної агресії більше або рівним 65 проти команд нижче 65.

Альтернативна гіпотеза: Існує статистична різниця в цілях, дозволених командам з рейтингом захисної агресії більше або рівним 65 проти команд нижче 65.

Крок 4

Визначте, чи є наша гіпотеза однобічним тестом або тестом з двома хвостами.

Однохвостий тест

"Якщо ви використовуєте рівень значущості 0,05, однобічний тест дозволяє всім вашим альфа перевірити статистичну значимість в одному напрямку, що цікавить". Прикладом однобічного тесту може бути "Футбольні команди з рейтингом агресії нижче 65 дозволяють статистично значно більше голів, ніж команди з рейтингом нижче 65".

Тест з двома хвостами

"Якщо ви використовуєте рівень значущості 0,05, двосхилий тест дозволяє половині альфа перевірити статистичну значимість в одному напрямку, а половину альфа - перевірити статистичну значимість в іншому напрямку. Це означає, що 0,025 є в кожному хвості розподілу вашої тестової статистики. "

За допомогою двосхилого тестування ви перевіряєте статистичну значимість в обох напрямках. У нашому випадку ми перевіряємо статистичну значимість в обох напрямках.

Крок 5

Встановити рівень порогової значущості (альфа)

(альфа-значення): граничний поріг, при якому ми гарно відкидаємо нульову гіпотезу. Значення альфа може бути будь-яким значенням, яке ми встановимо від 0 до 1. Однак найпоширенішим значенням альфа в науці є 0,05. Альфа, встановлений на 0,05, означає, що ми нормально відкидаємо нульову гіпотезу, хоча існує 5% або менше шансів, що результати будуть обумовлені випадковістю.

P-значення: обчислена ймовірність отримання цих даних випадковим чином.

Якщо ми обчислимо p-значення, і воно складе 0,03, ми можемо трактувати це так: «Є 3% шансів, що результати, які я бачу, насправді пов’язані з випадковістю або чистою удачею».

Зображення від Learn.co

Наша мета - обчислити р-значення та порівняти його з нашою альфа. Чим нижче альфа, тим більш жорсткий тест.

Крок 6

Виконайте відбір проб

Тут ми маємо наш набір даних під назвою футбол. Для нашого тесту нам потрібні лише два стовпці в нашому наборі даних: team_def_aggr_rating та Goal_allowed. Ми відфільтруємо його до цих двох стовпців, а потім створимо два підмножини для команд з рейтингом оборонної агресії більше або рівним 65 та командам з рейтингом оборонної агресії нижче 65.

Просто для повторного тестування нашої гіпотези:

Вплив оборонної агресії на середньо допустимі цілі. Нульова гіпотеза. Немає статистичної різниці в цілях, дозволених командам з рейтингом оборонної агресії більше або рівним 65 проти команд нижче 65. Альтернативна гіпотеза: Існує статистична різниця в цілях, дозволена для команд з рейтингом захисної агресії більше більше або дорівнює 65 порівняно з командами нижче 65. Двохрядковий тест Альфа: 0,05

Зараз у нас є два списки зразків, на яких ми можемо проводити статистичні тести. Перед цим кроком я буду складати два розподіли, щоб отримати візуальне зображення.

Крок 7

Виконайте Двопробний Т-тест

Двопробний t-тест використовується для визначення рівності двох засобів популяції. Для цього ми будемо використовувати модуль Python під назвою statsmodels. Я не буду надто детально розповідати про статистичні моделі, але ви можете переглянути тут документацію.

Крок 8

Оцініть та зробіть висновок

Нагадаємо, альфа, яку ми встановили, становила a = 0,05. Як ми бачимо з результатів наших тестів, p-значення менше, ніж наша альфа. Ми можемо відкинути свою нульову гіпотезу і з 95% впевненістю прийняти нашу альтернативну гіпотезу.

Дякую за прочитання! Для більш поглибленого тестування гіпотез ви можете ознайомитись із цим груповим проектом на GitHub, в якому я брав участь у тестуванні гіпотез.

Ресурси:

Печі, Метью. "Статистика та" Науковий метод ", отриманий від вашого Гурту Вашої статистики. https://www.yourstatsguru.com/secrets/scimethod-stats/?v=4442e4af0916

Вступ до SAS. UCLA: Група статистичних консультацій. від https://stats.idre.ucla.edu/other/mult-pkg/faq/general/faq-what-are-the-differences-between-one-tailed-and-two-tailed-tests/ (доступ до травня 16, 2019).

Посібник з інженерної статистики. https://www.itl.nist.gov/div898/handbook/eda/section3/eda353.htm