Hypotesekontrast

Innenfor statistisk inferens er en hypotesetest (også kalt en hypotesetest eller signifikanstest ) en prosedyre for å bedømme om en egenskap antatt i en statistisk populasjon stemmer overens med det som er observert i et utvalg av den populasjonen. Det ble startet av Ronald Fisher og senere grunnlagt av Jerzy Neyman og Egon Pearson .

Gjennom denne teorien tilnærmes det statistiske problemet med tanke på en spesifikk hypotese og en alternativ hypotese , og det forsøkes å bestemme hvilken av de to hypotesene som skal velges, etter å ha brukt det statistiske problemet på et visst antall eksperimenter .

Det er sterkt assosiert med det statistiske maktbegrepet og med begrepene type I og II feil , som henholdsvis definerer muligheten for å ta en sann hendelse som usann, eller en usann som sann.

De viktigste typene er fokuserte tester, hypotese og enkle alternativer, randomiserte osv. Innenfor de ikke-parametriske testene er trolig den mest utbredte Mann-Whitney U-testen .

Introduksjon

Hvis vi mistenker at en mynt har blitt rigget til å produsere flere hoder enn haler når vi kaster den, kan vi foreta 30 kast, og notere antall oppnådde hoder. Hvis vi får en verdi som er for høy, for eksempel 25 eller mer, vil vi vurdere at resultatet er lite forenlig med hypotesen om at mynten ikke er rigget, og vi vil konkludere med at observasjonene motsier denne hypotesen.

Anvendelsen av sannsynlighetsberegninger lar oss bestemme fra hvilken verdi vi må avvise hypotesen, og garanterer at sannsynligheten for å gjøre en feil er en verdi kjent a priori . Hypotesene kan klassifiseres i to grupper, i henhold til:

  1. Spesifiser en bestemt verdi eller område for modellparametrene.
  2. Bestem hvilken type sannsynlighetsfordeling som genererte dataene.

Et eksempel på den første gruppen er hypotesen om at gjennomsnittet av en variabel er 10, og for den andre at sannsynlighetsfordelingen er normalfordelingen .

Selv om metodikken for å utføre hypotesetesten er analog i begge tilfeller, er det viktig å skille begge typer hypoteser siden mange hypotesetestproblemer med hensyn til en parameter i realiteten er estimeringsproblemer, som har et komplementært svar som gir et konfidensintervall ( eller sett med konfidensintervall) for den parameteren. Imidlertid brukes ofte antakelser om formen på fordelingen for å validere en statistisk modell for et tilfeldig fenomen som studeres.

Klassisk hypotesetesting tilnærming

Nullhypotesen er hypotesen som skal testes . Navnet "null" betyr "uten verdi, effekt eller konsekvens", noe som antyder at det bør identifiseres med hypotesen om ingen endring (basert på dagens mening); ingen forskjell, ingen forbedring osv. representerer hypotesen som vi vil opprettholde med mindre dataene indikerer at de er falske, og kan derfor forstås i betydningen "nøytral". Hypotesen anses aldri som bevist, selv om den kan bli avvist av dataene. For eksempel kan hypotesen om at to populasjoner har samme gjennomsnitt lett forkastes når de er store forskjellige ved å analysere tilstrekkelig store utvalg av begge populasjonene, men den kan ikke "bevises" ved prøvetaking, siden det alltid er mulighet for at middelene er forskjellige mht. en liten nok mengde til at den ikke kan påvises, selv om prøven er veldig stor.

Fra et utvalg av populasjonen som studeres trekkes det ut en statistikk (det vil si en verdi som er en funksjon av utvalget) hvis sannsynlighetsfordeling er relatert til hypotesen som studeres og er kjent. Settet med verdier som er mest usannsynlig under hypotesen blir deretter tatt som avvisningsregionen , det vil si settet med verdier som vi vil avvise nullhypotesen for hvis verdien av den observerte statistikken faller innenfor den.

Sannsynligheten for å få en verdi av statistikken som faller innenfor avvisningsregionen, selv om hypotesen er sann, kan beregnes. På denne måten kan nevnte region velges på en slik måte at sannsynligheten for å gjøre denne feilen er tilstrekkelig liten.

Fortsetter med forrige eksempel på den riggede mynten, er populasjonsutvalget settet med tretti kast som skal gjøres, den valgte statistikken er det totale antallet oppnådde hoder, og avvisningsregionen består av det totale antallet like hoder eller mer enn 25. Sannsynligheten for å gjøre feilen med å innrømme at mynten er rigget selv om den ikke er det, er lik den binomiale sannsynligheten for å ha 25 eller flere "treff" i en serie på 30 Bernoulli-forsøk med sannsynlighet for "suksess" 0,5 i hver, da: 0,0002, siden det er en mulighet, selv om det er usannsynlig, at prøven gir oss mer enn 25 hoder uten å ha vært den riggede mynten.

Testprosedyrer

En testprosedyre er en regel basert på eksempeldata for å avgjøre om den skal avvises .

Eksempel En test på : p = 0,10 mot : p < 0,10 kan være basert på å undersøke et tilfeldig utvalg av n = 200 objekter. La X representere antall defekte objekter i utvalget, en binomial tilfeldig variabel ; x representerer den observerte verdien av X. Hvis den er sann, er E(X) = np = 200*(0,10) = 20, mens vi kan forvente mindre enn 20 defekte objekter hvis det er sant. En verdi på x litt under 20 motsier ikke sterkt, så det er rimelig å avvise bare hvis x er betydelig mindre enn 20. En testprosedyre er å avvise hvis x≤15 og ikke avvise ellers. I dette tilfellet er avvisningsområdet dannet av x = 0, 1, 2, ... og 15. Det vil ikke bli avvist hvis x = 16, 17, ..., 199 eller 200.

En testprosedyre er spesifisert av følgende:

  1. En teststatistikk: en funksjon av prøvedataene som beslutningen om å avvise eller ikke avvise er basert på .
  2. En avvisningsregion, settet med alle verdier av teststatistikken som den vil bli avvist for.

Deretter vil nullhypotesen bli forkastet hvis og bare hvis den observerte eller beregnede verdien av teststatistikken faller i avvisningsområdet

I beste fall kan det utvikles testprosedyrer der ingen feil er mulig. Men dette kan bare oppnås hvis en beslutning er basert på en undersøkelse av hele befolkningen, noe som nesten aldri er praktisk. Vanskeligheten med å bruke en prosedyre basert på prøvedata er at på grunn av variasjon i prøvetakingen kan det oppstå et ikke-representativt utvalg.

En god prosedyre er en hvor sannsynligheten for å gjøre en hvilken som helst type feil er liten. Å velge en bestemt avvisningsregions grenseverdi fikser sannsynlighetene for type I og type II feil. Disse feilsannsynlighetene er representert med henholdsvis α og β.

Nåværende tilnærming til hypotesetesting

Den nåværende tilnærmingen vurderer alltid en alternativ hypotese til nullhypotesen. Eksplisitt eller implisitt blir nullhypotesen, som vanligvis betegnes med , konfrontert med en annen hypotese som vi vil kalle alternativhypotesen og som betegnes . I de tilfellene hvor det ikke er spesifisert eksplisitt, kan vi vurdere at det er implisitt definert som " er usann".

Hvis vi for eksempel ønsker å teste hypotesen om at to fordelinger har samme gjennomsnitt, vurderer vi implisitt «begge populasjoner har forskjellig gjennomsnitt» som en alternativ hypotese. Vi kan imidlertid vurdere tilfeller der det ikke er den enkle negasjonen av . La oss for eksempel anta at vi mistenker at i et sjansespill med en terning, er den rigget for å oppnå 6. Nullhypotesen vår kan være «terningen er ikke rigget» som vi vil prøve å sette sammen, basert på en prøve. av foretatte kast, mot hypotesealternativet "terningen er endret til fordel for 6". Det kan stilles andre hypoteser, men for formålet med studien som skal gjennomføres, anses de ikke som relevante.

En hypotesetest forstås i den moderne tilnærmingen som en funksjon av utvalget, vanligvis basert på en statistikk . La oss anta at vi har et utvalg av en populasjon under undersøkelse og at vi har formulert hypoteser om en parameter knyttet til den statistiske fordelingen av populasjonen. Anta at vi har en statistikk hvis fordeling med hensyn til , er kjent. Anta også at null- og alternativhypotesene har følgende formulering:

En kontrast , bevis eller test for disse hypotesene vil være en funksjon av prøven på følgende måte:

Where betyr at vi må forkaste nullhypotesen, (aksepterer ) og , som vi må akseptere (eller at det ikke finnes statistiske bevis mot ). A kalles avvisningsregionen. I hovedsak, for å bygge den ønskede testen, er det nok å velge kontraststatistikken og avvisningsregionen .

Den er valgt på en slik måte at sannsynligheten for at T(X) faller inni den er lav når .

Feil i kontrast

Når hypotesetesten er utført, vil en av de to hypotesene ha blitt valgt, eller , og den valgte avgjørelsen vil sammenfalle eller ikke med den som faktisk er sann. De fire tilfellene vist i følgende tabell kan forekomme:

det er sant det er sant
ble valgt det er ingen feil Type II feil
ble valgt Type I feil det er ingen feil

Hvis sannsynligheten for å begå en type I-feil er unikt bestemt, er verdien vanligvis betegnet med den greske bokstaven α, og under de samme forholdene er sannsynligheten for å begå en type II-feil betegnet med β, det vil si:

I dette tilfellet kalles kontrastens kraft verdien 1-β, det vil si sannsynligheten for å velge når den er sann

.

Når det er nødvendig å designe en hypotesetest, vil det være ønskelig å gjøre det på en slik måte at sannsynlighetene for begge typer feil er så små som mulig. Men med en fast utvalgsstørrelse vil reduksjon av sannsynligheten for type I-feilen, α, føre til å øke sannsynligheten for type II-feilen, β.

Kontraster er vanligvis utformet på en slik måte at sannsynligheten α er 5 % (0,05), selv om 10 % (0,1) eller 1 % (0,01) noen ganger brukes for å innta mer avslappede forhold eller strengere. Ressursen for å øke kraften til kontrasten, det vil si å redusere β, sannsynligheten for type II feil, er å øke prøvestørrelsen , noe som i praksis fører til en økning i kostnadene for studien som skal gjennomføres.

Sterkere kontrast

Maktbegrepet lar oss vurdere hvilken av to kontraster med samme type I feilsannsynlighet, α, som er å foretrekke. Hvis det handler om å kontrastere to enkle hypoteser om en ukjent parameter, θ, av typen:

Det handler om å velge blant alle mulige kontraster med et prefiks α den som har størst kraft, det vil si den laveste sannsynligheten β for å pådra seg type II-feilen.

I dette tilfellet garanterer Neyman-Pearson Lemma eksistensen av en maksimal kraftkontrast og bestemmer hvordan den skal konstrueres.

Ensartet sterkere kontrast

I tilfelle hypotesene er sammensatte , det vil si at de ikke er begrenset til å spesifisere en enkelt mulig verdi av parameteren, men er av typen:

hvor og er sett med flere mulige verdier, er sannsynlighetene α og β ikke lenger unikt bestemt, men vil ta forskjellige verdier i henhold til de forskjellige mulige verdiene av θ. I dette tilfellet sies en kontrast å ha størrelse α if

det vil si hvis den maksimale sannsynligheten for å begå en type I feil når nullhypotesen er sann er α. Under disse omstendighetene kan β betraktes som en funksjon av θ, siden for hver mulig verdi av θ i den alternative hypotesen vil det være en annen sannsynlighet for å begå en type II feil. Den definerer

kontrasteffektfunksjonen , og type II feilsannsynligheten er da

det vil si sannsynligheten for å akseptere nullhypotesen for hver mulig verdi av θ innenfor de mulige verdiene for den alternative hypotesen.g

En kontrast sies å være jevnt sterkere av størrelsen α når den for hver verdi er større enn eller lik enhver annen kontrast av samme størrelse. Kort fortalt er det en test som garanterer maksimal effekt for alle verdier av θ i den alternative hypotesen.

Det er klart at tilfellet med den jevnt sterkeste testen for sammensatte hypoteser krever oppfyllelse av mer krevende betingelser enn i tilfellet med den sterkeste testen for enkle hypoteser. Derfor er det ingen ekvivalent til Neyman-Pearson Lemma for den generelle saken.

Imidlertid er det mange forhold der, gitt visse egenskaper ved sannsynlighetsfordelingene involvert og for visse typer hypoteser, Lemma kan utvides for å oppnå den mest jevne kraftige kontrasten av ønsket størrelse.

Anvendelser av hypotesetester

Hypotese tester, som statistisk slutning generelt, er mye brukte verktøy i vitenskap generelt. Spesielt utvikler moderne vitenskapsfilosofi konseptet om falsifiserbarhet av vitenskapelige teorier basert på begrepene statistisk slutning generelt og hypotesetesting. Når man i denne sammenhengen ønsker å velge mellom to mulige vitenskapelige teorier for samme fenomen (to hypoteser), må det gjennomføres en statistisk kontrast basert på tilgjengelige data om fenomenet som gjør at man kan velge det ene eller det andre.

Hypotesetestingsteknikker er også allment anvendelige i mange andre tilfeller, for eksempel kliniske utprøvinger av nye medisiner , kvalitetskontroll , undersøkelser , etc.

Statistiske tester

Navn Formel Karakterer
z-test for én prøve (Normalfordelt populasjon eller n > 30) og kjent σ.

( z er avstanden fra gjennomsnittet i forhold til standardavviket til gjennomsnittet). For ikke-normalfordelinger er det mulig å beregne en minimumsandel av en populasjon som faller innenfor k standardavvik for enhver k .

z-test for to prøver Normal populasjon og uavhengige observasjoner med kjente σ 1 og σ 2
En prøve t-test

(Normal befolkning eller n < 30) og ukjent
paret t-test

(Normal populasjon av forskjeller eller n < 30) og ukjent eller liten prøvestørrelse n < 30
To-prøver sammenslått t-test , like varianser


[ 1 ]

(normale populasjoner eller n 1  +  n 2  > 40) og uavhengige observasjoner og σ 1 = σ 2 ukjent
To-utvalgs ukombinert t-test, ulik varians

[ 1 ]

(normale populasjoner eller n 1  +  n 2  > 40) og uavhengige observasjoner og σ 1 ≠ σ 2 begge ukjente
En proporsjon z-test n . p 0 > 10 og n (1 −  p 0 ) > 10 og er et enkelt tilfeldig utvalg, se binomialfordeling .
To proporsjoner z-test, kombinert med

n 1 p 1 > 5 og n 1 (1 −  p 1 ) > 5 og n 2 p 2  > 5 og n 2 (1 −  p 2 ) > 5 og uavhengige observasjoner, se normal tilnærming til binomialfordelingen.
To proporsjoner z-test, dekombinert med n 1 p 1 > 5 og n 1 (1 −  p 1 ) > 5 og n 2 p 2  > 5 og n 2 (1 −  p 2 ) > 5 og uavhengige observasjoner, se normal tilnærming til binomialfordelingen.
Chi square test for varians normal befolkning
Chi square test for god passform df = k - 1 - # estimerte parametere , og en av dem må være til stede.
Snedecors F -test for to prøver for varianslikhet Normale populasjoner
tilfredsstiller og avviser H 0 for [ 2 ]
Regresjonstest t-test av *Strekk fra 1 for avhengig variabel; k er antall uavhengige variabler.
Avvis H 0 for [ 3 ]
Generelt angir den nedskrevne 0 en gitt verdi av nullhypotesen , H 0 , som bør brukes så mye som mulig i konstruksjonen av den statistiske testen. ... Definisjoner av andre symboler:
  • , sannsynligheten for type I-feil (avvisning av en nullhypotese når den faktisk er sann)
  • = prøvestørrelse
  • = prøvestørrelse 1
  • = prøvestørrelse 2
  • = prøvegjennomsnitt _
  • = hypotetisk populasjonsgjennomsnitt
  • = gjennomsnitt av befolkning 1
  • = befolkningsgjennomsnitt 2
  • = befolkningsavvik
  • = populasjonsvarians
  • = Prøvestandardavvik
  • = Sum (av k tall)
  • = utvalgsvarians
  • = Standardavvik for prøve 1
  • = Standardavvik for prøve 2
  • = Elevens t-test
  • = frihetsgrader
  • = Forskjeller mellom gjennomsnittene for prøvene
  • = Forskjellen til de hypotetiske populasjonsmidler
  • = Forskjeller av standardavvikene
  • = Chi-kvadratstatistikk
  • = x/n = prøve/proporsjonsforhold, med mindre annet er spesifisert
  • = andel av den hypotetiske populasjonen
  • = proporsjon 1
  • = proporsjon 2
  • = Hypotetisk forskjell i forhold
  • = Minimum n 1 og n 2
  • = F-statistikk

Se også

Referanser

  1. a b NIST-håndbok: Two-Sample t-Test for Equal Means
  2. NIST-håndbok: F-test for likestilling av to standardavvik (testing av standardavvik på samme måte som testavvik)
  3. Steel, RGD, og ​​Torrie, JH, Prinsipper og prosedyrer for statistikk med spesiell referanse til biologiske vitenskaper. , McGraw-Hill , 1960, side 288.)

Eksterne lenker