I sannsynlighetsteori er variansen eller variansen (som vanligvis representeres som ) til en tilfeldig variabel et mål på spredning definert som forventningen til kvadratet av avviket til nevnte variabel i forhold til gjennomsnittet. Dens måleenhet tilsvarer kvadratet på måleenheten til variabelen: for eksempel, hvis variabelen måler en avstand i meter, uttrykkes variansen i meter i kvadrat. Variansen har en minimumsverdi på 0. Standardavviket ( positiv kvadratrot av variansen) er et alternativt mål på spredning, uttrykt i samme enheter som dataene til variabelen som studeres.
Husk at variansen i stor grad kan påvirkes av uteliggere , og bruken av den anbefales ikke når fordelingene av de tilfeldige variablene har tunge haler. I slike tilfeller anbefales bruk av andre mer robuste spredningsmål .
Begrepet varians ble laget av Ronald Fisher i en artikkel publisert i januar 1919 under tittelen The Correlation Between Relatives on the supposition of Mendelian Inheritance . [ 1 ]
Deretter vil det bli foretatt en gjennomgang av formlene, det må tas i betraktning at formelen for variansen for en populasjon (σ 2 ) er forskjellig fra formelen for variansen for en prøve (s 2 ), Men før man ser formelen av variansen må vi si at variansen i statistikken er veldig viktig. Siden selv om det er et enkelt mål, kan det gi mye informasjon om en bestemt variabel.
Måleenheten for variansen vil alltid være den måleenheten som tilsvarer dataene, men i annen. Variansen er alltid større enn eller lik null. Når residualene kvadreres, er det matematisk umulig for variansen å komme ut negativ. Så det kan ikke være mindre enn null.
La være en tilfeldig variabel med gjennomsnitt , vi definerer variansen til den tilfeldige variabelen , betegnet med , eller ganske enkelt som
Ved å utvide definisjonen ovenfor, oppnås følgende alternative (og ekvivalente) definisjon:
Hvis en fordeling er håpløs, slik tilfellet er med Cauchy -fordelingen , har den heller ingen varians. Det er andre distribusjoner som, selv om de har håp, mangler varians. Et eksempel på dem er Pareto når indeksen tilfredsstiller .
Hvis den tilfeldige variabelen er kontinuerlig med tetthetsfunksjon da
hvor
og integralene er definert på støtte av den tilfeldige variabelen , det vil si .
Hvis den tilfeldige variabelen er diskret med sannsynlighetsfunksjon da
hvor
La og være to tilfeldige variabler med endelig varians og
La oss gi dem verdiene Head = 0 og Shield = 1 , og vi har en tilfeldig variabel "X":
Bruke matematisk notasjon:
X = {0, 1}
Merk: Vi kan velge Head = 100 og Shield = 150 eller andre verdier hvis vi vil! Det er vårt valg. Deretter:
Hvis en kontinuerlig tilfeldig variabel har en eksponentiell fordeling med parameter , er dens tetthetsfunksjon gitt av
for .
Det er ikke vanskelig å se at gjennomsnittet av er , så for å finne variansen beregner vi
Etter integrering kan det konkluderes med at
En sekssidig terning kan representeres som en diskret tilfeldig variabel som tar verdier fra 1 til 6 med sannsynlighet lik 1/6 . Forventet verdi er (1+2+3+4+5+6)/6 = 3,5. Derfor er variansen:
I mange situasjoner er det nødvendig å estimere populasjonsvariasjonen fra et utvalg . Hvis en prøve tas med erstatningsverdier fra den, av alle mulige estimatorer av variansen til startpopulasjonen , er det to i vanlig bruk
Den første av dem
som kan skrives som
vi vil
og den andre er
som kan skrives som
vi vil
Begge kalles prøvevariansen , de skiller seg litt, og for store verdier på , er forskjellen irrelevant. Den første oversetter variansen til utvalget direkte til variansen til populasjonen, og den andre er en objektiv estimator av populasjonsvariansen siden
samtidig som
Som en konsekvens av likhet er en objektiv statistikk over . Videre, hvis de nødvendige betingelsene for loven om store tall er oppfylt , er s 2 en konsistent estimator av .
Videre, når prøvene følger en normalfordeling , ved Cochrans teorem , har den chi-kvadratfordelingen :
Vi lar tre ekvivalente formler for beregning av utvalgsvariansen
Denne siste likheten er av interesse for å tolke estimatorene og , fordi hvis du ønsker å evaluere avviket til noen data eller forskjellene deres, kan du velge å beregne gjennomsnittet av kvadratene av forskjellene til hvert datapar:
. Merk at antall tillegg er .Eller du kan vurdere gjennomsnittet av kvadratene av forskjellene til hvert datapar uten å vurdere hver data med seg selv, nå er antallet tillegg .
De statistiske anvendelsene av variansbegrepet er utallige. Følgende er bare noen av de viktigste:
I variansanalysen studeres de signifikante forskjellene mellom to eller flere gjennomsnitt av en prøve. Denne analysen er vanligvis kjent som ANOVA, og den lar oss også bestemme om disse midlene kommer fra samme populasjon (det kan være det totale antallet ansatte i et selskap), eller om middelet til to populasjoner er det samme.
På den annen side er variansen så vel som standardavviket veldig følsomme for uteliggere, dette er verdiene som er langt fra gjennomsnittet eller som er veldig forskjellige fra det.
For at disse målene ikke skal påvirkes like mye, kan disse uteliggere ignoreres når du utfører analysene og til og med beregningene. Andre spredningsmål som er mer nyttige i disse tilfellene kan også brukes.
Ved å analysere risikoen ved en investering tas det hensyn til to viktige aspekter, det ene er den investerte avkastningen og det andre er forventet avkastning i henhold til investeringen som er foretatt. Som allerede nevnt kan varians brukes til å analysere denne risikoen.