Forskjell

I sannsynlighetsteori er variansen eller variansen (som vanligvis representeres som ) til en tilfeldig variabel et mål på spredning definert som forventningen til kvadratet av avviket til nevnte variabel i forhold til gjennomsnittet. Dens måleenhet tilsvarer kvadratet på måleenheten til variabelen: for eksempel, hvis variabelen måler en avstand i meter, uttrykkes variansen i meter i kvadrat. Variansen har en minimumsverdi på 0. Standardavviket ( positiv kvadratrot av variansen) er et alternativt mål på spredning, uttrykt i samme enheter som dataene til variabelen som studeres. $\sigma^2$

Husk at variansen i stor grad kan påvirkes av uteliggere , og bruken av den anbefales ikke når fordelingene av de tilfeldige variablene har tunge haler. I slike tilfeller anbefales bruk av andre mer robuste spredningsmål .

Begrepet varians ble laget av Ronald Fisher i en artikkel publisert i januar 1919 under tittelen The Correlation Between Relatives on the supposition of Mendelian Inheritance . [ 1 ]

Deretter vil det bli foretatt en gjennomgang av formlene, det må tas i betraktning at formelen for variansen for en populasjon (σ 2 ) er forskjellig fra formelen for variansen for en prøve (s 2 ), Men før man ser formelen av variansen må vi si at variansen i statistikken er veldig viktig. Siden selv om det er et enkelt mål, kan det gi mye informasjon om en bestemt variabel.

Formel for beregning av varians

Måleenheten for variansen vil alltid være den måleenheten som tilsvarer dataene, men i annen. Variansen er alltid større enn eller lik null. Når residualene kvadreres, er det matematisk umulig for variansen å komme ut negativ. Så det kan ikke være mindre enn null.

La være en tilfeldig variabel med gjennomsnitt , vi definerer variansen til den tilfeldige variabelen , betegnet med , eller ganske enkelt som $X$ $\mu =\operatørnavn {E} (X)$ $X$ $\operatørnavn {Var} (X)$ $\sigmaX}^{2}$ $\sigma<2}$

\operatørnavn {Var} (X)=\operatørnavn {E} [(X-\mu )^{2}]

Ved å utvide definisjonen ovenfor, oppnås følgende alternative (og ekvivalente) definisjon:

{\begin{aligned}\operatørnavn {Var} (X)&=\operatørnavn {E} [(X-\mu )^{2}]\\&=\operatørnavn {E} [(X^{ 2}-2X\mu +\mu<2})]\\&=\operatørnavn {E} [X^{2}]-2\mu \operatørnavn {E} [X]+\mu<2} \\ &=\operatørnavn {E} [X^{2}]-2\mu 2}+\mu 2}\\&=\operatørnavn {E} [X^{2}]-\mu 2}\\&= \operatørnavn {E} [X^{2}]-\operatørnavn {E} 2}[X]\end{justert}}

Hvis en fordeling er håpløs, slik tilfellet er med Cauchy -fordelingen , har den heller ingen varians. Det er andre distribusjoner som, selv om de har håp, mangler varians. Et eksempel på dem er Pareto når indeksen tilfredsstiller . $k$ $1<k\leq 2$

Fortsatt sak

Hvis den tilfeldige variabelen er kontinuerlig med tetthetsfunksjon da $X$ $f(x)$

\operatorname {Var} (X)=\int​​R_{X}}(x-\mu )^{2}f(x)dx

hvor

\mu =\operatørnavn {E} [X]=\int{R_{X}}xf(x)dx

og integralene er definert på støtte av den tilfeldige variabelen , det vil si . $X$ $R_{X}$

Diskret sak

Hvis den tilfeldige variabelen er diskret med sannsynlighetsfunksjon da $X$ $\operatørnavn {P} [X=x]$

\operatørnavn {Var} (X)=\sum​​x\in R_{X}}(x-\mu )^{2}\operatørnavn {P} [X=x]

hvor

\mu =\operatørnavn {E} [X]=\sum​​x\in R_{X}}x\operatørnavn {P} [X=x]

Egenskaper

La og være to tilfeldige variabler med endelig varians og $X$ $Y$ $a\in \mathbb {R}$

$\operatørnavn {Var} (X)\geq 0$
$\operatørnavn {Var} (a)=0$
$\operatørnavn {Var} (aX)=a^{2}\operatørnavn {Var} (X)$
$\operatørnavn {Var} (X+Y)=\operatørnavn {Var} (X)+\operatørnavn {Var} (Y)+2\operatørnavn {Cov} (X,Y)$ , hvor angir kovariansen til f.eks $\operatørnavn {Cov} (X,Y)$ $X$ $Y$
$\operatørnavn {Var} (X+Y)=\operatørnavn {Var} (X)+\operatørnavn {Var} (Y)$ hvis og er uavhengige tilfeldige variabler. $X$ $Y$
$\operatørnavn {Var} (Y)=\operatørnavn {E} (\operatørnavn {Var} (Y|X))+\operatørnavn {Var} (\operatørnavn {E} (Y|X))$ Pythagoras variansberegning, hvor er den gitte betingede tilfeldige variabelen . $Y|X$ $Y$ $X$

Eksempler

Når vi kaster en mynt, kan vi få hoder eller skjold.

La oss gi dem verdiene Head = 0 og Shield = 1 , og vi har en tilfeldig variabel "X":

Bruke matematisk notasjon:

X = {0, 1}

Merk: Vi kan velge Head = 100 og Shield = 150 eller andre verdier hvis vi vil! Det er vårt valg. Deretter:

Vi har et eksperiment (som å kaste en mynt)
Vi gir verdier til hvert arrangement.
Settet med verdier danner den tilfeldige variabelen

Eksponentialfordeling

Hvis en kontinuerlig tilfeldig variabel har en eksponentiell fordeling med parameter , er dens tetthetsfunksjon gitt av $X$ $\lambda$

f_{X}(x)=\lambda e^{-\lambda x}

for . $x\geq 0$

Det er ikke vanskelig å se at gjennomsnittet av er , så for å finne variansen beregner vi $X$ $\operatørnavn {E} [X]=1/\lambda$

{\begin{aligned}\operatørnavn {Var} (X)&=\int{0}^{\infty }\left(x-{\frac {1}{\lambda }}\right)^ { 2}\lambda e^{-\lambda x}dx\end{aligned}}

Etter integrering kan det konkluderes med at

\operatorname {Var} (X)={\frac {1}{\lambda{2}}}

Perfekt die

En sekssidig terning kan representeres som en diskret tilfeldig variabel som tar verdier fra 1 til 6 med sannsynlighet lik 1/6 . Forventet verdi er (1+2+3+4+5+6)/6 = 3,5. Derfor er variansen:

\sum_{i=1}^6 \tfrac{1}{6} (i - 3,5)^2 = \tfrac{1}{6}\left((-2,5)^2{+}( -1,5)^ 2{+}(-0,5)^2{+}0,5^2{+}1,5^2{+}2,5^2\right) = \tfrac{1 }{6} \cdot 17,50 = \tfrac{35}{ 12} \ca. 2,92\,.

Eksempelavvik

I mange situasjoner er det nødvendig å estimere populasjonsvariasjonen fra et utvalg . Hvis en prøve tas med erstatningsverdier fra den, av alle mulige estimatorer av variansen til startpopulasjonen , er det to i vanlig bruk $(x_{1},x_{2}\dots ,x_{n})$ $n$

Den første av dem

s_{n}^{2}={\frac {1}{n}}\sum​​i=1}^{n}\left(x_{i}-{\bar {x}}\ høyre)^{2}

som kan skrives som

s_{n}^{2}={\frac {1}{n}}\sum​​i=1}^{n}x_{i}^{2}-{\bar {x}} 2

vi vil

{\begin{aligned}s_{n}^{2}&={\frac {1}{n}}\sum​​i=1}^{n}\left(x_{i}-{ \overline {x}}\right)^{2}\\&={\frac {1}{n}}\sum​​i=1}^{n}\left(x_{i}^{2} -2x_{i}{\overline {x}}+{\overline {x}}^{2}\right)\\&={\frac {1}{n}}\sum i=1}^ {n }x_{i}^{2}-{\frac {2{\overline {x}}}{n}}\sum​​i=1}^{n}x_{i}+{\overline { x} }^{2}{\frac {1}{n}}\sum i=1}^{n}1\\&={\frac {1}{n}}\sum i= 1}^{n} x_{i}^{2}-2{\overline {x}}^{2}+{\overline {x}}^{2}\\&={\frac {1}{ n}}\sum{ i=1}^{n}x_{i}^{2}-{\overline {x}}^{2}\end{aligned}}

og den andre er

s^{2}={\frac {1}{n-1}}\sum​​i=1}^{n}\left(x_{i}-{\overline {x}}\right )^{2}

som kan skrives som

s^{2}={\frac {\sum​​i=1}^{n}x_{i}^{2}-n{\overline {x}}^{2}}{n- 1}}

vi vil

{\begin{aligned}s^{2}&={\frac {1}{n-1}}\sum​​i=1}^{n}\left(x_{i}-{\ overlinje {x}}\right)^{2}\\&={\frac {1}{n-1}}\sum​​i=1}^{n}\left(x_{i}^{2 }-2x_{i}{\overline {x}}+{\overline {x}}^{2}\right)\\&={\frac {1}{n-1}}\sum i= 1} ^{n}x_{i}^{2}-{\frac {2{\overline {x}}}{n-1}}\sum i=1}^{n}x_{i} +{\frac {{\overline {x}}^{2}}{n-1}}\sum i=1}^{n}1\\&={\frac {1}{n-1 }}\sum{i =1}^{n}x_{i}^{2}-{\frac {2{\overline {x}}n}{n-1}}{\frac {1}{ n}}\sum{i =1}^{n}x_{i}+{\frac {{\overline {x}}^{2}n}{n-1}}\\&={\frac {1}{n-1} }\sum i=1}^{n}x_{i}^{2}-{\frac {2{\overline {x}}^{2}n}{n -1}}+{\frac {{ \overline {x}}^{2}n}{n-1}}\\&={\frac {1}{n-1}}\sum i= 1}^{n}x_{i}^{ 2}-{\frac {{\overline {x}}^{2}n}{n-1}}\\&={\frac {\sum​​ i=1}^{n}x_{i} ^{2}-n{\overline {x}}^{2}}{n-1}}\end{aligned}}

Begge kalles prøvevariansen , de skiller seg litt, og for store verdier på , er forskjellen irrelevant. Den første oversetter variansen til utvalget direkte til variansen til populasjonen, og den andre er en objektiv estimator av populasjonsvariansen siden $n$

{\begin{aligned}\operatørnavn {E} [s^{2}]&=\operatørnavn {E} \left[{\frac {1}{n-1}}\sum​​i=1 }^{n}x_{i}^{2}-{\frac {n}{n-1}}{\overline {x}}^{2}\right]\\&={\frac {1} {n-1}}\left(\sum​​i=1}^{n}\operatørnavn {E} [x_{i}^{2}]-n\operatørnavn {E} [{\bar {x} }^{2}]\right)\\&={\frac {1}{n-1}}\left(n\operatørnavn {E} [x_{1}^{2}]-n\operatørnavn {E } [{\overline {x}}^{2}]\right)\\&={\frac {n}{n-1}}\left(\operatørnavn {Var} (x_{1})+\operatørnavn {E} [x_{1}]^{2}-\operatørnavn {Var} ({\overline {x}})-\operatørnavn {E} [{\overline {x}}]^{2}\right) \\&={\frac {n}{n-1}}\left(\operatørnavn {Var} (x_{1})+\mu<2}-{\frac {1}{n}}\operatørnavn { Var} (x_{1})-\mu 2}\right)\\&={\frac {n}{n-1}}\left({\frac {n-1}{n}} ~\operatørnavn {Var} (x_{1})\right)\\&=\operatørnavn {Var} (x_{1})\\&=\sigma{2}\end{aligned}}

samtidig som

E[s_n^2] = \frac{n-1}{n} \sigma^2

Egenskaper for prøvevariansen

Som en konsekvens av likhet er en objektiv statistikk over . Videre, hvis de nødvendige betingelsene for loven om store tall er oppfylt , er s 2 en konsistent estimator av . $\operatørnavn{E}(s^2)=\sigma^2$ $s^{2}$ $\sigma^2$ $\sigma^2$

Videre, når prøvene følger en normalfordeling , ved Cochrans teorem , har den chi-kvadratfordelingen : $s^2$

n{\frac {s^{2}}{\sigma<2}}}\sim \chi{n-1}^{2}.

Tolkninger av prøvevariansen

Vi lar tre ekvivalente formler for beregning av utvalgsvariansen $s_{n}$

s_{n}^{2}={\frac {1}{n}}\sum​​i=1}^{n}\left(y_{i}-{\overline {y}}\ høyre)^{2}=\left({\frac {1}{n}}\sum i=1}^{n}y_{i}^{2}\right)-{\overline {y} }^ {2}={\frac {1}{n^{2}}}\sum​​i<j}\left(y_{i}-y_{j}\right)^{2}

Denne siste likheten er av interesse for å tolke estimatorene og , fordi hvis du ønsker å evaluere avviket til noen data eller forskjellene deres, kan du velge å beregne gjennomsnittet av kvadratene av forskjellene til hvert datapar: $s^{2}$ $s_{n}^{2}$

2s_{n}^{2}={\frac {\sum​​\left(i\leqslant n,j\leqslant n\right)}\left(y_{i}-y_{j}\right )^{2}}{n^{2}}}

. Merk at antall tillegg er .

n^{2}

Eller du kan vurdere gjennomsnittet av kvadratene av forskjellene til hvert datapar uten å vurdere hver data med seg selv, nå er antallet tillegg . $n\left(n-1\right)$

2s^{2}={\frac {\sum​​i\neq j}\left(y_{i}-y_{j}\right)^{2}}{n\left(n-1 \Ikke sant)}}

Noen applikasjoner av variasjon

De statistiske anvendelsene av variansbegrepet er utallige. Følgende er bare noen av de viktigste:

effektive estimatorer. De er de hvis forventning er den sanne verdien av parameteren og i tillegg har en minimum varians. På denne måten gjør vi så liten som mulig risikoen for at det vi trekker ut fra en prøve avviker for mye fra parameterens sanne verdi.
De konsistente estimatorene. De er de som, ettersom utvalgsstørrelsen vokser, har en tendens til å ha en varians på null. Derfor, med store utvalg, har estimatet en tendens til å avvike svært lite fra den sanne verdien.
I normalfordelingen er variansen (kvadratroten, standardavviket) en av parameterne. Gauss-kurven har en tendens til å bli høyere og smalere ettersom variansen avtar.
I regresjonsmodeller snakker vi om homoskedastisitet når variansen til feilen er konstant gjennom observasjonene. For eksempel, i en enkel regresjon, ser vi en sky av punkter der spredningen av punktene rundt den estimerte linjen eller kurven forblir konstant.
Variansanalysen (ANOVA) lar deg sammenligne ulike grupper og se faktorene som påvirker dem.
Chebyshevs ulikhet lar oss begrense i hvilken grad en tilfeldig variabel sannsynligvis vil avvike fra dens matematiske forventning i forhold til standardavviket (kvadratroten av variansen).

Konklusjon

I variansanalysen studeres de signifikante forskjellene mellom to eller flere gjennomsnitt av en prøve. Denne analysen er vanligvis kjent som ANOVA, og den lar oss også bestemme om disse midlene kommer fra samme populasjon (det kan være det totale antallet ansatte i et selskap), eller om middelet til to populasjoner er det samme.

På den annen side er variansen så vel som standardavviket veldig følsomme for uteliggere, dette er verdiene som er langt fra gjennomsnittet eller som er veldig forskjellige fra det.

For at disse målene ikke skal påvirkes like mye, kan disse uteliggere ignoreres når du utfører analysene og til og med beregningene. Andre spredningsmål som er mer nyttige i disse tilfellene kan også brukes.

Ved å analysere risikoen ved en investering tas det hensyn til to viktige aspekter, det ene er den investerte avkastningen og det andre er forventet avkastning i henhold til investeringen som er foretatt. Som allerede nevnt kan varians brukes til å analysere denne risikoen.

Se også

Referanser

↑ Fisher, R.A. (1919). «The Correlation Between Relatives on the supposition of Mendelian Inheritance » Transactions of the Royal Society of Edinburgh Vol. 52, 02, s. 399-433.

Eksterne lenker

[1] Simulering av variansen til en diskret variabel med R (programmeringsspråk)
[www.solin.16mb.com/estadistica_js/MediayDeviacion.htm] En rettvinklet trekant .