Sådan testdata Normalitet i en formel måde i R

De grafiske metoder til kontrol af data normalitet i R stadig lader meget til din egen fortolkning. Der er megen diskussion i den statistiske verden om betydningen af ​​disse grunde, og hvad der kan ses som normalt.

Hvis du viser nogen af ​​disse grunde til ti forskellige statistikere, kan du få ti forskellige svar. Det er noget af en bedrift, når du forventer et simpelt ja eller nej, men statistikere gør ikke enkle svar.

Tværtimod kredser alt i statistikken omkring måling usikkerhed. Usikkerheden er sammenfattet i en sandsynlighed - ofte kaldet en p-værdi - og til at beregne denne sandsynlighed, du har brug for en formel test.

Sandsynligvis den mest udbredte test for normalitet er Shapiro-Wilks test. Funktionen til at udføre denne test, bekvemt kaldet shapiro.test (), kunne ikke være nemmere at bruge. Du giver prøven som det eneste argument, som i følgende eksempel:

> Shapiro.test (beaver2 $ temp)
Shapiro-Wilks normalitet test
data: beaver2 $ temp
W = 0,9334, p-værdi = 7.764e-05

Denne funktion returnerer en liste objekt, og p-værdien er indeholdt i et element kaldet p.value. Så for eksempel, kan man udvinde p-værdi blot ved hjælp af følgende kode:

> Resultat <- shapiro.test (beaver2 $ temp)
> Resultat $ p.value
[1] 7.763782e-05

Denne p-værdi fortæller dig, hvad chancerne er, at prøven stammer fra en normalfordeling. Jo lavere denne værdi er, desto mindre chance. Statistikere bruger typisk en værdi på 0,05 som en cutoff, så når p-værdien er mindre end 0,05, kan du konkludere, at prøven afviger fra normalitet.

I det foregående eksempel, p-værdien er klart lavere end 0,05 - og det burde ikke komme som en overraskelse; fordelingen af ​​temperaturen viser to separate toppe. Det er ikke noget som The Bell Curve af en normalfordeling.

Når du vælger en test, kan du være mere interesseret i normalitet i hver prøve. Du kan teste begge prøver i en linje ved hjælp af tapply () funktion, som dette:

> Med (bæver, tapply (temp, Activ, shapiro.test)

Denne kode returnerer resultaterne af en Shapiro-Wilks test af temperaturen for hver gruppe er angivet af den variable activ.

Folk ofte henviser til Kolmogorov-Smirnov test til test normalitet. Du udfører testen ved hjælp af ks.test () funktionen i bunden R. Men dette R-funktionen er ikke egnet til at teste afvigelse fra normalitet; du kan kun bruge den til at sammenligne forskellige distributioner.


© 2021 Zajacperrone.com | Contact us: webmaster# zajacperrone.com