Sådan oprettes undergrupper af data i F

Snittet () funktionen i R skaber siloer af samme størrelse (som standard) i dine data og derefter klassificerer hvert element i sin passende bin.

Hvis dette lyder som en mundfuld, så fortvivl ikke. Et par eksempler bør gøre dette kommer til livet.

Sådan bruges skåret til at skabe et fast antal undergrupper

For at illustrere brugen af ​​cut (), har et kig på den indbyggede datasæt state.x77, et array med flere søjler og en række for hver stat i USA:

> Hoved (state.x77)
Befolkning Indkomst Analfabetisme Life Exp Murder HS Grad Frost Area
Alabama 3615 3624 2,1 69,05 15,1 41,3 20 50708
Alaska 365 6315 1,5 69,31 11,3 66,7 152 566432
Arizona 2212 4530 1,8 70,55 7,8 58,1 15 113417
Arkansas 2110 3378 1,9 70,66 10,1 39,9 65 51945
California 21198 5114 1,1 71,71 10,3 62,6 20 156361
Colorado 2541 4884 0,7 72,06 6,8 63,9 166 103766

Du vil arbejde med kolonnen hedder Frost. For at udvinde denne kolonne, skal du prøve følgende:

> Frost <- state.x77 [, "Frost"]
> Hoved (frost, 5)
Alabama Alaska Arizona Arkansas Californien
20 152 15 65 20

Du har nu et nyt objekt, frost, en navngiven numerisk vektor. Brug nu cut () til at oprette tre placeringer i dine data:

> Cut (frost, 3, include.lowest = TRUE)
[1] [-0.188,62.6] (125.188] [-0.188,62.6] (62.6,125]
[5] [-0.188,62.6] (125.188] (125.188] (62.6,125]
....
[45] (125188] (62.6,125] [-0.188,62.6] (62.6,125]
[49] (125188] (125188]
Niveauer: [-0.188,62.6] (62.6,125] (125188]

Resultatet er en faktor med tre niveauer. Navnene på de niveauer synes en smule kompliceret, men de fortæller dig i matematisk sæt notation hvad grænserne for dine placeringer er. For eksempel er den første bin indeholder de stater, der har frost mellem -0,188 og 62,8 dage.

I virkeligheden, selvfølgelig, vil ingen af ​​staterne har frost på negative dage - R er at være matematisk konservativ og tilføjer en smule polstring.

Bemærk argument include.lowest = TRUE at skære (). Standardværdien for dette argument er include.lowest = FALSE, hvilket undertiden kan forårsage R for at ignorere den laveste værdi i dine data.

Hvordan at tilføje etiketter til at skære

Navnene niveau er ikke meget brugervenlig, så angiv nogle bedre navne med etiketter argument:

> Cut (frost, 3, include.lowest = TRUE, etiketter = c ("Low", "Med", "Høj"))
[1] Lav Høj Lav Med Lav Høj Høj Med Lav Lav Lav
....
[45] Høj Med Lav Med Høj Høj
Niveauer: Lav Med Høj

Nu har du en faktor, der klassificerer stater i lav, medium og høj, afhængigt af antallet af dage med frost, de får.

Sådan bruger tabellen til at tælle antallet af observationer

Et interessant stykke analyse er at tælle, hvor mange stater er i hvert beslag. Du kan gøre dette med tabellen () funktion, som blot tæller antallet af observationer i hvert niveau for din faktor.

> X <- cut (frost, 3, include.lowest = true, etiketter = c ("Low", "Med", "Høj"))
> Tabel (x)
x
Lav Med Høj
11 19 20


© 2019 Zajacperrone.com | Contact us: webmaster# zajacperrone.com