R փաթեթը tidyr և դրա նոր գործառույթները pivot_longer և pivot_wider

Փաթեթ կոկիկ ներառված է R լեզվով ամենատարածված գրադարաններից մեկի առանցքում. կոկիկ.
Փաթեթի հիմնական նպատակը տվյալների ճշգրիտ ձևի բերելն է:

Արդեն հասանելի է Habré-ում հրապարակումը նվիրված այս փաթեթին, սակայն այն թվագրվում է 2015թ. Եվ ես ուզում եմ ձեզ պատմել ամենաարդիական փոփոխությունների մասին, որոնց մասին օրեր առաջ հայտարարեց դրա հեղինակը՝ Հեդլի Ուիքհեմը։

R փաթեթը tidyr և դրա նոր գործառույթները pivot_longer և pivot_wider

SJKԱրդյո՞ք collect()-ը և spread()-ը կհեռացվեն:

Հեդլի Ուիքհեմ: Որոշ չափով. Մենք այլևս խորհուրդ չենք տա օգտագործել այս գործառույթները և ուղղել դրանցում առկա սխալները, սակայն դրանք կշարունակեն ներկա լինել փաթեթում իրենց ներկա վիճակում:

Պարունակություն

Եթե ​​դուք հետաքրքրված եք տվյալների վերլուծությամբ, ապա ձեզ կարող է հետաքրքրել իմը հեռագիր и youtube ալիքներ. Բովանդակության մեծ մասը նվիրված է R լեզվին։

TidyData հայեցակարգ

Նպատակ կոկիկ — օգնում է ձեզ տվյալները բերել այսպես կոչված կոկիկ ձևի: Մաքուր տվյալներն այն տվյալներն են, որտեղ՝

  • Յուրաքանչյուր փոփոխական գտնվում է սյունակում:
  • Յուրաքանչյուր դիտարկում մի լար է:
  • Յուրաքանչյուր արժեք բջիջ է:

Վերլուծություններ կատարելիս շատ ավելի հեշտ և հարմար է աշխատել տվյալների հետ, որոնք ներկայացված են կոկիկ տվյալների մեջ:

Հիմնական գործառույթները ներառված են tidyr փաթեթում

tidyr-ը պարունակում է մի շարք գործառույթներ, որոնք նախատեսված են աղյուսակները փոխակերպելու համար.

  • fill() - լրացնել բաց թողնված արժեքները սյունակում նախորդ արժեքներով.
  • separate() — բաժանում է մի դաշտը մի քանիսի՝ օգտագործելով տարանջատիչ.
  • unite() — կատարում է մի քանի դաշտեր մեկում միավորելու օպերացիա՝ ֆունկցիայի հակադարձ գործողություն separate();
  • pivot_longer() — ֆունկցիա, որը տվյալների լայն ձևաչափից փոխակերպում է երկար ձևաչափի;
  • pivot_wider() - ֆունկցիա, որը փոխակերպում է տվյալները երկար ձևաչափից լայն ձևաչափի: Ֆունկցիայի կողմից կատարվողի հակառակ գործողությունը pivot_longer().
  • gather()հնացած — ֆունկցիա, որը տվյալների լայն ձևաչափից փոխակերպում է երկար ձևաչափի;
  • spread()հնացած - ֆունկցիա, որը փոխակերպում է տվյալները երկար ձևաչափից լայն ձևաչափի: Ֆունկցիայի կողմից կատարվողի հակառակ գործողությունը gather().

Տվյալների լայն ձևաչափից երկար և հակառակը փոխարկելու նոր հայեցակարգ

Նախկինում գործառույթներն օգտագործվում էին այս տեսակի փոխակերպման համար gather() и spread(). Այս գործառույթների գոյության տարիների ընթացքում ակնհայտ դարձավ, որ օգտատերերի մեծամասնության համար, ներառյալ փաթեթի հեղինակը, այս գործառույթների անունները և դրանց փաստարկները այնքան էլ ակնհայտ չէին, և դժվարություններ առաջացրին դրանք գտնելու և հասկանալու, թե այս գործառույթներից որն է փոխակերպում: ամսաթվի շրջանակ լայնից մինչև երկար ձևաչափ և հակառակը:

Այս առումով ին կոկիկ Ավելացվել են երկու նոր, կարևոր գործառույթներ, որոնք նախատեսված են ամսաթվերի շրջանակները փոխակերպելու համար:

Նոր հատկություններ pivot_longer() и pivot_wider() ոգեշնչված էին փաթեթի որոշ առանձնահատկություններից cdata, ստեղծված Ջոն Մաունթի և Նինա Զումելի կողմից։

Tidyr 0.8.3.9000-ի ամենաարդիական տարբերակի տեղադրում

Փաթեթի նոր, ամենաարդիական տարբերակը տեղադրելու համար կոկիկ 0.8.3.9000, որտեղ նոր հնարավորություններ կան, օգտագործեք հետևյալ կոդը.

devtools::install_github("tidyverse/tidyr")

Գրելու պահին այս գործառույթները հասանելի են միայն GitHub-ի փաթեթի մշակող տարբերակում:

Անցում դեպի նոր հնարավորություններ

Իրականում, դժվար չէ հին սկրիպտները տեղափոխել նոր գործառույթներով աշխատելու համար, ավելի լավ հասկանալու համար ես օրինակ կբերեմ հին գործառույթների փաստաթղթերից և ցույց կտամ, թե ինչպես են նույն գործողությունները կատարվում՝ օգտագործելով նորերը: pivot_*() գործառույթները։

Փոխարկել լայն ձևաչափը երկար ձևաչափի:

Օրինակ կոդի հավաքման գործառույթի փաստաթղթերից

# example
library(dplyr)
stocks <- data.frame(
  time = as.Date('2009-01-01') + 0:9,
  X = rnorm(10, 0, 1),
  Y = rnorm(10, 0, 2),
  Z = rnorm(10, 0, 4)
)

# old
stocks_gather <- stocks %>% gather(key   = stock, 
                                   value = price, 
                                   -time)

# new
stocks_long   <- stocks %>% pivot_longer(cols      = -time, 
                                       names_to  = "stock", 
                                       values_to = "price")

Երկար ձևաչափի փոխակերպում լայն ձևաչափի:

Սփռված ֆունկցիայի փաստաթղթերից կոդ օրինակ

# old
stocks_spread <- stocks_gather %>% spread(key = stock, 
                                          value = price) 

# new 
stock_wide    <- stocks_long %>% pivot_wider(names_from  = "stock",
                                            values_from = "price")

Որովհետեւ հետ աշխատելու վերը նշված օրինակներում pivot_longer() и pivot_wider(), սկզբնական աղյուսակում բաժնետոմսեր արգումենտներում թվարկված սյունակներ չկան անուններ_դեպի и արժեքներ_դեպի նրանց անունները պետք է լինեն չակերտների մեջ:

Աղյուսակ, որը կօգնի ձեզ ամենահեշտ պարզել, թե ինչպես անցնել նոր հայեցակարգի հետ աշխատելու կոկիկ.

R փաթեթը tidyr և դրա նոր գործառույթները pivot_longer և pivot_wider

Նշում հեղինակից

Ստորև բերված ամբողջ տեքստը հարմարվողական է, ես կասեի նույնիսկ ազատ թարգմանություն վինյետներ tidyverse գրադարանի պաշտոնական կայքից:

Տվյալների լայն ձևաչափից երկար ձևաչափի փոխակերպման պարզ օրինակ

pivot_longer () — երկարացնում է տվյալների հավաքածուները՝ նվազեցնելով սյունակների քանակը և ավելացնելով տողերի քանակը:

R փաթեթը tidyr և դրա նոր գործառույթները pivot_longer և pivot_wider

Հոդվածում ներկայացված օրինակները գործարկելու համար նախ անհրաժեշտ է միացնել անհրաժեշտ փաթեթները.

library(tidyr)
library(dplyr)
library(readr)

Ենթադրենք, որ մենք ունենք աղյուսակ՝ հարցման արդյունքներով, որը (ի թիվս այլ բաների) մարդկանց հարցրել է իրենց կրոնի և տարեկան եկամուտների մասին.

#> # A tibble: 18 x 11
#>    religion `<$10k` `$10-20k` `$20-30k` `$30-40k` `$40-50k` `$50-75k`
#>    <chr>      <dbl>     <dbl>     <dbl>     <dbl>     <dbl>     <dbl>
#>  1 Agnostic      27        34        60        81        76       137
#>  2 Atheist       12        27        37        52        35        70
#>  3 Buddhist      27        21        30        34        33        58
#>  4 Catholic     418       617       732       670       638      1116
#>  5 Don’t k…      15        14        15        11        10        35
#>  6 Evangel…     575       869      1064       982       881      1486
#>  7 Hindu          1         9         7         9        11        34
#>  8 Histori…     228       244       236       238       197       223
#>  9 Jehovah…      20        27        24        24        21        30
#> 10 Jewish        19        19        25        25        30        95
#> # … with 8 more rows, and 4 more variables: `$75-100k` <dbl>,
#> #   `$100-150k` <dbl>, `>150k` <dbl>, `Don't know/refused` <dbl>

Այս աղյուսակը պարունակում է հարցվողների կրոնի տվյալները տողերով, և եկամուտների մակարդակները ցրված են սյունակների անուններով: Յուրաքանչյուր կատեգորիայի հարցվածների թիվը պահվում է բջիջների արժեքներում կրոնի և եկամտի մակարդակի խաչմերուկում: Աղյուսակը կոկիկ, ճիշտ ձևաչափի բերելու համար բավական է օգտագործել pivot_longer():

pew %>% 
  pivot_longer(cols = -religion, names_to = "income", values_to = "count")

pew %>% 
  pivot_longer(cols = -religion, names_to = "income", values_to = "count")
#> # A tibble: 180 x 3
#>    religion income             count
#>    <chr>    <chr>              <dbl>
#>  1 Agnostic <$10k                 27
#>  2 Agnostic $10-20k               34
#>  3 Agnostic $20-30k               60
#>  4 Agnostic $30-40k               81
#>  5 Agnostic $40-50k               76
#>  6 Agnostic $50-75k              137
#>  7 Agnostic $75-100k             122
#>  8 Agnostic $100-150k            109
#>  9 Agnostic >150k                 84
#> 10 Agnostic Don't know/refused    96
#> # … with 170 more rows

Ֆունկցիայի փաստարկներ pivot_longer()

  • Առաջին փաստարկ մանյակներ, նկարագրում է, թե որ սյունակները պետք է միաձուլվեն: Այս դեպքում բոլոր սյունակները բացառությամբ ժամանակ.
  • փաստարկ անուններ_դեպի տալիս է փոփոխականի անունը, որը կստեղծվի մեր միացրած սյունակների անուններից:
  • արժեքներ_դեպի տալիս է փոփոխականի անունը, որը կստեղծվի միավորված սյունակների բջիջների արժեքներում պահվող տվյալների հիման վրա:

Տեխնիկական

Սա փաթեթի նոր ֆունկցիոնալությունն է կոկիկ, որը նախկինում անհասանելի էր ժառանգական գործառույթների հետ աշխատելիս:

Հստակեցումը տվյալների շրջանակ է, որի յուրաքանչյուր տող համապատասխանում է նոր ելքային ամսաթվի շրջանակի մեկ սյունակին և երկու հատուկ սյունակին, որոնք սկսվում են հետևյալով.

  • Անուն պարունակում է սյունակի բնօրինակ անվանումը:
  • .արժեք պարունակում է սյունակի անունը, որը կպարունակի բջիջների արժեքները:

Հստակեցման մնացած սյունակները արտացոլում են, թե ինչպես է նոր սյունակում ցուցադրվելու սեղմված սյունակների անվանումը Անուն.

Հստակեցումը նկարագրում է սյունակի անվան մեջ պահվող մետատվյալները, յուրաքանչյուր սյունակի համար մեկ տողով և յուրաքանչյուր փոփոխականի համար մեկ սյունակով, որը համակցված է սյունակի անվան հետ, այս սահմանումը կարող է շփոթեցնող թվալ այս պահին, բայց մի քանի օրինակներ դիտելուց հետո այն կդառնա շատ: ավելի պարզ.

Հստակեցման իմաստն այն է, որ դուք կարող եք առբերել, փոփոխել և սահմանել նոր մետատվյալներ փոխարկվող տվյալների շրջանակի համար:

Աղյուսակը լայն ձևաչափից երկար ձևաչափի փոխարկելիս բնութագրերի հետ աշխատելու համար օգտագործեք գործառույթը pivot_longer_spec().

Ինչպես է այս ֆունկցիան աշխատում, որ այն վերցնում է ցանկացած ամսաթվի շրջանակ և առաջացնում է իր մետատվյալները վերը նկարագրված ձևով:

Որպես օրինակ՝ վերցնենք who տիրույթը, որը տրամադրվում է փաթեթին կոկիկ. Այս տվյալների բազան պարունակում է տուբերկուլյոզի դեպքերի վերաբերյալ Առողջապահության միջազգային կազմակերպության տրամադրած տեղեկատվություն:

who
#> # A tibble: 7,240 x 60
#>    country iso2  iso3   year new_sp_m014 new_sp_m1524 new_sp_m2534
#>    <chr>   <chr> <chr> <int>       <int>        <int>        <int>
#>  1 Afghan… AF    AFG    1980          NA           NA           NA
#>  2 Afghan… AF    AFG    1981          NA           NA           NA
#>  3 Afghan… AF    AFG    1982          NA           NA           NA
#>  4 Afghan… AF    AFG    1983          NA           NA           NA
#>  5 Afghan… AF    AFG    1984          NA           NA           NA
#>  6 Afghan… AF    AFG    1985          NA           NA           NA
#>  7 Afghan… AF    AFG    1986          NA           NA           NA
#>  8 Afghan… AF    AFG    1987          NA           NA           NA
#>  9 Afghan… AF    AFG    1988          NA           NA           NA
#> 10 Afghan… AF    AFG    1989          NA           NA           NA
#> # … with 7,230 more rows, and 53 more variables

Եկեք կառուցենք դրա ճշգրտումը:

spec <- who %>%
  pivot_longer_spec(new_sp_m014:newrel_f65, values_to = "count")

#> # A tibble: 56 x 3
#>    .name        .value name        
#>    <chr>        <chr>  <chr>       
#>  1 new_sp_m014  count  new_sp_m014 
#>  2 new_sp_m1524 count  new_sp_m1524
#>  3 new_sp_m2534 count  new_sp_m2534
#>  4 new_sp_m3544 count  new_sp_m3544
#>  5 new_sp_m4554 count  new_sp_m4554
#>  6 new_sp_m5564 count  new_sp_m5564
#>  7 new_sp_m65   count  new_sp_m65  
#>  8 new_sp_f014  count  new_sp_f014 
#>  9 new_sp_f1524 count  new_sp_f1524
#> 10 new_sp_f2534 count  new_sp_f2534
#> # … with 46 more rows

դաշտերը երկիր, isoxnumx, isoxnumx արդեն փոփոխականներ են։ Մեր խնդիրն է շրջել սյունակները new_sp_m014 մասին newrel_f65.

Այս սյունակների անունները պահպանում են հետևյալ տեղեկությունները.

  • Նախածանց new_ ցույց է տալիս, որ սյունակը պարունակում է տվյալներ տուբերկուլյոզի նոր դեպքերի վերաբերյալ, ընթացիկ ամսաթվերի շրջանակը պարունակում է տեղեկատվություն միայն նոր հիվանդությունների մասին, ուստի այս նախածանցը ներկայիս համատեքստում որևէ նշանակություն չունի:
  • sp/rel/sp/ep նկարագրում է հիվանդության ախտորոշման մեթոդ.
  • m/f հիվանդի սեռը.
  • 014/1524/2535/3544/4554/65 հիվանդի տարիքային միջակայք.

Մենք կարող ենք բաժանել այս սյունակները՝ օգտագործելով ֆունկցիան extract()օգտագործելով կանոնավոր արտահայտություն:

spec <- spec %>%
        extract(name, c("diagnosis", "gender", "age"), "new_?(.*)_(.)(.*)")

#> # A tibble: 56 x 5
#>    .name        .value diagnosis gender age  
#>    <chr>        <chr>  <chr>     <chr>  <chr>
#>  1 new_sp_m014  count  sp        m      014  
#>  2 new_sp_m1524 count  sp        m      1524 
#>  3 new_sp_m2534 count  sp        m      2534 
#>  4 new_sp_m3544 count  sp        m      3544 
#>  5 new_sp_m4554 count  sp        m      4554 
#>  6 new_sp_m5564 count  sp        m      5564 
#>  7 new_sp_m65   count  sp        m      65   
#>  8 new_sp_f014  count  sp        f      014  
#>  9 new_sp_f1524 count  sp        f      1524 
#> 10 new_sp_f2534 count  sp        f      2534 
#> # … with 46 more rows

Խնդրում ենք նկատի ունենալ սյունակը Անուն պետք է մնա անփոփոխ, քանի որ սա մեր ինդեքսն է սկզբնական տվյալների սյունակների անունների մեջ:

Սեռը և տարիքը (սյունակներ սեռը и տարիքը) ունեն հաստատուն և հայտնի արժեքներ, ուստի խորհուրդ է տրվում այս սյունակները փոխարկել գործոնների.

spec <-  spec %>%
            mutate(
              gender = factor(gender, levels = c("f", "m")),
              age = factor(age, levels = unique(age), ordered = TRUE)
            ) 

Վերջապես, մեր ստեղծած ճշգրտումը սկզբնական ամսաթվի շրջանակում կիրառելու համար ով մենք պետք է փաստարկ օգտագործենք մասնագիրն ֆունկցիայի մեջ pivot_longer().

who %>% pivot_longer(spec = spec)

#> # A tibble: 405,440 x 8
#>    country     iso2  iso3   year diagnosis gender age   count
#>    <chr>       <chr> <chr> <int> <chr>     <fct>  <ord> <int>
#>  1 Afghanistan AF    AFG    1980 sp        m      014      NA
#>  2 Afghanistan AF    AFG    1980 sp        m      1524     NA
#>  3 Afghanistan AF    AFG    1980 sp        m      2534     NA
#>  4 Afghanistan AF    AFG    1980 sp        m      3544     NA
#>  5 Afghanistan AF    AFG    1980 sp        m      4554     NA
#>  6 Afghanistan AF    AFG    1980 sp        m      5564     NA
#>  7 Afghanistan AF    AFG    1980 sp        m      65       NA
#>  8 Afghanistan AF    AFG    1980 sp        f      014      NA
#>  9 Afghanistan AF    AFG    1980 sp        f      1524     NA
#> 10 Afghanistan AF    AFG    1980 sp        f      2534     NA
#> # … with 405,430 more rows

Այն ամենը, ինչ մենք պարզապես արել ենք, կարող է սխեմատիկորեն պատկերվել հետևյալ կերպ.

R փաթեթը tidyr և դրա նոր գործառույթները pivot_longer և pivot_wider

Հստակեցում, օգտագործելով բազմաթիվ արժեքներ (.value)

Վերևի օրինակում բնութագրերի սյունակը .արժեք պարունակում էր միայն մեկ արժեք, շատ դեպքերում դա այդպես է:

Բայց երբեմն կարող է առաջանալ իրավիճակ, երբ անհրաժեշտ է տվյալներ հավաքել տարբեր արժեքներով տվյալների տեսակներով սյունակներից: Օգտագործելով ժառանգական գործառույթ spread() դա բավականին դժվար կլիներ անել:

Ստորև բերված օրինակը վերցված է վինյետներ փաթեթին տվյալներ.աղյուսակ.

Եկեք ստեղծենք վերապատրաստման տվյալների շրջանակ:

family <- tibble::tribble(
  ~family,  ~dob_child1,  ~dob_child2, ~gender_child1, ~gender_child2,
       1L, "1998-11-26", "2000-01-29",             1L,             2L,
       2L, "1996-06-22",           NA,             2L,             NA,
       3L, "2002-07-11", "2004-04-05",             2L,             2L,
       4L, "2004-10-10", "2009-08-27",             1L,             1L,
       5L, "2000-12-05", "2005-02-28",             2L,             1L,
)
family <- family %>% mutate_at(vars(starts_with("dob")), parse_date)

#> # A tibble: 5 x 5
#>   family dob_child1 dob_child2 gender_child1 gender_child2
#>    <int> <date>     <date>             <int>         <int>
#> 1      1 1998-11-26 2000-01-29             1             2
#> 2      2 1996-06-22 NA                     2            NA
#> 3      3 2002-07-11 2004-04-05             2             2
#> 4      4 2004-10-10 2009-08-27             1             1
#> 5      5 2000-12-05 2005-02-28             2             1

Ստեղծված ամսաթվերի շրջանակը պարունակում է տվյալներ յուրաքանչյուր տողում մեկ ընտանիքի երեխաների մասին: Ընտանիքները կարող են ունենալ մեկ կամ երկու երեխա: Յուրաքանչյուր երեխայի համար տրամադրվում են տվյալներ ծննդյան ամսաթվի և սեռի վերաբերյալ, և յուրաքանչյուր երեխայի տվյալները առանձին սյունակներում են, մեր խնդիրն է այդ տվյալները բերել ճիշտ ձևաչափի վերլուծության համար:

Խնդրում ենք նկատի ունենալ, որ մենք ունենք երկու փոփոխական՝ յուրաքանչյուր երեխայի մասին տեղեկություններով՝ նրանց սեռը և ծննդյան ամսաթիվը (սյունակները՝ նախածանցով նետել պարունակում է ծննդյան ամսաթիվ, նախածանցով սյունակներ սեռը պարունակում է երեխայի սեռը): Ակնկալվող արդյունքն այն է, որ դրանք պետք է հայտնվեն առանձին սյունակներում: Մենք կարող ենք դա անել՝ ստեղծելով հստակեցում, որում սյունակը .value կունենա երկու տարբեր նշանակություն.

spec <- family %>%
  pivot_longer_spec(-family) %>%
  separate(col = name, into = c(".value", "child"))%>%
  mutate(child = parse_number(child))

#> # A tibble: 4 x 3
#>   .name         .value child
#>   <chr>         <chr>  <dbl>
#> 1 dob_child1    dob        1
#> 2 dob_child2    dob        2
#> 3 gender_child1 gender     1
#> 4 gender_child2 gender     2

Այսպիսով, եկեք քայլ առ քայլ նայենք վերը նշված ծածկագրի կատարած գործողություններին:

  • pivot_longer_spec(-family) — ստեղծել հստակեցում, որը սեղմում է բոլոր առկա սյունակները, բացառությամբ ընտանիքի սյունակի:
  • separate(col = name, into = c(".value", "child")) - բաժանել սյունակը Անուն, որը պարունակում է սկզբնաղբյուրի դաշտերի անվանումները՝ օգտագործելով ընդգծումը և մուտքագրելով ստացված արժեքները սյունակներում .արժեք и երեխա.
  • mutate(child = parse_number(child)) - փոխակերպել դաշտի արժեքները երեխա տեքստից մինչև թվային տվյալների տեսակ:

Այժմ մենք կարող ենք կիրառել ստացված ճշգրտումը սկզբնական տվյալների շրջանակին և աղյուսակը բերել ցանկալի ձևի:

family %>% 
    pivot_longer(spec = spec, na.rm = T)

#> # A tibble: 9 x 4
#>   family child dob        gender
#>    <int> <dbl> <date>      <int>
#> 1      1     1 1998-11-26      1
#> 2      1     2 2000-01-29      2
#> 3      2     1 1996-06-22      2
#> 4      3     1 2002-07-11      2
#> 5      3     2 2004-04-05      2
#> 6      4     1 2004-10-10      1
#> 7      4     2 2009-08-27      1
#> 8      5     1 2000-12-05      2
#> 9      5     2 2005-02-28      1

Մենք օգտագործում ենք փաստարկ na.rm = TRUE, քանի որ տվյալների ներկայիս ձևը ստիպում է լրացուցիչ տողեր ստեղծել գոյություն չունեցող դիտարկումների համար։ Որովհետեւ 2-րդ ընտանիքն ունի միայն մեկ երեխա, na.rm = TRUE երաշխավորում է, որ 2-րդ ընտանիքը կունենա մեկ տող ելքում:

Ամսաթվերի շրջանակները երկարից լայն ձևաչափի փոխակերպում

pivot_wider() - հակադարձ փոխակերպումն է, և հակառակը մեծացնում է ամսաթվի շրջանակի սյունակների քանակը՝ կրճատելով տողերի քանակը։

R փաթեթը tidyr և դրա նոր գործառույթները pivot_longer և pivot_wider

Այս տեսակի փոխակերպումը չափազանց հազվադեպ է օգտագործվում տվյալների ճշգրիտ ձևի բերելու համար, այնուամենայնիվ, այս տեխնիկան կարող է օգտակար լինել շնորհանդեսներում օգտագործվող առանցքային աղյուսակներ ստեղծելու կամ որոշ այլ գործիքների հետ ինտեգրվելու համար:

Իրականում գործառույթները pivot_longer() и pivot_wider() սիմետրիկ են և արտադրում են միմյանց հակադարձ գործողություններ, այսինքն. df %>% pivot_longer(spec = spec) %>% pivot_wider(spec = spec) и df %>% pivot_wider(spec = spec) %>% pivot_longer(spec = spec) կվերադարձնի բնօրինակը df.

Աղյուսակը լայն ձևաչափի փոխակերպելու ամենապարզ օրինակը

Ցույց տալու համար, թե ինչպես է գործում գործառույթը pivot_wider() մենք կօգտագործենք տվյալների բազան ձուկ_հանդիպումներ, որը պահպանում է տեղեկատվություն այն մասին, թե ինչպես են տարբեր կայանները գրանցում ձկների շարժումը գետի երկայնքով։

#> # A tibble: 114 x 3
#>    fish  station  seen
#>    <fct> <fct>   <int>
#>  1 4842  Release     1
#>  2 4842  I80_1       1
#>  3 4842  Lisbon      1
#>  4 4842  Rstr        1
#>  5 4842  Base_TD     1
#>  6 4842  BCE         1
#>  7 4842  BCW         1
#>  8 4842  BCE2        1
#>  9 4842  BCW2        1
#> 10 4842  MAE         1
#> # … with 104 more rows

Շատ դեպքերում, այս աղյուսակը կլինի ավելի տեղեկատվական և ավելի հեշտ օգտագործելի, եթե յուրաքանչյուր կայանի մասին տեղեկատվություն ներկայացնեք առանձին սյունակում:

fish_encounters %>% pivot_wider(names_from = station, values_from = seen)

fish_encounters %>% pivot_wider(names_from = station, values_from = seen)
#> # A tibble: 19 x 12
#>    fish  Release I80_1 Lisbon  Rstr Base_TD   BCE   BCW  BCE2  BCW2   MAE
#>    <fct>   <int> <int>  <int> <int>   <int> <int> <int> <int> <int> <int>
#>  1 4842        1     1      1     1       1     1     1     1     1     1
#>  2 4843        1     1      1     1       1     1     1     1     1     1
#>  3 4844        1     1      1     1       1     1     1     1     1     1
#>  4 4845        1     1      1     1       1    NA    NA    NA    NA    NA
#>  5 4847        1     1      1    NA      NA    NA    NA    NA    NA    NA
#>  6 4848        1     1      1     1      NA    NA    NA    NA    NA    NA
#>  7 4849        1     1     NA    NA      NA    NA    NA    NA    NA    NA
#>  8 4850        1     1     NA     1       1     1     1    NA    NA    NA
#>  9 4851        1     1     NA    NA      NA    NA    NA    NA    NA    NA
#> 10 4854        1     1     NA    NA      NA    NA    NA    NA    NA    NA
#> # … with 9 more rows, and 1 more variable: MAW <int>

Այս տվյալների հավաքածուն գրանցում է միայն այն տեղեկությունը, երբ կայանը հայտնաբերել է ձուկ, այսինքն. եթե որևէ ձուկ չի գրանցվել ինչ-որ կայանի կողմից, ապա այդ տվյալները աղյուսակում չեն լինի: Սա նշանակում է, որ ելքը լցվելու է ԱԺ-ով:

Սակայն այս դեպքում մենք գիտենք, որ արձանագրության բացակայությունը նշանակում է, որ ձուկը չի երևացել, ուստի կարող ենք օգտագործել փաստարկը արժեքներ_լրացնել ֆունկցիայի մեջ pivot_wider() և լրացրեք այս բաց թողնված արժեքները զրոներով.

fish_encounters %>% pivot_wider(
  names_from = station, 
  values_from = seen,
  values_fill = list(seen = 0)
)

#> # A tibble: 19 x 12
#>    fish  Release I80_1 Lisbon  Rstr Base_TD   BCE   BCW  BCE2  BCW2   MAE
#>    <fct>   <int> <int>  <int> <int>   <int> <int> <int> <int> <int> <int>
#>  1 4842        1     1      1     1       1     1     1     1     1     1
#>  2 4843        1     1      1     1       1     1     1     1     1     1
#>  3 4844        1     1      1     1       1     1     1     1     1     1
#>  4 4845        1     1      1     1       1     0     0     0     0     0
#>  5 4847        1     1      1     0       0     0     0     0     0     0
#>  6 4848        1     1      1     1       0     0     0     0     0     0
#>  7 4849        1     1      0     0       0     0     0     0     0     0
#>  8 4850        1     1      0     1       1     1     1     0     0     0
#>  9 4851        1     1      0     0       0     0     0     0     0     0
#> 10 4854        1     1      0     0       0     0     0     0     0     0
#> # … with 9 more rows, and 1 more variable: MAW <int>

Բազմաթիվ աղբյուրի փոփոխականներից սյունակի անուն ստեղծելը

Պատկերացրեք, որ մենք ունենք աղյուսակ, որը պարունակում է ապրանքի, երկրի և տարվա համադրություն: Փորձարկման ամսաթվի շրջանակ ստեղծելու համար կարող եք գործարկել հետևյալ կոդը.

df <- expand_grid(
  product = c("A", "B"), 
  country = c("AI", "EI"), 
  year = 2000:2014
) %>%
  filter((product == "A" & country == "AI") | product == "B") %>% 
  mutate(value = rnorm(nrow(.)))

#> # A tibble: 45 x 4
#>    product country  year    value
#>    <chr>   <chr>   <int>    <dbl>
#>  1 A       AI       2000 -2.05   
#>  2 A       AI       2001 -0.676  
#>  3 A       AI       2002  1.60   
#>  4 A       AI       2003 -0.353  
#>  5 A       AI       2004 -0.00530
#>  6 A       AI       2005  0.442  
#>  7 A       AI       2006 -0.610  
#>  8 A       AI       2007 -2.77   
#>  9 A       AI       2008  0.899  
#> 10 A       AI       2009 -0.106  
#> # … with 35 more rows

Մեր խնդիրն է ընդլայնել տվյալների շրջանակը, որպեսզի մեկ սյունակ պարունակի տվյալներ ապրանքի և երկրի յուրաքանչյուր համակցության համար: Դա անելու համար պարզապես անցեք փաստարկի մեջ անուններ_ից վեկտոր, որը պարունակում է միավորվող դաշտերի անունները:

df %>% pivot_wider(names_from = c(product, country),
                 values_from = "value")

#> # A tibble: 15 x 4
#>     year     A_AI    B_AI    B_EI
#>    <int>    <dbl>   <dbl>   <dbl>
#>  1  2000 -2.05     0.607   1.20  
#>  2  2001 -0.676    1.65   -0.114 
#>  3  2002  1.60    -0.0245  0.501 
#>  4  2003 -0.353    1.30   -0.459 
#>  5  2004 -0.00530  0.921  -0.0589
#>  6  2005  0.442   -1.55    0.594 
#>  7  2006 -0.610    0.380  -1.28  
#>  8  2007 -2.77     0.830   0.637 
#>  9  2008  0.899    0.0175 -1.30  
#> 10  2009 -0.106   -0.195   1.03  
#> # … with 5 more rows

Կարող եք նաև կիրառել առանձնահատկություններ որևէ ֆունկցիայի համար pivot_wider(). Բայց երբ ներկայացվում է pivot_wider() ճշգրտումը կատարում է հակառակ փոխակերպումը pivot_longer()Սյունակներում նշված են Անուն, օգտագործելով արժեքները .արժեք և այլ սյունակներ:

Այս տվյալների բազայի համար դուք կարող եք ստեղծել հատուկ ճշգրտում, եթե ցանկանում եք, որ յուրաքանչյուր հնարավոր երկիր և արտադրանքի համակցություն ունենա իր սեփական սյունակը, ոչ միայն տվյալների մեջ առկաները.

spec <- df %>% 
  expand(product, country, .value = "value") %>% 
  unite(".name", product, country, remove = FALSE)

#> # A tibble: 4 x 4
#>   .name product country .value
#>   <chr> <chr>   <chr>   <chr> 
#> 1 A_AI  A       AI      value 
#> 2 A_EI  A       EI      value 
#> 3 B_AI  B       AI      value 
#> 4 B_EI  B       EI      value

df %>% pivot_wider(spec = spec) %>% head()

#> # A tibble: 6 x 5
#>    year     A_AI  A_EI    B_AI    B_EI
#>   <int>    <dbl> <dbl>   <dbl>   <dbl>
#> 1  2000 -2.05       NA  0.607   1.20  
#> 2  2001 -0.676      NA  1.65   -0.114 
#> 3  2002  1.60       NA -0.0245  0.501 
#> 4  2003 -0.353      NA  1.30   -0.459 
#> 5  2004 -0.00530    NA  0.921  -0.0589
#> 6  2005  0.442      NA -1.55    0.594

Նոր tidyr հայեցակարգի հետ աշխատելու մի քանի առաջադեմ օրինակներ

Տվյալների մաքրում` օգտագործելով ԱՄՆ մարդահամարի եկամուտների և վարձակալության տվյալների բազան որպես օրինակ:

Տվյալների հավաքածու մեզ_վարձույթի_եկամուտ պարունակում է միջին եկամուտի և վարձակալության մասին տեղեկատվություն ԱՄՆ-ի յուրաքանչյուր նահանգի համար 2017 թվականի համար (տվյալները հասանելի են փաթեթում Tidycensus).

us_rent_income
#> # A tibble: 104 x 5
#>    GEOID NAME       variable estimate   moe
#>    <chr> <chr>      <chr>       <dbl> <dbl>
#>  1 01    Alabama    income      24476   136
#>  2 01    Alabama    rent          747     3
#>  3 02    Alaska     income      32940   508
#>  4 02    Alaska     rent         1200    13
#>  5 04    Arizona    income      27517   148
#>  6 04    Arizona    rent          972     4
#>  7 05    Arkansas   income      23789   165
#>  8 05    Arkansas   rent          709     5
#>  9 06    California income      29454   109
#> 10 06    California rent         1358     3
#> # … with 94 more rows

Այն տեսքով, որով տվյալները պահվում են տվյալների բազայում մեզ_վարձույթի_եկամուտ Նրանց հետ աշխատելը չափազանց անհարմար է, ուստի մենք կցանկանայինք ստեղծել տվյալների հավաքածու սյունակներով. վարձում, rent_moe, Գալ, եկամուտ_մեկ. Այս ճշգրտումը ստեղծելու բազմաթիվ եղանակներ կան, բայց հիմնական կետն այն է, որ մենք պետք է գեներացնենք փոփոխական արժեքների յուրաքանչյուր համադրություն և նախահաշիվ / Moeև այնուհետև ստեղծեք սյունակի անվանումը:

  spec <- us_rent_income %>% 
    expand(variable, .value = c("estimate", "moe")) %>% 
    mutate(
      .name = paste0(variable, ifelse(.value == "moe", "_moe", ""))
    )

#> # A tibble: 4 x 3
#>   variable .value   .name     
#>   <chr>    <chr>    <chr>     
#> 1 income   estimate income    
#> 2 income   moe      income_moe
#> 3 rent     estimate rent      
#> 4 rent     moe      rent_moe

Տրամադրելով այս հստակեցումը pivot_wider() տալիս է մեզ այն արդյունքը, որը մենք փնտրում ենք.

us_rent_income %>% pivot_wider(spec = spec)

#> # A tibble: 52 x 6
#>    GEOID NAME                 income income_moe  rent rent_moe
#>    <chr> <chr>                 <dbl>      <dbl> <dbl>    <dbl>
#>  1 01    Alabama               24476        136   747        3
#>  2 02    Alaska                32940        508  1200       13
#>  3 04    Arizona               27517        148   972        4
#>  4 05    Arkansas              23789        165   709        5
#>  5 06    California            29454        109  1358        3
#>  6 08    Colorado              32401        109  1125        5
#>  7 09    Connecticut           35326        195  1123        5
#>  8 10    Delaware              31560        247  1076       10
#>  9 11    District of Columbia  43198        681  1424       17
#> 10 12    Florida               25952         70  1077        3
#> # … with 42 more rows

Համաշխարհային բանկը

Երբեմն տվյալների հավաքածուն ցանկալի ձևի բերելը պահանջում է մի քանի քայլ:
Տվյալների հավաքածու world_bank_pop պարունակում է Համաշխարհային բանկի տվյալներ յուրաքանչյուր երկրի բնակչության թվի վերաբերյալ 2000-ից 2018 թվականներին։

#> # A tibble: 1,056 x 20
#>    country indicator `2000` `2001` `2002` `2003`  `2004`  `2005`   `2006`
#>    <chr>   <chr>      <dbl>  <dbl>  <dbl>  <dbl>   <dbl>   <dbl>    <dbl>
#>  1 ABW     SP.URB.T… 4.24e4 4.30e4 4.37e4 4.42e4 4.47e+4 4.49e+4  4.49e+4
#>  2 ABW     SP.URB.G… 1.18e0 1.41e0 1.43e0 1.31e0 9.51e-1 4.91e-1 -1.78e-2
#>  3 ABW     SP.POP.T… 9.09e4 9.29e4 9.50e4 9.70e4 9.87e+4 1.00e+5  1.01e+5
#>  4 ABW     SP.POP.G… 2.06e0 2.23e0 2.23e0 2.11e0 1.76e+0 1.30e+0  7.98e-1
#>  5 AFG     SP.URB.T… 4.44e6 4.65e6 4.89e6 5.16e6 5.43e+6 5.69e+6  5.93e+6
#>  6 AFG     SP.URB.G… 3.91e0 4.66e0 5.13e0 5.23e0 5.12e+0 4.77e+0  4.12e+0
#>  7 AFG     SP.POP.T… 2.01e7 2.10e7 2.20e7 2.31e7 2.41e+7 2.51e+7  2.59e+7
#>  8 AFG     SP.POP.G… 3.49e0 4.25e0 4.72e0 4.82e0 4.47e+0 3.87e+0  3.23e+0
#>  9 AGO     SP.URB.T… 8.23e6 8.71e6 9.22e6 9.77e6 1.03e+7 1.09e+7  1.15e+7
#> 10 AGO     SP.URB.G… 5.44e0 5.59e0 5.70e0 5.76e0 5.75e+0 5.69e+0  4.92e+0
#> # … with 1,046 more rows, and 11 more variables: `2007` <dbl>,
#> #   `2008` <dbl>, `2009` <dbl>, `2010` <dbl>, `2011` <dbl>, `2012` <dbl>,
#> #   `2013` <dbl>, `2014` <dbl>, `2015` <dbl>, `2016` <dbl>, `2017` <dbl>

Մեր նպատակն է ստեղծել կոկիկ տվյալների հավաքածու յուրաքանչյուր փոփոխականով իր սյունակում: Անհասկանալի է, թե կոնկրետ ինչ քայլեր են անհրաժեշտ, բայց մենք կսկսենք ամենաակնհայտ խնդրից՝ տարին տարածված է բազմաթիվ սյունակներում:

Դա շտկելու համար դուք պետք է օգտագործեք գործառույթը pivot_longer().

pop2 <- world_bank_pop %>% 
  pivot_longer(`2000`:`2017`, names_to = "year")

#> # A tibble: 19,008 x 4
#>    country indicator   year  value
#>    <chr>   <chr>       <chr> <dbl>
#>  1 ABW     SP.URB.TOTL 2000  42444
#>  2 ABW     SP.URB.TOTL 2001  43048
#>  3 ABW     SP.URB.TOTL 2002  43670
#>  4 ABW     SP.URB.TOTL 2003  44246
#>  5 ABW     SP.URB.TOTL 2004  44669
#>  6 ABW     SP.URB.TOTL 2005  44889
#>  7 ABW     SP.URB.TOTL 2006  44881
#>  8 ABW     SP.URB.TOTL 2007  44686
#>  9 ABW     SP.URB.TOTL 2008  44375
#> 10 ABW     SP.URB.TOTL 2009  44052
#> # … with 18,998 more rows

Հաջորդ քայլը ցուցիչի փոփոխականին նայելն է:
pop2 %>% count(indicator)

#> # A tibble: 4 x 2
#>   indicator       n
#>   <chr>       <int>
#> 1 SP.POP.GROW  4752
#> 2 SP.POP.TOTL  4752
#> 3 SP.URB.GROW  4752
#> 4 SP.URB.TOTL  4752

Այնտեղ, որտեղ SP.POP.GROW-ը բնակչության աճն է, SP.POP.TOTL-ը՝ ընդհանուր բնակչությունը, իսկ SP.URB: * նույնը, բայց միայն քաղաքային տարածքների համար: Եկեք այս արժեքները բաժանենք երկու փոփոխականների՝ տարածք – տարածք (ընդհանուր կամ քաղաքային) և փաստացի տվյալներ պարունակող փոփոխական (բնակչություն կամ աճ).

pop3 <- pop2 %>% 
  separate(indicator, c(NA, "area", "variable"))

#> # A tibble: 19,008 x 5
#>    country area  variable year  value
#>    <chr>   <chr> <chr>    <chr> <dbl>
#>  1 ABW     URB   TOTL     2000  42444
#>  2 ABW     URB   TOTL     2001  43048
#>  3 ABW     URB   TOTL     2002  43670
#>  4 ABW     URB   TOTL     2003  44246
#>  5 ABW     URB   TOTL     2004  44669
#>  6 ABW     URB   TOTL     2005  44889
#>  7 ABW     URB   TOTL     2006  44881
#>  8 ABW     URB   TOTL     2007  44686
#>  9 ABW     URB   TOTL     2008  44375
#> 10 ABW     URB   TOTL     2009  44052
#> # … with 18,998 more rows

Այժմ մեզ մնում է միայն փոփոխականը բաժանել երկու սյունակի.

pop3 %>% 
  pivot_wider(names_from = variable, values_from = value)

#> # A tibble: 9,504 x 5
#>    country area  year   TOTL    GROW
#>    <chr>   <chr> <chr> <dbl>   <dbl>
#>  1 ABW     URB   2000  42444  1.18  
#>  2 ABW     URB   2001  43048  1.41  
#>  3 ABW     URB   2002  43670  1.43  
#>  4 ABW     URB   2003  44246  1.31  
#>  5 ABW     URB   2004  44669  0.951 
#>  6 ABW     URB   2005  44889  0.491 
#>  7 ABW     URB   2006  44881 -0.0178
#>  8 ABW     URB   2007  44686 -0.435 
#>  9 ABW     URB   2008  44375 -0.698 
#> 10 ABW     URB   2009  44052 -0.731 
#> # … with 9,494 more rows

Կոնտակտների ցանկը

Վերջին օրինակը, պատկերացրեք, որ դուք ունեք կոնտակտային ցուցակ, որը պատճենել և տեղադրել եք կայքից.

contacts <- tribble(
  ~field, ~value,
  "name", "Jiena McLellan",
  "company", "Toyota", 
  "name", "John Smith", 
  "company", "google", 
  "email", "[email protected]",
  "name", "Huxley Ratcliffe"
)

Այս ցուցակի աղյուսակավորումը բավականին դժվար է, քանի որ չկա որևէ փոփոխական, որը կբացահայտի, թե որ կոնտակտին է պատկանում տվյալ տվյալները: Մենք կարող ենք դա շտկել՝ նշելով, որ յուրաքանչյուր նոր կոնտակտի տվյալները սկսվում են «անունով», այնպես որ մենք կարող ենք ստեղծել եզակի նույնացուցիչ և ավելացնել այն մեկով ամեն անգամ, երբ դաշտի սյունակը պարունակում է «անուն» արժեքը.

contacts <- contacts %>% 
  mutate(
    person_id = cumsum(field == "name")
  )
contacts

#> # A tibble: 6 x 3
#>   field   value            person_id
#>   <chr>   <chr>                <int>
#> 1 name    Jiena McLellan           1
#> 2 company Toyota                   1
#> 3 name    John Smith               2
#> 4 company google                   2
#> 5 email   [email protected]          2
#> 6 name    Huxley Ratcliffe         3

Այժմ, երբ մենք ունենք եզակի ID յուրաքանչյուր կոնտակտի համար, մենք կարող ենք դաշտը և արժեքը վերածել սյունակների.

contacts %>% 
  pivot_wider(names_from = field, values_from = value)

#> # A tibble: 3 x 4
#>   person_id name             company email          
#>       <int> <chr>            <chr>   <chr>          
#> 1         1 Jiena McLellan   Toyota  <NA>           
#> 2         2 John Smith       google  [email protected]
#> 3         3 Huxley Ratcliffe <NA>    <NA>

Ամփոփում

Իմ անձնական կարծիքն այն է, որ նոր հայեցակարգը կոկիկ իսկապես ավելի ինտուիտիվ և ֆունկցիոնալությամբ զգալիորեն գերազանցում է ժառանգական գործառույթներին spread() и gather(). Հուսով եմ, որ այս հոդվածը օգնեց ձեզ զբաղվել pivot_longer() и pivot_wider().

Source: www.habr.com

Добавить комментарий