ProHoster > Blog > İdarə > Daxili sütunların genişləndirilməsi - R dilindən istifadə edən siyahılar (tidyr paketi və yerləşməyən ailənin funksiyaları)
Daxili sütunların genişləndirilməsi - R dilindən istifadə edən siyahılar (tidyr paketi və yerləşməyən ailənin funksiyaları)
Əksər hallarda, API-dən alınan cavabla və ya mürəkkəb ağac strukturuna malik hər hansı digər məlumatla işləyərkən JSON və XML formatları ilə qarşılaşırsınız.
Bu formatların bir çox üstünlükləri var: onlar məlumatları kifayət qədər yığcam şəkildə saxlayır və lazımsız məlumatların təkrarlanmasının qarşısını almağa imkan verir.
Bu formatların dezavantajı onların işlənməsi və təhlilinin mürəkkəbliyidir. Strukturlaşdırılmamış məlumatlar hesablamalarda istifadə edilə bilməz və vizuallaşdırma onun üzərində qurula bilməz.
Bu məqalə nəşrin məntiqi davamıdır "R paketi tidyr və onun yeni funksiyaları pivot_longer və pivot_wider". Bu paketdən istifadə edərək strukturlaşdırılmamış məlumat strukturlarını tanış və təhlil üçün uyğun cədvəl formasına gətirməyə kömək edəcək. tidyr, kitabxananın özəyinə daxildir tidyverse, və onun funksiyalar ailəsi unnest_*().
Məzmun
Əgər məlumatların təhlili ilə maraqlanırsınızsa, mənimlə maraqlana bilərsiniz teleqram и youtube kanallar. Məzmununun çoxu R dilinə həsr olunub.
Düzbucaqlı(tərcüməçinin qeydi, bu termin üçün adekvat tərcümə variantları tapmadım, ona görə də onu olduğu kimi buraxacağıq.) daxili massivlərlə strukturlaşdırılmamış məlumatların tanış sətir və sütunlardan ibarət ikiölçülü cədvələ gətirilməsi prosesidir. IN tidyr Daxili siyahı sütunlarını genişləndirməyə və məlumatları düzbucaqlı, cədvəl formasına endirməyə kömək edəcək bir neçə funksiya var:
unnest_longer() sütun siyahısının hər bir elementini götürür və yeni sətir yaradır.
unnest_wider() sütun siyahısının hər bir elementini götürür və yeni sütun yaradır.
unnest_auto() avtomatik olaraq hansı funksiyadan istifadənin daha yaxşı olduğunu müəyyənləşdirir unnest_longer() və ya unnest_wider().
hoist() oxşar unnest_wider() lakin yalnız göstərilən komponentləri seçir və bir neçə səviyyəli yuva ilə işləməyə imkan verir.
Bir neçə səviyyəli yuvaya malik strukturlaşdırılmamış məlumatların ikiölçülü cədvələ gətirilməsi ilə bağlı problemlərin əksəriyyəti sadalanan funksiyaları dplyr ilə birləşdirməklə həll edilə bilər.
Bu texnikaları nümayiş etdirmək üçün paketdən istifadə edəcəyik repurrrsive, veb API-dən əldə edilmiş çoxsaylı mürəkkəb, çoxsəviyyəli siyahıları təmin edir.
Başlayaq gh_users, altı GitHub istifadəçisi haqqında məlumatları ehtiva edən siyahı. Əvvəlcə siyahını çevirək gh_users в tibble çərçivə:
users <- tibble( user = gh_users )
Bu, bir az əks-intuitiv görünür: niyə siyahı təqdim edirik gh_users, daha mürəkkəb məlumat strukturuna? Lakin verilənlər çərçivəsinin böyük üstünlüyü var: o, bir neçə vektoru birləşdirir ki, hər şey bir obyektdə izlənsin.
Hər bir obyekt elementi users hər bir elementin bir sütunu təmsil etdiyi adlandırılmış siyahıdır.
Bu halda, 30 sütundan ibarət bir cədvəlimiz var və onların əksəriyyətinə ehtiyacımız olmayacaq, buna görə də əvəzinə edə bilərik. unnest_wider() istifadə edin hoist(). hoist() kimi eyni sintaksisdən istifadə edərək seçilmiş komponentləri çıxarmağa imkan verir purrr::pluck():
users %>% hoist(user,
followers = "followers",
login = "login",
url = "html_url"
)
#> # A tibble: 6 x 4
#> followers login url user
#> <int> <chr> <chr> <list>
#> 1 303 gaborcsardi https://github.com/gaborcsardi <named list [27]>
#> 2 780 jennybc https://github.com/jennybc <named list [27]>
#> 3 3958 jtleek https://github.com/jtleek <named list [27]>
#> 4 115 juliasilge https://github.com/juliasilge <named list [27]>
#> 5 213 leeper https://github.com/leeper <named list [27]>
#> 6 34 masalmon https://github.com/masalmon <named list [27]>
hoist() göstərilən adlandırılmış komponentləri sütun siyahısından çıxarır istifadəçibuna görə də düşünə bilərsiniz hoist() komponentləri tarix çərçivəsinin daxili siyahısından onun yuxarı səviyyəsinə köçürmək kimi.
Github depoları
Siyahının düzülüşü gh_repos çevirməklə oxşar şəkildə başlayırıq tibble:
Bu dəfə elementlər istifadəçi bu istifadəçiyə məxsus depoların siyahısını təmsil edir. Hər bir depo ayrı bir müşahidədir, buna görə səliqəli məlumat anlayışına görə (təxminən səliqəli məlumat) onlar yeni xətlərə çevrilməlidir, buna görə də istifadə edirik unnest_longer() deyil unnest_wider():
repos <- repos %>% unnest_longer(repo)
repos
#> # A tibble: 176 x 1
#> repo
#> <list>
#> 1 <named list [68]>
#> 2 <named list [68]>
#> 3 <named list [68]>
#> 4 <named list [68]>
#> 5 <named list [68]>
#> 6 <named list [68]>
#> 7 <named list [68]>
#> 8 <named list [68]>
#> 9 <named list [68]>
#> 10 <named list [68]>
#> # … with 166 more rows
İndi istifadə edə bilərik unnest_wider() və ya hoist() :
repos %>% hoist(repo,
login = c("owner", "login"),
name = "name",
homepage = "homepage",
watchers = "watchers_count"
)
#> # A tibble: 176 x 5
#> login name homepage watchers repo
#> <chr> <chr> <chr> <int> <list>
#> 1 gaborcsardi after <NA> 5 <named list [65]>
#> 2 gaborcsardi argufy <NA> 19 <named list [65]>
#> 3 gaborcsardi ask <NA> 5 <named list [65]>
#> 4 gaborcsardi baseimports <NA> 0 <named list [65]>
#> 5 gaborcsardi citest <NA> 0 <named list [65]>
#> 6 gaborcsardi clisymbols "" 18 <named list [65]>
#> 7 gaborcsardi cmaker <NA> 0 <named list [65]>
#> 8 gaborcsardi cmark <NA> 0 <named list [65]>
#> 9 gaborcsardi conditions <NA> 0 <named list [65]>
#> 10 gaborcsardi crayon <NA> 52 <named list [65]>
#> # … with 166 more rows
İstifadəsinə diqqət yetirin c("owner", "login"): Bu, iç içə siyahıdan ikinci səviyyəli dəyəri əldə etməyə imkan verir owner. Alternativ bir yanaşma bütün siyahını əldə etməkdir owner və sonra funksiyadan istifadə edin unnest_wider() elementlərinin hər birini bir sütuna qoyun:
Doğru funksiyanı seçmək barədə düşünmək əvəzinə unnest_longer() və ya unnest_wider() istifadə edə bilərsən unnest_auto(). Bu funksiya verilənləri çevirmək üçün ən uyğun funksiyanı seçmək üçün bir neçə evristik metoddan istifadə edir və seçilmiş metod haqqında mesaj göstərir.
got_chars ilə eyni quruluşa malikdir gh_users: Bu, daxili siyahının hər bir elementinin Game of Thrones personajının bəzi atributunu təsvir etdiyi adlanmış siyahılar toplusudur. gətirmək got_chars Cədvəl görünüşü üçün əvvəlki nümunələrdə olduğu kimi tarix çərçivəsi yaratmaqla başlayırıq və sonra hər bir elementi ayrıca sütuna çeviririk:
chars <- tibble(char = got_chars)
chars
#> # A tibble: 30 x 1
#> char
#> <list>
#> 1 <named list [18]>
#> 2 <named list [18]>
#> 3 <named list [18]>
#> 4 <named list [18]>
#> 5 <named list [18]>
#> 6 <named list [18]>
#> 7 <named list [18]>
#> 8 <named list [18]>
#> 9 <named list [18]>
#> 10 <named list [18]>
#> # … with 20 more rows
chars2 <- chars %>% unnest_wider(char)
chars2
#> # A tibble: 30 x 18
#> url id name gender culture born died alive titles aliases father
#> <chr> <int> <chr> <chr> <chr> <chr> <chr> <lgl> <list> <list> <chr>
#> 1 http… 1022 Theo… Male Ironbo… In 2… "" TRUE <chr … <chr [… ""
#> 2 http… 1052 Tyri… Male "" In 2… "" TRUE <chr … <chr [… ""
#> 3 http… 1074 Vict… Male Ironbo… In 2… "" TRUE <chr … <chr [… ""
#> 4 http… 1109 Will Male "" "" In 2… FALSE <chr … <chr [… ""
#> 5 http… 1166 Areo… Male Norvos… In 2… "" TRUE <chr … <chr [… ""
#> 6 http… 1267 Chett Male "" At H… In 2… FALSE <chr … <chr [… ""
#> 7 http… 1295 Cres… Male "" In 2… In 2… FALSE <chr … <chr [… ""
#> 8 http… 130 Aria… Female Dornish In 2… "" TRUE <chr … <chr [… ""
#> 9 http… 1303 Daen… Female Valyri… In 2… "" TRUE <chr … <chr [… ""
#> 10 http… 1319 Davo… Male Wester… In 2… "" TRUE <chr … <chr [… ""
#> # … with 20 more rows, and 7 more variables: mother <chr>, spouse <chr>,
#> # allegiances <list>, books <list>, povBooks <list>, tvSeries <list>,
#> # playedBy <list>
Struktur got_chars bir qədər çətindir gh_users, çünki bəzi siyahı komponentləri char özləri bir siyahıdır, nəticədə sütunlar - siyahılar alırıq:
Sonrakı hərəkətləriniz təhlilin məqsədlərindən asılıdır. Bəlkə də xarakterin göründüyü hər bir kitab və seriya üçün sətirlərə məlumat qoymaq lazımdır:
chars2 %>%
select(name, books, tvSeries) %>%
pivot_longer(c(books, tvSeries), names_to = "media", values_to = "value") %>%
unnest_longer(value)
#> # A tibble: 180 x 3
#> name media value
#> <chr> <chr> <chr>
#> 1 Theon Greyjoy books A Game of Thrones
#> 2 Theon Greyjoy books A Storm of Swords
#> 3 Theon Greyjoy books A Feast for Crows
#> 4 Theon Greyjoy tvSeries Season 1
#> 5 Theon Greyjoy tvSeries Season 2
#> 6 Theon Greyjoy tvSeries Season 3
#> 7 Theon Greyjoy tvSeries Season 4
#> 8 Theon Greyjoy tvSeries Season 5
#> 9 Theon Greyjoy tvSeries Season 6
#> 10 Tyrion Lannister books A Feast for Crows
#> # … with 170 more rows
Və ya bəlkə siz xarakter və əsəri uyğunlaşdırmağa imkan verən bir cədvəl yaratmaq istəyirsiniz:
chars2 %>%
select(name, title = titles) %>%
unnest_longer(title)
#> # A tibble: 60 x 2
#> name title
#> <chr> <chr>
#> 1 Theon Greyjoy Prince of Winterfell
#> 2 Theon Greyjoy Captain of Sea Bitch
#> 3 Theon Greyjoy Lord of the Iron Islands (by law of the green lands)
#> 4 Tyrion Lannister Acting Hand of the King (former)
#> 5 Tyrion Lannister Master of Coin (former)
#> 6 Victarion Greyjoy Lord Captain of the Iron Fleet
#> 7 Victarion Greyjoy Master of the Iron Victory
#> 8 Will ""
#> 9 Areo Hotah Captain of the Guard at Sunspear
#> 10 Chett ""
#> # … with 50 more rows
(Boş dəyərlərə diqqət yetirin "" sahədə title, bu, məlumatların daxil edilməsi zamanı edilən səhvlərlə bağlıdır got_chars: əslində, sahədə müvafiq kitab və serial adları olmayan personajlar title boş sətirdən ibarət 0 uzunluqlu vektor deyil, uzunluğu 1 olan vektor olmalıdır.)
Yuxarıdakı nümunəni funksiyadan istifadə edərək yenidən yaza bilərik unnest_auto(). Bu yanaşma birdəfəlik təhlil üçün əlverişlidir, lakin etibar etməməlisiniz unnest_auto() müntəzəm istifadə üçün. Məsələ ondadır ki, əgər məlumat strukturunuz dəyişirsə unnest_auto() ilkin olaraq siyahı sütunlarını istifadə edərək sətirlərə genişləndirsə, seçilmiş məlumatların çevrilmə mexanizmini dəyişə bilər unnest_longer(), sonra daxil olan məlumatların strukturu dəyişdikdə, məntiq xeyrinə dəyişdirilə bilər unnest_wider(), və bu yanaşmanın davamlı olaraq istifadəsi gözlənilməz səhvlərə səbəb ola bilər.
tibble(char = got_chars) %>%
unnest_auto(char) %>%
select(name, title = titles) %>%
unnest_auto(title)
#> Using `unnest_wider(char)`; elements have 18 names in common
#> Using `unnest_longer(title)`; no element has names
#> # A tibble: 60 x 2
#> name title
#> <chr> <chr>
#> 1 Theon Greyjoy Prince of Winterfell
#> 2 Theon Greyjoy Captain of Sea Bitch
#> 3 Theon Greyjoy Lord of the Iron Islands (by law of the green lands)
#> 4 Tyrion Lannister Acting Hand of the King (former)
#> 5 Tyrion Lannister Master of Coin (former)
#> 6 Victarion Greyjoy Lord Captain of the Iron Fleet
#> 7 Victarion Greyjoy Master of the Iron Victory
#> 8 Will ""
#> 9 Areo Hotah Captain of the Guard at Sunspear
#> 10 Chett ""
#> # … with 50 more rows
Google ilə coğrafi kodlaşdırma
Sonra, Google-un geokodlaşdırma xidmətindən əldə edilən məlumatların daha mürəkkəb strukturuna baxacağıq. Etibarnamələrin keşləşdirilməsi Google Maps API ilə işləmə qaydalarına ziddir, ona görə də əvvəlcə API ətrafında sadə bir sarğı yazacağam. Hansı mühit dəyişkənində Google Xəritə API açarının saxlanmasına əsaslanır; Ətraf dəyişənlərinizdə saxlanılan Google Maps API ilə işləmək üçün açarınız yoxdursa, bu bölmədə təqdim olunan kod fraqmentləri icra olunmayacaq.
has_key <- !identical(Sys.getenv("GOOGLE_MAPS_API_KEY"), "")
if (!has_key) {
message("No Google Maps API key found; code chunks will not be run")
}
# https://developers.google.com/maps/documentation/geocoding
geocode <- function(address, api_key = Sys.getenv("GOOGLE_MAPS_API_KEY")) {
url <- "https://maps.googleapis.com/maps/api/geocode/json"
url <- paste0(url, "?address=", URLencode(address), "&key=", api_key)
jsonlite::read_json(url)
}
Bu funksiyanın qaytardığı siyahı olduqca mürəkkəbdir:
Xoşbəxtlikdən, bu məlumatların cədvəl formasına çevrilməsi problemini funksiyalardan istifadə edərək addım-addım həll edə bilərik tidyr. Tapşırığı bir az daha çətin və real etmək üçün mən bir neçə şəhərin coğrafi kodlaşdırılması ilə başlayacağam:
city <- c ( "Houston" , "LA" , "New York" , "Chicago" , "Springfield" ) city_geo <- purrr::map (city, geocode)
Nəticədə nəticəni çevirəcəyəm tibble, rahatlıq üçün müvafiq şəhər adı olan bir sütun əlavə edəcəyəm.
loc <- tibble(city = city, json = city_geo)
loc
#> # A tibble: 5 x 2
#> city json
#> <chr> <list>
#> 1 Houston <named list [2]>
#> 2 LA <named list [2]>
#> 3 New York <named list [2]>
#> 4 Chicago <named list [2]>
#> 5 Springfield <named list [2]>
Birinci səviyyə komponentləri ehtiva edir status и resultilə genişləndirə bilərik unnest_wider() :
loc %>%
unnest_wider(json)
#> # A tibble: 5 x 3
#> city results status
#> <chr> <list> <chr>
#> 1 Houston <list [1]> OK
#> 2 LA <list [1]> OK
#> 3 New York <list [1]> OK
#> 4 Chicago <list [1]> OK
#> 5 Springfield <list [1]> OK
Qeyd edin ki, results çoxsəviyyəli siyahıdır. Əksər şəhərlərdə 1 element var (geokodlaşdırma API-yə uyğun unikal dəyəri təmsil edir), lakin Springfield-də iki element var. İlə onları ayrı-ayrı sətirlərə çəkə bilərik unnest_longer() :
loc %>%
unnest_wider(json) %>%
unnest_longer(results)
#> # A tibble: 5 x 3
#> city results status
#> <chr> <list> <chr>
#> 1 Houston <named list [5]> OK
#> 2 LA <named list [5]> OK
#> 3 New York <named list [5]> OK
#> 4 Chicago <named list [5]> OK
#> 5 Springfield <named list [5]> OK
İndi onların hamısı eyni komponentlərə malikdir, istifadə edərək yoxlanıla bilər unnest_wider():
loc %>%
unnest_wider(json) %>%
unnest_longer(results) %>%
unnest_wider(results)
#> # A tibble: 5 x 7
#> city address_componen… formatted_addre… geometry place_id types status
#> <chr> <list> <chr> <list> <chr> <lis> <chr>
#> 1 Houst… <list [4]> Houston, TX, USA <named … ChIJAYWN… <lis… OK
#> 2 LA <list [4]> Los Angeles, CA… <named … ChIJE9on… <lis… OK
#> 3 New Y… <list [3]> New York, NY, U… <named … ChIJOwg_… <lis… OK
#> 4 Chica… <list [4]> Chicago, IL, USA <named … ChIJ7cv0… <lis… OK
#> 5 Sprin… <list [5]> Springfield, MO… <named … ChIJP5jI… <lis… OK
Siyahını genişləndirməklə hər bir şəhərin enlik və uzunluq koordinatlarını tapa bilərik geometry:
loc %>%
unnest_wider(json) %>%
unnest_longer(results) %>%
unnest_wider(results) %>%
unnest_wider(geometry)
#> # A tibble: 5 x 10
#> city address_compone… formatted_addre… bounds location location_type
#> <chr> <list> <chr> <list> <list> <chr>
#> 1 Hous… <list [4]> Houston, TX, USA <name… <named … APPROXIMATE
#> 2 LA <list [4]> Los Angeles, CA… <name… <named … APPROXIMATE
#> 3 New … <list [3]> New York, NY, U… <name… <named … APPROXIMATE
#> 4 Chic… <list [4]> Chicago, IL, USA <name… <named … APPROXIMATE
#> 5 Spri… <list [5]> Springfield, MO… <name… <named … APPROXIMATE
#> # … with 4 more variables: viewport <list>, place_id <chr>, types <list>,
#> # status <chr>
Və sonra genişləndirmək lazım olan yer location:
loc %>%
unnest_wider(json) %>%
unnest_longer(results) %>%
unnest_wider(results) %>%
unnest_wider(geometry) %>%
unnest_wider(location)
#> # A tibble: 5 x 11
#> city address_compone… formatted_addre… bounds lat lng location_type
#> <chr> <list> <chr> <list> <dbl> <dbl> <chr>
#> 1 Hous… <list [4]> Houston, TX, USA <name… 29.8 -95.4 APPROXIMATE
#> 2 LA <list [4]> Los Angeles, CA… <name… 34.1 -118. APPROXIMATE
#> 3 New … <list [3]> New York, NY, U… <name… 40.7 -74.0 APPROXIMATE
#> 4 Chic… <list [4]> Chicago, IL, USA <name… 41.9 -87.6 APPROXIMATE
#> 5 Spri… <list [5]> Springfield, MO… <name… 37.2 -93.3 APPROXIMATE
#> # … with 4 more variables: viewport <list>, place_id <chr>, types <list>,
#> # status <chr>
Yenə də, unnest_auto() daxil olan məlumatların strukturunun dəyişdirilməsi nəticəsində yarana biləcək bəzi risklərlə təsvir edilmiş əməliyyatı asanlaşdırır:
loc %>%
unnest_auto(json) %>%
unnest_auto(results) %>%
unnest_auto(results) %>%
unnest_auto(geometry) %>%
unnest_auto(location)
#> Using `unnest_wider(json)`; elements have 2 names in common
#> Using `unnest_longer(results)`; no element has names
#> Using `unnest_wider(results)`; elements have 5 names in common
#> Using `unnest_wider(geometry)`; elements have 4 names in common
#> Using `unnest_wider(location)`; elements have 2 names in common
#> # A tibble: 5 x 11
#> city address_compone… formatted_addre… bounds lat lng location_type
#> <chr> <list> <chr> <list> <dbl> <dbl> <chr>
#> 1 Hous… <list [4]> Houston, TX, USA <name… 29.8 -95.4 APPROXIMATE
#> 2 LA <list [4]> Los Angeles, CA… <name… 34.1 -118. APPROXIMATE
#> 3 New … <list [3]> New York, NY, U… <name… 40.7 -74.0 APPROXIMATE
#> 4 Chic… <list [4]> Chicago, IL, USA <name… 41.9 -87.6 APPROXIMATE
#> 5 Spri… <list [5]> Springfield, MO… <name… 37.2 -93.3 APPROXIMATE
#> # … with 4 more variables: viewport <list>, place_id <chr>, types <list>,
#> # status <chr>
Biz həmçinin hər bir şəhər üçün ilk ünvana baxa bilərik:
loc %>%
unnest_wider(json) %>%
hoist(results, first_result = 1) %>%
unnest_wider(first_result) %>%
unnest_wider(geometry) %>%
unnest_wider(location)
#> # A tibble: 5 x 11
#> city address_compone… formatted_addre… bounds lat lng location_type
#> <chr> <list> <chr> <list> <dbl> <dbl> <chr>
#> 1 Hous… <list [4]> Houston, TX, USA <name… 29.8 -95.4 APPROXIMATE
#> 2 LA <list [4]> Los Angeles, CA… <name… 34.1 -118. APPROXIMATE
#> 3 New … <list [3]> New York, NY, U… <name… 40.7 -74.0 APPROXIMATE
#> 4 Chic… <list [4]> Chicago, IL, USA <name… 41.9 -87.6 APPROXIMATE
#> 5 Spri… <list [5]> Springfield, MO… <name… 37.2 -93.3 APPROXIMATE
#> # … with 4 more variables: viewport <list>, place_id <chr>, types <list>,
#> # status <chr>
Və ya istifadə edin hoist() birbaşa getmək üçün çox səviyyəli dalış üçün lat и lng.
loc %>%
hoist(json,
lat = list("results", 1, "geometry", "location", "lat"),
lng = list("results", 1, "geometry", "location", "lng")
)
#> # A tibble: 5 x 4
#> city lat lng json
#> <chr> <dbl> <dbl> <list>
#> 1 Houston 29.8 -95.4 <named list [2]>
#> 2 LA 34.1 -118. <named list [2]>
#> 3 New York 40.7 -74.0 <named list [2]>
#> 4 Chicago 41.9 -87.6 <named list [2]>
#> 5 Springfield 37.2 -93.3 <named list [2]>
Şarla Gelfandın diskoqrafiyası
Nəhayət, ən mürəkkəb quruluşa - Şarla Gelfandın diskoqrafiyasına baxacağıq. Yuxarıdakı misallarda olduğu kimi, biz siyahını tək sütunlu verilənlər çərçivəsinə çevirməklə başlayırıq və sonra onu hər komponentin ayrıca sütun olması üçün genişləndiririk. Mən də sütunu dəyişdirirəm date_added R-də müvafiq tarix və vaxt formatına.
discs <- tibble(disc = discog) %>%
unnest_wider(disc) %>%
mutate(date_added = as.POSIXct(strptime(date_added, "%Y-%m-%dT%H:%M:%S")))
discs
#> # A tibble: 155 x 5
#> instance_id date_added basic_information id rating
#> <int> <dttm> <list> <int> <int>
#> 1 354823933 2019-02-16 17:48:59 <named list [11]> 7496378 0
#> 2 354092601 2019-02-13 14:13:11 <named list [11]> 4490852 0
#> 3 354091476 2019-02-13 14:07:23 <named list [11]> 9827276 0
#> 4 351244906 2019-02-02 11:39:58 <named list [11]> 9769203 0
#> 5 351244801 2019-02-02 11:39:37 <named list [11]> 7237138 0
#> 6 351052065 2019-02-01 20:40:53 <named list [11]> 13117042 0
#> 7 350315345 2019-01-29 15:48:37 <named list [11]> 7113575 0
#> 8 350315103 2019-01-29 15:47:22 <named list [11]> 10540713 0
#> 9 350314507 2019-01-29 15:44:08 <named list [11]> 11260950 0
#> 10 350314047 2019-01-29 15:41:35 <named list [11]> 11726853 0
#> # … with 145 more rows
Bu səviyyədə biz hər bir diskin Şarlanın diskoqrafiyasına nə vaxt əlavə edildiyi barədə məlumat alırıq, lakin həmin disklər haqqında heç bir məlumat görmürük. Bunu etmək üçün sütunu genişləndirməliyik basic_information:
discs %>% unnest_wider(basic_information)
#> Column name `id` must not be duplicated.
#> Use .name_repair to specify repair.
Təəssüf ki, xəta alacağıq, çünki... siyahının içərisində basic_information eyni adlı sütun var basic_information. Belə bir səhv baş verərsə, onun səbəbini tez bir zamanda müəyyən etmək üçün istifadə edə bilərsiniz names_repair = "unique":
Daha sonra lazım olduqda onları orijinal verilənlər bazasına birləşdirə bilərsiniz.
Nəticə
Kitabxananın özəyinə tidyverse ümumi məlumat emalı fəlsəfəsi ilə birləşən çoxlu faydalı paketləri ehtiva edir.
Bu yazıda biz funksiyalar ailəsini araşdırdıq unnest_*(), iç içə siyahılardan elementlərin çıxarılması ilə işləməyə yönəldilmişdir. Bu paket məlumatların konsepsiyaya uyğun olaraq çevrilməsini asanlaşdıran bir çox digər faydalı xüsusiyyətləri ehtiva edir Səliqəli Məlumat.