🥇Kolem data.table

Tento příspěvek bude zajímavý pro ty, kteří používají knihovnu pro zpracování dat v tabulkách jazyka R data.table a mohli by je potěšit flexibilita jejího použití v různých příkladech.

Inspirováno dobrým příkladem kolegovéa doufám, že jste si jeho článek již přečetli, doporučuji vám hlouběji se ponořit do optimalizace kódu a výkonu na základě datová tabulka.

Úvod: Odkud pochází soubor data.table?

Nejlepší je začít se seznamovat s knihovnou trochu dál, a to s datovými strukturami, ze kterých lze získat objekt data.table (dále jen DT).

Array

Kód

## arrays ---------

arrmatr <- array(1:20, c(4,5))

class(arrmatr)

typeof(arrmatr)

is.array(arrmatr)

is.matrix(arrmatr)

Jednou z takových struktur je pole (?základ::pole). Stejně jako v jiných jazycích jsou i zde pole vícerozměrná. Zajímavé však je, že například dvourozměrné pole začíná dědit vlastnosti z třídy matice. (?základní::matice) a jednorozměrné pole, což je také důležité, nedědí z vektoru (?základ::vektor).

Je důležité si uvědomit, že typ dat obsažených v jakémkoli objektu by měl být kontrolován funkcí. base::typeof, který vrací interní popis typu podle Interní prvky R — protokol společného jazyka spojený s originálem C.

Další příkaz pro určení třídy objektu, base::classV případě vektorů vrací vektorový typ (má jiný název než interní, ale také umožňuje pochopit datový typ).

seznam

Z dvourozměrného pole, známého také jako matice, můžete přejít na seznam (?base::list).

Kód

## lists ------------------

mylist <- as.list(arrmatr)

is.vector(mylist)

is.list(mylist)

Děje se několik věcí najednou:

Druhý rozměr matice se zhroutí, to znamená, že dostaneme zároveň seznam i vektor.
Seznam tedy dědí z těchto tříd. Mějte na paměti, že každý prvek seznamu bude odpovídat jedné (skalární) hodnotě z buňky maticového pole.

Protože seznam je také vektor, lze na něj aplikovat některé vektorové funkce.

Datový rámec

Ze seznamu, matice nebo vektoru můžete přejít do datového rámce (?base::data.frame).

Kód

## data.frames ------------

df <- as.data.frame(arrmatr)
df2 <- as.data.frame(mylist)

is.list(df)

df$V6 <- df$V1 + df$V2

Zajímavé na tom je, že datový rámec dědí ze seznamu! Sloupce datového rámce jsou buňky seznamu. To bude důležité později, až budeme používat funkce, které se vztahují k seznamům.

datová tabulka

Získat DT (?data.table::data.table) může být z datový rámec, seznam, vektor nebo matice. Například takto (na místě).

Kód

## data.tables -----------------------
library(data.table)

data.table::setDT(df)

is.list(df)

is.data.frame(df)

is.data.table(df)

Užitečné je, že stejně jako datový rámec dědí i datový typ (DT) vlastnosti seznamu.

DT a paměť

Na rozdíl od všech ostatních objektů v R base se DT předávají odkazem. Pokud je potřebujete zkopírovat do nového umístění v paměti, potřebujete funkci. data.table::copy nebo potřebujete provést výběr ze starého objektu.

Kód

df2 <- df

df[V1 == 1, V2 := 999]

data.table::fsetdiff(df, df2)

df2 <- data.table::copy(df)

df[V1 == 2, V2 := 999]

data.table::fsetdiff(df, df2)

Tímto úvod končí. DT je pokračováním vývoje datových struktur v R, primárně prostřednictvím rozšíření a zrychlení operací prováděných s objekty datových rámců. Při zachování dědičnosti z jiných primitiv.

Některé příklady použití vlastností data.table

Jako seznam…

Iterování přes řádky datového rámce nebo DT není nejlepší nápad, protože kód smyčky je v jazyce R mnohem pomalejší C, ale procházení sloupců, kterých je obvykle mnohem méně, je zcela možné. Při procházení sloupců nezapomeňte, že každý sloupec je prvkem seznamu, obvykle obsahujícím vektor. A operace s vektory jsou dobře vektorizovány v základních jazykových funkcích. Můžete také použít operátory výběru, které jsou vlastní seznamům a vektorům: `[[`, `$`.

Kód

## operations on data.tables ------------

#using list properties

df$'V1'[1]

df[['V1']]

df[[1]][1]

sapply(df, class)

sapply(df, function(x) sum(is.na(x)))

Vektorizace

Pokud potřebujete iterovat rozsáhlým DT, nejlepším řešením je napsat vektorizovanou funkci. Pokud to ale nefunguje, pamatujte, že smyčka uvnitř DT je stále rychlejší než cyklus v R, protože se provádí na C.

Zkusme to na větším příkladu se 100 tisíci řádky. Vybereme první písmeno ze slov obsažených ve sloupcovém vektoru. w.

aktualizováno

Kód

library(magrittr)
library(microbenchmark)

## Bigger example ----

rown <- 100000

dt <- 
	data.table(
		w = sapply(seq_len(rown), function(x) paste(sample(letters, 3, replace = T), collapse = ' '))
		, a = sample(letters, rown, replace = T)
		, b = runif(rown, -3, 3)
		, c = runif(rown, -3, 3)
		, e = rnorm(rown)
	) %>%
	.[, d := 1 + b + c + rnorm(nrow(.))]

# vectorization

microbenchmark({
	dt[
		, first_l := unlist(strsplit(w, split = ' ', fixed = T))[1]
		, by = 1:nrow(dt)
	   ]
})

# second

first_l_f <- function(sd)
{
	strsplit(sd, split = ' ', fixed = T) %>%
		do.call(rbind, .) %>%
		`[`(,1)
}

dt[, first_l := NULL]

microbenchmark({
	dt[
		, first_l := .(first_l_f(w))
		]
})

# third

first_l_f2 <- function(sd)
{
	strsplit(sd, split = ' ', fixed = T) %>%
		unlist %>%
		matrix(nrow = 3) %>%
		`[`(1,)
}

dt[, first_l := NULL]

microbenchmark({
	dt[
		, first_l := .(first_l_f2(w))
		]
})

První spuštění s iterací přes řádky:

Jednotka: milisekundy
výraz min
{ dt[, `:=`(first_l, unlist(strsplit(w, split = " ", fixed = T))[1]), by = 1:nrow(dt)] } 439.6217
průměr lq střední hodnota uq max neval
451.9998 460.1593 456.2505 460.9147 621.4042 100

Druhý běh, kde vektorizace probíhá převodem seznamu do matice a výběrem prvků řezu s indexem 1 (ten druhý je skutečná vektorizace). Oprava: vektorizace na úrovni funkcí. strsplit, který může jako vstup přijímat vektor. Ukazuje se, že postup pro převod seznamu do matice je mnohem složitější než samotná vektorizace, ale i v tomto případě je mnohem rychlejší než nevektorizovaná verze.

Jednotka: milisekundy
expr min lq střední medián uq max neval
{ dt[, `:=`(first_l, .(first_l_f(w)))] } 93.07916 112.1381 161.9267 149.6863 185.9893 442.5199 100

Zrychlení podle středního bodu v 3 krát.

Třetí běh, kde bylo změněno schéma konverze matic.

Jednotka: milisekundy
expr min lq střední medián uq max neval
{ dt[, `:=`(first_l, .(first_l_f2(w)))] } 32.60481 34.13679 40.4544 35.57115 42.11975 222.972 100

Zrychlení podle středního bodu v 13 krát.

S touto záležitostí je třeba experimentovat, čím více, tím lépe.

Zde je další příklad vektorizace, také s textem, ale blíže reálným podmínkám: různé délky slov a různý počet slov. Cílem je extrahovat první tři slova. Takto:

Předchozí funkce zde nefunguje, protože vektory mají různou délku a my jsme zadali velikost matice. Zkusme to přepracovat hledáním na internetu.

Kód

# fourth

rown <- 100000

words <-
	sapply(
		seq_len(rown)
		, function(x){
			nwords <- rbinom(1, 10, 0.5)
			paste(
				sapply(
					seq_len(nwords)
					, function(x){
						paste(sample(letters, rbinom(1, 10, 0.5), replace = T), collapse = '')
					}
				)
				, collapse = ' '
			)
		}
	)

dt <- 
	data.table(
		w = words
		, a = sample(letters, rown, replace = T)
		, b = runif(rown, -3, 3)
		, c = runif(rown, -3, 3)
		, e = rnorm(rown)
	) %>%
	.[, d := 1 + b + c + rnorm(nrow(.))]

first_l_f3 <- function(sd, n)
{
	l <- strsplit(sd, split = ' ', fixed = T)
	
	maxl <- max(lengths(l))
	
	sapply(l, "length<-", maxl) %>%
		`[`(n,) %>%
		as.character
}

microbenchmark({
	dt[
		, (paste0('w_', 1:3)) := lapply(1:3, function(x) first_l_f3(w, x))
		]
})

dt[
	, (paste0('w_', 1:3)) := lapply(1:3, function(x) first_l_f3(w, x))
	]

Jednotka: milisekundy
expr min lq průměr medián

{ dt[, `:=`((paste0(“w_”, 1:3)), strsplit(w, split = " ", fixed = T))] } 851.7623 916.071 1054.5 1035.199
UQ Max Neval
1178.738 1356.816 100

Skript běžel průměrnou rychlostí 1 sekundy. Není to špatné.

Spojeni jedním řetězem…

S objekty DT můžete pracovat pomocí řetězení. Vypadá to jako řetězení závorek vpravo, v podstatě jako cukrový povlak.

Kód

# chaining

res1 <- dt[a == 'a'][sample(.N, 100)]

res2 <- dt[, .N, a][, N]

res3 <- dt[, coefficients(lm(e ~ d))[1], a][, .(letter = a, coef = V1)]

Protéká to potrubím...

Stejné operace lze provádět pomocí pipingu; vypadá to podobně, ale je to funkčně bohatší, protože lze použít jakékoli metody, nejen DT. Odvodme koeficienty logistické regrese pro naše syntetická data s řadou DT filtrů.

Kód

# piping

samplpe_b <- dt[a %in% head(letters), sample(b, 1)]

res4 <- 
	dt %>%
	.[a %in% head(letters)] %>%
	.[, 
	  {
	  	dt0 <- .SD[1:100]
	  	
	  	quants <- 
	  		dt0[, c] %>%
	  		quantile(seq(0.1, 1, 0.1), na.rm = T)
	  	
	  	.(q = quants)
	  }
	  , .(cond = b > samplpe_b)
	  ] %>%
	glm(
		cond ~ q -1
		, family = binomial(link = "logit")
		, data = .
	) %>%
	summary %>%
	.[[12]]

Statistika, strojové učení a další v rámci DT

Lambda funkce lze použít, ale někdy je lepší je vytvořit samostatně, napsat celý proces analýzy dat a je to – fungují v rámci DT. Příklad je obohacen o všechny výše zmíněné funkce a navíc o několik užitečných věcí z arzenálu DT (například přístup k samotnému DT v rámci DT pomocí odkazu, někdy vloženého mimo pořadí, ale jen pro jistotu).

Kód

# function

rm(lm_preds)

lm_preds <- function(
	sd, by, n
)
{
	
	if(
		n < 100 | 
		!by[['a']] %in% head(letters, 4)
	   )
	{
		
		res <-
			list(
				low = NA
				, mean = NA
				, high = NA
				, coefs = NA
			)
		
	} else {

		lmm <- 
			lm(
				d ~ c + b
				, data = sd
			)
		
		preds <- 
			stats::predict.lm(
				lmm
				, sd
				, interval = "prediction"
				)
		
		res <-
			list(
				low = preds[, 2]
				, mean = preds[, 1]
				, high = preds[, 3]
				, coefs = coefficients(lmm)
			)
	}

	res
	
}

res5 <- 
	dt %>%
	.[e < 0] %>%
	.[.[, .I[b > 0]]] %>%
	.[, `:=` (
		low = as.numeric(lm_preds(.SD, .BY, .N)[[1]])
		, mean = as.numeric(lm_preds(.SD, .BY, .N)[[2]])
		, high = as.numeric(lm_preds(.SD, .BY, .N)[[3]])
		, coef_c = as.numeric(lm_preds(.SD, .BY, .N)[[4]][1])
		, coef_b = as.numeric(lm_preds(.SD, .BY, .N)[[4]][2])
		, coef_int = as.numeric(lm_preds(.SD, .BY, .N)[[4]][3])
	)
	, a
	] %>%
	.[!is.na(mean), -'e', with = F]


# plot

plo <- 
	res5 %>%
	ggplot +
	facet_wrap(~ a) +
	geom_ribbon(
		aes(
			x = c * coef_c + b * coef_b + coef_int
			, ymin = low
			, ymax = high
			, fill = a
		)
		, size = 0.1
		, alpha = 0.1
	) +
	geom_point(
		aes(
			x = c * coef_c + b * coef_b + coef_int
			, y = mean
			, color = a
		)
		, size = 1
	) +
	geom_point(
		aes(
			x = c * coef_c + b * coef_b + coef_int
			, y = d
		)
		, size = 1
		, color = 'black'
	) +
	theme_minimal()

print(plo)

Závěr

Doufám, že se mi podařilo vytvořit komplexní, i když rozhodně ne úplný, obraz objektu data.table, od jeho vlastností souvisejících s děděním z tříd R až po jeho vlastní funkce a prostředí elementů tidyverse. Doufám, že vám to pomůže lépe porozumět této knihovně a aplikovat ji ve vaší práci. zábava.

Děkujeme!

Celý kód

Kód

## load libs ----------------

library(data.table)
library(ggplot2)
library(magrittr)
library(microbenchmark)


## arrays ---------

arrmatr <- array(1:20, c(4,5))

class(arrmatr)

typeof(arrmatr)

is.array(arrmatr)

is.matrix(arrmatr)


## lists ------------------

mylist <- as.list(arrmatr)

is.vector(mylist)

is.list(mylist)


## data.frames ------------

df <- as.data.frame(arrmatr)

is.list(df)

df$V6 <- df$V1 + df$V2


## data.tables -----------------------

data.table::setDT(df)

is.list(df)

is.data.frame(df)

is.data.table(df)

df2 <- df

df[V1 == 1, V2 := 999]

data.table::fsetdiff(df, df2)

df2 <- data.table::copy(df)

df[V1 == 2, V2 := 999]

data.table::fsetdiff(df, df2)


## operations on data.tables ------------

#using list properties

df$'V1'[1]

df[['V1']]

df[[1]][1]

sapply(df, class)

sapply(df, function(x) sum(is.na(x)))


## Bigger example ----

rown <- 100000

dt <- 
	data.table(
		w = sapply(seq_len(rown), function(x) paste(sample(letters, 3, replace = T), collapse = ' '))
		, a = sample(letters, rown, replace = T)
		, b = runif(rown, -3, 3)
		, c = runif(rown, -3, 3)
		, e = rnorm(rown)
	) %>%
	.[, d := 1 + b + c + rnorm(nrow(.))]

# vectorization

# zero - for loop

microbenchmark({
	for(i in 1:nrow(dt))
		{
		dt[
			i
			, first_l := unlist(strsplit(w, split = ' ', fixed = T))[1]
		]
	}
})

# first

microbenchmark({
	dt[
		, first_l := unlist(strsplit(w, split = ' ', fixed = T))[1]
		, by = 1:nrow(dt)
	   ]
})

# second

first_l_f <- function(sd)
{
	strsplit(sd, split = ' ', fixed = T) %>%
		do.call(rbind, .) %>%
		`[`(,1)
}

dt[, first_l := NULL]

microbenchmark({
	dt[
		, first_l := .(first_l_f(w))
		]
})

# third

first_l_f2 <- function(sd)
{
	strsplit(sd, split = ' ', fixed = T) %>%
		unlist %>%
		matrix(nrow = 3) %>%
		`[`(1,)
}

dt[, first_l := NULL]

microbenchmark({
	dt[
		, first_l := .(first_l_f2(w))
		]
})

# fourth

rown <- 100000

words <-
	sapply(
		seq_len(rown)
		, function(x){
			nwords <- rbinom(1, 10, 0.5)
			paste(
				sapply(
					seq_len(nwords)
					, function(x){
						paste(sample(letters, rbinom(1, 10, 0.5), replace = T), collapse = '')
					}
				)
				, collapse = ' '
			)
		}
	)

dt <- 
	data.table(
		w = words
		, a = sample(letters, rown, replace = T)
		, b = runif(rown, -3, 3)
		, c = runif(rown, -3, 3)
		, e = rnorm(rown)
	) %>%
	.[, d := 1 + b + c + rnorm(nrow(.))]

first_l_f3 <- function(sd, n)
{
	l <- strsplit(sd, split = ' ', fixed = T)
	
	maxl <- max(lengths(l))
	
	sapply(l, "length<-", maxl) %>%
		`[`(n,) %>%
		as.character
}

microbenchmark({
	dt[
		, (paste0('w_', 1:3)) := lapply(1:3, function(x) first_l_f3(w, x))
		]
})

dt[
	, (paste0('w_', 1:3)) := lapply(1:3, function(x) first_l_f3(w, x))
	]


# chaining

res1 <- dt[a == 'a'][sample(.N, 100)]

res2 <- dt[, .N, a][, N]

res3 <- dt[, coefficients(lm(e ~ d))[1], a][, .(letter = a, coef = V1)]

# piping

samplpe_b <- dt[a %in% head(letters), sample(b, 1)]

res4 <- 
	dt %>%
	.[a %in% head(letters)] %>%
	.[, 
	  {
	  	dt0 <- .SD[1:100]
	  	
	  	quants <- 
	  		dt0[, c] %>%
	  		quantile(seq(0.1, 1, 0.1), na.rm = T)
	  	
	  	.(q = quants)
	  }
	  , .(cond = b > samplpe_b)
	  ] %>%
	glm(
		cond ~ q -1
		, family = binomial(link = "logit")
		, data = .
	) %>%
	summary %>%
	.[[12]]


# function

rm(lm_preds)

lm_preds <- function(
	sd, by, n
)
{
	
	if(
		n < 100 | 
		!by[['a']] %in% head(letters, 4)
	   )
	{
		
		res <-
			list(
				low = NA
				, mean = NA
				, high = NA
				, coefs = NA
			)
		
	} else {

		lmm <- 
			lm(
				d ~ c + b
				, data = sd
			)
		
		preds <- 
			stats::predict.lm(
				lmm
				, sd
				, interval = "prediction"
				)
		
		res <-
			list(
				low = preds[, 2]
				, mean = preds[, 1]
				, high = preds[, 3]
				, coefs = coefficients(lmm)
			)
	}

	res
	
}

res5 <- 
	dt %>%
	.[e < 0] %>%
	.[.[, .I[b > 0]]] %>%
	.[, `:=` (
		low = as.numeric(lm_preds(.SD, .BY, .N)[[1]])
		, mean = as.numeric(lm_preds(.SD, .BY, .N)[[2]])
		, high = as.numeric(lm_preds(.SD, .BY, .N)[[3]])
		, coef_c = as.numeric(lm_preds(.SD, .BY, .N)[[4]][1])
		, coef_b = as.numeric(lm_preds(.SD, .BY, .N)[[4]][2])
		, coef_int = as.numeric(lm_preds(.SD, .BY, .N)[[4]][3])
	)
	, a
	] %>%
	.[!is.na(mean), -'e', with = F]


# plot

plo <- 
	res5 %>%
	ggplot +
	facet_wrap(~ a) +
	geom_ribbon(
		aes(
			x = c * coef_c + b * coef_b + coef_int
			, ymin = low
			, ymax = high
			, fill = a
		)
		, size = 0.1
		, alpha = 0.1
	) +
	geom_point(
		aes(
			x = c * coef_c + b * coef_b + coef_int
			, y = mean
			, color = a
		)
		, size = 1
	) +
	geom_point(
		aes(
			x = c * coef_c + b * coef_b + coef_int
			, y = d
		)
		, size = 1
		, color = 'black'
	) +
	theme_minimal()

print(plo)

Zdroj: www.habr.com