R - data.tableக்கு அட்டவணை தரவு செயலாக்க நூலகத்தைப் பயன்படுத்துபவர்களுக்கு இந்தக் குறிப்பு ஆர்வமாக இருக்கும், மேலும் பல்வேறு எடுத்துக்காட்டுகளில் அதன் பயன்பாட்டின் நெகிழ்வுத்தன்மையைக் கண்டு மகிழ்ச்சியடையலாம்.
ஒரு நல்ல உதாரணத்தால் ஈர்க்கப்பட்டது , மற்றும் அவருடைய கட்டுரையை நீங்கள் ஏற்கனவே படித்திருப்பீர்கள் என்று நம்புகிறேன், குறியீடு தேர்வுமுறை மற்றும் செயல்திறன் அடிப்படையில் ஆழமாக தோண்டி எடுக்க நான் முன்மொழிகிறேன். தரவு. அட்டவணை.
அறிமுகம்: data.table எங்கிருந்து வருகிறது?
தொலைதூரத்திலிருந்து நூலகத்துடன் பழகத் தொடங்குவது சிறந்தது, அதாவது தரவு. அட்டவணைப் பொருளை (இனி DT என குறிப்பிடப்படும்) பெறக்கூடிய தரவு கட்டமைப்புகளுடன்.
வரிசை
குறியீடு
## arrays ---------
arrmatr <- array(1:20, c(4,5))
class(arrmatr)
typeof(arrmatr)
is.array(arrmatr)
is.matrix(arrmatr)
அத்தகைய ஒரு அமைப்பு ஒரு வரிசை (?அடிப்படை::வரிசை) மற்ற மொழிகளைப் போலவே, இங்கும் வரிசைகள் பல பரிமாணங்கள் கொண்டவை. இருப்பினும், சுவாரஸ்யமான விஷயம் என்னவென்றால், எடுத்துக்காட்டாக, இரு பரிமாண வரிசை மேட்ரிக்ஸ் வகுப்பிலிருந்து பண்புகளைப் பெறத் தொடங்குகிறது. (?அடிப்படை::மேட்ரிக்ஸ்), மற்றும் ஒரு பரிமாண வரிசை, இதுவும் முக்கியமானது, ஒரு திசையனிலிருந்து மரபுரிமை பெறாது (?அடிப்படை::வெக்டர்).
எந்தவொரு பொருளிலும் உள்ள தரவு வகை செயல்பாட்டைப் பயன்படுத்தி சரிபார்க்கப்பட வேண்டும் என்பதை புரிந்து கொள்ள வேண்டும் அடிப்படை::வகை, இது இன் படி உள் வகை விளக்கத்தை வழங்குகிறது ஆர் இன்டர்னல்ஸ் - மூலத்துடன் தொடர்புடைய மொழியின் பொதுவான நெறிமுறை C.
ஒரு பொருளின் வகுப்பை தீர்மானிக்க மற்றொரு கட்டளை அடிப்படை::வகுப்பு, திசையன்களின் விஷயத்தில், திசையன் வகையை வழங்குகிறது (அது அகத்திலிருந்து பெயரில் வேறுபடுகிறது, ஆனால் தரவு வகையைப் புரிந்துகொள்ள உங்களை அனுமதிக்கிறது).
பட்டியல்
மேட்ரிக்ஸ் என்றும் அழைக்கப்படும் இரு பரிமாண வரிசையில் இருந்து, நீங்கள் பட்டியலுக்கு செல்லலாம் (?அடிப்படை:: பட்டியல்).
குறியீடு
## lists ------------------
mylist <- as.list(arrmatr)
is.vector(mylist)
is.list(mylist)
ஒரே நேரத்தில் பல விஷயங்கள் நடக்கும்:
- மேட்ரிக்ஸின் இரண்டாவது பரிமாணம் சரிகிறது, அதாவது, ஒரே நேரத்தில் ஒரு பட்டியல் மற்றும் திசையன் இரண்டையும் பெறுகிறோம்.
- பட்டியல் இந்த வகுப்புகளிலிருந்து பெறுகிறது. ஒரு பட்டியல் உறுப்பு அணிவரிசை மேட்ரிக்ஸின் கலத்திலிருந்து ஒரு (ஸ்கேலர்) மதிப்புடன் ஒத்திருக்கும் என்பதை நினைவில் கொள்ள வேண்டும்.
பட்டியல் ஒரு திசையன் என்பதால், சில திசையன் செயல்பாடுகளை அதற்குப் பயன்படுத்தலாம்.
டேட்டாஃப்ரேம்
நீங்கள் பட்டியல், அணி அல்லது வெக்டரில் இருந்து டேட்டாஃப்ரேமிற்கு செல்லலாம் (?base::data.frame).
குறியீடு
## data.frames ------------
df <- as.data.frame(arrmatr)
df2 <- as.data.frame(mylist)
is.list(df)
df$V6 <- df$V1 + df$V2
இதில் சுவாரஸ்யமானது என்ன: டேட்டாஃப்ரேம் பட்டியலிலிருந்து பெறுகிறது! டேட்டாஃப்ரேம் நெடுவரிசைகள் பட்டியல் கலங்கள். பட்டியல்களுக்குப் பயன்படுத்தப்படும் செயல்பாடுகளைப் பயன்படுத்தும்போது இது பின்னர் முக்கியமானதாக இருக்கும்.
தரவு. அட்டவணை
டிடி (?data.table::data.table) இருந்து இருக்கலாம் தரவுச்சட்டம், பட்டியல், திசையன் அல்லது அணி. உதாரணமாக, இது போன்ற (இடத்தில்).
குறியீடு
## data.tables -----------------------
library(data.table)
data.table::setDT(df)
is.list(df)
is.data.frame(df)
is.data.table(df)
டேட்டாஃப்ரேமைப் போலவே, டிடியும் பட்டியலின் பண்புகளைப் பெறுவது பயனுள்ளது.
டிடி மற்றும் நினைவகம்
R தளத்தில் உள்ள மற்ற எல்லா பொருட்களையும் போலல்லாமல், DTகள் குறிப்பு மூலம் அனுப்பப்படுகின்றன. நீங்கள் ஒரு புதிய நினைவக பகுதிக்கு நகலெடுக்க வேண்டும் என்றால், உங்களுக்கு ஒரு செயல்பாடு தேவை data.table::நகல் அல்லது பழைய பொருளில் இருந்து தேர்வு செய்ய வேண்டும்.
குறியீடு
df2 <- df
df[V1 == 1, V2 := 999]
data.table::fsetdiff(df, df2)
df2 <- data.table::copy(df)
df[V1 == 2, V2 := 999]
data.table::fsetdiff(df, df2)
இத்துடன் அறிமுகம் முடிகிறது. DT என்பது R இல் தரவு கட்டமைப்புகளின் வளர்ச்சியின் தொடர்ச்சியாகும், இது முக்கியமாக டேட்டாஃப்ரேம் வகுப்பின் பொருள்களில் செய்யப்படும் செயல்பாடுகளின் விரிவாக்கம் மற்றும் முடுக்கம் காரணமாக நிகழ்கிறது. அதே நேரத்தில், பிற ஆதிகாலங்களிலிருந்து பரம்பரை பாதுகாக்கப்படுகிறது.
data.table பண்புகளைப் பயன்படுத்துவதற்கான சில எடுத்துக்காட்டுகள்
ஒரு பட்டியல் போல...
டேட்டாஃப்ரேம் அல்லது டிடியின் வரிசைகளை மீண்டும் மீண்டும் செய்வது நல்ல யோசனையல்ல, ஏனெனில் மொழியில் உள்ள லூப் குறியீடு R மிகவும் மெதுவாக C, ஆனால் நெடுவரிசைகள் மூலம் லூப் செய்வது மிகவும் சாத்தியம், அவை பொதுவாக மிகவும் சிறியவை. நெடுவரிசைகளின் வழியாகச் செல்லும்போது, ஒவ்வொரு நெடுவரிசையும் பட்டியலின் ஒரு உறுப்பு என்பதை நினைவில் கொள்ளுங்கள், பொதுவாக ஒரு திசையன் உள்ளது. மற்றும் திசையன்களின் செயல்பாடுகள் மொழியின் அடிப்படை செயல்பாடுகளில் நன்கு வெக்டரைஸ் செய்யப்படுகின்றன. பட்டியல்கள் மற்றும் வெக்டர்களுக்கு பொதுவான தேர்வு ஆபரேட்டர்களையும் நீங்கள் பயன்படுத்தலாம்: `[[`, `$`.
குறியீடு
## operations on data.tables ------------
#using list properties
df$'V1'[1]
df[['V1']]
df[[1]][1]
sapply(df, class)
sapply(df, function(x) sum(is.na(x)))
வெக்டரைசேஷன்
ஒரு பெரிய டிடியின் வரிகள் வழியாக செல்ல வேண்டிய அவசியம் இருந்தால், திசையன்மயமாக்கலுடன் ஒரு செயல்பாட்டை எழுதுவதே சிறந்த தீர்வாக இருக்கும். ஆனால் இது வேலை செய்யவில்லை என்றால், சுழற்சி என்பதை நீங்கள் நினைவில் கொள்ள வேண்டும் உள்ள DT இன்னும் சுழற்சியை விட வேகமாக உள்ளது R, அன்று நிகழ்த்தப்படுவதால் C.
100K வரிசைகள் கொண்ட பெரிய எடுத்துக்காட்டில் இதை முயற்சிப்போம். திசையன் நெடுவரிசையில் உள்ள சொற்களிலிருந்து முதல் எழுத்தைப் பிரித்தெடுப்போம் w.
புதுப்பிக்கப்பட்ட
குறியீடு
library(magrittr)
library(microbenchmark)
## Bigger example ----
rown <- 100000
dt <-
data.table(
w = sapply(seq_len(rown), function(x) paste(sample(letters, 3, replace = T), collapse = ' '))
, a = sample(letters, rown, replace = T)
, b = runif(rown, -3, 3)
, c = runif(rown, -3, 3)
, e = rnorm(rown)
) %>%
.[, d := 1 + b + c + rnorm(nrow(.))]
# vectorization
microbenchmark({
dt[
, first_l := unlist(strsplit(w, split = ' ', fixed = T))[1]
, by = 1:nrow(dt)
]
})
# second
first_l_f <- function(sd)
{
strsplit(sd, split = ' ', fixed = T) %>%
do.call(rbind, .) %>%
`[`(,1)
}
dt[, first_l := NULL]
microbenchmark({
dt[
, first_l := .(first_l_f(w))
]
})
# third
first_l_f2 <- function(sd)
{
strsplit(sd, split = ' ', fixed = T) %>%
unlist %>%
matrix(nrow = 3) %>%
`[`(1,)
}
dt[, first_l := NULL]
microbenchmark({
dt[
, first_l := .(first_l_f2(w))
]
})
முதலில் வரிசைகளில் மீண்டும் இயக்கவும்:
அலகு: மில்லி விநாடிகள்
எக்ஸ்பிர நிமிடம்
{ dt[, `:=`(first_l, unlist(strsplit(w, split = " ", fixed = T))[1]), by = 1:nrow(dt)]} 439.6217
lq சராசரி uq max neval
451.9998 460.1593 456.2505 460.9147 621.4042 100
இரண்டாவது ரன், பட்டியலை மேட்ரிக்ஸாக மாற்றுவதன் மூலம் வெக்டரைசேஷன் நிகழ்கிறது மற்றும் குறியீட்டு 1 உடன் ஸ்லைஸில் உள்ள கூறுகளை எடுத்துக்கொள்வது (பிந்தையது வெக்டரைசேஷன் ஆகும்). திருத்தம்: செயல்பாட்டு மட்டத்தில் வெக்டரைசேஷன் strsplit, இது ஒரு திசையனை உள்ளீடாக ஏற்றுக்கொள்ளும். ஒரு பட்டியலை மேட்ரிக்ஸாக மாற்றுவதற்கான செயல்முறை திசையன்மயமாக்கலை விட மிகவும் கடினம் என்று மாறிவிடும், ஆனால் இந்த விஷயத்தில் இது திசையன் இல்லாத பதிப்பை விட மிக வேகமாக உள்ளது.
அலகு: மில்லி விநாடிகள்
expr min lq சராசரி uq max neval
{ dt[, `:=`(first_l, .(first_l_f(w)))] 93.07916 112.1381 161.9267 149.6863 185.9893 442.5199 100
இடைநிலை இன் மூலம் முடுக்கம் 3 முறை.
மூன்றாவது ரன், மேட்ரிக்ஸாக மாற்றும் திட்டம் மாற்றப்பட்டது.
அலகு: மில்லி விநாடிகள்
expr min lq சராசரி uq max neval
{ dt[, `:=`(first_l, .(first_l_f2(w)))] } 32.60481 34.13679 40.4544 35.57115 42.11975 222.972 100
இடைநிலை இன் மூலம் முடுக்கம் 13 முறை.
இந்த விஷயத்தில் நீங்கள் பரிசோதனை செய்ய வேண்டும், மேலும், அது சிறப்பாக இருக்கும்.
திசையன்மயமாக்கலுடன் மற்றொரு எடுத்துக்காட்டு, அங்கு உரையும் உள்ளது, ஆனால் அது உண்மையான நிலைமைகளுக்கு அருகில் உள்ளது: வெவ்வேறு சொற்களின் நீளம், வெவ்வேறு எண்ணிக்கையிலான சொற்கள். நீங்கள் முதல் 3 வார்த்தைகளைப் பெற வேண்டும். இது போல்:

இங்கே முந்தைய செயல்பாடு வேலை செய்யாது, ஏனெனில் திசையன்கள் வெவ்வேறு நீளங்களைக் கொண்டுள்ளன, மேலும் நாங்கள் மேட்ரிக்ஸ் அளவை அமைக்கிறோம். இணையத்தில் தோண்டி இதை மீண்டும் செய்யலாம்.
குறியீடு
# fourth
rown <- 100000
words <-
sapply(
seq_len(rown)
, function(x){
nwords <- rbinom(1, 10, 0.5)
paste(
sapply(
seq_len(nwords)
, function(x){
paste(sample(letters, rbinom(1, 10, 0.5), replace = T), collapse = '')
}
)
, collapse = ' '
)
}
)
dt <-
data.table(
w = words
, a = sample(letters, rown, replace = T)
, b = runif(rown, -3, 3)
, c = runif(rown, -3, 3)
, e = rnorm(rown)
) %>%
.[, d := 1 + b + c + rnorm(nrow(.))]
first_l_f3 <- function(sd, n)
{
l <- strsplit(sd, split = ' ', fixed = T)
maxl <- max(lengths(l))
sapply(l, "length<-", maxl) %>%
`[`(n,) %>%
as.character
}
microbenchmark({
dt[
, (paste0('w_', 1:3)) := lapply(1:3, function(x) first_l_f3(w, x))
]
})
dt[
, (paste0('w_', 1:3)) := lapply(1:3, function(x) first_l_f3(w, x))
]
அலகு: மில்லி விநாடிகள்
expr min lq சராசரி சராசரி
{ dt[, `:=`((paste0(“w_”, 1:3)), strsplit(w, split = " ", fixed = T))] 851.7623 916.071 1054.5 1035.199
uq max neval
1178.738 1356.816 100
ஸ்கிரிப்ட் சராசரியாக 1 வினாடி வேகத்தில் ஓடியது. மோசமாக இல்லை.
ஒரு சங்கிலியால் இணைக்கப்பட்டுள்ளது...
சங்கிலியைப் பயன்படுத்தி டிடி பொருள்களுடன் நீங்கள் வேலை செய்யலாம். இது வலதுபுறத்தில் அடைப்புக்குறி தொடரியல், முக்கியமாக சர்க்கரை இணைப்பது போல் தெரிகிறது.
குறியீடு
# chaining
res1 <- dt[a == 'a'][sample(.N, 100)]
res2 <- dt[, .N, a][, N]
res3 <- dt[, coefficients(lm(e ~ d))[1], a][, .(letter = a, coef = V1)]
குழாய்கள் வழியாக பாயும்...
அதே செயல்பாடுகளை குழாய் வழியாக செய்ய முடியும், இது ஒத்ததாக தோன்றுகிறது, ஆனால் செயல்பாட்டு ரீதியாக பணக்காரமானது, ஏனெனில் நீங்கள் டிடி மட்டுமின்றி எந்த முறையையும் பயன்படுத்தலாம். டிடியில் பல வடிப்பான்களுடன் எங்களின் செயற்கைத் தரவுகளுக்கான லாஜிஸ்டிக் ரிக்ரஷன் குணகங்களைப் பெறுவோம்.
குறியீடு
# piping
samplpe_b <- dt[a %in% head(letters), sample(b, 1)]
res4 <-
dt %>%
.[a %in% head(letters)] %>%
.[,
{
dt0 <- .SD[1:100]
quants <-
dt0[, c] %>%
quantile(seq(0.1, 1, 0.1), na.rm = T)
.(q = quants)
}
, .(cond = b > samplpe_b)
] %>%
glm(
cond ~ q -1
, family = binomial(link = "logit")
, data = .
) %>%
summary %>%
.[[12]]
புள்ளியியல், இயந்திர கற்றல் மற்றும் DT இன் உள்ளே பல
நீங்கள் லாம்ப்டா செயல்பாடுகளைப் பயன்படுத்தலாம், ஆனால் சில நேரங்களில் அவற்றை தனித்தனியாக உருவாக்கி, முழு தரவு பகுப்பாய்வு பைப்லைனையும் எழுதி, மேலே செல்லவும் - அவை டிடிக்குள் வேலை செய்கின்றன. மேலே உள்ள அனைத்து அம்சங்களுடனும், DT ஆயுதக் களஞ்சியத்திலிருந்து பல பயனுள்ள விஷயங்களுடனும் உதாரணம் செறிவூட்டப்பட்டுள்ளது (ஒரு இணைப்பு வழியாக DT க்குள் DT யை அணுகுவது போன்றவை, சில சமயங்களில் வரிசையாக சேர்க்கப்படாமல், ஆனால் அது இருக்கும்).
குறியீடு
# function
rm(lm_preds)
lm_preds <- function(
sd, by, n
)
{
if(
n < 100 |
!by[['a']] %in% head(letters, 4)
)
{
res <-
list(
low = NA
, mean = NA
, high = NA
, coefs = NA
)
} else {
lmm <-
lm(
d ~ c + b
, data = sd
)
preds <-
stats::predict.lm(
lmm
, sd
, interval = "prediction"
)
res <-
list(
low = preds[, 2]
, mean = preds[, 1]
, high = preds[, 3]
, coefs = coefficients(lmm)
)
}
res
}
res5 <-
dt %>%
.[e < 0] %>%
.[.[, .I[b > 0]]] %>%
.[, `:=` (
low = as.numeric(lm_preds(.SD, .BY, .N)[[1]])
, mean = as.numeric(lm_preds(.SD, .BY, .N)[[2]])
, high = as.numeric(lm_preds(.SD, .BY, .N)[[3]])
, coef_c = as.numeric(lm_preds(.SD, .BY, .N)[[4]][1])
, coef_b = as.numeric(lm_preds(.SD, .BY, .N)[[4]][2])
, coef_int = as.numeric(lm_preds(.SD, .BY, .N)[[4]][3])
)
, a
] %>%
.[!is.na(mean), -'e', with = F]
# plot
plo <-
res5 %>%
ggplot +
facet_wrap(~ a) +
geom_ribbon(
aes(
x = c * coef_c + b * coef_b + coef_int
, ymin = low
, ymax = high
, fill = a
)
, size = 0.1
, alpha = 0.1
) +
geom_point(
aes(
x = c * coef_c + b * coef_b + coef_int
, y = mean
, color = a
)
, size = 1
) +
geom_point(
aes(
x = c * coef_c + b * coef_b + coef_int
, y = d
)
, size = 1
, color = 'black'
) +
theme_minimal()
print(plo)
முடிவுக்கு
தரவு. அட்டவணை போன்ற ஒரு பொருளின் முழுமையான படத்தை என்னால் உருவாக்க முடிந்தது என்று நம்புகிறேன் . இந்த நூலகத்தை உங்கள் பணிக்காகவும் பயன்படுத்தவும் இது உங்களுக்கு உதவும் என்று நம்புகிறேன் பொழுதுபோக்கு.

நன்றி!
முழு குறியீடு
குறியீடு
## load libs ----------------
library(data.table)
library(ggplot2)
library(magrittr)
library(microbenchmark)
## arrays ---------
arrmatr <- array(1:20, c(4,5))
class(arrmatr)
typeof(arrmatr)
is.array(arrmatr)
is.matrix(arrmatr)
## lists ------------------
mylist <- as.list(arrmatr)
is.vector(mylist)
is.list(mylist)
## data.frames ------------
df <- as.data.frame(arrmatr)
is.list(df)
df$V6 <- df$V1 + df$V2
## data.tables -----------------------
data.table::setDT(df)
is.list(df)
is.data.frame(df)
is.data.table(df)
df2 <- df
df[V1 == 1, V2 := 999]
data.table::fsetdiff(df, df2)
df2 <- data.table::copy(df)
df[V1 == 2, V2 := 999]
data.table::fsetdiff(df, df2)
## operations on data.tables ------------
#using list properties
df$'V1'[1]
df[['V1']]
df[[1]][1]
sapply(df, class)
sapply(df, function(x) sum(is.na(x)))
## Bigger example ----
rown <- 100000
dt <-
data.table(
w = sapply(seq_len(rown), function(x) paste(sample(letters, 3, replace = T), collapse = ' '))
, a = sample(letters, rown, replace = T)
, b = runif(rown, -3, 3)
, c = runif(rown, -3, 3)
, e = rnorm(rown)
) %>%
.[, d := 1 + b + c + rnorm(nrow(.))]
# vectorization
# zero - for loop
microbenchmark({
for(i in 1:nrow(dt))
{
dt[
i
, first_l := unlist(strsplit(w, split = ' ', fixed = T))[1]
]
}
})
# first
microbenchmark({
dt[
, first_l := unlist(strsplit(w, split = ' ', fixed = T))[1]
, by = 1:nrow(dt)
]
})
# second
first_l_f <- function(sd)
{
strsplit(sd, split = ' ', fixed = T) %>%
do.call(rbind, .) %>%
`[`(,1)
}
dt[, first_l := NULL]
microbenchmark({
dt[
, first_l := .(first_l_f(w))
]
})
# third
first_l_f2 <- function(sd)
{
strsplit(sd, split = ' ', fixed = T) %>%
unlist %>%
matrix(nrow = 3) %>%
`[`(1,)
}
dt[, first_l := NULL]
microbenchmark({
dt[
, first_l := .(first_l_f2(w))
]
})
# fourth
rown <- 100000
words <-
sapply(
seq_len(rown)
, function(x){
nwords <- rbinom(1, 10, 0.5)
paste(
sapply(
seq_len(nwords)
, function(x){
paste(sample(letters, rbinom(1, 10, 0.5), replace = T), collapse = '')
}
)
, collapse = ' '
)
}
)
dt <-
data.table(
w = words
, a = sample(letters, rown, replace = T)
, b = runif(rown, -3, 3)
, c = runif(rown, -3, 3)
, e = rnorm(rown)
) %>%
.[, d := 1 + b + c + rnorm(nrow(.))]
first_l_f3 <- function(sd, n)
{
l <- strsplit(sd, split = ' ', fixed = T)
maxl <- max(lengths(l))
sapply(l, "length<-", maxl) %>%
`[`(n,) %>%
as.character
}
microbenchmark({
dt[
, (paste0('w_', 1:3)) := lapply(1:3, function(x) first_l_f3(w, x))
]
})
dt[
, (paste0('w_', 1:3)) := lapply(1:3, function(x) first_l_f3(w, x))
]
# chaining
res1 <- dt[a == 'a'][sample(.N, 100)]
res2 <- dt[, .N, a][, N]
res3 <- dt[, coefficients(lm(e ~ d))[1], a][, .(letter = a, coef = V1)]
# piping
samplpe_b <- dt[a %in% head(letters), sample(b, 1)]
res4 <-
dt %>%
.[a %in% head(letters)] %>%
.[,
{
dt0 <- .SD[1:100]
quants <-
dt0[, c] %>%
quantile(seq(0.1, 1, 0.1), na.rm = T)
.(q = quants)
}
, .(cond = b > samplpe_b)
] %>%
glm(
cond ~ q -1
, family = binomial(link = "logit")
, data = .
) %>%
summary %>%
.[[12]]
# function
rm(lm_preds)
lm_preds <- function(
sd, by, n
)
{
if(
n < 100 |
!by[['a']] %in% head(letters, 4)
)
{
res <-
list(
low = NA
, mean = NA
, high = NA
, coefs = NA
)
} else {
lmm <-
lm(
d ~ c + b
, data = sd
)
preds <-
stats::predict.lm(
lmm
, sd
, interval = "prediction"
)
res <-
list(
low = preds[, 2]
, mean = preds[, 1]
, high = preds[, 3]
, coefs = coefficients(lmm)
)
}
res
}
res5 <-
dt %>%
.[e < 0] %>%
.[.[, .I[b > 0]]] %>%
.[, `:=` (
low = as.numeric(lm_preds(.SD, .BY, .N)[[1]])
, mean = as.numeric(lm_preds(.SD, .BY, .N)[[2]])
, high = as.numeric(lm_preds(.SD, .BY, .N)[[3]])
, coef_c = as.numeric(lm_preds(.SD, .BY, .N)[[4]][1])
, coef_b = as.numeric(lm_preds(.SD, .BY, .N)[[4]][2])
, coef_int = as.numeric(lm_preds(.SD, .BY, .N)[[4]][3])
)
, a
] %>%
.[!is.na(mean), -'e', with = F]
# plot
plo <-
res5 %>%
ggplot +
facet_wrap(~ a) +
geom_ribbon(
aes(
x = c * coef_c + b * coef_b + coef_int
, ymin = low
, ymax = high
, fill = a
)
, size = 0.1
, alpha = 0.1
) +
geom_point(
aes(
x = c * coef_c + b * coef_b + coef_int
, y = mean
, color = a
)
, size = 1
) +
geom_point(
aes(
x = c * coef_c + b * coef_b + coef_int
, y = d
)
, size = 1
, color = 'black'
) +
theme_minimal()
print(plo)
ஆதாரம்: www.habr.com
