Pluma lectio in apparatus doctrina

Heus Habr!

Nos ad Reksoft articulum in Russian Feature Electio in Machina Learning. Speramus fore utilem omnibus qui in re versantur.

In placerat, elit non semper scelerisque, quam elit interdum risus. Inde est, quod data fodienda et rixis data postulatio sunt. Iuvat cognoscere valores absentes et exemplaria in data interrogatione structa quae homines agnoscere non possunt. Ad inveniendum et utendum his exemplaribus ad praedicere eventus utentes relationes in notitia inventas, apparatus discendi in promptu venit.

Ad cuiuslibet algorithm intelligendam, omnes variabiles in notitia et figura inspicere debes quid variabiles illae repraesentant. Hoc criticum est, quia rationale post eventus intelligendi notitia fundatur. Si data 5 vel etiam 50 variabilia contineant, omnes examinare potes. Quid si CC sunt? Tunc simpliciter non erit satis spatium ad singulas variabiles inspiciendas. Praeterea quaedam algorithms non operantur pro notitia categorica, et tunc debebis omnes columnas categoricas convertere ad variabiles quantitatis (videant quantita- tivas, sed metrici monstrabunt categoricas esse) eas ad exemplar addere. Ita variabilium numerus augetur, et circiter 200 sunt: ​​quid nunc agam? Posset putare responsio ad reducere dimensionalitatem. Dimensionalitas reductionis algorithmorum numerum parametri minuunt sed negativam ictum in interpretabilitate habent. Quid si aliae artes sint quae lineamenta eliminant dum reliquas facile comprehendunt et interpretantur?

Secundum sive analysin procedere vel classificatione nititur, pluma lectio algorithms differre potest, sed principalis notio eorum exsecutionis manet eadem.

Multum Correlated Variabiles

Variabiles, quae inter se valde connectuntur, easdem informationes ad exemplar praebent, ideo omnes ad analysim uti non oportet. Exempli gratia, si schedula contineat lineamenta "Online Time" et "Traffic Used", assumere possumus eos aliquo modo connecti, et validam rationem videbimus etiam si specimen notitiarum praelibatum eligemus. Hoc in casu, una tantum harum variabilium in exemplari desideratur. Si utroque uteris, exemplar in unum peculiare quiddam assequetur et inhiat.

P-valores

In algorithmis, sicut regressionis linearis, exemplar statisticum initiale semper utilem est. Iuvat ostendere momentum lineamentorum per p-valores hoc exemplo consecuti. Posito gradu significationem, consequentes p-valores coercemus, et si quis valor infra gradum significativum determinatum est, haec notatio significans declaratur, hoc est, mutatio valoris eius verisimile erit mutationem valoris. scopo.

Recta lectio

Deinceps lectio est ars quae gradatim regressionem involvit. Exemplar aedificationis incipit cum nulla completa, hoc est, exemplar inane, et tunc singulae iteratio variabilis addit quae emendationem exemplaris aedificanti facit. Quae variabilis exemplari additur, significatu suo determinatur. Haec computari possunt variis metris utentes. Modus frequentissimus est uti valores p-receptis in exemplari statistico originali utendo omnes variabiles. Interdum electio deinceps ad exemplar superabundantiam ducere potest quia in exemplari variabilium valde connectuntur, etsi eadem informationes ad exemplar praebent (sed exemplar tamen emendationem ostendit).

Inversa lectio

Inversa lectio etiam gradatim eliminationem notarum implicat, sed in contrariam partem lectioni anteriori comparatae. Hoc in casu, exemplar initiale omnes variabiles independentes includit. Variabiles tunc eliminantur (una per iterationem), si valorem novum regressionis in unaquaque iteratione non conferunt. Pluma exclusio fundatur in valores primi exemplaris. Haec methodus etiam dubitationem habet cum variabiles maxime connectuntur.

Recursive Feature Eliminationis

RFE ars late usus est / algorithmus ad accuratam notarum notarum numerum eligendum. Interdum modus adhibetur ad explicandas plures lineas "maximas" quae influentiae eventus; interdum ad ingentem numerum variabilium reducendum (circiter 200-400), et eae solae quae ad exemplar aliquam saltem conferunt, servantur et omnes aliae excluduntur. RFE ratio ordo utitur. Lineamenta in notitia statutorum ordines attribuuntur. Hi ordines tunc adhibentur ut notiones recursive eliminandae sint in collinearitate inter illa et momentum illarum lineamentorum in exemplari. Praeter notas notas, RFE ostendere potest utrum hae lineamenta magni momenti sint vel non etiam ad certum numerum linearum (quia verisimillimum est delectum linearum numerum meliorem esse non posse, et optimal linearum numerus vel plures esse. minusve delectis).

Feature momentum Diagram

Cum de interpretabilitate machinae discendi algorithms loqueris, solere de regressionibus linearibus disserere (quae te permittunt momentum notarum p-valum utentium) et arborum decisionum (proprie ostendentes momentum lineamentorum in forma arboris, et in simul eorum hierarchia). Aliunde algorithmi tales ac Random Forest, LightGBM et XG Boost saepe pluma momenti schematis utuntur, hoc est, variabilium schemate et "numeri momenti". Hoc maxime utile est, cum ratio structa ad momentum attributorum praebere debet secundum eorum negotium impulsum.

Ordinationis

Ordinatio fit ut temperamentum inter studium et contentionem coerceatur. Bias ostendit quantopere exemplar in disciplina notitiae usae superaverit. Deviatio ostendit quomodo variae praedictiones inter institutionem et experimentum dataset erant. Specimen, studium et variatio parva esse debet. Ubi regularization succurrit! Sunt duae artes principales:

L1 Ordinationis - Lasso: exemplar pondus Lasso punit ut suum momentum ad exemplar mutet et etiam nullas illas possit (i.e. illas variabiles ab ultimo exemplari removere). De more, Lasso adhibetur, cum schedulae magnum numerum variabilium continet et vis aliqua ex iis excludere ut melius intelligant quam magni momenti lineamenta ad exemplar afficiant (id est, lineamenta quae a Lasso delecti sunt et momenti assignata sunt).

L2 Ordinatio - Modus Ridge: Dorsum officium est variabiles omnes recondere et simul momentum assignare illis secundum quod ad exemplar effectus conferunt. Iugum bene eligendum erit si schedulae parvam numerum variabilium contineat et omnes necessariae inventae et eventa interpretandae sint consecutae.

Cum Ridge omnes variabiles servat et Lasso melius officium suum constituendae momenti facit, algorithmus enucleatus est qui componit optimas notas utriusque regularizationum, quae Elastic-Net vocantur.

Plures modi sunt rationes machinarum ad discendum eligere, sed praecipua notio semper eadem est: momentum variabilium demonstra et aliquas ex iis quae consequitur momentum eliminabunt. Momentum est terminus valde subiectivus, quia non unus tantum, sed totus ordo metri et chartulae quae ad attributa clavis invenire possunt.

Gratias tibi ago pro legendi! Felix doctrina!

Source: www.habr.com