Pluma lectio in apparatus doctrina

Heus Habr!

Nos apud Reksoft articulum in Russicam linguam convertimus. Selectio Proprietatum in Doctrina AutomatariaSperamus hoc utile fore cuivis hac re studente.

In mundo reali, notitiae non semper tam purae sunt quam clientes negotiales interdum putant. Quam ob rem exploratio notitiarum et disputatio notitiarum tam popularis est. Adiuvant ad valores desuntes et exempla in notitiis per interrogationes structuratis, quae homines detegere non possunt, identificanda. Doctrina automatica adhibetur ad haec exempla invenienda et utenda ad praedicenda eventus secundum relationes in notitiis repertas.

Ad intellegendum quemvis algorithmum, necesse est omnes variabiles in datis inspicere et intellegere quid repraesentent. Hoc magni momenti est, quia fundamentum intellegendi eventus in intellegentia datorum nititur. Si data quinque vel etiam quinquaginta variabiles continent, omnes examinare potes. Quid autem si ducentae sunt? Tum simpliciter non satis temporis est ad singulas variabiles examinandas. Praeterea, quidam algorithmi cum datis categoricis non operantur, te requirentes ut omnes columnas categoricas in variabiles quantitativas convertas (quantitativas videri possunt, sed mensurae demonstrabunt eas categoricas esse) ut eas modelo addas. Hoc numerum variabilium ad circiter quingentas auget. Quid nunc agendum est? Fortasse putes reductionem dimensionalitatis esse solutionem. Algorithmi reductionis dimensionalitatis numerum parametrorum minuunt sed interpretabilitatem negative afficiunt. Quid si aliae technicae sunt quae lineamenta eliminant dum reliquas adhuc facile intelleguntur et interpretantur?

Pro eo utrum analysis in regressione an in classificatione fundatur, algorithmi selectionis proprietatum differre possunt, sed notio principalis post eorum implementationem eadem manet.

Variabiles valde correlatae

Variabiles quae valde correlatae sunt eandem informationem modelo praebent, ergo non opus est omnes ad analysin adhibere. Exempli gratia, si collectio datorum proprietates sicut "Tempus Online" et "Latitudo Frequentiae Usitata" continet, eas quodammodo correlatas esse exspectare possumus, et correlationem fortem videbimus etiam si exemplum datorum sine praejudicio eligimus. Hoc in casu, una tantum harum variabilium in modelo requiritur. Utriusque usus exemplar nimis aptum et erga unam proprietatem praecipue praejudicatum erit.

Valores P

In algorithmis ut regressione lineari, exemplar statisticum initiale semper bona idea est. Adiuvat demonstrare momentum proprietatum utens valoribus p, qui ex exemplari derivantur. Postquam gradum significationis statuimus, valores p resultantes inspicimus. Si quis valor infra gradum significationis definitum cadit, proprietas significativa declaratur, quod significat mutationem in valore eius verisimiliter mutationem in valore scopo ducturam esse.

Selectio directa

Selectio progrediens est ars quae regressionem gradatim adhibet. Aedificatio exemplaris incipit cum exemplari omnino vacuo, deinde quaeque iteratio variabilem addit quae exemplar aedificatum emendat. Variabilis exemplari addita a significatione sua determinatur. Hoc computari potest utens variis metris. Methodus frequentissima est uti valoribus p in exemplo statistico initiali obtentis omnibus variabilibus utens. Selectio progrediens interdum ad superaptationem exemplaris ducere potest, cum exemplar variabiles valde correlatas continere possit, etiamsi easdem informationes exemplari praebeant (sed exemplar adhuc emendationem ostendit).

Selectio inversa

Selectio retrograda etiam eliminationem proprietatum gradatim implicat, sed in directione opposita selectioni progredienti. Hoc in casu, exemplar initiale omnes variabiles independentes includit. Variabiles deinde eliminantur (una post alteram) si non sunt utiles novo exemplari regressionis in unaquaque iteratione. Eliminatio proprietatum fundatur in valoribus p exemplaris initialis. Haec methodus etiam incertitudinem inducit cum variabiles valde correlatae removentur.

Eliminatio recursiva proprietatum

RFE est ars/algorithmus late adhibitus ad numerum accuratum proprietatum significantium deligendum. Interdum methodus adhibetur ad explicandum certum numerum proprietatum "maximi momenti" quae eventus afficiunt; interdum ad reducendum numerum variabilium permagnum (circiter 200-400) adhibetur, retinendo tantum eas quae saltem aliquid ad exemplar conferunt et omnes alias eliminando. RFE systema ordinationis utitur. Proprietatibus in indice datorum ordines assignantur. Hi ordines deinde adhibentur ad proprietates recursive eliminandas secundum collinearitatem inter eas et momentum harum proprietatum in exemplari. Praeter ordinationem proprietatum, RFE revelare potest utrum hae proprietates sint magni momenti necne, etiam pro dato numero proprietatum (quia valde probabile est numerum proprietatum selectum non esse optimum, et numerum optimalem proprietatum vel maiorem vel minorem esse quam electus).

Diagramma momenti proprietatum

Cum de interpretabilitate algorithmorum machinalium discendi disserimus, plerumque regressiones lineares (quae nobis permittunt momentum proprietatum per valores p analyzare) et arbores decisionis (quae reapse momentum proprietatum in forma arboris, una cum hierarchia earum, ostendunt) tractamus. Contra, algorithmi ut Random Forest, LightGBM, et XG Boost saepe diagrammata momenti proprietatum utuntur, quae variabiles contra "puncta momenti" earum depingunt. Hoc utile est praesertim cum ad iustificationem structuratam pro momenti proprietatum secundum effectum earum in negotia praebendam venit.

Ordinationis

Regularizatio adhibetur ad aequilibrium inter praejudicium et variantiam moderandum. Praejudicium indicat quantum exemplar superaptat in collectione datorum exercitationis. Variantia indicat quantum differant praedictiones inter collectiones datorum exercitationis et probationis. Optime, et praejudicium et variantia parvae esse debent. Hic regularizatio intervenit! Duae sunt principales rationes:

Regularizatio L1 — Lasso: Lasso pondera exemplaris poenam tribuit ut eorum momentum in exemplo mutet et etiam ea restituere potest (id est, has variabiles ex exemplo finali removere). Lasso typice adhibetur cum dataset magnum numerum variabilium continet et necesse est aliquas earum excludere ut melius intelligatur quomodo notae magni momenti exemplar afficiant (id est, notae a Lasso selectae et momentum assignatum).

Regularizatio L2 — Methodus Ridge: Propositum Ridge est omnes variabiles conservare, eis tamen momentum tribuendo secundum contributionem ad effectum exemplaris. Ridge bona electio est si collectio datorum paucas variabiles continet et omnes necessariae sunt ad interpretanda inventa et eventus.

Cum Ridge omnes variabiles retineat et Lasso melius earum momentum statuat, algorithmus qui optimas utriusque regularizationis proprietates coniungit elaboratus est, nomine Elastic-Net appellatus.

Multae aliae rationes sunt ad proprietates eligendas pro machinali discendo, sed sententia fundamentalis semper eadem manet: demonstrare momentum variabilium, deinde aliquas earum excludere secundum earum momentum. Momentum est vocabulum valde subiectivum, cum non sit una mensura, sed tota series mensurarum et diagrammatum quae adhiberi possunt ad proprietates clavis identificandas.

Gratias tibi ago pro lectione! Felicem discendum!

Source: www.habr.com

Emptum certos hospites pro locis cum praesidio DDoS, VPS VDS servers 🔥 Eme hospitium interretiale fidum cum praesidio DDoS, servitores VPS VDS | ProHoster