Primum gradum tuum in Data Scientia. Titanic

Brevis introductory verbum

Plura facere posse credo, si gradatim praeceptis instructi essemus, quid faciendum ac faciendum nobis esset. Momenta vitae meae ipse memini cum aliquid incipere non potui quia simpliciter difficile erat intellegere ubi incipere. Forsitan, olim in Interrete verba "Data Scientiae" vidisti et procul ab hac esse decrevisti, et homines qui hoc faciunt ibi in alio mundo erant alicubi. Imo hic es. Et forte ex hoc campo apparuit articulus in pascuo tuo. Cursus cursus permulti sunt qui huic astutiae adsuefacti te adiuvet, sed hic primum gradum te adiuvabo.

Estisne parati? Dicam te ilicet 3 Pythone scire opus, quoniam id est quo hic utar. Moneo etiam te ut illum in codicillo Iuppiter instituas in antecessum vel vide quomodo utatur google colab.

unus step

Primum gradum tuum in Data Scientia. Titanic

Kaggle est adiutor tuus significanter in hac re. Principio carere potes, sed in alio articulo loquar. Hoc suggestum est quod Virtutes Datae Scientiae certationis. In unaquaque tali certamine, in primis aetatibus summam experientiae univocum obtinebis in solvendis quaestionibus varii generis, experientiae progressionis et experientiae operantis in quadrigis, quod nostris temporibus interest.

Munus nostrum inde capiemus. Vocatur "Titanic". Conditio haec est: praedico utrum quisque homo evadat. Communiter, munus hominis, qui in DS implicatur, notitias colligit, dispensat, format, praevidet, et sic porro. In kaggle, permittitur scaena omittere notitias collectionis - in suggestu sistuntur. Opus est ut eas deponamus et incipiamus!

Hoc facere potes sic:

in data tab continet files continentes notitia

Primum gradum tuum in Data Scientia. Titanic

Primum gradum tuum in Data Scientia. Titanic

Data nobis data, paravi libellos Iupyter et...

duo gradus

Quomodo nunc hanc datam oneramus?

Primum, necessarias bibliothecas importemus;

import pandas as pd
import numpy as np

Pandas nos permittit ut .csv imagini ulterioris processus deprimat.

Numpy opus est ad mensam datam nostram matricem cum numeris repraesentandam.
Perge. Tabellam train.csv sumamus et eam nobis imposuisti:

dataset = pd.read_csv('train.csv')

Nos referemus ad train.csv notitias selectas per variabiles notitias. Quid ibi videamus:

dataset.head()

Primum gradum tuum in Data Scientia. Titanic

Munus caput () nobis permittit inspicere primos paucos ordines datae tabulae.

Columnae superstites praecise nostri eventus sunt, qui in hac notitia noti sunt. Ad negotium quaestionem, necesse est ut columnae superstes pro test.csv data praedicere. Haec notitia de aliis vectoribus Titanic notitias recondit, unde nos, problema solvendum, exitum ignoramus.

Itaque mensam nostram in notitia dependens et independens dividamus. Omnia hic simplicia sunt. Data dependentia sunt illae notitiae quae pendent a notitia independens quae est in eventibus. Datae independentes sunt illae notitiae quae influentiae eventum habent.

Exempli gratia sequentis notitiae positae habemus:

“Vova computatrum scientiam docuit - no.
Vova 2 in scientia computatrum accepit.

Gradus in scientia computatrali pendet ex responsione ad quaestionem: nonne Vova studium computatrum scientia? Unde patet? Transeamus, iam ad metam appropinquamus!

Varium traditum pro independens data est X. Pro data dependens, y.

Facimus quae sequuntur;

X = dataset.iloc[ : , 2 : ]
y = dataset.iloc[ : , 1 : 2 ]

Quid est? Munus iloc[:, 2: ] indicamus Python: Cupio videre in X variabili notitia incipiens a columna secunda (inclusive et dummodo computatio incipit a nulla). In secunda linea dicimus quod in prima columna notum videre volumus.

[a:b, c:d] est constructio eorum quae in parenthesi utimur. Si quaslibet variabiles non specificas, ut defaltam salvabuntur. Id est, specificare [:,: d] possumus, et tunc omnes columnas habebimus in notitia tabulae, exceptis his quae sunt a numero d deinceps. Variabiles a et b chordas definiunt, sed omnibus indigemus, sic hunc pro defectu relinquimus.

Videamus quid obtinuit;

X.head()

Primum gradum tuum in Data Scientia. Titanic

y.head()

Primum gradum tuum in Data Scientia. Titanic

Ut hanc parvam lectionem simpliciorem redderemus, columnas removebimus quae specialem curam requirunt vel nullam superessebilitatem afficiunt. Continent notitias typo str.

count = ['Name', 'Ticket', 'Cabin', 'Embarked']
X.drop(count, inplace=True, axis=1)

Super! Transeamus ad gradum proximum.

tres gradus

Hic opus est ut notitias nostras encodemus ut machina melius intelligat quomodo haec notitia exitum afficiat. Nos autem non omnia encodemus, sed tantum notitias quas reliquimus. Columna "Sex". Quomodo codicem volumus? Repraesentemus notitias de genere hominis sicut vectoris: 10 - masculinum, 01 - feminam.

Primum, mensas nostras in NumPy matricem convertamus;

X = np.array(X)
y = np.array(y)

Et nunc videamus:

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])],
                       remainder='passthrough')
X = np.array(ct.fit_transform(X))

Bibliotheca sklearn talis est bibliotheca frigidula quae nos sinit opus perficere in Data Scientia. Magnum numerum continet apparatus studiorum exemplorum interesting et etiam permittit nos ut notitias praeparationes faciamus.

OneHotEncoder licebit nobis genus personae in illa repraesentatione encode, sicut descripsimus. II classes creabuntur: mas, femina. Si persona est homo, I in columna "masculi" scribetur, et 2 in columna "femina" respective.

Post OneHotEncoder() est [1] - hoc significat quod numerum columnae 1 encode velimus (ex nulla computatione).

Super. Transeamus etiam longius!

Pro regula fit ut aliqua notitia blank (id est NaN - non numerus). Verbi gratia, notitia est de persona: nomen, genus. Sed nulla est de aetate. In hoc casu applicabimus hunc modum: medium arithmeticum inveniemus super omnes columnas et, si aliqua notitia desit in columna, medium arithmeticum implebimus.

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X)
X = imputer.transform(X)

Nunc inspiciamus condiciones evenire cum notitia maxima est. Intervalla quaedam [0:1] data est, dum quidam ultra centena millia excedunt. Ut dispergat talem dispergam et ut computatorium accuratius in calculis faciamus, notitias lustrabimus et conscendemus. Omnes numeri tres non excedunt. Ad hoc munus StandardScaler utemur.

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X[:, 2:] = sc.fit_transform(X[:, 2:])

Nunc nostra notitia sic similis est:

Primum gradum tuum in Data Scientia. Titanic

Classis. Prope iam sumus ad propositum nostrum!

quattuor gradus

Primum exemplar nostrum instituamus! Ex bibliotheca sklearn ingentem numerum rerum interesting reperire possumus. Gradientem Boosting Classifier exemplar huic problemati apposui. Classificante utimur, quia negotium nostrum est munus classificationis. Prognosis assignanda 1 (superfuit) vel 0 (non superstes).

from sklearn.ensemble import GradientBoostingClassifier
gbc = GradientBoostingClassifier(learning_rate=0.5, max_depth=5, n_estimators=150)
gbc.fit(X, y)

Munus idoneum narrat Python: Exemplar quaerat clientelas inter X et y.

Minus quam alterum exemplar paratum est.

Primum gradum tuum in Data Scientia. Titanic

Quomodo applicatur? Videbimus nunc!

Gradus quinque. conclusio

Nunc opus est mensam onerare cum notitia testium nostrorum pro quibus auspicium facere oportet. Cum hac tabula faciemus eadem omnia, que fecimus pro X.

X_test = pd.read_csv('test.csv', index_col=0)

count = ['Name', 'Ticket', 'Cabin', 'Embarked']
X_test.drop(count, inplace=True, axis=1)

X_test = np.array(X_test)

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])],
                       remainder='passthrough')
X_test = np.array(ct.fit_transform(X_test))

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X_test)
X_test = imputer.transform(X_test)

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_test[:, 2:] = sc.fit_transform(X_test[:, 2:])

Exemplar nunc nostrum apponamus!

gbc_predict = gbc.predict(X_test)

Omnis. auspicium fecimus. Nunc in csv ac in situ missis notari debet.

np.savetxt('my_gbc_predict.csv', gbc_predict, delimiter=",", header = 'Survived')

Paratus. Fasciculum excipiebamus pro singulis vectoribus praedictiones continens. Reliquum est ut has solutiones iungas in situ et aestimationem praesagio. Haec solutio primitivae non solum 74% rectarum responsionum in re publica dat, sed etiam aliquem impetum in Data Scientia. In secretis nuntiis aliquando scribere ad me curiosissime potes et interrogare. Gratias omnibus!

Source: www.habr.com

Add a comment