แƒ—แƒฅแƒ•แƒ”แƒœแƒ˜ แƒžแƒ˜แƒ แƒ•แƒ”แƒšแƒ˜ แƒœแƒแƒ‘แƒ˜แƒฏแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ›แƒ”แƒชแƒœแƒ˜แƒ”แƒ แƒ”แƒ‘แƒแƒจแƒ˜. แƒขแƒ˜แƒขแƒแƒœแƒ˜แƒ™แƒ˜

แƒ›แƒแƒ™แƒšแƒ” แƒจแƒ”แƒกแƒแƒ•แƒแƒšแƒ˜ แƒกแƒ˜แƒขแƒงแƒ•แƒ

แƒ›แƒ” แƒ›แƒฏแƒ”แƒ แƒ, แƒ แƒแƒ› แƒฉแƒ•แƒ”แƒœ แƒจแƒ”แƒ’แƒ•แƒ”แƒซแƒšแƒ แƒ›แƒ”แƒขแƒ˜ แƒ แƒแƒ›แƒ˜แƒก แƒ’แƒแƒ™แƒ”แƒ—แƒ”แƒ‘แƒ, แƒ—แƒฃ แƒ›แƒ˜แƒ•แƒ˜แƒฆแƒ”แƒ‘แƒ— แƒœแƒแƒ‘แƒ˜แƒฏ-แƒœแƒแƒ‘แƒ˜แƒฏ แƒ˜แƒœแƒกแƒขแƒ แƒฃแƒฅแƒชแƒ˜แƒ”แƒ‘แƒก, แƒ แƒแƒ›แƒšแƒ”แƒ‘แƒ˜แƒช แƒ’แƒ•แƒ”แƒฃแƒ‘แƒœแƒ”แƒ‘แƒ˜แƒแƒœ, แƒ แƒ แƒ“แƒ แƒ แƒแƒ’แƒแƒ  แƒ’แƒแƒ•แƒแƒ™แƒ”แƒ—แƒแƒ—. แƒ›แƒ” แƒ—แƒ•แƒ˜แƒ—แƒแƒœ แƒ›แƒแƒฎแƒกแƒแƒ•แƒก แƒ›แƒแƒ›แƒ”แƒœแƒขแƒ”แƒ‘แƒ˜ แƒฉแƒ”แƒ›แƒก แƒชแƒฎแƒแƒ•แƒ แƒ”แƒ‘แƒแƒจแƒ˜, แƒ แƒแƒ“แƒ”แƒกแƒแƒช แƒ แƒแƒฆแƒแƒชแƒ˜แƒก แƒ“แƒแƒฌแƒงแƒ”แƒ‘แƒ แƒแƒ  แƒจแƒ”แƒ›แƒ”แƒซแƒšแƒ, แƒ แƒแƒ“แƒ’แƒแƒœ แƒฃแƒ‘แƒ แƒแƒšแƒแƒ“ แƒ แƒ—แƒฃแƒšแƒ˜ แƒ˜แƒงแƒ แƒ˜แƒ›แƒ˜แƒก แƒ’แƒแƒ’แƒ”แƒ‘แƒ, แƒ—แƒฃ แƒกแƒแƒ“ แƒฃแƒœแƒ“แƒ แƒ“แƒแƒ›แƒ”แƒฌแƒงแƒ. แƒจแƒ”แƒกแƒแƒซแƒšแƒแƒ, แƒ”แƒ แƒ—แƒฎแƒ”แƒš แƒ˜แƒœแƒขแƒ”แƒ แƒœแƒ”แƒขแƒจแƒ˜ แƒ“แƒแƒ˜แƒœแƒแƒฎแƒ”แƒ— แƒกแƒ˜แƒขแƒงแƒ•แƒ”แƒ‘แƒ˜ "แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ›แƒ”แƒชแƒœแƒ˜แƒ”แƒ แƒ”แƒ‘แƒ" แƒ“แƒ แƒ’แƒแƒ“แƒแƒฌแƒงแƒ•แƒ˜แƒขแƒ”แƒ—, แƒ แƒแƒ› แƒ—แƒฅแƒ•แƒ”แƒœ แƒจแƒแƒ แƒก แƒ˜แƒงแƒแƒ•แƒ˜แƒ— แƒแƒ›แƒ˜แƒกแƒ’แƒแƒœ แƒ“แƒ แƒแƒ“แƒแƒ›แƒ˜แƒแƒœแƒ”แƒ‘แƒ˜, แƒ แƒแƒ›แƒšแƒ”แƒ‘แƒ˜แƒช แƒแƒ›แƒแƒก แƒแƒ™แƒ”แƒ—แƒ”แƒ‘แƒ”แƒœ, แƒกแƒแƒ“แƒฆแƒแƒช แƒ˜แƒฅ, แƒกแƒฎแƒ•แƒ แƒกแƒแƒ›แƒงแƒแƒ แƒแƒจแƒ˜ แƒ˜แƒงแƒ•แƒœแƒ”แƒœ. แƒแƒ แƒ, แƒ˜แƒกแƒ˜แƒœแƒ˜ แƒแƒฅ แƒแƒ แƒ˜แƒแƒœ. แƒ“แƒ, แƒแƒšแƒ‘แƒแƒ—, แƒแƒ› แƒกแƒคแƒ”แƒ แƒแƒก แƒฎแƒแƒšแƒฎแƒ˜แƒก แƒฌแƒงแƒแƒšแƒแƒ‘แƒ˜แƒ—, แƒ—แƒฅแƒ•แƒ”แƒœแƒก แƒแƒ แƒฎแƒ–แƒ” แƒ’แƒแƒ›แƒแƒฉแƒœแƒ“แƒ แƒกแƒขแƒแƒขแƒ˜แƒ. แƒแƒ แƒกแƒ”แƒ‘แƒแƒ‘แƒก แƒฃแƒแƒ›แƒ แƒแƒ•แƒ˜ แƒ™แƒฃแƒ แƒกแƒ˜, แƒ แƒแƒ›แƒ”แƒšแƒ˜แƒช แƒ“แƒแƒ’แƒ”แƒฎแƒ›แƒแƒ แƒ”แƒ‘แƒแƒ— แƒจแƒ”แƒ”แƒ’แƒฃแƒแƒ— แƒแƒ› แƒฎแƒ”แƒšแƒแƒ‘แƒแƒก, แƒ›แƒแƒ’แƒ แƒแƒ› แƒแƒฅ แƒ›แƒ” แƒ“แƒแƒ’แƒ”แƒฎแƒ›แƒแƒ แƒ”แƒ‘แƒ˜แƒ— แƒžแƒ˜แƒ แƒ•แƒ”แƒšแƒ˜ แƒœแƒแƒ‘แƒ˜แƒฏแƒ˜แƒก แƒ’แƒแƒ“แƒแƒ“แƒ’แƒ›แƒแƒจแƒ˜.

แƒแƒ‘แƒ, แƒ›แƒ–แƒแƒ“ แƒฎแƒแƒ ? แƒœแƒ”แƒ‘แƒ แƒ›แƒแƒ›แƒ”แƒชแƒ˜แƒ— แƒ“แƒแƒฃแƒงแƒแƒ•แƒœแƒ”แƒ‘แƒšแƒ˜แƒ• แƒ’แƒ˜แƒ—แƒฎแƒ แƒแƒ—, แƒ แƒแƒ› แƒ—แƒฅแƒ•แƒ”แƒœ แƒฃแƒœแƒ“แƒ แƒ˜แƒชแƒแƒ“แƒ”แƒ— Python 3, แƒ แƒแƒ“แƒ’แƒแƒœ แƒกแƒฌแƒแƒ แƒ”แƒ“ แƒแƒ›แƒแƒก แƒ’แƒแƒ›แƒแƒ•แƒ˜แƒงแƒ”แƒœแƒ”แƒ‘ แƒแƒฅ. แƒแƒกแƒ”แƒ•แƒ” แƒ’แƒ˜แƒ แƒฉแƒ”แƒ•แƒ— แƒฌแƒ˜แƒœแƒแƒกแƒฌแƒแƒ  แƒ“แƒแƒแƒ˜แƒœแƒกแƒขแƒแƒšแƒ˜แƒ แƒแƒ— Jupyter Notebook-แƒ–แƒ” แƒแƒœ แƒœแƒแƒฎแƒ”แƒ— แƒ แƒแƒ’แƒแƒ  แƒ’แƒแƒ›แƒแƒ˜แƒงแƒ”แƒœแƒแƒ— google colab.

แƒœแƒแƒ‘แƒ˜แƒฏแƒ˜ แƒ”แƒ แƒ—แƒ˜

แƒ—แƒฅแƒ•แƒ”แƒœแƒ˜ แƒžแƒ˜แƒ แƒ•แƒ”แƒšแƒ˜ แƒœแƒแƒ‘แƒ˜แƒฏแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ›แƒ”แƒชแƒœแƒ˜แƒ”แƒ แƒ”แƒ‘แƒแƒจแƒ˜. แƒขแƒ˜แƒขแƒแƒœแƒ˜แƒ™แƒ˜

แƒ™แƒแƒ’แƒšแƒ˜ แƒ—แƒฅแƒ•แƒ”แƒœแƒ˜ แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ•แƒแƒœแƒ˜ แƒ—แƒแƒœแƒแƒจแƒ”แƒ›แƒฌแƒ”แƒ แƒแƒ› แƒกแƒแƒ™แƒ˜แƒ—แƒฎแƒจแƒ˜. แƒžแƒ แƒ˜แƒœแƒชแƒ˜แƒžแƒจแƒ˜, แƒแƒ›แƒ˜แƒก แƒ’แƒแƒ แƒ”แƒจแƒ” แƒจแƒ”แƒ’แƒ˜แƒซแƒšแƒ˜แƒแƒ—, แƒ›แƒแƒ’แƒ แƒแƒ› แƒแƒ›แƒแƒ–แƒ” แƒกแƒฎแƒ•แƒ แƒกแƒขแƒแƒขแƒ˜แƒแƒจแƒ˜ แƒ•แƒ˜แƒกแƒแƒฃแƒ‘แƒ แƒ”แƒ‘. แƒ”แƒก แƒแƒ แƒ˜แƒก แƒžแƒšแƒแƒขแƒคแƒแƒ แƒ›แƒ, แƒ แƒแƒ›แƒ”แƒšแƒ˜แƒช แƒ›แƒแƒกแƒžแƒ˜แƒœแƒซแƒšแƒแƒ‘แƒก แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ›แƒ”แƒชแƒœแƒ˜แƒ”แƒ แƒ”แƒ‘แƒ˜แƒก แƒ™แƒแƒœแƒ™แƒฃแƒ แƒกแƒ”แƒ‘แƒก. แƒ—แƒ˜แƒ—แƒแƒ”แƒฃแƒš แƒแƒกแƒ”แƒ— แƒ™แƒแƒœแƒ™แƒฃแƒ แƒกแƒจแƒ˜, แƒแƒ“แƒ แƒ”แƒฃแƒš แƒ”แƒขแƒแƒžแƒ–แƒ” แƒ—แƒฅแƒ•แƒ”แƒœ แƒ›แƒ˜แƒ˜แƒฆแƒ”แƒ‘แƒ— แƒแƒ แƒแƒ แƒ”แƒแƒšแƒฃแƒ  แƒ’แƒแƒ›แƒแƒชแƒ“แƒ˜แƒšแƒ”แƒ‘แƒแƒก แƒกแƒฎแƒ•แƒแƒ“แƒแƒกแƒฎแƒ•แƒ แƒกแƒแƒฎแƒ˜แƒก แƒžแƒ แƒแƒ‘แƒšแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒก แƒ’แƒแƒ“แƒแƒญแƒ แƒ˜แƒก, แƒ’แƒแƒœแƒ•แƒ˜แƒ—แƒแƒ แƒ”แƒ‘แƒ˜แƒก แƒ’แƒแƒ›แƒแƒชแƒ“แƒ˜แƒšแƒ”แƒ‘แƒแƒก แƒ“แƒ แƒ’แƒฃแƒœแƒ“แƒจแƒ˜ แƒ›แƒฃแƒจแƒแƒแƒ‘แƒ˜แƒก แƒ’แƒแƒ›แƒแƒชแƒ“แƒ˜แƒšแƒ”แƒ‘แƒแƒก, แƒ แƒแƒช แƒ›แƒœแƒ˜แƒจแƒ•แƒœแƒ”แƒšแƒแƒ•แƒแƒœแƒ˜แƒ แƒฉแƒ•แƒ”แƒœแƒก แƒ“แƒ แƒแƒจแƒ˜.

แƒฉแƒ•แƒ”แƒœ แƒ˜แƒฅแƒ˜แƒ“แƒแƒœ แƒแƒ•แƒ˜แƒฆแƒ”แƒ‘แƒ— แƒฉแƒ•แƒ”แƒœแƒก แƒ“แƒแƒ•แƒแƒšแƒ”แƒ‘แƒแƒก. แƒ›แƒแƒก "แƒขแƒ˜แƒขแƒแƒœแƒ˜แƒ™แƒ˜" แƒฐแƒฅแƒ•แƒ˜แƒ. แƒžแƒ˜แƒ แƒแƒ‘แƒ แƒแƒกแƒ”แƒ—แƒ˜แƒ: แƒ˜แƒฌแƒ˜แƒœแƒแƒกแƒฌแƒแƒ แƒ›แƒ”แƒขแƒงแƒ•แƒ”แƒšแƒ” แƒ’แƒแƒ“แƒแƒ แƒฉแƒ”แƒ‘แƒ แƒ—แƒฃ แƒแƒ แƒ แƒ—แƒ˜แƒ—แƒแƒ”แƒฃแƒšแƒ˜ แƒแƒ“แƒแƒ›แƒ˜แƒแƒœแƒ˜. แƒ–แƒแƒ’แƒแƒ“แƒแƒ“ แƒ แƒแƒ› แƒ•แƒ—แƒฅแƒ•แƒแƒ—, DS-แƒจแƒ˜ แƒฉแƒแƒ แƒ—แƒฃแƒšแƒ˜ แƒžแƒ˜แƒ แƒ˜แƒก แƒแƒ›แƒแƒชแƒแƒœแƒแƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒก แƒจแƒ”แƒ’แƒ แƒแƒ•แƒ”แƒ‘แƒ, แƒ“แƒแƒ›แƒฃแƒจแƒแƒ•แƒ”แƒ‘แƒ, แƒ›แƒแƒ“แƒ”แƒšแƒ˜แƒก แƒ›แƒแƒ›แƒ–แƒแƒ“แƒ”แƒ‘แƒ, แƒžแƒ แƒแƒ’แƒœแƒแƒ–แƒ˜แƒ แƒ”แƒ‘แƒ แƒ“แƒ แƒ.แƒจ. Kaggle-แƒจแƒ˜ แƒฉแƒ•แƒ”แƒœ แƒ’แƒ•แƒแƒฅแƒ•แƒก แƒฃแƒคแƒšแƒ”แƒ‘แƒ แƒ’แƒแƒ›แƒแƒ•แƒขแƒแƒ•แƒแƒ— แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒจแƒ”แƒ’แƒ แƒแƒ•แƒ”แƒ‘แƒ˜แƒก แƒ”แƒขแƒแƒžแƒ˜ - แƒ˜แƒกแƒ˜แƒœแƒ˜ แƒฌแƒแƒ แƒ›แƒแƒ“แƒ’แƒ”แƒœแƒ˜แƒšแƒ˜แƒ แƒžแƒšแƒแƒขแƒคแƒแƒ แƒ›แƒแƒ–แƒ”. แƒฉแƒ•แƒ”แƒœ แƒฃแƒœแƒ“แƒ แƒ’แƒแƒ“แƒ›แƒแƒ•แƒฌแƒ”แƒ แƒแƒ— แƒ˜แƒกแƒ˜แƒœแƒ˜ แƒ“แƒ แƒจแƒ”แƒ’แƒ•แƒ˜แƒซแƒšแƒ˜แƒ แƒ“แƒแƒ•แƒ˜แƒฌแƒงแƒแƒ—!

แƒแƒ›แƒ˜แƒก แƒ’แƒแƒ™แƒ”แƒ—แƒ”แƒ‘แƒ แƒจแƒ”แƒ’แƒ˜แƒซแƒšแƒ˜แƒแƒ— แƒจแƒ”แƒ›แƒ“แƒ”แƒ’แƒœแƒแƒ˜แƒ แƒแƒ“:

แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒฉแƒแƒœแƒแƒ แƒ—แƒ˜ แƒจแƒ”แƒ˜แƒชแƒแƒ•แƒก แƒคแƒแƒ˜แƒšแƒ”แƒ‘แƒก, แƒ แƒแƒ›แƒšแƒ”แƒ‘แƒ˜แƒช แƒจแƒ”แƒ˜แƒชแƒแƒ•แƒก แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒก

แƒ—แƒฅแƒ•แƒ”แƒœแƒ˜ แƒžแƒ˜แƒ แƒ•แƒ”แƒšแƒ˜ แƒœแƒแƒ‘แƒ˜แƒฏแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ›แƒ”แƒชแƒœแƒ˜แƒ”แƒ แƒ”แƒ‘แƒแƒจแƒ˜. แƒขแƒ˜แƒขแƒแƒœแƒ˜แƒ™แƒ˜

แƒ—แƒฅแƒ•แƒ”แƒœแƒ˜ แƒžแƒ˜แƒ แƒ•แƒ”แƒšแƒ˜ แƒœแƒแƒ‘แƒ˜แƒฏแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ›แƒ”แƒชแƒœแƒ˜แƒ”แƒ แƒ”แƒ‘แƒแƒจแƒ˜. แƒขแƒ˜แƒขแƒแƒœแƒ˜แƒ™แƒ˜

แƒ’แƒแƒ“แƒ›แƒแƒ•แƒฌแƒ”แƒ แƒ”แƒ— แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜, แƒ›แƒแƒ•แƒแƒ›แƒ–แƒแƒ“แƒ”แƒ— แƒฉแƒ•แƒ”แƒœแƒ˜ Jupyter-แƒ˜แƒก แƒœแƒแƒฃแƒ—แƒ‘แƒฃแƒฅแƒ”แƒ‘แƒ˜ แƒ“แƒ...

แƒœแƒแƒ‘แƒ˜แƒฏแƒ˜ แƒ›แƒ”แƒแƒ แƒ”

แƒ แƒแƒ’แƒแƒ  แƒฉแƒแƒ•แƒขแƒ•แƒ˜แƒ แƒ—แƒแƒ— แƒแƒฎแƒšแƒ แƒ”แƒก แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜?

แƒžแƒ˜แƒ แƒ•แƒ”แƒš แƒ แƒ˜แƒ’แƒจแƒ˜, แƒ›แƒแƒ“แƒ˜แƒ— แƒจแƒ”แƒ›แƒแƒ•แƒ˜แƒขแƒแƒœแƒแƒ— แƒกแƒแƒญแƒ˜แƒ แƒ แƒ‘แƒ˜แƒ‘แƒšแƒ˜แƒแƒ—แƒ”แƒ™แƒ”แƒ‘แƒ˜:

import pandas as pd
import numpy as np

Pandas แƒ›แƒแƒ’แƒ•แƒชแƒ”แƒ›แƒก แƒกแƒแƒจแƒฃแƒแƒšแƒ”แƒ‘แƒแƒก แƒ’แƒแƒ“แƒ›แƒแƒ•แƒฌแƒ”แƒ แƒแƒ— .csv แƒคแƒแƒ˜แƒšแƒ”แƒ‘แƒ˜ แƒจแƒ”แƒ›แƒ“แƒ’แƒแƒ›แƒ˜ แƒ“แƒแƒ›แƒฃแƒจแƒแƒ•แƒ”แƒ‘แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก.

Numpy แƒกแƒแƒญแƒ˜แƒ แƒแƒ แƒฉแƒ•แƒ”แƒœแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒชแƒฎแƒ แƒ˜แƒšแƒ˜แƒก แƒฌแƒแƒ แƒ›แƒแƒกแƒแƒฉแƒ”แƒœแƒแƒ“, แƒ แƒแƒ’แƒแƒ แƒช แƒ›แƒแƒขแƒ แƒ˜แƒชแƒ แƒ แƒ˜แƒชแƒฎแƒ•แƒ”แƒ‘แƒ˜แƒ—.
แฒ’แƒแƒœแƒแƒ’แƒ แƒซแƒ”. แƒแƒ•แƒ˜แƒฆแƒแƒ— แƒคแƒแƒ˜แƒšแƒ˜ train.csv แƒ“แƒ แƒแƒ•แƒขแƒ•แƒ˜แƒ แƒ—แƒแƒ— แƒฉแƒ•แƒ”แƒœแƒ—แƒแƒœ:

dataset = pd.read_csv('train.csv')

แƒฉแƒ•แƒ”แƒœ แƒ›แƒ˜แƒ•แƒ›แƒแƒ แƒ—แƒแƒ•แƒ— แƒฉแƒ•แƒ”แƒœแƒก train.csv แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒจแƒ”แƒ แƒฉแƒ”แƒ•แƒแƒก แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒœแƒแƒ™แƒ แƒ”แƒ‘แƒ˜แƒก แƒชแƒ•แƒšแƒแƒ“แƒ˜แƒก แƒ›แƒ”แƒจแƒ•แƒ”แƒแƒ‘แƒ˜แƒ—. แƒ•แƒœแƒแƒฎแƒแƒ— แƒ แƒ แƒแƒ แƒ˜แƒก แƒ˜แƒฅ:

dataset.head()

แƒ—แƒฅแƒ•แƒ”แƒœแƒ˜ แƒžแƒ˜แƒ แƒ•แƒ”แƒšแƒ˜ แƒœแƒแƒ‘แƒ˜แƒฏแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ›แƒ”แƒชแƒœแƒ˜แƒ”แƒ แƒ”แƒ‘แƒแƒจแƒ˜. แƒขแƒ˜แƒขแƒแƒœแƒ˜แƒ™แƒ˜

head() แƒคแƒฃแƒœแƒฅแƒชแƒ˜แƒ แƒกแƒแƒจแƒฃแƒแƒšแƒ”แƒ‘แƒแƒก แƒ’แƒ•แƒแƒซแƒšแƒ”แƒ•แƒก แƒ’แƒแƒ“แƒแƒ•แƒฎแƒ”แƒ“แƒแƒ— แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒฉแƒแƒ แƒฉแƒแƒก แƒžแƒ˜แƒ แƒ•แƒ”แƒš แƒ แƒแƒ›แƒ“แƒ”แƒœแƒ˜แƒ›แƒ” แƒกแƒขแƒ แƒ˜แƒฅแƒแƒœแƒก.

Survived แƒกแƒ•แƒ”แƒขแƒ”แƒ‘แƒ˜ แƒแƒ แƒ˜แƒก แƒ–แƒฃแƒกแƒขแƒแƒ“ แƒฉแƒ•แƒ”แƒœแƒ˜ แƒจแƒ”แƒ“แƒ”แƒ’แƒ”แƒ‘แƒ˜, แƒ แƒแƒ›แƒšแƒ”แƒ‘แƒ˜แƒช แƒชแƒœแƒแƒ‘แƒ˜แƒšแƒ˜แƒ แƒแƒ› แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒฉแƒแƒ แƒฉแƒแƒจแƒ˜. แƒ“แƒแƒ•แƒแƒšแƒ”แƒ‘แƒ˜แƒก แƒ™แƒ˜แƒ—แƒฎแƒ•แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก, แƒฉแƒ•แƒ”แƒœ แƒฃแƒœแƒ“แƒ แƒ•แƒ˜แƒฌแƒ˜แƒœแƒแƒกแƒฌแƒแƒ แƒ›แƒ”แƒขแƒงแƒ•แƒ”แƒšแƒแƒ— Survived แƒกแƒ•แƒ”แƒขแƒ˜ test.csv แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก. แƒ”แƒก แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜ แƒ˜แƒœแƒแƒฎแƒแƒ•แƒก แƒ˜แƒœแƒคแƒแƒ แƒ›แƒแƒชแƒ˜แƒแƒก แƒขแƒ˜แƒขแƒแƒœแƒ˜แƒ™แƒ˜แƒก แƒกแƒฎแƒ•แƒ แƒ›แƒ’แƒ–แƒแƒ•แƒ แƒ”แƒ‘แƒ˜แƒก แƒจแƒ”แƒกแƒแƒฎแƒ”แƒ‘, แƒ แƒ˜แƒกแƒ—แƒ•แƒ˜แƒกแƒแƒช แƒฉแƒ•แƒ”แƒœ, แƒžแƒ แƒแƒ‘แƒšแƒ”แƒ›แƒ˜แƒก แƒ’แƒแƒ“แƒแƒกแƒแƒญแƒ แƒ”แƒšแƒแƒ“, แƒแƒ  แƒ•แƒ˜แƒชแƒ˜แƒ— แƒจแƒ”แƒ“แƒ”แƒ’แƒ˜.

แƒ›แƒแƒจ แƒแƒกแƒ”, แƒ“แƒแƒ•แƒงแƒแƒ— แƒฉแƒ•แƒ”แƒœแƒ˜ แƒชแƒฎแƒ แƒ˜แƒšแƒ˜ แƒ“แƒแƒ›แƒแƒ™แƒ˜แƒ“แƒ”แƒ‘แƒฃแƒš แƒ“แƒ แƒ“แƒแƒ›แƒแƒฃแƒ™แƒ˜แƒ“แƒ”แƒ‘แƒ”แƒš แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒแƒ“. แƒแƒฅ แƒงแƒ•แƒ”แƒšแƒแƒคแƒ”แƒ แƒ˜ แƒ›แƒแƒ แƒขแƒ˜แƒ•แƒ˜แƒ. แƒ“แƒแƒ›แƒแƒ™แƒ˜แƒ“แƒ”แƒ‘แƒฃแƒšแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜ แƒแƒ แƒ˜แƒก แƒ˜แƒก แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜, แƒ แƒแƒ›แƒšแƒ”แƒ‘แƒ˜แƒช แƒ“แƒแƒ›แƒแƒ™แƒ˜แƒ“แƒ”แƒ‘แƒฃแƒšแƒ˜แƒ แƒ“แƒแƒ›แƒแƒฃแƒ™แƒ˜แƒ“แƒ”แƒ‘แƒ”แƒš แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ–แƒ”, แƒ แƒแƒ›แƒ”แƒšแƒ˜แƒช แƒแƒ แƒ˜แƒก แƒจแƒ”แƒ“แƒ”แƒ’แƒ”แƒ‘แƒจแƒ˜. แƒ“แƒแƒ›แƒแƒฃแƒ™แƒ˜แƒ“แƒ”แƒ‘แƒ”แƒšแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜ แƒแƒ แƒ˜แƒก แƒ˜แƒก แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜, แƒ แƒแƒ›แƒšแƒ”แƒ‘แƒ˜แƒช แƒ’แƒแƒ•แƒšแƒ”แƒœแƒแƒก แƒแƒฎแƒ“แƒ”แƒœแƒ”แƒœ แƒจแƒ”แƒ“แƒ”แƒ’แƒ–แƒ”.

แƒ›แƒแƒ’แƒแƒšแƒ˜แƒ—แƒแƒ“, แƒฉแƒ•แƒ”แƒœ แƒ’แƒ•แƒแƒฅแƒ•แƒก แƒจแƒ”แƒ›แƒ“แƒ”แƒ’แƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒœแƒแƒ™แƒ แƒ”แƒ‘แƒ˜:

โ€แƒ•แƒแƒ•แƒ แƒแƒกแƒฌแƒแƒ•แƒšแƒ˜แƒ“แƒ แƒ™แƒแƒ›แƒžแƒ˜แƒฃแƒขแƒ”แƒ แƒฃแƒš แƒ›แƒ”แƒชแƒœแƒ˜แƒ”แƒ แƒ”แƒ‘แƒแƒก - แƒแƒ แƒ.
แƒ•แƒแƒ•แƒแƒ› แƒ›แƒ˜แƒ˜แƒฆแƒ 2 แƒ™แƒแƒ›แƒžแƒ˜แƒฃแƒขแƒ”แƒ แƒฃแƒš แƒ›แƒ”แƒชแƒœแƒ˜แƒ”แƒ แƒ”แƒ‘แƒแƒจแƒ˜.

แƒ™แƒแƒ›แƒžแƒ˜แƒฃแƒขแƒ”แƒ แƒฃแƒš แƒ›แƒ”แƒชแƒœแƒ˜แƒ”แƒ แƒ”แƒ‘แƒแƒจแƒ˜ แƒจแƒ”แƒคแƒแƒกแƒ”แƒ‘แƒ แƒ“แƒแƒ›แƒแƒ™แƒ˜แƒ“แƒ”แƒ‘แƒฃแƒšแƒ˜แƒ แƒ™แƒ˜แƒ—แƒฎแƒ•แƒแƒ–แƒ”: แƒกแƒฌแƒแƒ•แƒšแƒแƒ‘แƒ“แƒ แƒ—แƒฃ แƒแƒ แƒ แƒ•แƒแƒ•แƒ แƒ™แƒแƒ›แƒžแƒ˜แƒฃแƒขแƒ”แƒ แƒฃแƒš แƒ›แƒ”แƒชแƒœแƒ˜แƒ”แƒ แƒ”แƒ‘แƒแƒก? แƒ’แƒแƒกแƒแƒ’แƒ”แƒ‘แƒ˜แƒ? แƒ’แƒแƒ•แƒแƒ’แƒ แƒซแƒ”แƒšแƒแƒ—, แƒฃแƒ™แƒ•แƒ” แƒฃแƒคแƒ แƒ แƒแƒฎแƒšแƒแƒก แƒ•แƒแƒ แƒ— แƒ›แƒ˜แƒ–แƒแƒœแƒ—แƒแƒœ!

แƒ“แƒแƒ›แƒแƒฃแƒ™แƒ˜แƒ“แƒ”แƒ‘แƒ”แƒšแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒก แƒขแƒ แƒแƒ“แƒ˜แƒชแƒ˜แƒฃแƒšแƒ˜ แƒชแƒ•แƒšแƒแƒ“แƒ˜ แƒแƒ แƒ˜แƒก X. แƒ“แƒแƒ›แƒแƒ™แƒ˜แƒ“แƒ”แƒ‘แƒฃแƒšแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก, y.

แƒฉแƒ•แƒ”แƒœ แƒ•แƒแƒ™แƒ”แƒ—แƒ”แƒ‘แƒ— แƒจแƒ”แƒ›แƒ“แƒ”แƒ’แƒก:

X = dataset.iloc[ : , 2 : ]
y = dataset.iloc[ : , 1 : 2 ]

แƒ แƒ แƒแƒ แƒ˜แƒก แƒ”แƒก? แƒคแƒฃแƒœแƒฅแƒชแƒ˜แƒ˜แƒ— iloc[:, 2: ] แƒ•แƒ”แƒฃแƒ‘แƒœแƒ”แƒ‘แƒ˜แƒ— Python-แƒก: แƒ›แƒ˜แƒœแƒ“แƒ X แƒชแƒ•แƒšแƒแƒ“แƒจแƒ˜ แƒ•แƒœแƒแƒฎแƒ แƒ›แƒ”แƒแƒ แƒ” แƒกแƒ•แƒ”แƒขแƒ˜แƒ“แƒแƒœ แƒ“แƒแƒฌแƒงแƒ”แƒ‘แƒฃแƒšแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜ (แƒ›แƒแƒ— แƒจแƒแƒ แƒ˜แƒก แƒ“แƒ แƒ˜แƒ› แƒžแƒ˜แƒ แƒแƒ‘แƒ˜แƒ—, แƒ แƒแƒ› แƒ“แƒแƒ—แƒ•แƒšแƒ แƒ˜แƒฌแƒงแƒ”แƒ‘แƒ แƒœแƒฃแƒšแƒ˜แƒ“แƒแƒœ). แƒ›แƒ”แƒแƒ แƒ” แƒกแƒขแƒ แƒ˜แƒฅแƒแƒœแƒจแƒ˜ แƒฉแƒ•แƒ”แƒœ แƒ•แƒแƒ›แƒ‘แƒแƒ‘แƒ—, แƒ แƒแƒ› แƒ’แƒ•แƒ˜แƒœแƒ“แƒ แƒ•แƒ˜แƒฎแƒ˜แƒšแƒแƒ— แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜ แƒžแƒ˜แƒ แƒ•แƒ”แƒš แƒกแƒ•แƒ”แƒขแƒจแƒ˜.

[a:b, c:d] แƒแƒ แƒ˜แƒก แƒ™แƒแƒœแƒกแƒขแƒ แƒฃแƒฅแƒชแƒ˜แƒ แƒ˜แƒ›แƒ˜แƒกแƒ, แƒ แƒแƒกแƒแƒช แƒ•แƒ˜แƒงแƒ”แƒœแƒ”แƒ‘แƒ— แƒคแƒ แƒฉแƒฎแƒ˜แƒšแƒ”แƒ‘แƒจแƒ˜. แƒ—แƒฃ แƒแƒ  แƒ›แƒ˜แƒฃแƒ—แƒ˜แƒ—แƒ”แƒ‘แƒ— แƒ แƒแƒ˜แƒ›แƒ” แƒชแƒ•แƒšแƒแƒ“แƒก, แƒ˜แƒกแƒ˜แƒœแƒ˜ แƒจแƒ”แƒ˜แƒœแƒแƒฎแƒ”แƒ‘แƒ แƒœแƒแƒ’แƒฃแƒšแƒ˜แƒกแƒฎแƒ›แƒ”แƒ•แƒแƒ“. แƒแƒœแƒฃ, แƒฉแƒ•แƒ”แƒœ แƒจแƒ”แƒ’แƒ•แƒ˜แƒซแƒšแƒ˜แƒ แƒ›แƒ˜แƒ•แƒฃแƒ—แƒ˜แƒ—แƒแƒ— [:,: d] แƒ“แƒ แƒจแƒ”แƒ›แƒ“แƒ”แƒ’ แƒ›แƒ˜แƒ•แƒ˜แƒฆแƒแƒ— แƒงแƒ•แƒ”แƒšแƒ แƒกแƒ•แƒ”แƒขแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒฉแƒแƒ แƒฉแƒแƒจแƒ˜, แƒ’แƒแƒ แƒ“แƒ แƒ˜แƒ› แƒกแƒ•แƒ”แƒขแƒ”แƒ‘แƒ˜แƒกแƒ, แƒ แƒแƒ›แƒšแƒ”แƒ‘แƒ˜แƒช แƒ’แƒแƒ“แƒแƒ“แƒ˜แƒแƒœ d แƒœแƒแƒ›แƒ แƒ˜แƒ“แƒแƒœ แƒจแƒ”แƒ›แƒ“แƒ”แƒ’แƒจแƒ˜. แƒชแƒ•แƒšแƒแƒ“แƒ”แƒ‘แƒ˜ a แƒ“แƒ b แƒ’แƒแƒœแƒกแƒแƒ–แƒฆแƒ•แƒ แƒแƒ•แƒ”แƒœ แƒกแƒขแƒ แƒ˜แƒฅแƒแƒœแƒ”แƒ‘แƒก, แƒ›แƒแƒ’แƒ แƒแƒ› แƒฉแƒ•แƒ”แƒœ แƒงแƒ•แƒ”แƒšแƒ แƒ’แƒ•แƒญแƒ˜แƒ แƒ“แƒ”แƒ‘แƒ, แƒแƒ›แƒ˜แƒขแƒแƒ› แƒแƒ›แƒแƒก แƒ•แƒขแƒแƒ•แƒ”แƒ‘แƒ— แƒœแƒแƒ’แƒฃแƒšแƒ˜แƒกแƒฎแƒ›แƒ”แƒ•แƒแƒ“.

แƒ•แƒœแƒแƒฎแƒแƒ— แƒ แƒ แƒ›แƒ˜แƒ•แƒ˜แƒฆแƒ”แƒ—:

X.head()

แƒ—แƒฅแƒ•แƒ”แƒœแƒ˜ แƒžแƒ˜แƒ แƒ•แƒ”แƒšแƒ˜ แƒœแƒแƒ‘แƒ˜แƒฏแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ›แƒ”แƒชแƒœแƒ˜แƒ”แƒ แƒ”แƒ‘แƒแƒจแƒ˜. แƒขแƒ˜แƒขแƒแƒœแƒ˜แƒ™แƒ˜

y.head()

แƒ—แƒฅแƒ•แƒ”แƒœแƒ˜ แƒžแƒ˜แƒ แƒ•แƒ”แƒšแƒ˜ แƒœแƒแƒ‘แƒ˜แƒฏแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ›แƒ”แƒชแƒœแƒ˜แƒ”แƒ แƒ”แƒ‘แƒแƒจแƒ˜. แƒขแƒ˜แƒขแƒแƒœแƒ˜แƒ™แƒ˜

แƒแƒ› แƒžแƒแƒขแƒแƒ แƒ แƒ’แƒแƒ™แƒ•แƒ”แƒ—แƒ˜แƒšแƒ˜แƒก แƒ’แƒแƒกแƒแƒ›แƒแƒ แƒขแƒ˜แƒ•แƒ”แƒ‘แƒšแƒแƒ“, แƒฉแƒ•แƒ”แƒœ แƒแƒ›แƒแƒ•แƒ˜แƒฆแƒ”แƒ‘แƒ— แƒกแƒ•แƒ”แƒขแƒ”แƒ‘แƒก, แƒ แƒแƒ›แƒšแƒ”แƒ‘แƒ˜แƒช แƒ’แƒแƒœแƒกแƒแƒ™แƒฃแƒ—แƒ แƒ”แƒ‘แƒฃแƒš แƒ–แƒ แƒฃแƒœแƒ•แƒแƒก แƒ›แƒแƒ˜แƒ—แƒฎแƒแƒ•แƒก แƒแƒœ แƒกแƒแƒ”แƒ แƒ—แƒแƒ“ แƒแƒ  แƒ›แƒแƒฅแƒ›แƒ”แƒ“แƒ”แƒ‘แƒก แƒ’แƒแƒ“แƒแƒ แƒฉแƒ”แƒœแƒแƒ–แƒ”. แƒ˜แƒกแƒ˜แƒœแƒ˜ แƒจแƒ”แƒ˜แƒชแƒแƒ•แƒก str. แƒขแƒ˜แƒžแƒ˜แƒก แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒก.

count = ['Name', 'Ticket', 'Cabin', 'Embarked']
X.drop(count, inplace=True, axis=1)

แƒกแƒฃแƒžแƒ”แƒ ! แƒ›แƒแƒ“แƒ˜แƒ— แƒ’แƒแƒ“แƒแƒ•แƒ˜แƒ“แƒ”แƒ— แƒจแƒ”แƒ›แƒ“แƒ”แƒ’ แƒ”แƒขแƒแƒžแƒ–แƒ”.

แƒœแƒแƒ‘แƒ˜แƒฏแƒ˜ แƒกแƒแƒ›แƒ˜

แƒแƒฅ แƒฉแƒ•แƒ”แƒœ แƒฃแƒœแƒ“แƒ แƒ“แƒแƒ•แƒแƒจแƒ˜แƒคแƒ แƒแƒ— แƒฉแƒ•แƒ”แƒœแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜ แƒ˜แƒกแƒ”, แƒ แƒแƒ› แƒ›แƒแƒœแƒฅแƒแƒœแƒแƒ› แƒฃแƒ™แƒ”แƒ— แƒ’แƒแƒ˜แƒ’แƒแƒก, แƒ—แƒฃ แƒ แƒแƒ’แƒแƒ  แƒ›แƒแƒฅแƒ›แƒ”แƒ“แƒ”แƒ‘แƒก แƒ”แƒก แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜ แƒจแƒ”แƒ“แƒ”แƒ’แƒ–แƒ”. แƒ›แƒแƒ’แƒ แƒแƒ› แƒฉแƒ•แƒ”แƒœ แƒแƒ  แƒ“แƒแƒ•แƒจแƒ˜แƒคแƒ แƒแƒ•แƒ— แƒงแƒ•แƒ”แƒšแƒแƒคแƒ”แƒ แƒก, แƒแƒ แƒแƒ›แƒ”แƒ“ แƒ›แƒฎแƒแƒšแƒแƒ“ str แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒก, แƒ แƒแƒ›แƒšแƒ”แƒ‘แƒ˜แƒช แƒ“แƒแƒ•แƒขแƒแƒ•แƒ”แƒ—. แƒกแƒ•แƒ”แƒขแƒ˜ "แƒกแƒ”แƒฅแƒกแƒ˜". แƒ แƒแƒ’แƒแƒ  แƒ’แƒ•แƒ˜แƒœแƒ“แƒ แƒ™แƒแƒ“แƒ˜แƒ แƒ”แƒ‘แƒ? แƒ•แƒ”แƒฅแƒขแƒแƒ แƒแƒ“ แƒฌแƒแƒ แƒ›แƒแƒ•แƒแƒ“แƒ’แƒ˜แƒœแƒแƒ— แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜ แƒแƒ“แƒแƒ›แƒ˜แƒแƒœแƒ˜แƒก แƒกแƒฅแƒ”แƒกแƒ˜แƒก แƒจแƒ”แƒกแƒแƒฎแƒ”แƒ‘: 10 - แƒ›แƒแƒ›แƒ แƒแƒ‘แƒ˜แƒ—แƒ˜, 01 - แƒฅแƒแƒšแƒ˜.

แƒžแƒ˜แƒ แƒ•แƒ”แƒšแƒ˜, แƒ›แƒแƒ“แƒ˜แƒ— แƒ’แƒแƒ“แƒแƒ•แƒ˜แƒงแƒ•แƒแƒœแƒแƒ— แƒฉแƒ•แƒ”แƒœแƒ˜ แƒชแƒฎแƒ แƒ˜แƒšแƒ”แƒ‘แƒ˜ NumPy แƒ›แƒแƒขแƒ แƒ˜แƒชแƒแƒ“:

X = np.array(X)
y = np.array(y)

แƒแƒฎแƒšแƒ แƒ™แƒ˜ แƒ•แƒœแƒแƒฎแƒแƒ—:

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])],
                       remainder='passthrough')
X = np.array(ct.fit_transform(X))

Sklearn แƒ‘แƒ˜แƒ‘แƒšแƒ˜แƒแƒ—แƒ”แƒ™แƒ แƒ˜แƒกแƒ”แƒ—แƒ˜ แƒ›แƒแƒ’แƒแƒ แƒ˜ แƒ‘แƒ˜แƒ‘แƒšแƒ˜แƒแƒ—แƒ”แƒ™แƒแƒ, แƒ แƒแƒ›แƒ”แƒšแƒ˜แƒช แƒกแƒแƒจแƒฃแƒแƒšแƒ”แƒ‘แƒแƒก แƒ’แƒ•แƒแƒซแƒšแƒ”แƒ•แƒก แƒ’แƒแƒ•แƒแƒ™แƒ”แƒ—แƒแƒ— แƒกแƒ แƒฃแƒšแƒ˜ แƒกแƒแƒ›แƒฃแƒจแƒแƒ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ›แƒ”แƒชแƒœแƒ˜แƒ”แƒ แƒ”แƒ‘แƒแƒจแƒ˜. แƒ˜แƒก แƒจแƒ”แƒ˜แƒชแƒแƒ•แƒก แƒฃแƒแƒ›แƒ แƒแƒ• แƒกแƒแƒ˜แƒœแƒขแƒ”แƒ แƒ”แƒกแƒ แƒ›แƒแƒœแƒฅแƒแƒœแƒแƒ—แƒ›แƒชแƒแƒ“แƒœแƒ”แƒแƒ‘แƒ˜แƒก แƒ›แƒแƒ“แƒ”แƒšแƒก แƒ“แƒ แƒแƒกแƒ”แƒ•แƒ” แƒ’แƒ•แƒแƒซแƒšแƒ”แƒ•แƒก แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ›แƒแƒ›แƒ–แƒแƒ“แƒ”แƒ‘แƒ˜แƒก แƒกแƒแƒจแƒฃแƒแƒšแƒ”แƒ‘แƒแƒก.

OneHotEncoder แƒกแƒแƒจแƒฃแƒแƒšแƒ”แƒ‘แƒแƒก แƒ›แƒแƒ’แƒ•แƒชแƒ”แƒ›แƒก แƒ“แƒแƒ•แƒแƒจแƒ˜แƒคแƒ แƒแƒ— แƒžแƒ˜แƒ แƒ˜แƒก แƒกแƒฅแƒ”แƒกแƒ˜ แƒแƒ› แƒฌแƒแƒ แƒ›แƒแƒ“แƒ’แƒ”แƒœแƒแƒจแƒ˜, แƒ แƒแƒ’แƒแƒ แƒช แƒ”แƒก แƒแƒฆแƒ•แƒฌแƒ”แƒ แƒ”แƒ—. แƒจแƒ”แƒ˜แƒฅแƒ›แƒœแƒ”แƒ‘แƒ 2 แƒ™แƒšแƒแƒกแƒ˜: แƒ›แƒแƒ›แƒ แƒแƒ‘แƒ˜แƒ—แƒ˜, แƒฅแƒแƒšแƒ˜. แƒ—แƒฃ แƒแƒ“แƒแƒ›แƒ˜แƒแƒœแƒ˜ แƒ›แƒแƒ›แƒแƒ™แƒแƒชแƒ˜แƒ, แƒ›แƒแƒจแƒ˜แƒœ แƒกแƒ•แƒ”แƒขแƒจแƒ˜ โ€žแƒ›แƒแƒ›แƒแƒ™แƒแƒชแƒ˜โ€œ แƒ“แƒแƒ˜แƒฌแƒ”แƒ แƒ”แƒ‘แƒ 1, แƒฎแƒแƒšแƒ โ€žแƒฅแƒแƒšแƒ˜โ€œ แƒกแƒ•แƒ”แƒขแƒจแƒ˜ 0.

OneHotEncoder()-แƒ˜แƒก แƒจแƒ”แƒ›แƒ“แƒ”แƒ’ แƒแƒ แƒ˜แƒก [1] - แƒ”แƒก แƒœแƒ˜แƒจแƒœแƒแƒ•แƒก, แƒ แƒแƒ› แƒฉแƒ•แƒ”แƒœ แƒ’แƒ•แƒ˜แƒœแƒ“แƒ แƒ“แƒแƒ•แƒแƒจแƒ˜แƒคแƒ แƒแƒ— แƒกแƒ•แƒ”แƒขแƒ˜ แƒœแƒแƒ›แƒ”แƒ แƒ˜ 1 (แƒ˜แƒ—แƒ•แƒšแƒ˜แƒก แƒœแƒฃแƒšแƒ˜แƒ“แƒแƒœ).

แƒกแƒฃแƒžแƒ”แƒ . แƒ›แƒแƒ“แƒ˜, แƒ™แƒ˜แƒ“แƒ”แƒ• แƒฃแƒคแƒ แƒ แƒจแƒแƒ แƒก แƒฌแƒแƒ•แƒ˜แƒ“แƒ”แƒ—!

แƒ แƒแƒ’แƒแƒ แƒช แƒฌแƒ”แƒกแƒ˜, แƒ”แƒก แƒฎแƒ“แƒ”แƒ‘แƒ, แƒ แƒแƒ› แƒ–แƒแƒ’แƒ˜แƒ”แƒ แƒ—แƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ˜ แƒชแƒแƒ แƒ˜แƒ”แƒšแƒ˜ แƒ แƒฉแƒ”แƒ‘แƒ (แƒแƒœแƒฃ NaN - แƒแƒ แƒ แƒ แƒ˜แƒชแƒฎแƒ•แƒ˜). แƒ›แƒแƒ’แƒแƒšแƒ˜แƒ—แƒแƒ“, แƒแƒ แƒ˜แƒก แƒ˜แƒœแƒคแƒแƒ แƒ›แƒแƒชแƒ˜แƒ แƒแƒ“แƒแƒ›แƒ˜แƒแƒœแƒ˜แƒก แƒจแƒ”แƒกแƒแƒฎแƒ”แƒ‘: แƒ›แƒ˜แƒกแƒ˜ แƒกแƒแƒฎแƒ”แƒšแƒ˜, แƒกแƒฅแƒ”แƒกแƒ˜. แƒ›แƒแƒ’แƒ แƒแƒ› แƒ›แƒ˜แƒกแƒ˜ แƒแƒกแƒแƒ™แƒ˜แƒก แƒจแƒ”แƒกแƒแƒฎแƒ”แƒ‘ แƒ˜แƒœแƒคแƒแƒ แƒ›แƒแƒชแƒ˜แƒ แƒแƒ  แƒแƒ แƒกแƒ”แƒ‘แƒแƒ‘แƒก. แƒแƒ› แƒจแƒ”แƒ›แƒ—แƒฎแƒ•แƒ”แƒ•แƒแƒจแƒ˜ แƒฉแƒ•แƒ”แƒœ แƒ’แƒแƒ›แƒแƒ•แƒ˜แƒงแƒ”แƒœแƒ”แƒ‘แƒ— แƒจแƒ”แƒ›แƒ“แƒ”แƒ’ แƒ›แƒ”แƒ—แƒแƒ“แƒก: แƒฉแƒ•แƒ”แƒœ แƒ•แƒ˜แƒžแƒแƒ•แƒ˜แƒ— แƒกแƒแƒจแƒฃแƒแƒšแƒ แƒแƒ แƒ˜แƒ—แƒ›แƒ”แƒขแƒ˜แƒ™แƒแƒก แƒงแƒ•แƒ”แƒšแƒ แƒกแƒ•แƒ”แƒขแƒ–แƒ” แƒ“แƒ, แƒ—แƒฃ แƒกแƒ•แƒ”แƒขแƒก แƒแƒ™แƒšแƒ˜แƒ แƒ’แƒแƒ แƒ™แƒ•แƒ”แƒฃแƒšแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜, แƒ›แƒแƒจแƒ˜แƒœ แƒกแƒ˜แƒชแƒแƒ แƒ˜แƒ”แƒšแƒ”แƒก แƒจแƒ”แƒ•แƒแƒ•แƒกแƒ”แƒ‘แƒ— แƒกแƒแƒจแƒฃแƒแƒšแƒ แƒแƒ แƒ˜แƒ—แƒ›แƒ”แƒขแƒ˜แƒ™แƒ˜แƒ—.

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X)
X = imputer.transform(X)

แƒแƒฎแƒšแƒ แƒ’แƒแƒ•แƒ˜แƒ—แƒ•แƒแƒšแƒ˜แƒกแƒฌแƒ˜แƒœแƒแƒ—, แƒ แƒแƒ› แƒกแƒ˜แƒขแƒฃแƒแƒชแƒ˜แƒ”แƒ‘แƒ˜ แƒฎแƒ“แƒ”แƒ‘แƒ, แƒ แƒแƒ“แƒ”แƒกแƒแƒช แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜ แƒซแƒแƒšแƒ˜แƒแƒœ แƒ“แƒ˜แƒ“แƒ˜แƒ. แƒ–แƒแƒ’แƒ˜แƒ”แƒ แƒ—แƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ˜ แƒแƒ แƒ˜แƒก [0:1] แƒ˜แƒœแƒขแƒ”แƒ แƒ•แƒแƒšแƒจแƒ˜, แƒ–แƒแƒ’แƒ˜ แƒ™แƒ˜ แƒจแƒ”แƒกแƒแƒซแƒšแƒแƒ แƒแƒกแƒแƒ‘แƒ˜แƒ— แƒ“แƒ แƒแƒ—แƒแƒกแƒแƒ‘แƒ˜แƒ—แƒก แƒกแƒชแƒ“แƒ”แƒ‘แƒ. แƒแƒกแƒ”แƒ—แƒ˜ แƒ’แƒแƒคแƒแƒœแƒขแƒ•แƒ˜แƒก แƒแƒฆแƒ›แƒแƒกแƒแƒคแƒฎแƒ•แƒ แƒ”แƒšแƒแƒ“ แƒ“แƒ แƒ™แƒแƒ›แƒžแƒ˜แƒฃแƒขแƒ”แƒ แƒ˜แƒก แƒ’แƒแƒ›แƒแƒ—แƒ•แƒšแƒ”แƒ‘แƒจแƒ˜ แƒฃแƒคแƒ แƒ แƒ–แƒฃแƒกแƒขแƒ˜ แƒ แƒแƒ› แƒ’แƒแƒ•แƒฎแƒแƒ“แƒแƒ—, แƒฉแƒ•แƒ”แƒœ แƒ›แƒแƒ•แƒแƒฎแƒ“แƒ”แƒœแƒ— แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒก แƒกแƒ™แƒแƒœแƒ˜แƒ แƒ”แƒ‘แƒแƒก แƒ“แƒ แƒ›แƒแƒกแƒจแƒขแƒแƒ‘แƒ˜แƒ แƒ”แƒ‘แƒแƒก. แƒ“แƒแƒ”, แƒงแƒ•แƒ”แƒšแƒ แƒ แƒ˜แƒชแƒฎแƒ•แƒ˜ แƒแƒ  แƒแƒฆแƒ”แƒ›แƒแƒขแƒ”แƒ‘แƒแƒ“แƒ”แƒก แƒกแƒแƒ›แƒก. แƒแƒ›แƒ˜แƒกแƒแƒ—แƒ•แƒ˜แƒก แƒฉแƒ•แƒ”แƒœ แƒ’แƒแƒ›แƒแƒ•แƒ˜แƒงแƒ”แƒœแƒ”แƒ‘แƒ— StandardScaler แƒคแƒฃแƒœแƒฅแƒชแƒ˜แƒแƒก.

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X[:, 2:] = sc.fit_transform(X[:, 2:])

แƒแƒฎแƒšแƒ แƒฉแƒ•แƒ”แƒœแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜ แƒแƒกแƒ” แƒ’แƒแƒ›แƒแƒ˜แƒงแƒฃแƒ แƒ”แƒ‘แƒ:

แƒ—แƒฅแƒ•แƒ”แƒœแƒ˜ แƒžแƒ˜แƒ แƒ•แƒ”แƒšแƒ˜ แƒœแƒแƒ‘แƒ˜แƒฏแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ›แƒ”แƒชแƒœแƒ˜แƒ”แƒ แƒ”แƒ‘แƒแƒจแƒ˜. แƒขแƒ˜แƒขแƒแƒœแƒ˜แƒ™แƒ˜

แฒ™แƒšแƒแƒกแƒ˜. แƒฉแƒ•แƒ”แƒœ แƒฃแƒ™แƒ•แƒ” แƒแƒฎแƒšแƒแƒก แƒ•แƒแƒ แƒ— แƒ›แƒ˜แƒ–แƒแƒœแƒ—แƒแƒœ!

แƒœแƒแƒ‘แƒ˜แƒฏแƒ˜ แƒ›แƒ”แƒแƒ—แƒฎแƒ”

แƒ•แƒแƒ•แƒแƒ แƒฏแƒ˜แƒจแƒแƒ— แƒฉแƒ•แƒ”แƒœแƒ˜ แƒžแƒ˜แƒ แƒ•แƒ”แƒšแƒ˜ แƒ›แƒแƒ“แƒ”แƒšแƒ˜! Sklearn แƒ‘แƒ˜แƒ‘แƒšแƒ˜แƒแƒ—แƒ”แƒ™แƒ˜แƒ“แƒแƒœ แƒฉแƒ•แƒ”แƒœ แƒจแƒ”แƒ’แƒ•แƒ˜แƒซแƒšแƒ˜แƒ แƒ•แƒ˜แƒžแƒแƒ•แƒแƒ— แƒฃแƒแƒ›แƒ แƒแƒ•แƒ˜ แƒกแƒแƒ˜แƒœแƒขแƒ”แƒ แƒ”แƒกแƒ แƒ แƒแƒ›. แƒ›แƒ” แƒ’แƒแƒ›แƒแƒ•แƒ˜แƒงแƒ”แƒœแƒ” Gradient Boosting Classifier แƒ›แƒแƒ“แƒ”แƒšแƒ˜ แƒแƒ› แƒžแƒ แƒแƒ‘แƒšแƒ”แƒ›แƒแƒ–แƒ”. แƒฉแƒ•แƒ”แƒœ แƒ•แƒ˜แƒงแƒ”แƒœแƒ”แƒ‘แƒ— แƒ™แƒšแƒแƒกแƒ˜แƒคแƒ˜แƒ™แƒแƒขแƒแƒ แƒก, แƒ แƒแƒ“แƒ’แƒแƒœ แƒฉแƒ•แƒ”แƒœแƒ˜ แƒแƒ›แƒแƒชแƒแƒœแƒ แƒแƒ แƒ˜แƒก แƒ™แƒšแƒแƒกแƒ˜แƒคแƒ˜แƒ™แƒแƒชแƒ˜แƒ˜แƒก แƒแƒ›แƒแƒชแƒแƒœแƒ. แƒžแƒ แƒแƒ’แƒœแƒแƒ–แƒ˜ แƒฃแƒœแƒ“แƒ แƒ“แƒแƒ˜แƒœแƒ˜แƒจแƒœแƒแƒก 1 (แƒ’แƒแƒ“แƒแƒ แƒฉแƒ”แƒœแƒ˜แƒšแƒ˜) แƒแƒœ 0 (แƒแƒ  แƒ’แƒแƒ“แƒแƒ แƒฉแƒ).

from sklearn.ensemble import GradientBoostingClassifier
gbc = GradientBoostingClassifier(learning_rate=0.5, max_depth=5, n_estimators=150)
gbc.fit(X, y)

fit แƒคแƒฃแƒœแƒฅแƒชแƒ˜แƒ แƒ”แƒฃแƒ‘แƒœแƒ”แƒ‘แƒ Python-แƒก: แƒ›แƒแƒ“แƒ˜แƒ—, แƒ›แƒแƒ“แƒ”แƒšแƒ›แƒ แƒ›แƒแƒซแƒ”แƒ‘แƒœแƒแƒก แƒ“แƒแƒ›แƒแƒ™แƒ˜แƒ“แƒ”แƒ‘แƒฃแƒšแƒ”แƒ‘แƒ”แƒ‘แƒ˜ X แƒ“แƒ y-แƒก แƒจแƒแƒ แƒ˜แƒก.

แƒฌแƒแƒ›แƒ–แƒ” แƒœแƒแƒ™แƒšแƒ”แƒ‘แƒ˜ แƒ“แƒ แƒ›แƒแƒ“แƒ”แƒšแƒ˜ แƒ›แƒ–แƒแƒ“แƒแƒ.

แƒ—แƒฅแƒ•แƒ”แƒœแƒ˜ แƒžแƒ˜แƒ แƒ•แƒ”แƒšแƒ˜ แƒœแƒแƒ‘แƒ˜แƒฏแƒ˜ แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ›แƒ”แƒชแƒœแƒ˜แƒ”แƒ แƒ”แƒ‘แƒแƒจแƒ˜. แƒขแƒ˜แƒขแƒแƒœแƒ˜แƒ™แƒ˜

แƒ แƒแƒ’แƒแƒ  แƒ’แƒแƒ›แƒแƒ•แƒ˜แƒงแƒ”แƒœแƒแƒ— แƒ˜แƒ’แƒ˜? แƒแƒฎแƒšแƒ แƒ•แƒœแƒแƒฎแƒแƒ—!

แƒœแƒแƒ‘แƒ˜แƒฏแƒ˜ แƒ›แƒ”แƒฎแƒฃแƒ—แƒ”. แƒ“แƒแƒกแƒ™แƒ•แƒœแƒ

แƒแƒฎแƒšแƒ แƒฉแƒ•แƒ”แƒœ แƒฃแƒœแƒ“แƒ แƒฉแƒแƒ•แƒขแƒ•แƒ˜แƒ แƒ—แƒแƒ— แƒชแƒฎแƒ แƒ˜แƒšแƒ˜ แƒฉแƒ•แƒ”แƒœแƒ˜ แƒขแƒ”แƒกแƒขแƒ˜แƒก แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ”แƒ‘แƒ˜แƒ—, แƒ แƒ˜แƒกแƒ—แƒ•แƒ˜แƒกแƒแƒช แƒฃแƒœแƒ“แƒ แƒ’แƒแƒ•แƒแƒ™แƒ”แƒ—แƒแƒ— แƒžแƒ แƒแƒ’แƒœแƒแƒ–แƒ˜. แƒแƒ› แƒชแƒฎแƒ แƒ˜แƒšแƒ˜แƒ— แƒฉแƒ•แƒ”แƒœ แƒ’แƒแƒ•แƒแƒ™แƒ”แƒ—แƒ”แƒ‘แƒ— แƒงแƒ•แƒ”แƒšแƒ แƒ˜แƒ’แƒ˜แƒ•แƒ” แƒ›แƒแƒฅแƒ›แƒ”แƒ“แƒ”แƒ‘แƒแƒก, แƒ แƒแƒช แƒ’แƒแƒ•แƒแƒ™แƒ”แƒ—แƒ”แƒ— X-แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก.

X_test = pd.read_csv('test.csv', index_col=0)

count = ['Name', 'Ticket', 'Cabin', 'Embarked']
X_test.drop(count, inplace=True, axis=1)

X_test = np.array(X_test)

from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder
ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [1])],
                       remainder='passthrough')
X_test = np.array(ct.fit_transform(X_test))

from sklearn.impute import SimpleImputer
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')
imputer.fit(X_test)
X_test = imputer.transform(X_test)

from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_test[:, 2:] = sc.fit_transform(X_test[:, 2:])

แƒ›แƒแƒ“แƒ˜แƒ— แƒ’แƒแƒ›แƒแƒ•แƒ˜แƒงแƒ”แƒœแƒแƒ— แƒฉแƒ•แƒ”แƒœแƒ˜ แƒ›แƒแƒ“แƒ”แƒšแƒ˜ แƒแƒฎแƒšแƒแƒ•แƒ”!

gbc_predict = gbc.predict(X_test)

แƒงแƒ•แƒ”แƒšแƒ. แƒฉแƒ•แƒ”แƒœ แƒ’แƒแƒ•แƒแƒ™แƒ”แƒ—แƒ”แƒ— แƒžแƒ แƒแƒ’แƒœแƒแƒ–แƒ˜. แƒแƒฎแƒšแƒ แƒ˜แƒก แƒฃแƒœแƒ“แƒ แƒฉแƒแƒ˜แƒฌแƒ”แƒ แƒแƒก csv-แƒจแƒ˜ แƒ“แƒ แƒ’แƒแƒ˜แƒ’แƒ–แƒแƒ•แƒœแƒแƒก แƒกแƒแƒ˜แƒขแƒ–แƒ”.

np.savetxt('my_gbc_predict.csv', gbc_predict, delimiter=",", header = 'Survived')

แƒ›แƒ–แƒแƒ“แƒแƒ. แƒฉแƒ•แƒ”แƒœ แƒ›แƒ˜แƒ•แƒ˜แƒฆแƒ”แƒ— แƒคแƒแƒ˜แƒšแƒ˜, แƒ แƒแƒ›แƒ”แƒšแƒ˜แƒช แƒจแƒ”แƒ˜แƒชแƒแƒ•แƒก แƒžแƒ แƒแƒ’แƒœแƒแƒ–แƒ”แƒ‘แƒก แƒ—แƒ˜แƒ—แƒแƒ”แƒฃแƒšแƒ˜ แƒ›แƒ’แƒ–แƒแƒ•แƒ แƒ˜แƒกแƒ—แƒ•แƒ˜แƒก. แƒ แƒฉแƒ”แƒ‘แƒ แƒ›แƒฎแƒแƒšแƒแƒ“ แƒแƒ› แƒ’แƒแƒ“แƒแƒฌแƒงแƒ•แƒ”แƒขแƒ˜แƒšแƒ”แƒ‘แƒ”แƒ‘แƒ˜แƒก แƒแƒขแƒ•แƒ˜แƒ แƒ—แƒ•แƒ แƒ•แƒ”แƒ‘แƒกแƒแƒ˜แƒขแƒ–แƒ” แƒ“แƒ แƒžแƒ แƒแƒ’แƒœแƒแƒ–แƒ˜แƒก แƒจแƒ”แƒคแƒแƒกแƒ”แƒ‘แƒ. แƒแƒกแƒ”แƒ—แƒ˜ แƒžแƒ แƒ˜แƒ›แƒ˜แƒขแƒ˜แƒฃแƒšแƒ˜ แƒ’แƒแƒ“แƒแƒฌแƒงแƒ•แƒ”แƒขแƒ แƒ˜แƒซแƒšแƒ”แƒ•แƒ แƒแƒ แƒ แƒ›แƒฎแƒแƒšแƒแƒ“ แƒกแƒฌแƒแƒ แƒ˜ แƒžแƒแƒกแƒฃแƒฎแƒ”แƒ‘แƒ˜แƒก 74%-แƒก แƒกแƒแƒ–แƒแƒ’แƒแƒ“แƒแƒ”แƒ‘แƒแƒจแƒ˜, แƒแƒ แƒแƒ›แƒ”แƒ“ แƒ’แƒแƒ แƒ™แƒ•แƒ”แƒฃแƒš แƒ˜แƒ›แƒžแƒฃแƒšแƒกแƒกแƒแƒช แƒ›แƒแƒœแƒแƒชแƒ”แƒ›แƒ—แƒ แƒ›แƒ”แƒชแƒœแƒ˜แƒ”แƒ แƒ”แƒ‘แƒแƒจแƒ˜. แƒงแƒ•แƒ”แƒšแƒแƒ–แƒ” แƒชแƒœแƒแƒ‘แƒ˜แƒกแƒ›แƒแƒงแƒ•แƒแƒ แƒ”แƒ”แƒ‘แƒก แƒจแƒ”แƒฃแƒซแƒšแƒ˜แƒแƒ— แƒœแƒ”แƒ‘แƒ˜แƒกแƒ›แƒ˜แƒ”แƒ  แƒ“แƒ แƒแƒก แƒ›แƒแƒ›แƒฌแƒ”แƒ แƒแƒœ แƒžแƒ˜แƒ แƒแƒ“ แƒจแƒ”แƒขแƒงแƒแƒ‘แƒ˜แƒœแƒ”แƒ‘แƒ”แƒ‘แƒจแƒ˜ แƒ“แƒ แƒ“แƒแƒฃแƒกแƒ•แƒแƒœ แƒจแƒ”แƒ™แƒ˜แƒ—แƒฎแƒ•แƒ. แฒ›แƒแƒ“แƒšแƒแƒ‘แƒ แƒงแƒ•แƒ”แƒšแƒแƒก!

แƒฌแƒงแƒแƒ แƒ: www.habr.com

แƒแƒฎแƒแƒšแƒ˜ แƒ™แƒแƒ›แƒ”แƒœแƒขแƒแƒ แƒ˜แƒก แƒ“แƒแƒ›แƒแƒขแƒ”แƒ‘แƒ