Apa yang dihadirkan Pandas 1.0 untuk kita

Apa yang dihadirkan Pandas 1.0 untuk kita

Pada tanggal 9 Januari, Pandas 1.0.0rc dirilis. Versi perpustakaan sebelumnya adalah 0.25.

Rilis besar pertama berisi banyak fitur baru yang hebat, termasuk peringkasan kerangka data otomatis yang ditingkatkan, lebih banyak format keluaran, tipe data baru, dan bahkan situs dokumentasi baru.

Semua perubahan dapat dilihat di sini, dalam artikel ini kami akan membatasi diri pada ulasan kecil yang kurang teknis tentang hal-hal yang paling penting.

Anda dapat menginstal perpustakaan seperti biasa menggunakan biji, tetapi sejak tulisan ini dibuat, Pandas 1.0 masih tetap release candidate, Anda perlu menentukan versinya secara eksplisit:

pip install --upgrade pandas==1.0.0rc0

Hati-hati: karena ini adalah rilis besar, pembaruan mungkin merusak kode lama!

Omong-omong, dukungan untuk Python 2 telah dihentikan sepenuhnya sejak versi ini (apa yang bisa menjadi alasan yang bagus memperbarui β€” kira-kira. terjemahan). Pandas 1.0 memerlukan setidaknya Python 3.6+, jadi jika Anda tidak yakin, periksa mana yang telah Anda instal:

$ pip --version
pip 19.3.1 from /usr/local/lib/python3.7/site-packages/pip (python 3.7)

$ python --version
Python 3.7.5

Cara termudah untuk memeriksa versi Pandas adalah ini:

>>> import pandas as pd
>>> pd.__version__
1.0.0rc0

Peningkatan ringkasan otomatis dengan DataFrame.info

Inovasi favorit saya adalah pembaruan metode DataFrame.info. Fungsinya menjadi lebih mudah dibaca, membuat proses eksplorasi data menjadi lebih mudah:

>>> df = pd.DataFrame({
...:   'A': [1,2,3], 
...:   'B': ["goodbye", "cruel", "world"], 
...:   'C': [False, True, False]
...:})
>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      object
 2   C       3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes

Menghasilkan tabel dalam format penurunan harga

Inovasi yang sama menyenangkannya adalah kemampuan untuk mengekspor kerangka data ke tabel penurunan harga menggunakan DataFrame.to_markdown.

>>> df.to_markdown()
|    |   A | B       | C     |
|---:|----:|:--------|:------|
|  0 |   1 | goodbye | False |
|  1 |   2 | cruel   | True  |
|  2 |   3 | world   | False |

Hal ini mempermudah penerbitan tabel di situs seperti Medium menggunakan intisari github.

Apa yang dihadirkan Pandas 1.0 untuk kita

Tipe baru untuk string dan boolean

Rilis Pandas 1.0 juga menambahkan hal baru eksperimental jenis. API mereka mungkin masih berubah, jadi gunakan dengan hati-hati. Namun secara umum, Pandas merekomendasikan penggunaan tipe baru jika memungkinkan.

Untuk saat ini, pemeran perlu dilakukan secara eksplisit:

>>> B = pd.Series(["goodbye", "cruel", "world"], dtype="string")
>>> C = pd.Series([False, True, False], dtype="bool")
>>> df.B = B, df.C = C
>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      string
 2   C       3 non-null      bool
dtypes: int64(1), object(1), string(1)
memory usage: 200.0+ bytes

Perhatikan bagaimana kolomnya Tipe D menampilkan tipe baru - tali ΠΈ bool.

Fitur paling berguna dari tipe string baru adalah kemampuan untuk memilih hanya kolom baris dari kerangka data. Ini dapat membuat penguraian data teks menjadi lebih mudah:

df.select_dtypes("string")

Sebelumnya, kolom baris tidak dapat dipilih tanpa menentukan nama secara eksplisit.

Anda dapat membaca lebih lanjut tentang tipe baru di sini.

Terima kasih telah membaca! Daftar lengkap perubahan, sebagaimana telah disebutkan, dapat dilihat di sini.

Sumber: www.habr.com

Tambah komentar