Ce ne-a adus Pandas 1.0

Ce ne-a adus Pandas 1.0

Pe 9 ianuarie, Pandas 1.0.0rc a fost lansat. Versiunea anterioară a bibliotecii este 0.25.

Prima versiune majoră conține multe caracteristici noi grozave, inclusiv rezumarea automată îmbunătățită a cadrelor de date, mai multe formate de ieșire, noi tipuri de date și chiar un nou site de documentare.

Toate modificările pot fi vizualizate aici, în articol ne vom limita la o mică trecere în revistă, mai puțin tehnică, a celor mai importante lucruri.

Puteți instala biblioteca ca de obicei folosind țâfnă, dar din moment ce la momentul scrierii, Pandas 1.0 este încă eliberarea candidatului, va trebui să specificați în mod explicit versiunea:

pip install --upgrade pandas==1.0.0rc0

Fiți atenți: deoarece aceasta este o versiune majoră, actualizarea poate rupe vechiul cod!

Apropo, suportul pentru Python 2 a fost complet întrerupt de la această versiune (care ar putea fi un motiv bun Actualizați — aprox. traducere). Pandas 1.0 necesită cel puțin Python 3.6+, așa că dacă nu sunteți sigur, verificați pe care ați instalat:

$ pip --version
pip 19.3.1 from /usr/local/lib/python3.7/site-packages/pip (python 3.7)

$ python --version
Python 3.7.5

Cel mai simplu mod de a verifica versiunea Pandas este următorul:

>>> import pandas as pd
>>> pd.__version__
1.0.0rc0

Rezumat automat îmbunătățit cu DataFrame.info

Inovația mea preferată a fost actualizarea metodei DataFrame.info. Funcția a devenit mult mai lizibilă, făcând procesul de explorare a datelor și mai ușor:

>>> df = pd.DataFrame({
...:   'A': [1,2,3], 
...:   'B': ["goodbye", "cruel", "world"], 
...:   'C': [False, True, False]
...:})
>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      object
 2   C       3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes

Ieșirea tabelelor în format Markdown

O inovație la fel de plăcută este capacitatea de a exporta cadre de date în tabelele Markdown folosind DataFrame.to_markdown.

>>> df.to_markdown()
|    |   A | B       | C     |
|---:|----:|:--------|:------|
|  0 |   1 | goodbye | False |
|  1 |   2 | cruel   | True  |
|  2 |   3 | world   | False |

Acest lucru face mult mai ușoară publicarea tabelelor pe site-uri precum Medium utilizând esențiale github.

Ce ne-a adus Pandas 1.0

Noi tipuri pentru șiruri și boolean

Versiunea Pandas 1.0 a adăugat și noi experimental tipuri. API-ul lor se poate modifica în continuare, așa că utilizați-l cu precauție. Dar, în general, Pandas recomandă utilizarea de noi tipuri oriunde are sens.

Deocamdată, distribuția trebuie făcută în mod explicit:

>>> B = pd.Series(["goodbye", "cruel", "world"], dtype="string")
>>> C = pd.Series([False, True, False], dtype="bool")
>>> df.B = B, df.C = C
>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      string
 2   C       3 non-null      bool
dtypes: int64(1), object(1), string(1)
memory usage: 200.0+ bytes

Observați cum este coloana Dtype afișează noi tipuri − şir и bool.

Cea mai utilă caracteristică a noului tip de șir este selectabilitatea numai coloane de rând din cadre de date. Acest lucru poate face mult mai ușoară analizarea datelor text:

df.select_dtypes("string")

Anterior, coloanele de rând nu puteau fi selectate fără a specifica în mod explicit numele.

Puteți citi mai multe despre noile tipuri aici.

Vă mulțumim pentru citit! Lista completă a modificărilor, așa cum sa menționat deja, poate fi vizualizată aici.

Sursa: www.habr.com

Adauga un comentariu