Pe 9 ianuarie, Pandas 1.0.0rc a fost lansat. Versiunea anterioară a bibliotecii este 0.25.
Prima versiune majoră conține multe caracteristici noi grozave, inclusiv rezumarea automată îmbunătățită a cadrelor de date, mai multe formate de ieșire, noi tipuri de date și chiar un nou site de documentare.
Toate modificările pot fi vizualizate
Puteți instala biblioteca ca de obicei folosind țâfnă, dar din moment ce la momentul scrierii, Pandas 1.0 este încă eliberarea candidatului, va trebui să specificați în mod explicit versiunea:
pip install --upgrade pandas==1.0.0rc0
Fiți atenți: deoarece aceasta este o versiune majoră, actualizarea poate rupe vechiul cod!
Apropo, suportul pentru Python 2 a fost complet întrerupt de la această versiune (care ar putea fi un motiv bun
$ pip --version
pip 19.3.1 from /usr/local/lib/python3.7/site-packages/pip (python 3.7)
$ python --version
Python 3.7.5
Cel mai simplu mod de a verifica versiunea Pandas este următorul:
>>> import pandas as pd
>>> pd.__version__
1.0.0rc0
Rezumat automat îmbunătățit cu DataFrame.info
Inovația mea preferată a fost actualizarea metodei DataFrame.info. Funcția a devenit mult mai lizibilă, făcând procesul de explorare a datelor și mai ușor:
>>> df = pd.DataFrame({
...: 'A': [1,2,3],
...: 'B': ["goodbye", "cruel", "world"],
...: 'C': [False, True, False]
...:})
>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 A 3 non-null int64
1 B 3 non-null object
2 C 3 non-null object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes
Ieșirea tabelelor în format Markdown
O inovație la fel de plăcută este capacitatea de a exporta cadre de date în tabelele Markdown folosind DataFrame.to_markdown.
>>> df.to_markdown()
| | A | B | C |
|---:|----:|:--------|:------|
| 0 | 1 | goodbye | False |
| 1 | 2 | cruel | True |
| 2 | 3 | world | False |
Acest lucru face mult mai ușoară publicarea tabelelor pe site-uri precum Medium utilizând esențiale github.
Noi tipuri pentru șiruri și boolean
Versiunea Pandas 1.0 a adăugat și noi experimental tipuri. API-ul lor se poate modifica în continuare, așa că utilizați-l cu precauție. Dar, în general, Pandas recomandă utilizarea de noi tipuri oriunde are sens.
Deocamdată, distribuția trebuie făcută în mod explicit:
>>> B = pd.Series(["goodbye", "cruel", "world"], dtype="string")
>>> C = pd.Series([False, True, False], dtype="bool")
>>> df.B = B, df.C = C
>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 A 3 non-null int64
1 B 3 non-null string
2 C 3 non-null bool
dtypes: int64(1), object(1), string(1)
memory usage: 200.0+ bytes
Observați cum este coloana Dtype afișează noi tipuri − şir и bool.
Cea mai utilă caracteristică a noului tip de șir este selectabilitatea numai coloane de rând din cadre de date. Acest lucru poate face mult mai ușoară analizarea datelor text:
df.select_dtypes("string")
Anterior, coloanele de rând nu puteau fi selectate fără a specifica în mod explicit numele.
Puteți citi mai multe despre noile tipuri
Vă mulțumim pentru citit! Lista completă a modificărilor, așa cum sa menționat deja, poate fi vizualizată
Sursa: www.habr.com