Mida Pandas 1.0 meile tõi

Mida Pandas 1.0 meile tõi

9. jaanuaril ilmus Pandas 1.0.0rc. Teegi eelmine versioon on 0.25.

Esimene suurem väljalase sisaldab palju suurepäraseid uusi funktsioone, sealhulgas täiustatud automaatset andmeraami kokkuvõtet, rohkem väljundvorminguid, uusi andmetüüpe ja isegi uut dokumentatsioonisaiti.

Kõiki muudatusi saab vaadata siin, piirdume artiklis väikese, vähem tehnilise ülevaatega kõige olulisematest asjadest.

Saate installida raamatukogu nagu tavaliselt, kasutades pip, kuid kuna kirjutamise ajal on Pandas 1.0 alles Release Candidate, peate versiooni selgesõnaliselt määrama:

pip install --upgrade pandas==1.0.0rc0

Olge ettevaatlik: kuna see on suur väljalase, võib värskendus vana koodi rikkuda!

Muide, Python 2 tugi on alates sellest versioonist täielikult katkestatud (mis võiks olla hea põhjus värskendada — ca. tõlge). Pandas 1.0 nõuab vähemalt Python 3.6+, nii et kui te pole kindel, kontrollige, millise olete installinud:

$ pip --version
pip 19.3.1 from /usr/local/lib/python3.7/site-packages/pip (python 3.7)

$ python --version
Python 3.7.5

Lihtsaim viis Panda versiooni kontrollimiseks on järgmine:

>>> import pandas as pd
>>> pd.__version__
1.0.0rc0

Täiustatud automaatne kokkuvõte DataFrame.info abil

Minu lemmikuuendus oli meetodi värskendamine DataFrame.info. Funktsioon on muutunud palju loetavamaks, muutes andmete uurimise protsessi veelgi lihtsamaks:

>>> df = pd.DataFrame({
...:   'A': [1,2,3], 
...:   'B': ["goodbye", "cruel", "world"], 
...:   'C': [False, True, False]
...:})
>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      object
 2   C       3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes

Tabelite väljastamine Markdowni vormingus

Sama meeldiv uuendus on võimalus eksportida andmekaare Markdowni tabelitesse kasutades DataFrame.to_markdown.

>>> df.to_markdown()
|    |   A | B       | C     |
|---:|----:|:--------|:------|
|  0 |   1 | goodbye | False |
|  1 |   2 | cruel   | True  |
|  2 |   3 | world   | False |

See muudab tabelite avaldamise githubi sisude abil palju lihtsamaks sellistel saitidel nagu Medium.

Mida Pandas 1.0 meile tõi

Uued tüübid stringide ja tõeväärtuste jaoks

Pandase 1.0 väljalase lisas samuti uut eksperimentaalne tüübid. Nende API võib endiselt muutuda, seega kasutage seda ettevaatlikult. Kuid üldiselt soovitab Pandas kasutada uusi tüüpe kõikjal, kus see on mõttekas.

Praegu tuleb näitlejatööd teha selgesõnaliselt:

>>> B = pd.Series(["goodbye", "cruel", "world"], dtype="string")
>>> C = pd.Series([False, True, False], dtype="bool")
>>> df.B = B, df.C = C
>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      string
 2   C       3 non-null      bool
dtypes: int64(1), object(1), string(1)
memory usage: 200.0+ bytes

Pange tähele, kuidas veerg Dtüüp kuvab uued tüübid − nöör и loll.

Uue stringitüübi kõige kasulikum omadus on valikuvõimalus ainult rea veerud andmeraamidest. See võib muuta tekstiandmete sõelumise palju lihtsamaks:

df.select_dtypes("string")

Varem ei saanud ridade veerge valida ilma selgesõnalise nimedeta.

Uute tüüpide kohta saate rohkem lugeda siin.

Aitäh lugemast! Nagu juba mainitud, saab vaadata täielikku muudatuste loendit siin.

Allikas: www.habr.com

Lisa kommentaar