Mida tõi meile Pandas 1.0

9. jaanuaril ilmus Pandas 1.0.0rc. Eelmine versioon raamatukogust on 0.25.

Esimene peamine väljaanne sisaldab palju suurepäraseid uuendusi, sealhulgas parandatud automaatset kokkuvõtet andmeraamides, rohkem väljundiformaate, uusi andmetüüpe ja isegi uue dokumentatsiooni veebisaidi.

Kõiki muudatusi saab vaadata siit, sel artiklil piirdume väikese, vähem tehnilise ülevaatega olulisemast.

Raamatukogu saab installida tavapäraselt meetodi abil pip, kuid kuna artikli kirjutamise ajal on Pandas 1.0 endiselt release candidate, tuleb versioon selgelt näidata:

pip install --upgrade pandas==1.0.0rc0

Olge ettevaatlik: kuna tegemist on peamise väljaandega, võib uuendamine vanema koodi rikuda!

Muide, selle versiooniga lõpetatakse täielikult Python 2 toetus (mis võib olla hea põhjus uuendada — tõlkija märkus.). Pandas 1.0 nõuab vähemalt Python 3.6+, seega kui te ei ole kindel, kontrollige, milline versioon teil on:

$ pip --version
pip 19.3.1 from /usr/local/lib/python3.7/site-packages/pip (python 3.7)

$ python --version
Python 3.7.5

Pandas versiooni kontrollimiseks on kõige lihtsam teha seda:

>>> import pandas as pd
>>> pd.__version__
1.0.0rc0

Parandatud automaatne kokkuvõte DataFrame.info

Minu lemmikuuendus on meetodi uuendamine DataFrame.info. Funcție on saanud palju loetavamaks, mis teeb andmete uurimise protsessi veelgi lihtsamaks:

>>> df = pd.DataFrame({
...:   'A': [1,2,3], 
...:   'B': ["goodbye", "cruel", "world"], 
...:   'C': [False, True, False]
...:})
>>> df.info()

RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      object
 2   C       3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes

Tabelite väljund Markdown formaadis

Tore uuendus on ka võimalus eksportida andmeraame Markdown tabelitesse kasutades DataFrame.to_markdown.

>>> df.to_markdown()
|    |   A | B       | C     |
|---:|----:|:--------|:------|
|  0 |   1 | goodbye | False |
|  1 |   2 | cruel   | True  |
|  2 |   3 | world   | False |

See teeb tabelite avaldamise Medium tüüpi saitidel github gists'i abil oluliselt lihtsamaks.

Mida tõi meile Pandas 1.0

Uued tüübid stringide ja loogiliste väärtuste jaoks

Pandas 1.0 väljalaske puhul on samuti lisatud uusi eksperimentaalsed tüüpe. Nende API võib veel muutuda, seega kasutage seda ettevaatlikult. Aga üldiselt soovitab Pandas uusi tüüpe kasutada igal pool, kus see on mõistlik.

Kuni nüüd tuleb teisendamine teha selgelt:

>>> B = pd.Series(["goodbye", "cruel", "world"], dtype="string")
>>> C = pd.Series([False, True, False], dtype="bool")
>>> df.B = B, df.C = C
>>> df.info()

RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      string
 2   C       3 non-null      bool
dtypes: int64(1), object(1), string(1)
memory usage: 200.0+ bytes

Pöörake tähelepanu, kuidas veerg Dtype näitab uusi tüüpe — string ja bool.

Uue stringi tüübi kõige kasulikum omadus on võimalus valida ainult stringi veerge andmefailidest. See võib oluliselt lihtsustada tekstiliste andmete analüüsi:

df.select_dtypes("string")

Enne ei saanud stringi veerge valida ilma nimedelt selgelt viitamata.

Rohkem uute tüüpide kohta saab lugeda siit.

Aitäh, et lugesite! Täielikku muudatuste loetelu, nagu juba mainitud, saab vaadata siit.

Allikas: habr.com