Mitä Pandas 1.0 toi meille

Mitä Pandas 1.0 toi meille

Pandas 9rc julkaistiin 1.0.0. tammikuuta. Kirjaston edellinen versio on 0.25.

Ensimmäinen suuri julkaisu sisältää monia upeita uusia ominaisuuksia, kuten parannetun automaattisen datakehysten yhteenvedon, enemmän tulostusmuotoja, uusia tietotyyppejä ja jopa uuden dokumentaatiosivuston.

Kaikki muutokset ovat nähtävissä täällä, artikkelissa rajoitamme pieneen, vähemmän tekniseen katsaukseen tärkeimmistä asioista.

Voit asentaa kirjaston tavalliseen tapaan käyttämällä pIP, mutta koska kirjoittamishetkellä Pandas 1.0 on edelleen Release Candidate, sinun on määritettävä versio erikseen:

pip install --upgrade pandas==1.0.0rc0

Ole varovainen: koska tämä on merkittävä julkaisu, päivitys voi rikkoa vanhan koodin!

Python 2:n tuki on muuten lopetettu kokonaan tämän version jälkeen (mikä voisi olla hyvä syy päivittää - n. käännös). Pandas 1.0 vaatii vähintään Python 3.6+ -version, joten jos et ole varma, tarkista, kumman olet asentanut:

$ pip --version
pip 19.3.1 from /usr/local/lib/python3.7/site-packages/pip (python 3.7)

$ python --version
Python 3.7.5

Helpoin tapa tarkistaa Pandas-versio on tämä:

>>> import pandas as pd
>>> pd.__version__
1.0.0rc0

Parannettu automaattinen yhteenveto DataFrame.infolla

Lempiinnovaationi oli menetelmän päivitys DataFrame.info. Toiminnosta on tullut paljon luettavampi, mikä tekee tiedonhakuprosessista entistä helpompaa:

>>> df = pd.DataFrame({
...:   'A': [1,2,3], 
...:   'B': ["goodbye", "cruel", "world"], 
...:   'C': [False, True, False]
...:})
>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      object
 2   C       3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes

Taulukoiden tulostaminen Markdown-muodossa

Yhtä miellyttävä innovaatio on mahdollisuus viedä datakehyksiä Markdown-taulukoihin käyttämällä DataFrame.to_markdown.

>>> df.to_markdown()
|    |   A | B       | C     |
|---:|----:|:--------|:------|
|  0 |   1 | goodbye | False |
|  1 |   2 | cruel   | True  |
|  2 |   3 | world   | False |

Tämä tekee taulukoiden julkaisemisesta paljon helpompaa sivustoilla, kuten Medium, käyttämällä github-sisältöjä.

Mitä Pandas 1.0 toi meille

Uusia tyyppejä merkkijonoille ja booleaneille

Pandas 1.0 -julkaisu lisäsi myös uutta kokeellinen tyypit. Niiden API voi edelleen muuttua, joten käytä sitä varoen. Mutta yleensä Pandas suosittelee käyttämään uusia tyyppejä aina, kun se on järkevää.

Toistaiseksi näyttelijät on tehtävä selkeästi:

>>> B = pd.Series(["goodbye", "cruel", "world"], dtype="string")
>>> C = pd.Series([False, True, False], dtype="bool")
>>> df.B = B, df.C = C
>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      string
 2   C       3 non-null      bool
dtypes: int64(1), object(1), string(1)
memory usage: 200.0+ bytes

Huomaa, kuinka sarake Dtyyppi näyttää uudet tyypit − jono и Bool.

Uuden merkkijonotyypin hyödyllisin ominaisuus on valintamahdollisuus vain rivisarakkeita tietokehyksistä. Tämä voi tehdä tekstitietojen jäsentämisestä paljon helpompaa:

df.select_dtypes("string")

Aikaisemmin rivisarakkeita ei voitu valita ilman nimenomaista määrittelyä.

Voit lukea lisää uusista tyypeistä täällä.

Kiitos, että luit! Täydellinen luettelo muutoksista, kuten jo mainittiin, on katsottavissa täällä.

Lähde: will.com

Lisää kommentti