Pandas 1.0-k ekarri diguna

Pandas 1.0-k ekarri diguna

Urtarrilaren 9an Pandas 1.0.0rc kaleratu zen. Liburutegiaren aurreko bertsioa 0.25 da.

Lehen bertsio nagusiak ezaugarri berri handi asko ditu, besteak beste, datu-markoen laburpen automatiko hobetua, irteera formatu gehiago, datu mota berriak eta baita dokumentazio gune berria ere.

Aldaketa guztiak ikus daitezke Hemen, artikuluan gauza garrantzitsuenen berrikuspen txiki eta ez hain tekniko batera mugatuko gara.

Liburutegia ohiko moduan instala dezakezu PIP, baina idazteko momentuan Pandas 1.0 oraindik dago askatzeko hautagaia, berariaz zehaztu beharko duzu bertsioa:

pip install --upgrade pandas==1.0.0rc0

Kontuz ibili: bertsio nagusia denez, eguneratzeak kode zaharra hautsi dezake!

Bide batez, Python 2rako euskarria erabat eten da bertsio honetatik (arrazoi ona izan daitekeena eguneratu β€” gutxi gorabehera. itzulpena). Pandas 1.0-k gutxienez Python 3.6+ behar du, beraz, ziur ez bazaude, egiaztatu zein instalatu duzun:

$ pip --version
pip 19.3.1 from /usr/local/lib/python3.7/site-packages/pip (python 3.7)

$ python --version
Python 3.7.5

Pandas bertsioa egiaztatzeko modurik errazena hau da:

>>> import pandas as pd
>>> pd.__version__
1.0.0rc0

Laburpen automatikoa hobetu da DataFrame.info-rekin

Nire berrikuntza gogokoena metodoaren eguneratzea izan zen DataFrame.info. Funtzioa askoz ere irakurgarriagoa bihurtu da, datuen esplorazio prozesua are errazagoa eginez:

>>> df = pd.DataFrame({
...:   'A': [1,2,3], 
...:   'B': ["goodbye", "cruel", "world"], 
...:   'C': [False, True, False]
...:})
>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      object
 2   C       3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes

Taulen irteera Markdown formatuan

Era berean, berrikuntza atsegina Markdown tauletara datu-markoak esportatzeko gaitasuna da DataFrame.to_markdown.

>>> df.to_markdown()
|    |   A | B       | C     |
|---:|----:|:--------|:------|
|  0 |   1 | goodbye | False |
|  1 |   2 | cruel   | True  |
|  2 |   3 | world   | False |

Horrek askoz errazagoa da Medium bezalako guneetan taulak argitaratzea github gists erabiliz.

Pandas 1.0-k ekarri diguna

Kate eta boolear mota berriak

Pandas 1.0 bertsioak ere berriak gehitu ditu esperimentala motak. Baliteke haien APIa oraindik aldatzea, beraz, erabili kontuz. Baina, oro har, Pandas-ek gomendatzen du zentzua den lekuan mota berriak erabiltzea.

Oraingoz, aktoreak esplizituki egin behar dira:

>>> B = pd.Series(["goodbye", "cruel", "world"], dtype="string")
>>> C = pd.Series([False, True, False], dtype="bool")
>>> df.B = B, df.C = C
>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      string
 2   C       3 non-null      bool
dtypes: int64(1), object(1), string(1)
memory usage: 200.0+ bytes

Kontuan izan zutabea nola Dmota mota berriak bistaratzen ditu βˆ’ katea ΠΈ bool.

Kate mota berriaren ezaugarririk erabilgarriena hautatzeko gaitasuna da errenkadako zutabeak bakarrik datu-markoetatik. Horrek testu-datuak analizatzea askoz erraztu dezake:

df.select_dtypes("string")

Aurretik, ezin ziren errenkada-zutabeak hautatu izenak esplizituki zehaztu gabe.

Mota berriei buruzko informazio gehiago irakur dezakezu Hemen.

Eskerrik asko irakurtzeagatik! Aldaketen zerrenda osoa, esan bezala, ikus daiteke Hemen.

Iturria: www.habr.com

Gehitu iruzkin berria