பாண்டாஸ் 1.0 எங்களுக்கு என்ன கொண்டு வந்தது

பாண்டாஸ் 1.0 எங்களுக்கு என்ன கொண்டு வந்தது

ஜனவரி 9 அன்று, பாண்டாஸ் 1.0.0rc வெளியிடப்பட்டது. நூலகத்தின் முந்தைய பதிப்பு 0.25 ஆகும்.

முதல் பெரிய வெளியீட்டில் மேம்படுத்தப்பட்ட தானியங்கி டேட்டாஃப்ரேம் சுருக்கம், அதிக வெளியீட்டு வடிவங்கள், புதிய தரவு வகைகள் மற்றும் புதிய ஆவணப்படுத்தல் தளம் உட்பட பல சிறந்த புதிய அம்சங்கள் உள்ளன.

அனைத்து மாற்றங்களையும் பார்க்க முடியும் இங்கே, கட்டுரையில் மிக முக்கியமான விஷயங்களின் சிறிய, குறைவான தொழில்நுட்ப மதிப்பாய்விற்கு நம்மை கட்டுப்படுத்துவோம்.

நீங்கள் வழக்கம் போல் நூலகத்தை நிறுவலாம் பிப், ஆனால் பாண்டாஸ் 1.0 எழுதும் நேரத்தில் இன்னும் உள்ளது வேட்பாளரை விடுவிக்கவும், நீங்கள் பதிப்பை வெளிப்படையாகக் குறிப்பிட வேண்டும்:

pip install --upgrade pandas==1.0.0rc0

கவனமாக இருங்கள்: இது ஒரு பெரிய வெளியீடு என்பதால், புதுப்பிப்பு பழைய குறியீட்டை உடைக்கலாம்!

இந்த பதிப்பிலிருந்து பைதான் 2க்கான ஆதரவு முற்றிலும் நிறுத்தப்பட்டது (என்ன ஒரு நல்ல காரணம் இருக்க முடியும் மேம்படுத்தல் - தோராயமாக மொழிபெயர்ப்பு) Pandas 1.0 க்கு குறைந்தபட்சம் Python 3.6+ தேவைப்படுகிறது, எனவே உங்களுக்கு உறுதியாக தெரியவில்லை என்றால், நீங்கள் நிறுவியுள்ளதைச் சரிபார்க்கவும்:

$ pip --version
pip 19.3.1 from /usr/local/lib/python3.7/site-packages/pip (python 3.7)

$ python --version
Python 3.7.5

பாண்டாஸ் பதிப்பைச் சரிபார்க்க எளிதான வழி இதுதான்:

>>> import pandas as pd
>>> pd.__version__
1.0.0rc0

DataFrame.info உடன் மேம்படுத்தப்பட்ட தானியங்கு சுருக்கம்

எனக்கு மிகவும் பிடித்த கண்டுபிடிப்பு முறைக்கான புதுப்பிப்பாகும் DataFrame.info. செயல்பாடு மிகவும் படிக்கக்கூடியதாக மாறிவிட்டது, தரவு ஆய்வு செயல்முறையை இன்னும் எளிதாக்குகிறது:

>>> df = pd.DataFrame({
...:   'A': [1,2,3], 
...:   'B': ["goodbye", "cruel", "world"], 
...:   'C': [False, True, False]
...:})
>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      object
 2   C       3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes

மார்க் டவுன் வடிவத்தில் அட்டவணைகளை வெளியிடுகிறது

டேட்டாஃப்ரேம்களைப் பயன்படுத்தி மார்க் டவுன் டேபிள்களுக்கு ஏற்றுமதி செய்யும் திறன் சமமான இனிமையான கண்டுபிடிப்பு DataFrame.to_markdown.

>>> df.to_markdown()
|    |   A | B       | C     |
|---:|----:|:--------|:------|
|  0 |   1 | goodbye | False |
|  1 |   2 | cruel   | True  |
|  2 |   3 | world   | False |

இது கிதுப் ஜிஸ்ட்களைப் பயன்படுத்தி மீடியம் போன்ற தளங்களில் அட்டவணைகளை வெளியிடுவதை மிகவும் எளிதாக்குகிறது.

பாண்டாஸ் 1.0 எங்களுக்கு என்ன கொண்டு வந்தது

சரங்கள் மற்றும் பூலியன்களுக்கான புதிய வகைகள்

Pandas 1.0 வெளியீடும் புதியவற்றைச் சேர்த்தது சோதனைக்குரிய வகைகள். அவற்றின் API இன்னும் மாறக்கூடும், எனவே எச்சரிக்கையுடன் அதைப் பயன்படுத்தவும். ஆனால் பொதுவாக, பாண்டாஸ் புதிய வகைகளை அர்த்தமுள்ள இடங்களில் பயன்படுத்த பரிந்துரைக்கிறார்.

இப்போதைக்கு, நடிகர்கள் வெளிப்படையாக செய்யப்பட வேண்டும்:

>>> B = pd.Series(["goodbye", "cruel", "world"], dtype="string")
>>> C = pd.Series([False, True, False], dtype="bool")
>>> df.B = B, df.C = C
>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      string
 2   C       3 non-null      bool
dtypes: int64(1), object(1), string(1)
memory usage: 200.0+ bytes

நெடுவரிசை எப்படி என்பதைக் கவனியுங்கள் டிடைப் புதிய வகைகளைக் காட்டுகிறது - சரம் и , bool.

புதிய சரம் வகையின் மிகவும் பயனுள்ள அம்சம் தேர்ந்தெடுக்கும் திறன் ஆகும் வரிசை நெடுவரிசைகள் மட்டுமே டேட்டாஃப்ரேம்களில் இருந்து. இது உரைத் தரவை மிக எளிதாகப் பாகுபடுத்தும்:

df.select_dtypes("string")

முன்னதாக, பெயர்களை வெளிப்படையாகக் குறிப்பிடாமல் வரிசை நெடுவரிசைகளைத் தேர்ந்தெடுக்க முடியாது.

புதிய வகைகளைப் பற்றி மேலும் படிக்கலாம் இங்கே.

படித்ததற்கு நன்றி! ஏற்கனவே குறிப்பிட்டுள்ளபடி, மாற்றங்களின் முழு பட்டியலையும் பார்க்கலாம் இங்கே.

ஆதாரம்: www.habr.com

கருத்தைச் சேர்