Pandas 1.0 がもたらしたもの

Pandas 1.0 がもたらしたもの

9 月 1.0.0 日に、Pandas 0.25rc がリリースされました。 ライブラリの以前のバージョンは XNUMX です。

最初のメジャー リリースには、自動データフレーム要約の改善、より多くの出力形式、新しいデータ型、さらには新しいドキュメント サイトなど、多くの優れた新機能が含まれています。

すべての変更を表示できます ここで, この記事では、最も重要なことについて、技術的ではない小規模なレビューに限定します。

通常どおり次を使用してライブラリをインストールできます ピップ、ただし、この記事の執筆時点では Pandas 1.0 はまだです。 リリース候補版、バージョンを明示的に指定する必要があります。

pip install --upgrade pandas==1.0.0rc0

注意: これはメジャー リリースであるため、更新により古いコードが壊れる可能性があります。

ちなみに、このバージョンから Python 2 のサポートは完全に終了しました (良い理由は何でしょうか アップデート — 約翻訳)。 Pandas 1.0 には少なくとも Python 3.6 以降が必要なので、よくわからない場合は、どれがインストールされているかを確認してください。

$ pip --version
pip 19.3.1 from /usr/local/lib/python3.7/site-packages/pip (python 3.7)

$ python --version
Python 3.7.5

Pandas のバージョンを確認する最も簡単な方法は次のとおりです。

>>> import pandas as pd
>>> pd.__version__
1.0.0rc0

DataFrame.info による自動要約の改善

私のお気に入りのイノベーションはメソッドのアップデートです データフレーム.info。 関数はさらに読みやすくなり、データ探索のプロセスがさらに簡単になりました。

>>> df = pd.DataFrame({
...:   'A': [1,2,3], 
...:   'B': ["goodbye", "cruel", "world"], 
...:   'C': [False, True, False]
...:})
>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      object
 2   C       3 non-null      object
dtypes: int64(1), object(2)
memory usage: 200.0+ bytes

Markdown形式でテーブルを出力する

同様に嬉しいイノベーションは、次を使用してデータフレームを Markdown テーブルにエクスポートできることです。 DataFrame.to_markdown.

>>> df.to_markdown()
|    |   A | B       | C     |
|---:|----:|:--------|:------|
|  0 |   1 | goodbye | False |
|  1 |   2 | cruel   | True  |
|  2 |   3 | world   | False |

これにより、github gists を使用して Medium などのサイトにテーブルを公開することがはるかに簡単になります。

Pandas 1.0 がもたらしたもの

文字列とブール値の新しい型

Pandas 1.0 リリースでは、新しい機能も追加されました 実験的 種類。 API は今後も変更される可能性があるため、注意して使用してください。 ただし、一般的に、Pandas では、意味がある場合は常に新しい型を使用することをお勧めします。

今のところ、キャストは明示的に行う必要があります。

>>> B = pd.Series(["goodbye", "cruel", "world"], dtype="string")
>>> C = pd.Series([False, True, False], dtype="bool")
>>> df.B = B, df.C = C
>>> df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   A       3 non-null      int64
 1   B       3 non-null      string
 2   C       3 non-null      bool
dtypes: int64(1), object(1), string(1)
memory usage: 200.0+ bytes

列がどのように表示されるかに注目してください Dタイプ 新しいタイプを表示します- 文字列 и ブール.

新しい文字列タイプの最も便利な機能は、 行列のみ データフレームから。 これにより、テキスト データの解析がはるかに簡単になります。

df.select_dtypes("string")

以前は、名前を明示的に指定しないと行列を選択できませんでした。

新しいタイプについて詳しく読むことができます ここで.

読んでくれてありがとう! すでに述べたように、変更の完全なリストを表示できます。 ここで.

出所: habr.com

コメントを追加します