ಹೊಸ ಡೇಟಾ ಸೆಟ್ನೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಲು ಪ್ರಾರಂಭಿಸಿದಾಗ ಮೊದಲ ಹಂತವು ಅದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು. ಇದನ್ನು ಮಾಡಲು, ಉದಾಹರಣೆಗೆ, ಅಸ್ಥಿರಗಳು, ಅವುಗಳ ಪ್ರಕಾರಗಳಿಂದ ಅಂಗೀಕರಿಸಲ್ಪಟ್ಟ ಮೌಲ್ಯಗಳ ಶ್ರೇಣಿಗಳನ್ನು ಕಂಡುಹಿಡಿಯುವುದು ಮತ್ತು ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳ ಸಂಖ್ಯೆಯನ್ನು ಕಂಡುಹಿಡಿಯುವುದು ನಿಮಗೆ ಅಗತ್ಯವಾಗಿರುತ್ತದೆ.
ಪಾಂಡಾಗಳ ಗ್ರಂಥಾಲಯವು ಪರಿಶೋಧನಾ ದತ್ತಾಂಶ ವಿಶ್ಲೇಷಣೆಯನ್ನು (EDA) ನಿರ್ವಹಿಸಲು ನಮಗೆ ಅನೇಕ ಉಪಯುಕ್ತ ಸಾಧನಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ. ಆದರೆ ನೀವು ಅವುಗಳನ್ನು ಬಳಸುವ ಮೊದಲು, ನೀವು ಸಾಮಾನ್ಯವಾಗಿ df.describe() ನಂತಹ ಹೆಚ್ಚು ಸಾಮಾನ್ಯ ಕಾರ್ಯಗಳೊಂದಿಗೆ ಪ್ರಾರಂಭಿಸಬೇಕಾಗುತ್ತದೆ. ಆದಾಗ್ಯೂ, ಅಂತಹ ಕಾರ್ಯಗಳಿಂದ ಒದಗಿಸಲಾದ ಸಾಮರ್ಥ್ಯಗಳು ಸೀಮಿತವಾಗಿವೆ ಮತ್ತು EDA ಅನ್ನು ನಿರ್ವಹಿಸುವಾಗ ಯಾವುದೇ ಡೇಟಾ ಸೆಟ್ಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವ ಆರಂಭಿಕ ಹಂತಗಳು ಪರಸ್ಪರ ಹೋಲುತ್ತವೆ ಎಂದು ಗಮನಿಸಬೇಕು.
ನಾವು ಇಂದು ಪ್ರಕಟಿಸುತ್ತಿರುವ ವಸ್ತುಗಳ ಲೇಖಕರು ಪುನರಾವರ್ತಿತ ಕ್ರಿಯೆಗಳನ್ನು ಮಾಡುವ ಅಭಿಮಾನಿಯಲ್ಲ ಎಂದು ಹೇಳುತ್ತಾರೆ. ಪರಿಣಾಮವಾಗಿ, ಪರಿಶೋಧನಾ ದತ್ತಾಂಶ ವಿಶ್ಲೇಷಣೆಯನ್ನು ತ್ವರಿತವಾಗಿ ಮತ್ತು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ನಿರ್ವಹಿಸಲು ಪರಿಕರಗಳ ಹುಡುಕಾಟದಲ್ಲಿ, ಅವರು ಗ್ರಂಥಾಲಯವನ್ನು ಕಂಡುಕೊಂಡರು
ಟೈಟಾನಿಕ್ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಉದಾಹರಣೆಯಾಗಿ ಬಳಸಿಕೊಂಡು ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ಲೈಬ್ರರಿಯನ್ನು ಬಳಸುವ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ನಾವು ಇಲ್ಲಿ ನೋಡುತ್ತೇವೆ.
ಪಾಂಡಾಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಪರಿಶೋಧನಾ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ
ಟೈಟಾನಿಕ್ ಡೇಟಾಸೆಟ್ನಲ್ಲಿ ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ಅನ್ನು ಪ್ರಯೋಗಿಸಲು ನಾನು ನಿರ್ಧರಿಸಿದೆ ಏಕೆಂದರೆ ಅದು ಒಳಗೊಂಡಿರುವ ವಿವಿಧ ರೀತಿಯ ಡೇಟಾ ಮತ್ತು ಅದರಲ್ಲಿ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳ ಉಪಸ್ಥಿತಿ. ಡೇಟಾವನ್ನು ಇನ್ನೂ ಸ್ವಚ್ಛಗೊಳಿಸದಿರುವ ಸಂದರ್ಭಗಳಲ್ಲಿ ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ಲೈಬ್ರರಿಯು ವಿಶೇಷವಾಗಿ ಆಸಕ್ತಿದಾಯಕವಾಗಿದೆ ಮತ್ತು ಅದರ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಅವಲಂಬಿಸಿ ಹೆಚ್ಚಿನ ಪ್ರಕ್ರಿಯೆಯ ಅಗತ್ಯವಿರುತ್ತದೆ ಎಂದು ನಾನು ನಂಬುತ್ತೇನೆ. ಅಂತಹ ಸಂಸ್ಕರಣೆಯನ್ನು ಯಶಸ್ವಿಯಾಗಿ ನಿರ್ವಹಿಸಲು, ಎಲ್ಲಿ ಪ್ರಾರಂಭಿಸಬೇಕು ಮತ್ತು ಯಾವುದಕ್ಕೆ ಗಮನ ಕೊಡಬೇಕು ಎಂಬುದನ್ನು ನೀವು ತಿಳಿದುಕೊಳ್ಳಬೇಕು. ಇಲ್ಲಿ ಪಾಂಡಾಗಳು-ಪ್ರೊಫೈಲಿಂಗ್ ಸಾಮರ್ಥ್ಯಗಳು ಸೂಕ್ತವಾಗಿ ಬರುತ್ತವೆ.
ಮೊದಲಿಗೆ, ನಾವು ಡೇಟಾವನ್ನು ಆಮದು ಮಾಡಿಕೊಳ್ಳುತ್ತೇವೆ ಮತ್ತು ವಿವರಣಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳನ್ನು ಪಡೆಯಲು ಪಾಂಡಾಗಳನ್ನು ಬಳಸುತ್ತೇವೆ:
# импорт необходимых пакетов
import pandas as pd
import pandas_profiling
import numpy as np
# импорт данных
df = pd.read_csv('/Users/lukas/Downloads/titanic/train.csv')
# вычисление показателей описательной статистики
df.describe()
ಈ ಕೋಡ್ ಅನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸಿದ ನಂತರ, ಈ ಕೆಳಗಿನ ಚಿತ್ರದಲ್ಲಿ ತೋರಿಸಿರುವುದನ್ನು ನೀವು ಪಡೆಯುತ್ತೀರಿ.
ಪ್ರಮಾಣಿತ ಪಾಂಡಾಗಳ ಪರಿಕರಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಪಡೆದ ವಿವರಣಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳು
ಇಲ್ಲಿ ಸಾಕಷ್ಟು ಉಪಯುಕ್ತ ಮಾಹಿತಿ ಇದ್ದರೂ, ಅಧ್ಯಯನದ ಅಡಿಯಲ್ಲಿ ಡೇಟಾದ ಬಗ್ಗೆ ತಿಳಿಯಲು ಆಸಕ್ತಿದಾಯಕವಾದ ಎಲ್ಲವನ್ನೂ ಇದು ಒಳಗೊಂಡಿಲ್ಲ. ಉದಾಹರಣೆಗೆ, ಡೇಟಾ ಫ್ರೇಮ್ನಲ್ಲಿ, ರಚನೆಯಲ್ಲಿ ಎಂದು ಒಬ್ಬರು ಊಹಿಸಬಹುದು DataFrame
, 891 ಸಾಲುಗಳಿವೆ. ಇದನ್ನು ಪರಿಶೀಲಿಸಬೇಕಾದರೆ, ಚೌಕಟ್ಟಿನ ಗಾತ್ರವನ್ನು ನಿರ್ಧರಿಸಲು ಕೋಡ್ನ ಇನ್ನೊಂದು ಸಾಲಿನ ಅಗತ್ಯವಿದೆ. ಈ ಲೆಕ್ಕಾಚಾರಗಳು ನಿರ್ದಿಷ್ಟವಾಗಿ ಸಂಪನ್ಮೂಲ-ತೀವ್ರವಾಗಿಲ್ಲದಿದ್ದರೂ, ಅವುಗಳನ್ನು ಎಲ್ಲಾ ಸಮಯದಲ್ಲೂ ಪುನರಾವರ್ತಿಸುವುದು ಸಮಯವನ್ನು ವ್ಯರ್ಥ ಮಾಡಲು ಬದ್ಧವಾಗಿದೆ, ಅದು ಬಹುಶಃ ಡೇಟಾವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಲು ಉತ್ತಮವಾಗಿ ಖರ್ಚು ಮಾಡಬಹುದಾಗಿದೆ.
ಪಾಂಡಾಗಳು-ಪ್ರೊಫೈಲಿಂಗ್ ಅನ್ನು ಬಳಸಿಕೊಂಡು ಪರಿಶೋಧನಾ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ
ಈಗ ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ಅನ್ನು ಬಳಸಿಕೊಂಡು ಅದೇ ರೀತಿ ಮಾಡೋಣ:
pandas_profiling.ProfileReport(df)
ಮೇಲಿನ ಕೋಡ್ನ ಸಾಲಿನ ಕಾರ್ಯಗತಗೊಳಿಸುವಿಕೆಯು ಪರಿಶೋಧನಾತ್ಮಕ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಸೂಚಕಗಳೊಂದಿಗೆ ವರದಿಯನ್ನು ರಚಿಸುತ್ತದೆ. ಮೇಲೆ ತೋರಿಸಿರುವ ಕೋಡ್ ಕಂಡುಬರುವ ಡೇಟಾವನ್ನು ಔಟ್ಪುಟ್ ಮಾಡುತ್ತದೆ, ಆದರೆ ನೀವು ಅದನ್ನು HTML ಫೈಲ್ ಅನ್ನು ಔಟ್ಪುಟ್ ಮಾಡಬಹುದು, ಅದನ್ನು ನೀವು ಯಾರಿಗಾದರೂ ತೋರಿಸಬಹುದು, ಉದಾಹರಣೆಗೆ.
ವರದಿಯ ಮೊದಲ ಭಾಗವು ಅವಲೋಕನ ವಿಭಾಗವನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ, ಡೇಟಾದ ಬಗ್ಗೆ ಮೂಲಭೂತ ಮಾಹಿತಿಯನ್ನು ನೀಡುತ್ತದೆ (ವೀಕ್ಷಣೆಗಳ ಸಂಖ್ಯೆ, ಅಸ್ಥಿರ ಸಂಖ್ಯೆ, ಇತ್ಯಾದಿ.). ಇದು ಎಚ್ಚರಿಕೆಗಳ ಪಟ್ಟಿಯನ್ನು ಸಹ ಒಳಗೊಂಡಿರುತ್ತದೆ, ವಿಶೇಷ ಗಮನ ಹರಿಸಬೇಕಾದ ವಿಷಯಗಳ ವಿಶ್ಲೇಷಕರಿಗೆ ತಿಳಿಸುತ್ತದೆ. ನಿಮ್ಮ ಡೇಟಾವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸುವ ಪ್ರಯತ್ನಗಳನ್ನು ನೀವು ಎಲ್ಲಿ ಕೇಂದ್ರೀಕರಿಸಬಹುದು ಎಂಬುದರ ಕುರಿತು ಈ ಎಚ್ಚರಿಕೆಗಳು ಸುಳಿವುಗಳನ್ನು ನೀಡಬಹುದು.
ಅವಲೋಕನ ವರದಿ ವಿಭಾಗ
ಎಕ್ಸ್ಪ್ಲೋರೇಟರಿ ವೇರಿಯಬಲ್ ಅನಾಲಿಸಿಸ್
ವರದಿಯ ಅವಲೋಕನ ವಿಭಾಗದ ಕೆಳಗೆ ನೀವು ಪ್ರತಿ ವೇರಿಯಬಲ್ ಬಗ್ಗೆ ಉಪಯುಕ್ತ ಮಾಹಿತಿಯನ್ನು ಕಾಣಬಹುದು. ಅವುಗಳು ಇತರ ವಿಷಯಗಳ ಜೊತೆಗೆ, ಪ್ರತಿ ವೇರಿಯಬಲ್ನ ವಿತರಣೆಯನ್ನು ವಿವರಿಸುವ ಸಣ್ಣ ಚಾರ್ಟ್ಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತವೆ.
ವಯಸ್ಸು ಸಂಖ್ಯಾ ವೇರಿಯಬಲ್ ಬಗ್ಗೆ
ಹಿಂದಿನ ಉದಾಹರಣೆಯಿಂದ ನೀವು ನೋಡುವಂತೆ, ಪಾಂಡಾಗಳು-ಪ್ರೊಫೈಲಿಂಗ್ ನಮಗೆ ಹಲವಾರು ಉಪಯುಕ್ತ ಸೂಚಕಗಳನ್ನು ನೀಡುತ್ತದೆ, ಉದಾಹರಣೆಗೆ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳ ಶೇಕಡಾವಾರು ಮತ್ತು ಸಂಖ್ಯೆ, ಹಾಗೆಯೇ ನಾವು ಈಗಾಗಲೇ ನೋಡಿದ ವಿವರಣಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳ ಕ್ರಮಗಳು. ಏಕೆಂದರೆ Age
ಸಂಖ್ಯಾತ್ಮಕ ವೇರಿಯಬಲ್ ಆಗಿದೆ, ಹಿಸ್ಟೋಗ್ರಾಮ್ ರೂಪದಲ್ಲಿ ಅದರ ವಿತರಣೆಯ ದೃಶ್ಯೀಕರಣವು ನಾವು ಬಲಕ್ಕೆ ಓರೆಯಾದ ವಿತರಣೆಯನ್ನು ಹೊಂದಿದ್ದೇವೆ ಎಂದು ತೀರ್ಮಾನಿಸಲು ನಮಗೆ ಅನುಮತಿಸುತ್ತದೆ.
ವರ್ಗೀಯ ವೇರಿಯಬಲ್ ಅನ್ನು ಪರಿಗಣಿಸುವಾಗ, ಔಟ್ಪುಟ್ ಫಲಿತಾಂಶಗಳು ಸಂಖ್ಯಾ ವೇರಿಯಬಲ್ಗೆ ಕಂಡುಬರುವ ಫಲಿತಾಂಶಗಳಿಗಿಂತ ಸ್ವಲ್ಪ ಭಿನ್ನವಾಗಿರುತ್ತವೆ.
ಲಿಂಗ ವರ್ಗೀಯ ವೇರಿಯಬಲ್ ಬಗ್ಗೆ
ಅವುಗಳೆಂದರೆ, ಸರಾಸರಿ, ಕನಿಷ್ಠ ಮತ್ತು ಗರಿಷ್ಠವನ್ನು ಕಂಡುಹಿಡಿಯುವ ಬದಲು, ಪಾಂಡಾಗಳ-ಪ್ರೊಫೈಲಿಂಗ್ ಲೈಬ್ರರಿಯು ತರಗತಿಗಳ ಸಂಖ್ಯೆಯನ್ನು ಕಂಡುಹಿಡಿದಿದೆ. ಏಕೆಂದರೆ Sex
- ಬೈನರಿ ವೇರಿಯೇಬಲ್, ಅದರ ಮೌಲ್ಯಗಳನ್ನು ಎರಡು ವರ್ಗಗಳಿಂದ ಪ್ರತಿನಿಧಿಸಲಾಗುತ್ತದೆ.
ನಾನು ಮಾಡುವಂತೆ ನೀವು ಕೋಡ್ ಅನ್ನು ಪರೀಕ್ಷಿಸಲು ಬಯಸಿದರೆ, ಪಾಂಡಾಗಳ-ಪ್ರೊಫೈಲಿಂಗ್ ಲೈಬ್ರರಿಯು ಈ ಮೆಟ್ರಿಕ್ಗಳನ್ನು ಹೇಗೆ ನಿಖರವಾಗಿ ಲೆಕ್ಕಾಚಾರ ಮಾಡುತ್ತದೆ ಎಂಬುದರ ಕುರಿತು ನೀವು ಆಸಕ್ತಿ ಹೊಂದಿರಬಹುದು. ಲೈಬ್ರರಿ ಕೋಡ್ ತೆರೆದಿರುವುದರಿಂದ ಮತ್ತು ಗಿಟ್ಹಬ್ನಲ್ಲಿ ಲಭ್ಯವಿರುವುದರಿಂದ ಈ ಬಗ್ಗೆ ಕಂಡುಹಿಡಿಯುವುದು ಅಷ್ಟು ಕಷ್ಟವಲ್ಲ. ನನ್ನ ಪ್ರಾಜೆಕ್ಟ್ಗಳಲ್ಲಿ ಕಪ್ಪು ಪೆಟ್ಟಿಗೆಗಳನ್ನು ಬಳಸುವ ದೊಡ್ಡ ಅಭಿಮಾನಿಯಲ್ಲದ ಕಾರಣ, ನಾನು ಲೈಬ್ರರಿಯ ಮೂಲ ಕೋಡ್ ಅನ್ನು ನೋಡಿದೆ. ಉದಾಹರಣೆಗೆ, ಸಂಖ್ಯಾ ಅಸ್ಥಿರಗಳನ್ನು ಸಂಸ್ಕರಿಸುವ ಕಾರ್ಯವಿಧಾನವು ಕಾರ್ಯದಿಂದ ಪ್ರತಿನಿಧಿಸುವ ರೀತಿ ಕಾಣುತ್ತದೆ
def describe_numeric_1d(series, **kwargs):
"""Compute summary statistics of a numerical (`TYPE_NUM`) variable (a Series).
Also create histograms (mini an full) of its distribution.
Parameters
----------
series : Series
The variable to describe.
Returns
-------
Series
The description of the variable as a Series with index being stats keys.
"""
# Format a number as a percentage. For example 0.25 will be turned to 25%.
_percentile_format = "{:.0%}"
stats = dict()
stats['type'] = base.TYPE_NUM
stats['mean'] = series.mean()
stats['std'] = series.std()
stats['variance'] = series.var()
stats['min'] = series.min()
stats['max'] = series.max()
stats['range'] = stats['max'] - stats['min']
# To avoid to compute it several times
_series_no_na = series.dropna()
for percentile in np.array([0.05, 0.25, 0.5, 0.75, 0.95]):
# The dropna() is a workaround for https://github.com/pydata/pandas/issues/13098
stats[_percentile_format.format(percentile)] = _series_no_na.quantile(percentile)
stats['iqr'] = stats['75%'] - stats['25%']
stats['kurtosis'] = series.kurt()
stats['skewness'] = series.skew()
stats['sum'] = series.sum()
stats['mad'] = series.mad()
stats['cv'] = stats['std'] / stats['mean'] if stats['mean'] else np.NaN
stats['n_zeros'] = (len(series) - np.count_nonzero(series))
stats['p_zeros'] = stats['n_zeros'] * 1.0 / len(series)
# Histograms
stats['histogram'] = histogram(series, **kwargs)
stats['mini_histogram'] = mini_histogram(series, **kwargs)
return pd.Series(stats, name=series.name)
ಈ ಕೋಡ್ ತುಣುಕು ಸಾಕಷ್ಟು ದೊಡ್ಡದಾಗಿ ಮತ್ತು ಸಂಕೀರ್ಣವಾಗಿ ತೋರುತ್ತದೆಯಾದರೂ, ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಇದು ತುಂಬಾ ಸರಳವಾಗಿದೆ. ವಿಷಯವೆಂದರೆ ಲೈಬ್ರರಿಯ ಮೂಲ ಕೋಡ್ನಲ್ಲಿ ಅಸ್ಥಿರ ಪ್ರಕಾರಗಳನ್ನು ನಿರ್ಧರಿಸುವ ಕಾರ್ಯವಿದೆ. ಲೈಬ್ರರಿಯು ಸಂಖ್ಯಾ ವೇರಿಯಬಲ್ ಅನ್ನು ಎದುರಿಸಿದೆ ಎಂದು ತಿರುಗಿದರೆ, ಮೇಲಿನ ಕಾರ್ಯವು ನಾವು ನೋಡುತ್ತಿರುವ ಮೆಟ್ರಿಕ್ಗಳನ್ನು ಕಂಡುಕೊಳ್ಳುತ್ತದೆ. ಈ ಕಾರ್ಯವು ಮಾದರಿಯ ವಸ್ತುಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಲು ಪ್ರಮಾಣಿತ ಪಾಂಡಾಗಳ ಕಾರ್ಯಾಚರಣೆಗಳನ್ನು ಬಳಸುತ್ತದೆ Series
, ಹಾಗೆ series.mean()
. ಲೆಕ್ಕಾಚಾರದ ಫಲಿತಾಂಶಗಳನ್ನು ನಿಘಂಟಿನಲ್ಲಿ ಸಂಗ್ರಹಿಸಲಾಗಿದೆ stats
. ಹಿಸ್ಟೋಗ್ರಾಮ್ಗಳನ್ನು ಫಂಕ್ಷನ್ನ ಅಳವಡಿಸಿದ ಆವೃತ್ತಿಯನ್ನು ಬಳಸಿಕೊಂಡು ರಚಿಸಲಾಗುತ್ತದೆ matplotlib.pyplot.hist
. ಅಳವಡಿಕೆಯು ಕಾರ್ಯವು ವಿವಿಧ ರೀತಿಯ ಡೇಟಾ ಸೆಟ್ಗಳೊಂದಿಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ ಎಂದು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳುವ ಗುರಿಯನ್ನು ಹೊಂದಿದೆ.
ಪರಸ್ಪರ ಸಂಬಂಧ ಸೂಚಕಗಳು ಮತ್ತು ಮಾದರಿ ಡೇಟಾವನ್ನು ಅಧ್ಯಯನ ಮಾಡಲಾಗಿದೆ
ಅಸ್ಥಿರ ವಿಶ್ಲೇಷಣೆಯ ಫಲಿತಾಂಶಗಳ ನಂತರ, ಪಾಂಡಾಗಳು-ಪ್ರೊಫೈಲಿಂಗ್, ಪರಸ್ಪರ ಸಂಬಂಧಗಳ ವಿಭಾಗದಲ್ಲಿ, ಪಿಯರ್ಸನ್ ಮತ್ತು ಸ್ಪಿಯರ್ಮ್ಯಾನ್ ಪರಸ್ಪರ ಸಂಬಂಧದ ಮ್ಯಾಟ್ರಿಕ್ಸ್ಗಳನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತದೆ.
ಪಿಯರ್ಸನ್ ಪರಸ್ಪರ ಸಂಬಂಧದ ಮ್ಯಾಟ್ರಿಕ್ಸ್
ಅಗತ್ಯವಿದ್ದರೆ, ನೀವು ವರದಿಯ ಉತ್ಪಾದನೆಯನ್ನು ಪ್ರಚೋದಿಸುವ ಕೋಡ್ ಸಾಲಿನಲ್ಲಿ, ಪರಸ್ಪರ ಸಂಬಂಧವನ್ನು ಲೆಕ್ಕಾಚಾರ ಮಾಡುವಾಗ ಬಳಸುವ ಮಿತಿ ಮೌಲ್ಯಗಳ ಸೂಚಕಗಳನ್ನು ಹೊಂದಿಸಬಹುದು. ಇದನ್ನು ಮಾಡುವ ಮೂಲಕ, ನಿಮ್ಮ ವಿಶ್ಲೇಷಣೆಗೆ ಯಾವ ಪರಸ್ಪರ ಸಂಬಂಧದ ಬಲವನ್ನು ಮುಖ್ಯವೆಂದು ಪರಿಗಣಿಸಲಾಗುತ್ತದೆ ಎಂಬುದನ್ನು ನೀವು ನಿರ್ದಿಷ್ಟಪಡಿಸಬಹುದು.
ಅಂತಿಮವಾಗಿ, ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ವರದಿ, ಮಾದರಿ ವಿಭಾಗದಲ್ಲಿ, ಉದಾಹರಣೆಗೆ, ಡೇಟಾ ಸೆಟ್ನ ಪ್ರಾರಂಭದಿಂದ ತೆಗೆದ ಡೇಟಾದ ತುಣುಕನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತದೆ. ಈ ವಿಧಾನವು ಅಹಿತಕರ ಆಶ್ಚರ್ಯಗಳಿಗೆ ಕಾರಣವಾಗಬಹುದು, ಏಕೆಂದರೆ ಮೊದಲ ಕೆಲವು ಅವಲೋಕನಗಳು ಸಂಪೂರ್ಣ ಡೇಟಾ ಸೆಟ್ನ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಪ್ರತಿಬಿಂಬಿಸದ ಮಾದರಿಯನ್ನು ಪ್ರತಿನಿಧಿಸಬಹುದು.
ಅಧ್ಯಯನದ ಅಡಿಯಲ್ಲಿ ಮಾದರಿ ಡೇಟಾವನ್ನು ಹೊಂದಿರುವ ವಿಭಾಗ
ಪರಿಣಾಮವಾಗಿ, ಈ ಕೊನೆಯ ವಿಭಾಗಕ್ಕೆ ಗಮನ ಕೊಡಲು ನಾನು ಶಿಫಾರಸು ಮಾಡುವುದಿಲ್ಲ. ಬದಲಾಗಿ, ಆಜ್ಞೆಯನ್ನು ಬಳಸುವುದು ಉತ್ತಮ df.sample(5)
, ಇದು ಡೇಟಾ ಸೆಟ್ನಿಂದ 5 ಅವಲೋಕನಗಳನ್ನು ಯಾದೃಚ್ಛಿಕವಾಗಿ ಆಯ್ಕೆ ಮಾಡುತ್ತದೆ.
ಫಲಿತಾಂಶಗಳು
ಸಂಕ್ಷಿಪ್ತವಾಗಿ ಹೇಳುವುದಾದರೆ, ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ಲೈಬ್ರರಿಯು ವಿಶ್ಲೇಷಕರಿಗೆ ಕೆಲವು ಉಪಯುಕ್ತ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ನೀಡುತ್ತದೆ, ಅದು ನೀವು ಡೇಟಾದ ಸ್ಥೂಲ ಕಲ್ಪನೆಯನ್ನು ತ್ವರಿತವಾಗಿ ಪಡೆಯಲು ಅಥವಾ ಗುಪ್ತಚರ ವಿಶ್ಲೇಷಣಾ ವರದಿಯನ್ನು ಯಾರಿಗಾದರೂ ರವಾನಿಸಬೇಕಾದ ಸಂದರ್ಭಗಳಲ್ಲಿ ಸೂಕ್ತವಾಗಿ ಬರುತ್ತದೆ. ಅದೇ ಸಮಯದಲ್ಲಿ, ಡೇಟಾದೊಂದಿಗೆ ನೈಜ ಕೆಲಸವನ್ನು, ಅದರ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಂಡು, ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ಅನ್ನು ಬಳಸದೆಯೇ, ಕೈಯಾರೆ ನಿರ್ವಹಿಸಲಾಗುತ್ತದೆ.
ಒಂದು ಜುಪಿಟರ್ ನೋಟ್ಬುಕ್ನಲ್ಲಿ ಎಲ್ಲಾ ಗುಪ್ತಚರ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಹೇಗೆ ಕಾಣುತ್ತದೆ ಎಂಬುದನ್ನು ನೀವು ನೋಡಲು ಬಯಸಿದರೆ, ನೋಡೋಣ
ಆತ್ಮೀಯ ಓದುಗರು! ಹೊಸ ಡೇಟಾ ಸೆಟ್ಗಳ ವಿಶ್ಲೇಷಣೆಯನ್ನು ನೀವು ಎಲ್ಲಿ ಪ್ರಾರಂಭಿಸುತ್ತೀರಿ?
ಮೂಲ: www.habr.com