ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ಲೈಬ್ರರಿಯನ್ನು ಬಳಸಿಕೊಂಡು ಪರಿಶೋಧನಾ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಯನ್ನು ವೇಗಗೊಳಿಸಿ

ಹೊಸ ಡೇಟಾ ಸೆಟ್ನೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಲು ಪ್ರಾರಂಭಿಸಿದಾಗ ಮೊದಲ ಹಂತವು ಅದನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು. ಇದನ್ನು ಮಾಡಲು, ಉದಾಹರಣೆಗೆ, ಅಸ್ಥಿರಗಳು, ಅವುಗಳ ಪ್ರಕಾರಗಳಿಂದ ಅಂಗೀಕರಿಸಲ್ಪಟ್ಟ ಮೌಲ್ಯಗಳ ಶ್ರೇಣಿಗಳನ್ನು ಕಂಡುಹಿಡಿಯುವುದು ಮತ್ತು ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳ ಸಂಖ್ಯೆಯನ್ನು ಕಂಡುಹಿಡಿಯುವುದು ನಿಮಗೆ ಅಗತ್ಯವಾಗಿರುತ್ತದೆ.

ಪಾಂಡಾಗಳ ಗ್ರಂಥಾಲಯವು ಪರಿಶೋಧನಾ ದತ್ತಾಂಶ ವಿಶ್ಲೇಷಣೆಯನ್ನು (EDA) ನಿರ್ವಹಿಸಲು ನಮಗೆ ಅನೇಕ ಉಪಯುಕ್ತ ಸಾಧನಗಳನ್ನು ಒದಗಿಸುತ್ತದೆ. ಆದರೆ ನೀವು ಅವುಗಳನ್ನು ಬಳಸುವ ಮೊದಲು, ನೀವು ಸಾಮಾನ್ಯವಾಗಿ df.describe() ನಂತಹ ಹೆಚ್ಚು ಸಾಮಾನ್ಯ ಕಾರ್ಯಗಳೊಂದಿಗೆ ಪ್ರಾರಂಭಿಸಬೇಕಾಗುತ್ತದೆ. ಆದಾಗ್ಯೂ, ಅಂತಹ ಕಾರ್ಯಗಳಿಂದ ಒದಗಿಸಲಾದ ಸಾಮರ್ಥ್ಯಗಳು ಸೀಮಿತವಾಗಿವೆ ಮತ್ತು EDA ಅನ್ನು ನಿರ್ವಹಿಸುವಾಗ ಯಾವುದೇ ಡೇಟಾ ಸೆಟ್‌ಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವ ಆರಂಭಿಕ ಹಂತಗಳು ಪರಸ್ಪರ ಹೋಲುತ್ತವೆ ಎಂದು ಗಮನಿಸಬೇಕು.

ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ಲೈಬ್ರರಿಯನ್ನು ಬಳಸಿಕೊಂಡು ಪರಿಶೋಧನಾ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಯನ್ನು ವೇಗಗೊಳಿಸಿ

ನಾವು ಇಂದು ಪ್ರಕಟಿಸುತ್ತಿರುವ ವಸ್ತುಗಳ ಲೇಖಕರು ಪುನರಾವರ್ತಿತ ಕ್ರಿಯೆಗಳನ್ನು ಮಾಡುವ ಅಭಿಮಾನಿಯಲ್ಲ ಎಂದು ಹೇಳುತ್ತಾರೆ. ಪರಿಣಾಮವಾಗಿ, ಪರಿಶೋಧನಾ ದತ್ತಾಂಶ ವಿಶ್ಲೇಷಣೆಯನ್ನು ತ್ವರಿತವಾಗಿ ಮತ್ತು ಪರಿಣಾಮಕಾರಿಯಾಗಿ ನಿರ್ವಹಿಸಲು ಪರಿಕರಗಳ ಹುಡುಕಾಟದಲ್ಲಿ, ಅವರು ಗ್ರಂಥಾಲಯವನ್ನು ಕಂಡುಕೊಂಡರು ಪಾಂಡಾಗಳು-ಪ್ರೊಫೈಲಿಂಗ್. ಅದರ ಕೆಲಸದ ಫಲಿತಾಂಶಗಳನ್ನು ಕೆಲವು ವೈಯಕ್ತಿಕ ಸೂಚಕಗಳ ರೂಪದಲ್ಲಿ ವ್ಯಕ್ತಪಡಿಸಲಾಗಿಲ್ಲ, ಆದರೆ ಅದರೊಂದಿಗೆ ಹೆಚ್ಚು ನಿಕಟವಾಗಿ ಕೆಲಸ ಮಾಡಲು ಪ್ರಾರಂಭಿಸುವ ಮೊದಲು ನೀವು ತಿಳಿದುಕೊಳ್ಳಬೇಕಾದ ವಿಶ್ಲೇಷಿಸಿದ ಡೇಟಾದ ಬಗ್ಗೆ ಹೆಚ್ಚಿನ ಮಾಹಿತಿಯನ್ನು ಒಳಗೊಂಡಿರುವ ಸಾಕಷ್ಟು ವಿವರವಾದ HTML ವರದಿಯ ರೂಪದಲ್ಲಿ ವ್ಯಕ್ತಪಡಿಸಲಾಗುತ್ತದೆ.

ಟೈಟಾನಿಕ್ ಡೇಟಾಸೆಟ್ ಅನ್ನು ಉದಾಹರಣೆಯಾಗಿ ಬಳಸಿಕೊಂಡು ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ಲೈಬ್ರರಿಯನ್ನು ಬಳಸುವ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ನಾವು ಇಲ್ಲಿ ನೋಡುತ್ತೇವೆ.

ಪಾಂಡಾಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಪರಿಶೋಧನಾ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ

ಟೈಟಾನಿಕ್ ಡೇಟಾಸೆಟ್‌ನಲ್ಲಿ ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ಅನ್ನು ಪ್ರಯೋಗಿಸಲು ನಾನು ನಿರ್ಧರಿಸಿದೆ ಏಕೆಂದರೆ ಅದು ಒಳಗೊಂಡಿರುವ ವಿವಿಧ ರೀತಿಯ ಡೇಟಾ ಮತ್ತು ಅದರಲ್ಲಿ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳ ಉಪಸ್ಥಿತಿ. ಡೇಟಾವನ್ನು ಇನ್ನೂ ಸ್ವಚ್ಛಗೊಳಿಸದಿರುವ ಸಂದರ್ಭಗಳಲ್ಲಿ ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ಲೈಬ್ರರಿಯು ವಿಶೇಷವಾಗಿ ಆಸಕ್ತಿದಾಯಕವಾಗಿದೆ ಮತ್ತು ಅದರ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಅವಲಂಬಿಸಿ ಹೆಚ್ಚಿನ ಪ್ರಕ್ರಿಯೆಯ ಅಗತ್ಯವಿರುತ್ತದೆ ಎಂದು ನಾನು ನಂಬುತ್ತೇನೆ. ಅಂತಹ ಸಂಸ್ಕರಣೆಯನ್ನು ಯಶಸ್ವಿಯಾಗಿ ನಿರ್ವಹಿಸಲು, ಎಲ್ಲಿ ಪ್ರಾರಂಭಿಸಬೇಕು ಮತ್ತು ಯಾವುದಕ್ಕೆ ಗಮನ ಕೊಡಬೇಕು ಎಂಬುದನ್ನು ನೀವು ತಿಳಿದುಕೊಳ್ಳಬೇಕು. ಇಲ್ಲಿ ಪಾಂಡಾಗಳು-ಪ್ರೊಫೈಲಿಂಗ್ ಸಾಮರ್ಥ್ಯಗಳು ಸೂಕ್ತವಾಗಿ ಬರುತ್ತವೆ.

ಮೊದಲಿಗೆ, ನಾವು ಡೇಟಾವನ್ನು ಆಮದು ಮಾಡಿಕೊಳ್ಳುತ್ತೇವೆ ಮತ್ತು ವಿವರಣಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳನ್ನು ಪಡೆಯಲು ಪಾಂಡಾಗಳನ್ನು ಬಳಸುತ್ತೇವೆ:

# импорт необходимых пакетов
import pandas as pd
import pandas_profiling
import numpy as np

# импорт данных
df = pd.read_csv('/Users/lukas/Downloads/titanic/train.csv')

# вычисление показателей описательной статистики
df.describe()

ಈ ಕೋಡ್ ಅನ್ನು ಕಾರ್ಯಗತಗೊಳಿಸಿದ ನಂತರ, ಈ ಕೆಳಗಿನ ಚಿತ್ರದಲ್ಲಿ ತೋರಿಸಿರುವುದನ್ನು ನೀವು ಪಡೆಯುತ್ತೀರಿ.

ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ಲೈಬ್ರರಿಯನ್ನು ಬಳಸಿಕೊಂಡು ಪರಿಶೋಧನಾ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಯನ್ನು ವೇಗಗೊಳಿಸಿ
ಪ್ರಮಾಣಿತ ಪಾಂಡಾಗಳ ಪರಿಕರಗಳನ್ನು ಬಳಸಿಕೊಂಡು ಪಡೆದ ವಿವರಣಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳು

ಇಲ್ಲಿ ಸಾಕಷ್ಟು ಉಪಯುಕ್ತ ಮಾಹಿತಿ ಇದ್ದರೂ, ಅಧ್ಯಯನದ ಅಡಿಯಲ್ಲಿ ಡೇಟಾದ ಬಗ್ಗೆ ತಿಳಿಯಲು ಆಸಕ್ತಿದಾಯಕವಾದ ಎಲ್ಲವನ್ನೂ ಇದು ಒಳಗೊಂಡಿಲ್ಲ. ಉದಾಹರಣೆಗೆ, ಡೇಟಾ ಫ್ರೇಮ್‌ನಲ್ಲಿ, ರಚನೆಯಲ್ಲಿ ಎಂದು ಒಬ್ಬರು ಊಹಿಸಬಹುದು DataFrame, 891 ಸಾಲುಗಳಿವೆ. ಇದನ್ನು ಪರಿಶೀಲಿಸಬೇಕಾದರೆ, ಚೌಕಟ್ಟಿನ ಗಾತ್ರವನ್ನು ನಿರ್ಧರಿಸಲು ಕೋಡ್ನ ಇನ್ನೊಂದು ಸಾಲಿನ ಅಗತ್ಯವಿದೆ. ಈ ಲೆಕ್ಕಾಚಾರಗಳು ನಿರ್ದಿಷ್ಟವಾಗಿ ಸಂಪನ್ಮೂಲ-ತೀವ್ರವಾಗಿಲ್ಲದಿದ್ದರೂ, ಅವುಗಳನ್ನು ಎಲ್ಲಾ ಸಮಯದಲ್ಲೂ ಪುನರಾವರ್ತಿಸುವುದು ಸಮಯವನ್ನು ವ್ಯರ್ಥ ಮಾಡಲು ಬದ್ಧವಾಗಿದೆ, ಅದು ಬಹುಶಃ ಡೇಟಾವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸಲು ಉತ್ತಮವಾಗಿ ಖರ್ಚು ಮಾಡಬಹುದಾಗಿದೆ.

ಪಾಂಡಾಗಳು-ಪ್ರೊಫೈಲಿಂಗ್ ಅನ್ನು ಬಳಸಿಕೊಂಡು ಪರಿಶೋಧನಾ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ

ಈಗ ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ಅನ್ನು ಬಳಸಿಕೊಂಡು ಅದೇ ರೀತಿ ಮಾಡೋಣ:

pandas_profiling.ProfileReport(df)

ಮೇಲಿನ ಕೋಡ್‌ನ ಸಾಲಿನ ಕಾರ್ಯಗತಗೊಳಿಸುವಿಕೆಯು ಪರಿಶೋಧನಾತ್ಮಕ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಸೂಚಕಗಳೊಂದಿಗೆ ವರದಿಯನ್ನು ರಚಿಸುತ್ತದೆ. ಮೇಲೆ ತೋರಿಸಿರುವ ಕೋಡ್ ಕಂಡುಬರುವ ಡೇಟಾವನ್ನು ಔಟ್‌ಪುಟ್ ಮಾಡುತ್ತದೆ, ಆದರೆ ನೀವು ಅದನ್ನು HTML ಫೈಲ್ ಅನ್ನು ಔಟ್‌ಪುಟ್ ಮಾಡಬಹುದು, ಅದನ್ನು ನೀವು ಯಾರಿಗಾದರೂ ತೋರಿಸಬಹುದು, ಉದಾಹರಣೆಗೆ.

ವರದಿಯ ಮೊದಲ ಭಾಗವು ಅವಲೋಕನ ವಿಭಾಗವನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ, ಡೇಟಾದ ಬಗ್ಗೆ ಮೂಲಭೂತ ಮಾಹಿತಿಯನ್ನು ನೀಡುತ್ತದೆ (ವೀಕ್ಷಣೆಗಳ ಸಂಖ್ಯೆ, ಅಸ್ಥಿರ ಸಂಖ್ಯೆ, ಇತ್ಯಾದಿ.). ಇದು ಎಚ್ಚರಿಕೆಗಳ ಪಟ್ಟಿಯನ್ನು ಸಹ ಒಳಗೊಂಡಿರುತ್ತದೆ, ವಿಶೇಷ ಗಮನ ಹರಿಸಬೇಕಾದ ವಿಷಯಗಳ ವಿಶ್ಲೇಷಕರಿಗೆ ತಿಳಿಸುತ್ತದೆ. ನಿಮ್ಮ ಡೇಟಾವನ್ನು ಸ್ವಚ್ಛಗೊಳಿಸುವ ಪ್ರಯತ್ನಗಳನ್ನು ನೀವು ಎಲ್ಲಿ ಕೇಂದ್ರೀಕರಿಸಬಹುದು ಎಂಬುದರ ಕುರಿತು ಈ ಎಚ್ಚರಿಕೆಗಳು ಸುಳಿವುಗಳನ್ನು ನೀಡಬಹುದು.

ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ಲೈಬ್ರರಿಯನ್ನು ಬಳಸಿಕೊಂಡು ಪರಿಶೋಧನಾ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಯನ್ನು ವೇಗಗೊಳಿಸಿ
ಅವಲೋಕನ ವರದಿ ವಿಭಾಗ

ಎಕ್ಸ್ಪ್ಲೋರೇಟರಿ ವೇರಿಯಬಲ್ ಅನಾಲಿಸಿಸ್

ವರದಿಯ ಅವಲೋಕನ ವಿಭಾಗದ ಕೆಳಗೆ ನೀವು ಪ್ರತಿ ವೇರಿಯಬಲ್ ಬಗ್ಗೆ ಉಪಯುಕ್ತ ಮಾಹಿತಿಯನ್ನು ಕಾಣಬಹುದು. ಅವುಗಳು ಇತರ ವಿಷಯಗಳ ಜೊತೆಗೆ, ಪ್ರತಿ ವೇರಿಯಬಲ್ನ ವಿತರಣೆಯನ್ನು ವಿವರಿಸುವ ಸಣ್ಣ ಚಾರ್ಟ್ಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತವೆ.

ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ಲೈಬ್ರರಿಯನ್ನು ಬಳಸಿಕೊಂಡು ಪರಿಶೋಧನಾ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಯನ್ನು ವೇಗಗೊಳಿಸಿ
ವಯಸ್ಸು ಸಂಖ್ಯಾ ವೇರಿಯಬಲ್ ಬಗ್ಗೆ

ಹಿಂದಿನ ಉದಾಹರಣೆಯಿಂದ ನೀವು ನೋಡುವಂತೆ, ಪಾಂಡಾಗಳು-ಪ್ರೊಫೈಲಿಂಗ್ ನಮಗೆ ಹಲವಾರು ಉಪಯುಕ್ತ ಸೂಚಕಗಳನ್ನು ನೀಡುತ್ತದೆ, ಉದಾಹರಣೆಗೆ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳ ಶೇಕಡಾವಾರು ಮತ್ತು ಸಂಖ್ಯೆ, ಹಾಗೆಯೇ ನಾವು ಈಗಾಗಲೇ ನೋಡಿದ ವಿವರಣಾತ್ಮಕ ಅಂಕಿಅಂಶಗಳ ಕ್ರಮಗಳು. ಏಕೆಂದರೆ Age ಸಂಖ್ಯಾತ್ಮಕ ವೇರಿಯಬಲ್ ಆಗಿದೆ, ಹಿಸ್ಟೋಗ್ರಾಮ್ ರೂಪದಲ್ಲಿ ಅದರ ವಿತರಣೆಯ ದೃಶ್ಯೀಕರಣವು ನಾವು ಬಲಕ್ಕೆ ಓರೆಯಾದ ವಿತರಣೆಯನ್ನು ಹೊಂದಿದ್ದೇವೆ ಎಂದು ತೀರ್ಮಾನಿಸಲು ನಮಗೆ ಅನುಮತಿಸುತ್ತದೆ.

ವರ್ಗೀಯ ವೇರಿಯಬಲ್ ಅನ್ನು ಪರಿಗಣಿಸುವಾಗ, ಔಟ್‌ಪುಟ್ ಫಲಿತಾಂಶಗಳು ಸಂಖ್ಯಾ ವೇರಿಯಬಲ್‌ಗೆ ಕಂಡುಬರುವ ಫಲಿತಾಂಶಗಳಿಗಿಂತ ಸ್ವಲ್ಪ ಭಿನ್ನವಾಗಿರುತ್ತವೆ.

ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ಲೈಬ್ರರಿಯನ್ನು ಬಳಸಿಕೊಂಡು ಪರಿಶೋಧನಾ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಯನ್ನು ವೇಗಗೊಳಿಸಿ
ಲಿಂಗ ವರ್ಗೀಯ ವೇರಿಯಬಲ್ ಬಗ್ಗೆ

ಅವುಗಳೆಂದರೆ, ಸರಾಸರಿ, ಕನಿಷ್ಠ ಮತ್ತು ಗರಿಷ್ಠವನ್ನು ಕಂಡುಹಿಡಿಯುವ ಬದಲು, ಪಾಂಡಾಗಳ-ಪ್ರೊಫೈಲಿಂಗ್ ಲೈಬ್ರರಿಯು ತರಗತಿಗಳ ಸಂಖ್ಯೆಯನ್ನು ಕಂಡುಹಿಡಿದಿದೆ. ಏಕೆಂದರೆ Sex - ಬೈನರಿ ವೇರಿಯೇಬಲ್, ಅದರ ಮೌಲ್ಯಗಳನ್ನು ಎರಡು ವರ್ಗಗಳಿಂದ ಪ್ರತಿನಿಧಿಸಲಾಗುತ್ತದೆ.

ನಾನು ಮಾಡುವಂತೆ ನೀವು ಕೋಡ್ ಅನ್ನು ಪರೀಕ್ಷಿಸಲು ಬಯಸಿದರೆ, ಪಾಂಡಾಗಳ-ಪ್ರೊಫೈಲಿಂಗ್ ಲೈಬ್ರರಿಯು ಈ ಮೆಟ್ರಿಕ್‌ಗಳನ್ನು ಹೇಗೆ ನಿಖರವಾಗಿ ಲೆಕ್ಕಾಚಾರ ಮಾಡುತ್ತದೆ ಎಂಬುದರ ಕುರಿತು ನೀವು ಆಸಕ್ತಿ ಹೊಂದಿರಬಹುದು. ಲೈಬ್ರರಿ ಕೋಡ್ ತೆರೆದಿರುವುದರಿಂದ ಮತ್ತು ಗಿಟ್‌ಹಬ್‌ನಲ್ಲಿ ಲಭ್ಯವಿರುವುದರಿಂದ ಈ ಬಗ್ಗೆ ಕಂಡುಹಿಡಿಯುವುದು ಅಷ್ಟು ಕಷ್ಟವಲ್ಲ. ನನ್ನ ಪ್ರಾಜೆಕ್ಟ್‌ಗಳಲ್ಲಿ ಕಪ್ಪು ಪೆಟ್ಟಿಗೆಗಳನ್ನು ಬಳಸುವ ದೊಡ್ಡ ಅಭಿಮಾನಿಯಲ್ಲದ ಕಾರಣ, ನಾನು ಲೈಬ್ರರಿಯ ಮೂಲ ಕೋಡ್ ಅನ್ನು ನೋಡಿದೆ. ಉದಾಹರಣೆಗೆ, ಸಂಖ್ಯಾ ಅಸ್ಥಿರಗಳನ್ನು ಸಂಸ್ಕರಿಸುವ ಕಾರ್ಯವಿಧಾನವು ಕಾರ್ಯದಿಂದ ಪ್ರತಿನಿಧಿಸುವ ರೀತಿ ಕಾಣುತ್ತದೆ ಸಂಖ್ಯಾ_1ಡಿ ವಿವರಿಸಿ:

def describe_numeric_1d(series, **kwargs):
    """Compute summary statistics of a numerical (`TYPE_NUM`) variable (a Series).
    Also create histograms (mini an full) of its distribution.
    Parameters
    ----------
    series : Series
        The variable to describe.
    Returns
    -------
    Series
        The description of the variable as a Series with index being stats keys.
    """
    # Format a number as a percentage. For example 0.25 will be turned to 25%.
    _percentile_format = "{:.0%}"
    stats = dict()
    stats['type'] = base.TYPE_NUM
    stats['mean'] = series.mean()
    stats['std'] = series.std()
    stats['variance'] = series.var()
    stats['min'] = series.min()
    stats['max'] = series.max()
    stats['range'] = stats['max'] - stats['min']
    # To avoid to compute it several times
    _series_no_na = series.dropna()
    for percentile in np.array([0.05, 0.25, 0.5, 0.75, 0.95]):
        # The dropna() is a workaround for https://github.com/pydata/pandas/issues/13098
        stats[_percentile_format.format(percentile)] = _series_no_na.quantile(percentile)
    stats['iqr'] = stats['75%'] - stats['25%']
    stats['kurtosis'] = series.kurt()
    stats['skewness'] = series.skew()
    stats['sum'] = series.sum()
    stats['mad'] = series.mad()
    stats['cv'] = stats['std'] / stats['mean'] if stats['mean'] else np.NaN
    stats['n_zeros'] = (len(series) - np.count_nonzero(series))
    stats['p_zeros'] = stats['n_zeros'] * 1.0 / len(series)
    # Histograms
    stats['histogram'] = histogram(series, **kwargs)
    stats['mini_histogram'] = mini_histogram(series, **kwargs)
    return pd.Series(stats, name=series.name)

ಈ ಕೋಡ್ ತುಣುಕು ಸಾಕಷ್ಟು ದೊಡ್ಡದಾಗಿ ಮತ್ತು ಸಂಕೀರ್ಣವಾಗಿ ತೋರುತ್ತದೆಯಾದರೂ, ಅರ್ಥಮಾಡಿಕೊಳ್ಳಲು ಇದು ತುಂಬಾ ಸರಳವಾಗಿದೆ. ವಿಷಯವೆಂದರೆ ಲೈಬ್ರರಿಯ ಮೂಲ ಕೋಡ್‌ನಲ್ಲಿ ಅಸ್ಥಿರ ಪ್ರಕಾರಗಳನ್ನು ನಿರ್ಧರಿಸುವ ಕಾರ್ಯವಿದೆ. ಲೈಬ್ರರಿಯು ಸಂಖ್ಯಾ ವೇರಿಯಬಲ್ ಅನ್ನು ಎದುರಿಸಿದೆ ಎಂದು ತಿರುಗಿದರೆ, ಮೇಲಿನ ಕಾರ್ಯವು ನಾವು ನೋಡುತ್ತಿರುವ ಮೆಟ್ರಿಕ್‌ಗಳನ್ನು ಕಂಡುಕೊಳ್ಳುತ್ತದೆ. ಈ ಕಾರ್ಯವು ಮಾದರಿಯ ವಸ್ತುಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಲು ಪ್ರಮಾಣಿತ ಪಾಂಡಾಗಳ ಕಾರ್ಯಾಚರಣೆಗಳನ್ನು ಬಳಸುತ್ತದೆ Series, ಹಾಗೆ series.mean(). ಲೆಕ್ಕಾಚಾರದ ಫಲಿತಾಂಶಗಳನ್ನು ನಿಘಂಟಿನಲ್ಲಿ ಸಂಗ್ರಹಿಸಲಾಗಿದೆ stats. ಹಿಸ್ಟೋಗ್ರಾಮ್‌ಗಳನ್ನು ಫಂಕ್ಷನ್‌ನ ಅಳವಡಿಸಿದ ಆವೃತ್ತಿಯನ್ನು ಬಳಸಿಕೊಂಡು ರಚಿಸಲಾಗುತ್ತದೆ matplotlib.pyplot.hist. ಅಳವಡಿಕೆಯು ಕಾರ್ಯವು ವಿವಿಧ ರೀತಿಯ ಡೇಟಾ ಸೆಟ್‌ಗಳೊಂದಿಗೆ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತದೆ ಎಂದು ಖಚಿತಪಡಿಸಿಕೊಳ್ಳುವ ಗುರಿಯನ್ನು ಹೊಂದಿದೆ.

ಪರಸ್ಪರ ಸಂಬಂಧ ಸೂಚಕಗಳು ಮತ್ತು ಮಾದರಿ ಡೇಟಾವನ್ನು ಅಧ್ಯಯನ ಮಾಡಲಾಗಿದೆ

ಅಸ್ಥಿರ ವಿಶ್ಲೇಷಣೆಯ ಫಲಿತಾಂಶಗಳ ನಂತರ, ಪಾಂಡಾಗಳು-ಪ್ರೊಫೈಲಿಂಗ್, ಪರಸ್ಪರ ಸಂಬಂಧಗಳ ವಿಭಾಗದಲ್ಲಿ, ಪಿಯರ್ಸನ್ ಮತ್ತು ಸ್ಪಿಯರ್‌ಮ್ಯಾನ್ ಪರಸ್ಪರ ಸಂಬಂಧದ ಮ್ಯಾಟ್ರಿಕ್ಸ್‌ಗಳನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತದೆ.

ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ಲೈಬ್ರರಿಯನ್ನು ಬಳಸಿಕೊಂಡು ಪರಿಶೋಧನಾ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಯನ್ನು ವೇಗಗೊಳಿಸಿ
ಪಿಯರ್ಸನ್ ಪರಸ್ಪರ ಸಂಬಂಧದ ಮ್ಯಾಟ್ರಿಕ್ಸ್

ಅಗತ್ಯವಿದ್ದರೆ, ನೀವು ವರದಿಯ ಉತ್ಪಾದನೆಯನ್ನು ಪ್ರಚೋದಿಸುವ ಕೋಡ್ ಸಾಲಿನಲ್ಲಿ, ಪರಸ್ಪರ ಸಂಬಂಧವನ್ನು ಲೆಕ್ಕಾಚಾರ ಮಾಡುವಾಗ ಬಳಸುವ ಮಿತಿ ಮೌಲ್ಯಗಳ ಸೂಚಕಗಳನ್ನು ಹೊಂದಿಸಬಹುದು. ಇದನ್ನು ಮಾಡುವ ಮೂಲಕ, ನಿಮ್ಮ ವಿಶ್ಲೇಷಣೆಗೆ ಯಾವ ಪರಸ್ಪರ ಸಂಬಂಧದ ಬಲವನ್ನು ಮುಖ್ಯವೆಂದು ಪರಿಗಣಿಸಲಾಗುತ್ತದೆ ಎಂಬುದನ್ನು ನೀವು ನಿರ್ದಿಷ್ಟಪಡಿಸಬಹುದು.

ಅಂತಿಮವಾಗಿ, ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ವರದಿ, ಮಾದರಿ ವಿಭಾಗದಲ್ಲಿ, ಉದಾಹರಣೆಗೆ, ಡೇಟಾ ಸೆಟ್‌ನ ಪ್ರಾರಂಭದಿಂದ ತೆಗೆದ ಡೇಟಾದ ತುಣುಕನ್ನು ಪ್ರದರ್ಶಿಸುತ್ತದೆ. ಈ ವಿಧಾನವು ಅಹಿತಕರ ಆಶ್ಚರ್ಯಗಳಿಗೆ ಕಾರಣವಾಗಬಹುದು, ಏಕೆಂದರೆ ಮೊದಲ ಕೆಲವು ಅವಲೋಕನಗಳು ಸಂಪೂರ್ಣ ಡೇಟಾ ಸೆಟ್ನ ಗುಣಲಕ್ಷಣಗಳನ್ನು ಪ್ರತಿಬಿಂಬಿಸದ ಮಾದರಿಯನ್ನು ಪ್ರತಿನಿಧಿಸಬಹುದು.

ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ಲೈಬ್ರರಿಯನ್ನು ಬಳಸಿಕೊಂಡು ಪರಿಶೋಧನಾ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಯನ್ನು ವೇಗಗೊಳಿಸಿ
ಅಧ್ಯಯನದ ಅಡಿಯಲ್ಲಿ ಮಾದರಿ ಡೇಟಾವನ್ನು ಹೊಂದಿರುವ ವಿಭಾಗ

ಪರಿಣಾಮವಾಗಿ, ಈ ಕೊನೆಯ ವಿಭಾಗಕ್ಕೆ ಗಮನ ಕೊಡಲು ನಾನು ಶಿಫಾರಸು ಮಾಡುವುದಿಲ್ಲ. ಬದಲಾಗಿ, ಆಜ್ಞೆಯನ್ನು ಬಳಸುವುದು ಉತ್ತಮ df.sample(5), ಇದು ಡೇಟಾ ಸೆಟ್‌ನಿಂದ 5 ಅವಲೋಕನಗಳನ್ನು ಯಾದೃಚ್ಛಿಕವಾಗಿ ಆಯ್ಕೆ ಮಾಡುತ್ತದೆ.

ಫಲಿತಾಂಶಗಳು

ಸಂಕ್ಷಿಪ್ತವಾಗಿ ಹೇಳುವುದಾದರೆ, ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ಲೈಬ್ರರಿಯು ವಿಶ್ಲೇಷಕರಿಗೆ ಕೆಲವು ಉಪಯುಕ್ತ ಸಾಮರ್ಥ್ಯಗಳನ್ನು ನೀಡುತ್ತದೆ, ಅದು ನೀವು ಡೇಟಾದ ಸ್ಥೂಲ ಕಲ್ಪನೆಯನ್ನು ತ್ವರಿತವಾಗಿ ಪಡೆಯಲು ಅಥವಾ ಗುಪ್ತಚರ ವಿಶ್ಲೇಷಣಾ ವರದಿಯನ್ನು ಯಾರಿಗಾದರೂ ರವಾನಿಸಬೇಕಾದ ಸಂದರ್ಭಗಳಲ್ಲಿ ಸೂಕ್ತವಾಗಿ ಬರುತ್ತದೆ. ಅದೇ ಸಮಯದಲ್ಲಿ, ಡೇಟಾದೊಂದಿಗೆ ನೈಜ ಕೆಲಸವನ್ನು, ಅದರ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಂಡು, ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ಅನ್ನು ಬಳಸದೆಯೇ, ಕೈಯಾರೆ ನಿರ್ವಹಿಸಲಾಗುತ್ತದೆ.

ಒಂದು ಜುಪಿಟರ್ ನೋಟ್‌ಬುಕ್‌ನಲ್ಲಿ ಎಲ್ಲಾ ಗುಪ್ತಚರ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಹೇಗೆ ಕಾಣುತ್ತದೆ ಎಂಬುದನ್ನು ನೀವು ನೋಡಲು ಬಯಸಿದರೆ, ನೋಡೋಣ ಇದು ನನ್ನ ಯೋಜನೆಯನ್ನು nbviewer ಬಳಸಿ ರಚಿಸಲಾಗಿದೆ. ಮತ್ತು ಒಳಗೆ ಇದು ನೀವು GitHub ರೆಪೊಸಿಟರಿಗಳಲ್ಲಿ ಅನುಗುಣವಾದ ಕೋಡ್ ಅನ್ನು ಕಾಣಬಹುದು.

ಆತ್ಮೀಯ ಓದುಗರು! ಹೊಸ ಡೇಟಾ ಸೆಟ್‌ಗಳ ವಿಶ್ಲೇಷಣೆಯನ್ನು ನೀವು ಎಲ್ಲಿ ಪ್ರಾರಂಭಿಸುತ್ತೀರಿ?

ಪಾಂಡಾಸ್-ಪ್ರೊಫೈಲಿಂಗ್ ಲೈಬ್ರರಿಯನ್ನು ಬಳಸಿಕೊಂಡು ಪರಿಶೋಧನಾ ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಯನ್ನು ವೇಗಗೊಳಿಸಿ

ಮೂಲ: www.habr.com

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ