ದೊಡ್ಡ ಹ್ಯಾಡ್ರಾನ್ ಕೊಲೈಡರ್ ಮತ್ತು ಓಡ್ನೋಕ್ಲಾಸ್ನಿಕಿ

Habré ನಲ್ಲಿ ಯಂತ್ರ ಕಲಿಕೆ ಸ್ಪರ್ಧೆಗಳ ಥೀಮ್ ಅನ್ನು ಮುಂದುವರಿಸುತ್ತಾ, ನಾವು ಓದುಗರಿಗೆ ಇನ್ನೂ ಎರಡು ವೇದಿಕೆಗಳನ್ನು ಪರಿಚಯಿಸಲು ಬಯಸುತ್ತೇವೆ. ಅವರು ನಿಸ್ಸಂಶಯವಾಗಿ ಕಗ್ಗಲ್ನಂತೆ ದೊಡ್ಡದಾಗಿಲ್ಲ, ಆದರೆ ಅವರು ಖಂಡಿತವಾಗಿಯೂ ಗಮನಕ್ಕೆ ಅರ್ಹರಾಗಿದ್ದಾರೆ.

ದೊಡ್ಡ ಹ್ಯಾಡ್ರಾನ್ ಕೊಲೈಡರ್ ಮತ್ತು ಓಡ್ನೋಕ್ಲಾಸ್ನಿಕಿ

ವೈಯಕ್ತಿಕವಾಗಿ, ಹಲವಾರು ಕಾರಣಗಳಿಗಾಗಿ ನಾನು ಕಗ್ಗಲ್ ಅನ್ನು ಹೆಚ್ಚು ಇಷ್ಟಪಡುವುದಿಲ್ಲ:

  • ಮೊದಲನೆಯದಾಗಿ, ಅಲ್ಲಿ ಸ್ಪರ್ಧೆಗಳು ಹಲವಾರು ತಿಂಗಳುಗಳವರೆಗೆ ಇರುತ್ತದೆ, ಮತ್ತು ಸಕ್ರಿಯ ಭಾಗವಹಿಸುವಿಕೆಗೆ ಸಾಕಷ್ಟು ಶ್ರಮ ಬೇಕಾಗುತ್ತದೆ;
  • ಎರಡನೆಯದಾಗಿ, ಸಾರ್ವಜನಿಕ ಕರ್ನಲ್‌ಗಳು (ಸಾರ್ವಜನಿಕ ಪರಿಹಾರಗಳು). ಕಾಗ್ಲೆ ಅನುಯಾಯಿಗಳು ಅವರನ್ನು ಟಿಬೆಟಿಯನ್ ಸನ್ಯಾಸಿಗಳ ಶಾಂತತೆಯಿಂದ ಪರಿಗಣಿಸಲು ಸಲಹೆ ನೀಡುತ್ತಾರೆ, ಆದರೆ ವಾಸ್ತವದಲ್ಲಿ ನೀವು ಒಂದು ಅಥವಾ ಎರಡು ತಿಂಗಳ ಕಾಲ ಕೆಲಸ ಮಾಡುತ್ತಿರುವುದನ್ನು ಇದ್ದಕ್ಕಿದ್ದಂತೆ ಎಲ್ಲರಿಗೂ ಬೆಳ್ಳಿಯ ತಟ್ಟೆಯಲ್ಲಿ ಹಾಕಿದಾಗ ಅದು ತುಂಬಾ ಅವಮಾನಕರವಾಗಿದೆ.

ಅದೃಷ್ಟವಶಾತ್, ಯಂತ್ರ ಕಲಿಕೆ ಸ್ಪರ್ಧೆಗಳನ್ನು ಇತರ ವೇದಿಕೆಗಳಲ್ಲಿ ನಡೆಸಲಾಗುತ್ತದೆ ಮತ್ತು ಈ ಸ್ಪರ್ಧೆಗಳಲ್ಲಿ ಒಂದೆರಡು ಚರ್ಚಿಸಲಾಗುವುದು.

IDAO SNA ಹ್ಯಾಕಥಾನ್ 2019
ಅಧಿಕೃತ ಭಾಷೆ: ಇಂಗ್ಲೀಷ್,
ಸಂಘಟಕರು: Yandex, Sberbank, HSE
ಅಧಿಕೃತ ರಷ್ಯನ್ ಭಾಷೆ,
ಸಂಘಟಕರು: Mail.ru ಗುಂಪು
ಆನ್‌ಲೈನ್ ಸುತ್ತು: ಜನವರಿ 15 — ಫೆಬ್ರವರಿ 11, 2019;
ಆನ್-ಸೈಟ್ ಫೈನಲ್: ಎಪ್ರಿಲ್ 4-6, 2019
ಆನ್‌ಲೈನ್ - ಫೆಬ್ರವರಿ 7 ರಿಂದ ಮಾರ್ಚ್ 15 ರವರೆಗೆ;
ಆಫ್‌ಲೈನ್ - ಮಾರ್ಚ್ 30 ರಿಂದ ಏಪ್ರಿಲ್ 1 ರವರೆಗೆ.
ಲಾರ್ಜ್ ಹ್ಯಾಡ್ರಾನ್ ಕೊಲೈಡರ್ (ಪಥ, ಆವೇಗ, ಮತ್ತು ಇತರ ಸಂಕೀರ್ಣ ಭೌತಿಕ ನಿಯತಾಂಕಗಳು) ನಲ್ಲಿರುವ ಕಣದ ಬಗ್ಗೆ ಒಂದು ನಿರ್ದಿಷ್ಟ ದತ್ತಾಂಶವನ್ನು ಬಳಸಿ, ಅದು ಮ್ಯೂಯಾನ್ ಅಥವಾ ಇಲ್ಲವೇ ಎಂಬುದನ್ನು ನಿರ್ಧರಿಸಿ
ಈ ಹೇಳಿಕೆಯಿಂದ, 2 ಕಾರ್ಯಗಳನ್ನು ಗುರುತಿಸಲಾಗಿದೆ:
- ಒಂದರಲ್ಲಿ ನೀವು ನಿಮ್ಮ ಭವಿಷ್ಯವನ್ನು ಕಳುಹಿಸಬೇಕಾಗಿತ್ತು,
- ಮತ್ತು ಇನ್ನೊಂದರಲ್ಲಿ - ಸಂಪೂರ್ಣ ಕೋಡ್ ಮತ್ತು ಭವಿಷ್ಯಕ್ಕಾಗಿ ಮಾದರಿ, ಮತ್ತು ಮರಣದಂಡನೆಯು ಚಾಲನೆಯಲ್ಲಿರುವ ಸಮಯ ಮತ್ತು ಮೆಮೊರಿ ಬಳಕೆಯ ಮೇಲೆ ಸಾಕಷ್ಟು ಕಟ್ಟುನಿಟ್ಟಾದ ನಿರ್ಬಂಧಗಳಿಗೆ ಒಳಪಟ್ಟಿರುತ್ತದೆ.
SNA ಹ್ಯಾಕಥಾನ್ ಸ್ಪರ್ಧೆಗಾಗಿ, ಫೆಬ್ರವರಿ-ಮಾರ್ಚ್ 2018 ಗಾಗಿ ಬಳಕೆದಾರರ ಸುದ್ದಿ ಫೀಡ್‌ಗಳಲ್ಲಿ ತೆರೆದ ಗುಂಪುಗಳಿಂದ ವಿಷಯ ಪ್ರದರ್ಶನಗಳ ಲಾಗ್‌ಗಳನ್ನು ಸಂಗ್ರಹಿಸಲಾಗಿದೆ. ಪರೀಕ್ಷಾ ಸೆಟ್ ಮಾರ್ಚ್ ಕೊನೆಯ ವಾರ ಮತ್ತು ಅರ್ಧವನ್ನು ಒಳಗೊಂಡಿದೆ. ಲಾಗ್‌ನಲ್ಲಿನ ಪ್ರತಿಯೊಂದು ನಮೂದು ಏನನ್ನು ತೋರಿಸಲಾಗಿದೆ ಮತ್ತು ಯಾರಿಗೆ, ಹಾಗೆಯೇ ಬಳಕೆದಾರರು ಈ ವಿಷಯಕ್ಕೆ ಹೇಗೆ ಪ್ರತಿಕ್ರಿಯಿಸಿದ್ದಾರೆ ಎಂಬುದರ ಕುರಿತು ಮಾಹಿತಿಯನ್ನು ಒಳಗೊಂಡಿದೆ: ಇದನ್ನು ರೇಟ್ ಮಾಡಲಾಗಿದೆ, ಕಾಮೆಂಟ್ ಮಾಡಲಾಗಿದೆ, ನಿರ್ಲಕ್ಷಿಸಲಾಗಿದೆ ಅಥವಾ ಫೀಡ್‌ನಿಂದ ಮರೆಮಾಡಲಾಗಿದೆ.
ಎಸ್‌ಎನ್‌ಎ ಹ್ಯಾಕಥಾನ್‌ನ ಕಾರ್ಯಗಳ ಸಾರವೆಂದರೆ ಸಾಮಾಜಿಕ ನೆಟ್‌ವರ್ಕ್ ಓಡ್ನೋಕ್ಲಾಸ್ನಿಕಿಯ ಪ್ರತಿ ಬಳಕೆದಾರರಿಗೆ ಅವರ ಫೀಡ್ ಅನ್ನು ಶ್ರೇಣೀಕರಿಸುವುದು, "ವರ್ಗ" ವನ್ನು ಸ್ವೀಕರಿಸುವ ಪೋಸ್ಟ್‌ಗಳನ್ನು ಸಾಧ್ಯವಾದಷ್ಟು ಹೆಚ್ಚಿಸುವುದು.
ಆನ್‌ಲೈನ್ ಹಂತದಲ್ಲಿ, ಕಾರ್ಯವನ್ನು 3 ಭಾಗಗಳಾಗಿ ವಿಂಗಡಿಸಲಾಗಿದೆ:
1. ವಿವಿಧ ಸಹಯೋಗದ ಗುಣಲಕ್ಷಣಗಳ ಪ್ರಕಾರ ಶ್ರೇಣಿಯ ಪೋಸ್ಟ್‌ಗಳು
2. ಪೋಸ್ಟ್‌ಗಳನ್ನು ಹೊಂದಿರುವ ಚಿತ್ರಗಳ ಆಧಾರದ ಮೇಲೆ ಶ್ರೇಯಾಂಕ ನೀಡಿ
3. ಪೋಸ್ಟ್‌ಗಳನ್ನು ಅವು ಒಳಗೊಂಡಿರುವ ಪಠ್ಯದ ಪ್ರಕಾರ ಶ್ರೇಣಿ ಮಾಡಿ
ಸಂಕೀರ್ಣವಾದ ಕಸ್ಟಮ್ ಮೆಟ್ರಿಕ್, ROC-AUC ನಂತಹವು ಬಳಕೆದಾರರಿಂದ ಸರಾಸರಿ ROC-AUC
ಮೊದಲ ಹಂತಕ್ಕೆ ಬಹುಮಾನಗಳು - ಎನ್ ಸ್ಥಳಗಳಿಗೆ ಟಿ-ಶರ್ಟ್‌ಗಳು, ಎರಡನೇ ಹಂತಕ್ಕೆ ಹಾದುಹೋಗುವಿಕೆ, ಅಲ್ಲಿ ಸ್ಪರ್ಧೆಯ ಸಮಯದಲ್ಲಿ ವಸತಿ ಮತ್ತು ಊಟವನ್ನು ಪಾವತಿಸಲಾಯಿತು
ಎರಡನೇ ಹಂತ - ??? (ಕೆಲವು ಕಾರಣಗಳಿಗಾಗಿ, ನಾನು ಪ್ರಶಸ್ತಿ ಪ್ರದಾನ ಸಮಾರಂಭದಲ್ಲಿ ಉಪಸ್ಥಿತರಿರಲಿಲ್ಲ ಮತ್ತು ಅಂತಿಮವಾಗಿ ಬಹುಮಾನಗಳು ಏನೆಂದು ಕಂಡುಹಿಡಿಯಲು ಸಾಧ್ಯವಾಗಲಿಲ್ಲ). ಅವರು ವಿಜೇತ ತಂಡದ ಎಲ್ಲಾ ಸದಸ್ಯರಿಗೆ ಲ್ಯಾಪ್‌ಟಾಪ್‌ಗಳನ್ನು ಭರವಸೆ ನೀಡಿದರು
ಮೊದಲ ಹಂತಕ್ಕೆ ಬಹುಮಾನಗಳು - 100 ಅತ್ಯುತ್ತಮ ಭಾಗವಹಿಸುವವರಿಗೆ ಟಿ-ಶರ್ಟ್‌ಗಳು, ಎರಡನೇ ಹಂತಕ್ಕೆ ಅಂಗೀಕಾರ, ಅಲ್ಲಿ ಮಾಸ್ಕೋಗೆ ಪ್ರಯಾಣ, ಸ್ಪರ್ಧೆಯ ಸಮಯದಲ್ಲಿ ವಸತಿ ಮತ್ತು ಊಟವನ್ನು ಪಾವತಿಸಲಾಯಿತು. ಅಲ್ಲದೆ, ಮೊದಲ ಹಂತದ ಅಂತ್ಯದ ವೇಳೆಗೆ, ಹಂತ 3 ರಲ್ಲಿ 1 ಕಾರ್ಯಗಳಲ್ಲಿ ಅತ್ಯುತ್ತಮವಾದವರಿಗೆ ಬಹುಮಾನಗಳನ್ನು ಘೋಷಿಸಲಾಯಿತು: ಪ್ರತಿಯೊಬ್ಬರೂ RTX 2080 TI ವೀಡಿಯೊ ಕಾರ್ಡ್ ಅನ್ನು ಗೆದ್ದಿದ್ದಾರೆ!
ಎರಡನೇ ಹಂತವು ತಂಡದ ಹಂತವಾಗಿತ್ತು, ತಂಡಗಳು 2 ರಿಂದ 5 ಜನರನ್ನು ಒಳಗೊಂಡಿತ್ತು, ಬಹುಮಾನಗಳು:
1 ನೇ ಸ್ಥಾನ - 300 ರೂಬಲ್ಸ್ಗಳು
2 ನೇ ಸ್ಥಾನ - 200 ರೂಬಲ್ಸ್ಗಳು
3 ನೇ ಸ್ಥಾನ - 100 ರೂಬಲ್ಸ್ಗಳು
ತೀರ್ಪುಗಾರರ ಬಹುಮಾನ - 100 ರೂಬಲ್ಸ್ಗಳು
ಅಧಿಕೃತ ಟೆಲಿಗ್ರಾಮ್ ಗುಂಪು, ~ 190 ಭಾಗವಹಿಸುವವರು, ಇಂಗ್ಲಿಷ್‌ನಲ್ಲಿ ಸಂವಹನ, ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರಕ್ಕಾಗಿ ಹಲವಾರು ದಿನಗಳು ಕಾಯಬೇಕಾಯಿತು ಟೆಲಿಗ್ರಾಮ್‌ನಲ್ಲಿ ಅಧಿಕೃತ ಗುಂಪು, ~ 1500 ಭಾಗವಹಿಸುವವರು, ಭಾಗವಹಿಸುವವರು ಮತ್ತು ಸಂಘಟಕರ ನಡುವಿನ ಕಾರ್ಯಗಳ ಸಕ್ರಿಯ ಚರ್ಚೆ
ಸಂಘಟಕರು ಸರಳ ಮತ್ತು ಸುಧಾರಿತ ಎರಡು ಮೂಲಭೂತ ಪರಿಹಾರಗಳನ್ನು ಒದಗಿಸಿದ್ದಾರೆ. ಸರಳಕ್ಕೆ 16 GB ಗಿಂತ ಕಡಿಮೆ RAM ಅಗತ್ಯವಿದೆ, ಮತ್ತು ಸುಧಾರಿತ ಮೆಮೊರಿ 16 ಗೆ ಹೊಂದಿಕೆಯಾಗುವುದಿಲ್ಲ. ಅದೇ ಸಮಯದಲ್ಲಿ, ಸ್ವಲ್ಪ ಮುಂದೆ ನೋಡಿದಾಗ, ಭಾಗವಹಿಸುವವರು ಸುಧಾರಿತ ಪರಿಹಾರವನ್ನು ಗಮನಾರ್ಹವಾಗಿ ಮೀರಿಸಲು ಸಾಧ್ಯವಾಗಲಿಲ್ಲ. ಈ ಪರಿಹಾರಗಳನ್ನು ಪ್ರಾರಂಭಿಸಲು ಯಾವುದೇ ತೊಂದರೆಗಳಿಲ್ಲ. ಸುಧಾರಿತ ಉದಾಹರಣೆಯಲ್ಲಿ ಪರಿಹಾರವನ್ನು ಸುಧಾರಿಸಲು ಎಲ್ಲಿ ಪ್ರಾರಂಭಿಸಬೇಕು ಎಂಬುದರ ಕುರಿತು ಸುಳಿವು ಹೊಂದಿರುವ ಕಾಮೆಂಟ್ ಇದೆ ಎಂದು ಗಮನಿಸಬೇಕು. ಪ್ರತಿಯೊಂದು ಕಾರ್ಯಗಳಿಗೆ ಮೂಲಭೂತ ಪ್ರಾಚೀನ ಪರಿಹಾರಗಳನ್ನು ಒದಗಿಸಲಾಗಿದೆ, ಅದನ್ನು ಭಾಗವಹಿಸುವವರು ಸುಲಭವಾಗಿ ಮೀರಿಸುತ್ತಾರೆ. ಸ್ಪರ್ಧೆಯ ಆರಂಭಿಕ ದಿನಗಳಲ್ಲಿ, ಭಾಗವಹಿಸುವವರು ಹಲವಾರು ತೊಂದರೆಗಳನ್ನು ಎದುರಿಸಿದರು: ಮೊದಲನೆಯದಾಗಿ, ಡೇಟಾವನ್ನು ಅಪಾಚೆ ಪ್ಯಾರ್ಕ್ವೆಟ್ ರೂಪದಲ್ಲಿ ನೀಡಲಾಯಿತು, ಮತ್ತು ಪೈಥಾನ್ ಮತ್ತು ಪ್ಯಾರ್ಕ್ವೆಟ್ ಪ್ಯಾಕೇಜ್ನ ಎಲ್ಲಾ ಸಂಯೋಜನೆಗಳು ದೋಷಗಳಿಲ್ಲದೆ ಕೆಲಸ ಮಾಡಲಿಲ್ಲ. ಎರಡನೆಯ ತೊಂದರೆಯು ಮೇಲ್ ಕ್ಲೌಡ್‌ನಿಂದ ಚಿತ್ರಗಳನ್ನು ಡೌನ್‌ಲೋಡ್ ಮಾಡುವುದು; ಈ ಸಮಯದಲ್ಲಿ ದೊಡ್ಡ ಪ್ರಮಾಣದ ಡೇಟಾವನ್ನು ಏಕಕಾಲದಲ್ಲಿ ಡೌನ್‌ಲೋಡ್ ಮಾಡಲು ಸುಲಭವಾದ ಮಾರ್ಗವಿಲ್ಲ. ಪರಿಣಾಮವಾಗಿ, ಈ ಸಮಸ್ಯೆಗಳು ಭಾಗವಹಿಸುವವರನ್ನು ಒಂದೆರಡು ದಿನಗಳವರೆಗೆ ವಿಳಂಬಗೊಳಿಸಿದವು.

IDAO. ಮೊದಲ ಹಂತ

ಮ್ಯೂಯಾನ್/ಮುವಾನ್ ಅಲ್ಲದ ಕಣಗಳನ್ನು ಅವುಗಳ ಗುಣಲಕ್ಷಣಗಳ ಪ್ರಕಾರ ವರ್ಗೀಕರಿಸುವುದು ಕಾರ್ಯವಾಗಿತ್ತು. ಈ ಕಾರ್ಯದ ಪ್ರಮುಖ ಲಕ್ಷಣವೆಂದರೆ ತರಬೇತಿ ಡೇಟಾದಲ್ಲಿ ತೂಕದ ಕಾಲಮ್ನ ಉಪಸ್ಥಿತಿ, ಸಂಘಟಕರು ಸ್ವತಃ ಈ ಸಾಲಿನ ಉತ್ತರದಲ್ಲಿ ವಿಶ್ವಾಸ ಎಂದು ವ್ಯಾಖ್ಯಾನಿಸಿದ್ದಾರೆ. ಸಮಸ್ಯೆಯೆಂದರೆ ಕೆಲವು ಸಾಲುಗಳು ಋಣಾತ್ಮಕ ತೂಕವನ್ನು ಒಳಗೊಂಡಿವೆ.

ದೊಡ್ಡ ಹ್ಯಾಡ್ರಾನ್ ಕೊಲೈಡರ್ ಮತ್ತು ಓಡ್ನೋಕ್ಲಾಸ್ನಿಕಿ

ಸುಳಿವು ಹೊಂದಿರುವ ರೇಖೆಯ ಬಗ್ಗೆ ಕೆಲವು ನಿಮಿಷಗಳ ಕಾಲ ಯೋಚಿಸಿದ ನಂತರ (ಸುಳಿವು ತೂಕದ ಕಾಲಮ್‌ನ ಈ ವೈಶಿಷ್ಟ್ಯಕ್ಕೆ ಗಮನ ಸೆಳೆಯಿತು) ಮತ್ತು ಈ ಗ್ರಾಫ್ ಅನ್ನು ನಿರ್ಮಿಸಿದ ನಂತರ, ನಾವು 3 ಆಯ್ಕೆಗಳನ್ನು ಪರಿಶೀಲಿಸಲು ನಿರ್ಧರಿಸಿದ್ದೇವೆ:

1) ಋಣಾತ್ಮಕ ತೂಕದೊಂದಿಗೆ ರೇಖೆಗಳ ಗುರಿಯನ್ನು ತಿರುಗಿಸಿ (ಮತ್ತು ಅದಕ್ಕೆ ಅನುಗುಣವಾಗಿ ತೂಕ)
2) ತೂಕವನ್ನು ಕನಿಷ್ಠ ಮೌಲ್ಯಕ್ಕೆ ವರ್ಗಾಯಿಸಿ ಇದರಿಂದ ಅವು 0 ರಿಂದ ಪ್ರಾರಂಭವಾಗುತ್ತವೆ
3) ಸ್ಟ್ರಿಂಗ್ ತೂಕವನ್ನು ಬಳಸಬೇಡಿ

ಮೂರನೆಯ ಆಯ್ಕೆಯು ಕೆಟ್ಟದಾಗಿದೆ, ಆದರೆ ಮೊದಲ ಎರಡು ಫಲಿತಾಂಶವನ್ನು ಸುಧಾರಿಸಿದೆ, ಉತ್ತಮವಾದ ಆಯ್ಕೆ ಸಂಖ್ಯೆ 1, ಇದು ತಕ್ಷಣವೇ ನಮ್ಮನ್ನು ಮೊದಲ ಕಾರ್ಯದಲ್ಲಿ ಪ್ರಸ್ತುತ ಎರಡನೇ ಸ್ಥಾನಕ್ಕೆ ಮತ್ತು ಎರಡನೆಯದರಲ್ಲಿ ಮೊದಲ ಸ್ಥಾನಕ್ಕೆ ತಂದಿತು.
ದೊಡ್ಡ ಹ್ಯಾಡ್ರಾನ್ ಕೊಲೈಡರ್ ಮತ್ತು ಓಡ್ನೋಕ್ಲಾಸ್ನಿಕಿ
ಕಳೆದುಹೋದ ಮೌಲ್ಯಗಳಿಗಾಗಿ ಡೇಟಾವನ್ನು ಪರಿಶೀಲಿಸುವುದು ನಮ್ಮ ಮುಂದಿನ ಹಂತವಾಗಿದೆ. ಸಂಘಟಕರು ನಮಗೆ ಈಗಾಗಲೇ ಬಾಚಣಿಗೆ ಡೇಟಾವನ್ನು ನೀಡಿದರು, ಅಲ್ಲಿ ಕೆಲವು ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳು ಇದ್ದವು ಮತ್ತು ಅವುಗಳನ್ನು -9999 ನಿಂದ ಬದಲಾಯಿಸಲಾಯಿತು.

MatchedHit_{X,Y,Z}[N] ಮತ್ತು MatchedHit_D{X,Y,Z}[N] ಕಾಲಮ್‌ಗಳಲ್ಲಿ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳನ್ನು ನಾವು ಕಂಡುಕೊಂಡಿದ್ದೇವೆ ಮತ್ತು N=2 ಅಥವಾ 3 ಆಗ ಮಾತ್ರ. ನಾವು ಅರ್ಥಮಾಡಿಕೊಂಡಂತೆ, ಕೆಲವು ಕಣಗಳು ಇಲ್ಲ ಎಲ್ಲಾ 4 ಡಿಟೆಕ್ಟರ್‌ಗಳನ್ನು ಹಾದುಹೋಗಿರಿ ಮತ್ತು 3 ನೇ ಅಥವಾ 4 ನೇ ಪ್ಲೇಟ್‌ನಲ್ಲಿ ನಿಲ್ಲಿಸಿ. ಡೇಟಾವು Lextra_{X,Y}[N] ಕಾಲಮ್‌ಗಳನ್ನು ಸಹ ಒಳಗೊಂಡಿದೆ, ಇದು ಸ್ಪಷ್ಟವಾಗಿ MatchedHit_{X,Y,Z}[N] ನಂತೆಯೇ ವಿವರಿಸುತ್ತದೆ, ಆದರೆ ಕೆಲವು ರೀತಿಯ ಎಕ್ಸ್‌ಟ್ರಾಪೋಲೇಶನ್ ಅನ್ನು ಬಳಸುತ್ತದೆ. MatchedHit_{X,Y,Z}[N] (X ಮತ್ತು Y ನಿರ್ದೇಶಾಂಕಗಳಿಗೆ ಮಾತ್ರ) ನಲ್ಲಿ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳಿಗೆ Lextra_{X,Y}[N] ಅನ್ನು ಬದಲಿಸಬಹುದು ಎಂದು ಈ ಅಲ್ಪ ಊಹೆಗಳು ಸೂಚಿಸಿವೆ. MatchedHit_Z[N] ಮಧ್ಯದಿಂದ ಚೆನ್ನಾಗಿ ತುಂಬಿದೆ. ಈ ಕುಶಲತೆಯು ಎರಡೂ ಕಾರ್ಯಗಳಲ್ಲಿ 1 ನೇ ಮಧ್ಯಂತರ ಸ್ಥಾನವನ್ನು ತಲುಪಲು ನಮಗೆ ಅವಕಾಶ ಮಾಡಿಕೊಟ್ಟಿತು.

ದೊಡ್ಡ ಹ್ಯಾಡ್ರಾನ್ ಕೊಲೈಡರ್ ಮತ್ತು ಓಡ್ನೋಕ್ಲಾಸ್ನಿಕಿ

ಮೊದಲ ಹಂತವನ್ನು ಗೆಲ್ಲಲು ಅವರು ಏನನ್ನೂ ನೀಡಲಿಲ್ಲ ಎಂದು ಪರಿಗಣಿಸಿ, ನಾವು ಅಲ್ಲಿಯೇ ನಿಲ್ಲಿಸಬಹುದಿತ್ತು, ಆದರೆ ನಾವು ಮುಂದುವರಿಸಿದ್ದೇವೆ, ಕೆಲವು ಸುಂದರವಾದ ಚಿತ್ರಗಳನ್ನು ಚಿತ್ರಿಸಿದ್ದೇವೆ ಮತ್ತು ಹೊಸ ವೈಶಿಷ್ಟ್ಯಗಳೊಂದಿಗೆ ಬಂದಿದ್ದೇವೆ.

ದೊಡ್ಡ ಹ್ಯಾಡ್ರಾನ್ ಕೊಲೈಡರ್ ಮತ್ತು ಓಡ್ನೋಕ್ಲಾಸ್ನಿಕಿ

ಉದಾಹರಣೆಗೆ, ನಾವು ಪ್ರತಿ ನಾಲ್ಕು ಡಿಟೆಕ್ಟರ್ ಪ್ಲೇಟ್‌ಗಳೊಂದಿಗೆ ಕಣದ ಛೇದನದ ಬಿಂದುಗಳನ್ನು ರೂಪಿಸಿದರೆ, ಪ್ರತಿಯೊಂದು ಪ್ಲೇಟ್‌ಗಳ ಮೇಲಿನ ಬಿಂದುಗಳನ್ನು 5 ರಿಂದ 4 ರ ಆಕಾರ ಅನುಪಾತದೊಂದಿಗೆ 5 ಆಯತಗಳಾಗಿ ವರ್ಗೀಕರಿಸಲಾಗಿದೆ ಮತ್ತು ಕೇಂದ್ರೀಕೃತವಾಗಿರುವುದನ್ನು ನಾವು ನೋಡಬಹುದು. ಪಾಯಿಂಟ್ (0,0), ಮತ್ತು ಮೊದಲ ಆಯತದಲ್ಲಿ ಯಾವುದೇ ಬಿಂದುಗಳಿಲ್ಲ.

ಪ್ಲೇಟ್ ಸಂಖ್ಯೆ. / ಆಯತ ಆಯಾಮಗಳು 1 2 3 4 5
ಪ್ಲೇಟ್ 1 500h625 1000h1250 2000h2500 4000h5000 8000h10000
ಪ್ಲೇಟ್ 2 520h650 1040h1300 2080h2600 4160h5200 8320h10400
ಪ್ಲೇಟ್ 3 560h700 1120h1400 2240h2800 4480h5600 8960h11200
ಪ್ಲೇಟ್ 4 600h750 1200h1500 2400h3000 4800h6000 9600h12000

ಈ ಆಯಾಮಗಳನ್ನು ನಿರ್ಧರಿಸಿದ ನಂತರ, ನಾವು ಪ್ರತಿ ಕಣಕ್ಕೂ 4 ಹೊಸ ವರ್ಗೀಯ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಸೇರಿಸಿದ್ದೇವೆ - ಅದು ಪ್ರತಿ ಪ್ಲೇಟ್ ಅನ್ನು ಛೇದಿಸುವ ಆಯತದ ಸಂಖ್ಯೆ.

ದೊಡ್ಡ ಹ್ಯಾಡ್ರಾನ್ ಕೊಲೈಡರ್ ಮತ್ತು ಓಡ್ನೋಕ್ಲಾಸ್ನಿಕಿ

ಕಣಗಳು ಕೇಂದ್ರದಿಂದ ಬದಿಗಳಿಗೆ ಚದುರಿದಂತೆ ತೋರುತ್ತಿದೆ ಎಂದು ನಾವು ಗಮನಿಸಿದ್ದೇವೆ ಮತ್ತು ಈ ಸ್ಕ್ಯಾಟರಿಂಗ್‌ನ "ಗುಣಮಟ್ಟ" ವನ್ನು ಹೇಗಾದರೂ ಮೌಲ್ಯಮಾಪನ ಮಾಡುವ ಆಲೋಚನೆ ಹುಟ್ಟಿಕೊಂಡಿತು. ತಾತ್ತ್ವಿಕವಾಗಿ, ಟೇಕ್-ಆಫ್ ಪಾಯಿಂಟ್ ಅನ್ನು ಅವಲಂಬಿಸಿ ಕೆಲವು ರೀತಿಯ "ಆದರ್ಶ" ಪ್ಯಾರಾಬೋಲಾದೊಂದಿಗೆ ಬರಲು ಮತ್ತು ಅದರಿಂದ ವಿಚಲನವನ್ನು ಅಂದಾಜು ಮಾಡಲು ಸಾಧ್ಯವಿದೆ, ಆದರೆ ನಾವು "ಆದರ್ಶ" ಸರಳ ರೇಖೆಗೆ ನಮ್ಮನ್ನು ಸೀಮಿತಗೊಳಿಸಿದ್ದೇವೆ. ಪ್ರವೇಶದ ಪ್ರತಿ ಬಿಂದುವಿಗೆ ಅಂತಹ ಆದರ್ಶ ಸರಳ ರೇಖೆಗಳನ್ನು ನಿರ್ಮಿಸಿದ ನಂತರ, ಈ ಸರಳ ರೇಖೆಯಿಂದ ಪ್ರತಿ ಕಣದ ಪಥದ ಪ್ರಮಾಣಿತ ವಿಚಲನವನ್ನು ನಾವು ಲೆಕ್ಕಾಚಾರ ಮಾಡಲು ಸಾಧ್ಯವಾಯಿತು. ಗುರಿ = 1 ಗಾಗಿ ಸರಾಸರಿ ವಿಚಲನವು 152 ಆಗಿರುವುದರಿಂದ ಮತ್ತು ಗುರಿ = 0 ಗಾಗಿ ಅದು 390 ಆಗಿರುವುದರಿಂದ, ನಾವು ತಾತ್ಕಾಲಿಕವಾಗಿ ಈ ವೈಶಿಷ್ಟ್ಯವನ್ನು ಉತ್ತಮವೆಂದು ನಿರ್ಣಯಿಸಿದ್ದೇವೆ. ಮತ್ತು ವಾಸ್ತವವಾಗಿ, ಈ ವೈಶಿಷ್ಟ್ಯವು ತಕ್ಷಣವೇ ಹೆಚ್ಚು ಉಪಯುಕ್ತವಾದವುಗಳಲ್ಲಿ ಅಗ್ರಸ್ಥಾನದಲ್ಲಿದೆ.

ನಾವು ಸಂತೋಷಪಟ್ಟಿದ್ದೇವೆ ಮತ್ತು ಆದರ್ಶ ಸರಳ ರೇಖೆಯಿಂದ ಪ್ರತಿ ಕಣಕ್ಕೆ ಎಲ್ಲಾ 4 ಛೇದಕ ಬಿಂದುಗಳ ವಿಚಲನವನ್ನು ಹೆಚ್ಚುವರಿ 4 ವೈಶಿಷ್ಟ್ಯಗಳಾಗಿ ಸೇರಿಸಿದ್ದೇವೆ (ಮತ್ತು ಅವುಗಳು ಸಹ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ).

ಸ್ಪರ್ಧೆಯ ವಿಷಯದ ಕುರಿತು ವೈಜ್ಞಾನಿಕ ಲೇಖನಗಳಿಗೆ ಲಿಂಕ್‌ಗಳು, ಸಂಘಟಕರು ನಮಗೆ ನೀಡಿದ್ದು, ಈ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಲು ನಾವು ಮೊದಲಿಗರಿಂದ ದೂರವಿದ್ದೇವೆ ಮತ್ತು ಬಹುಶಃ ಕೆಲವು ರೀತಿಯ ವಿಶೇಷ ಸಾಫ್ಟ್‌ವೇರ್ ಇದೆ ಎಂಬ ಕಲ್ಪನೆಯನ್ನು ಪ್ರೇರೇಪಿಸಿತು. IsMuonSimple, IsMuon, IsMuonLoose ವಿಧಾನಗಳನ್ನು ಅಳವಡಿಸಲಾಗಿರುವ ಗಿಥಬ್‌ನಲ್ಲಿ ರೆಪೊಸಿಟರಿಯನ್ನು ಕಂಡುಹಿಡಿದ ನಂತರ, ನಾವು ಅವುಗಳನ್ನು ಸಣ್ಣ ಮಾರ್ಪಾಡುಗಳೊಂದಿಗೆ ನಮ್ಮ ಸೈಟ್‌ಗೆ ವರ್ಗಾಯಿಸಿದ್ದೇವೆ. ವಿಧಾನಗಳು ತುಂಬಾ ಸರಳವಾಗಿದ್ದವು: ಉದಾಹರಣೆಗೆ, ಶಕ್ತಿಯು ಒಂದು ನಿರ್ದಿಷ್ಟ ಮಿತಿಗಿಂತ ಕಡಿಮೆಯಿದ್ದರೆ, ಅದು ಮ್ಯೂಯಾನ್ ಅಲ್ಲ, ಇಲ್ಲದಿದ್ದರೆ ಅದು ಮ್ಯೂಯಾನ್ ಆಗಿದೆ. ಅಂತಹ ಸರಳ ವೈಶಿಷ್ಟ್ಯಗಳು ನಿಸ್ಸಂಶಯವಾಗಿ ಗ್ರೇಡಿಯಂಟ್ ಬೂಸ್ಟಿಂಗ್ ಅನ್ನು ಬಳಸುವ ಸಂದರ್ಭದಲ್ಲಿ ಹೆಚ್ಚಳವನ್ನು ನೀಡಲು ಸಾಧ್ಯವಾಗಲಿಲ್ಲ, ಆದ್ದರಿಂದ ನಾವು ಹೊಸ್ತಿಲಿಗೆ ಮತ್ತೊಂದು ಮಹತ್ವದ "ದೂರ" ವನ್ನು ಸೇರಿಸಿದ್ದೇವೆ. ಈ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಸ್ವಲ್ಪ ಸುಧಾರಿಸಲಾಗಿದೆ. ಬಹುಶಃ, ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ವಿಧಾನಗಳನ್ನು ಹೆಚ್ಚು ಕೂಲಂಕಷವಾಗಿ ವಿಶ್ಲೇಷಿಸುವ ಮೂಲಕ, ಬಲವಾದ ವಿಧಾನಗಳನ್ನು ಕಂಡುಹಿಡಿಯುವುದು ಮತ್ತು ಅವುಗಳನ್ನು ಚಿಹ್ನೆಗಳಿಗೆ ಸೇರಿಸುವುದು ಸಾಧ್ಯವಾಯಿತು.

ಸ್ಪರ್ಧೆಯ ಕೊನೆಯಲ್ಲಿ, ನಾವು ಎರಡನೇ ಸಮಸ್ಯೆಗೆ "ತ್ವರಿತ" ಪರಿಹಾರವನ್ನು ಸ್ವಲ್ಪಮಟ್ಟಿಗೆ ಟ್ವೀಕ್ ಮಾಡಿದ್ದೇವೆ; ಕೊನೆಯಲ್ಲಿ, ಇದು ಕೆಳಗಿನ ಅಂಶಗಳಲ್ಲಿ ಬೇಸ್ಲೈನ್ನಿಂದ ಭಿನ್ನವಾಗಿದೆ:

  1. ಋಣಾತ್ಮಕ ತೂಕದ ಸಾಲುಗಳಲ್ಲಿ ಗುರಿಯು ತಲೆಕೆಳಗಾಯಿತು
  2. MatchedHit_{X,Y,Z}[N] ನಲ್ಲಿ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳನ್ನು ಭರ್ತಿ ಮಾಡಲಾಗಿದೆ
  3. ಆಳವನ್ನು 7 ಕ್ಕೆ ಇಳಿಸಲಾಗಿದೆ
  4. ಕಲಿಕೆಯ ದರವನ್ನು 0.1 ಕ್ಕೆ ಇಳಿಸಲಾಗಿದೆ (0.19 ಆಗಿತ್ತು)

ಪರಿಣಾಮವಾಗಿ, ನಾವು ಹೆಚ್ಚಿನ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಪ್ರಯತ್ನಿಸಿದ್ದೇವೆ (ಅತ್ಯಂತ ಯಶಸ್ವಿಯಾಗಿಲ್ಲ), ಆಯ್ಕೆಮಾಡಿದ ಪ್ಯಾರಾಮೀಟರ್‌ಗಳು ಮತ್ತು ತರಬೇತಿ ಪಡೆದ ಕ್ಯಾಟ್‌ಬೂಸ್ಟ್, ಲೈಟ್‌ಜಿಬಿಎಂ ಮತ್ತು ಎಕ್ಸ್‌ಜಿಬೂಸ್ಟ್, ವಿಭಿನ್ನವಾದ ಮುನ್ಸೂಚನೆಗಳ ಮಿಶ್ರಣಗಳನ್ನು ಪ್ರಯತ್ನಿಸಿದ್ದೇವೆ ಮತ್ತು ಖಾಸಗಿಯನ್ನು ತೆರೆಯುವ ಮೊದಲು ನಾವು ಎರಡನೇ ಕಾರ್ಯದಲ್ಲಿ ವಿಶ್ವಾಸದಿಂದ ಗೆದ್ದಿದ್ದೇವೆ ಮತ್ತು ಮೊದಲನೆಯದರಲ್ಲಿ ನಾವು ಸೇರಿದ್ದೇವೆ. ನಾಯಕರು.

ಖಾಸಗಿಯನ್ನು ತೆರೆದ ನಂತರ ನಾವು 10 ನೇ ಕಾರ್ಯಕ್ಕೆ 1 ನೇ ಸ್ಥಾನದಲ್ಲಿ ಮತ್ತು ಎರಡನೆಯದಕ್ಕೆ 3 ನೇ ಸ್ಥಾನದಲ್ಲಿದ್ದೆವು. ಎಲ್ಲಾ ನಾಯಕರು ಬೆರೆತರು, ಮತ್ತು ಖಾಸಗಿಯಾಗಿ ವೇಗವು ಲಿಬ್ಬೋರ್ಡ್ಗಿಂತ ಹೆಚ್ಚಿತ್ತು. ಡೇಟಾವು ಕಳಪೆಯಾಗಿ ಶ್ರೇಣೀಕರಿಸಲ್ಪಟ್ಟಿದೆ ಎಂದು ತೋರುತ್ತದೆ (ಅಥವಾ ಉದಾಹರಣೆಗೆ ಖಾಸಗಿಯಾಗಿ ನಕಾರಾತ್ಮಕ ತೂಕದೊಂದಿಗೆ ಯಾವುದೇ ಸಾಲುಗಳಿಲ್ಲ) ಮತ್ತು ಇದು ಸ್ವಲ್ಪ ನಿರಾಶಾದಾಯಕವಾಗಿತ್ತು.

SNA ಹ್ಯಾಕಥಾನ್ 2019 - ಪಠ್ಯಗಳು. ಮೊದಲ ಹಂತ

ಓಡ್ನೋಕ್ಲಾಸ್ನಿಕಿ ಸಾಮಾಜಿಕ ನೆಟ್‌ವರ್ಕ್‌ನಲ್ಲಿ ಬಳಕೆದಾರರ ಪೋಸ್ಟ್‌ಗಳನ್ನು ಅವರು ಒಳಗೊಂಡಿರುವ ಪಠ್ಯದ ಆಧಾರದ ಮೇಲೆ ಶ್ರೇಣೀಕರಿಸುವುದು ಕಾರ್ಯವಾಗಿತ್ತು; ಪಠ್ಯದ ಜೊತೆಗೆ, ಪೋಸ್ಟ್‌ನ ಇನ್ನೂ ಕೆಲವು ಗುಣಲಕ್ಷಣಗಳಿವೆ (ಭಾಷೆ, ಮಾಲೀಕರು, ದಿನಾಂಕ ಮತ್ತು ರಚನೆಯ ಸಮಯ, ದಿನಾಂಕ ಮತ್ತು ವೀಕ್ಷಣೆಯ ಸಮಯ )

ಪಠ್ಯದೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಲು ಶಾಸ್ತ್ರೀಯ ವಿಧಾನಗಳಂತೆ, ನಾನು ಎರಡು ಆಯ್ಕೆಗಳನ್ನು ಹೈಲೈಟ್ ಮಾಡುತ್ತೇನೆ:

  1. ಪ್ರತಿ ಪದವನ್ನು n-ಆಯಾಮದ ವೆಕ್ಟರ್ ಜಾಗಕ್ಕೆ ಮ್ಯಾಪಿಂಗ್ ಮಾಡುವುದು ಅಂದರೆ ಒಂದೇ ರೀತಿಯ ಪದಗಳು ಒಂದೇ ರೀತಿಯ ವೆಕ್ಟರ್‌ಗಳನ್ನು ಹೊಂದಿರುತ್ತವೆ (ಇನ್ನಷ್ಟು ಓದಿ ನಮ್ಮ ಲೇಖನ), ನಂತರ ಪಠ್ಯಕ್ಕಾಗಿ ಸರಾಸರಿ ಪದವನ್ನು ಕಂಡುಹಿಡಿಯುವುದು ಅಥವಾ ಪದಗಳ ಸಂಬಂಧಿತ ಸ್ಥಾನವನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳುವ ಕಾರ್ಯವಿಧಾನಗಳನ್ನು ಬಳಸುವುದು (CNN, LSTM/GRU).
  2. ಸಂಪೂರ್ಣ ವಾಕ್ಯಗಳೊಂದಿಗೆ ತಕ್ಷಣವೇ ಕೆಲಸ ಮಾಡಬಹುದಾದ ಮಾದರಿಗಳನ್ನು ಬಳಸುವುದು. ಉದಾಹರಣೆಗೆ, ಬರ್ಟ್. ಸಿದ್ಧಾಂತದಲ್ಲಿ, ಈ ವಿಧಾನವು ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಬೇಕು.

ಪಠ್ಯಗಳೊಂದಿಗೆ ಇದು ನನ್ನ ಮೊದಲ ಅನುಭವವಾದ್ದರಿಂದ, ಯಾರಿಗಾದರೂ ಕಲಿಸುವುದು ತಪ್ಪಾಗುತ್ತದೆ, ಹಾಗಾಗಿ ನಾನೇ ಕಲಿಸುತ್ತೇನೆ. ಸ್ಪರ್ಧೆಯ ಆರಂಭದಲ್ಲಿ ನಾನು ನೀಡುವ ಸಲಹೆಗಳು ಇವು:

  1. ನೀವು ಏನನ್ನಾದರೂ ಕಲಿಸಲು ಓಡುವ ಮೊದಲು, ಡೇಟಾವನ್ನು ನೋಡಿ! ಪಠ್ಯದ ಜೊತೆಗೆ, ಡೇಟಾವು ಹಲವಾರು ಕಾಲಮ್‌ಗಳನ್ನು ಹೊಂದಿತ್ತು ಮತ್ತು ನಾನು ಮಾಡಿದ್ದಕ್ಕಿಂತ ಹೆಚ್ಚಿನದನ್ನು ಅವುಗಳಿಂದ ಹಿಂಡಲು ಸಾಧ್ಯವಾಯಿತು. ಸರಳವಾದ ವಿಷಯವೆಂದರೆ ಕೆಲವು ಕಾಲಮ್‌ಗಳಿಗೆ ಗುರಿ ಎನ್‌ಕೋಡಿಂಗ್ ಮಾಡುವುದು.
  2. ಎಲ್ಲಾ ಡೇಟಾದಿಂದ ಕಲಿಯಬೇಡಿ! ಸಾಕಷ್ಟು ಡೇಟಾ ಇತ್ತು (ಸುಮಾರು 17 ಮಿಲಿಯನ್ ಸಾಲುಗಳು) ಮತ್ತು ಊಹೆಗಳನ್ನು ಪರೀಕ್ಷಿಸಲು ಅವೆಲ್ಲವನ್ನೂ ಬಳಸುವುದು ಸಂಪೂರ್ಣವಾಗಿ ಅನಿವಾರ್ಯವಲ್ಲ. ತರಬೇತಿ ಮತ್ತು ಪೂರ್ವ ಸಂಸ್ಕರಣೆಯು ತುಂಬಾ ನಿಧಾನವಾಗಿತ್ತು, ಮತ್ತು ಹೆಚ್ಚು ಆಸಕ್ತಿದಾಯಕ ಊಹೆಗಳನ್ನು ಪರೀಕ್ಷಿಸಲು ನಾನು ನಿಸ್ಸಂಶಯವಾಗಿ ಸಮಯವನ್ನು ಹೊಂದಿದ್ದೇನೆ.
  3. <ವಿವಾದಾತ್ಮಕ ಸಲಹೆ> ಕೊಲೆಗಾರ ಮಾದರಿಯನ್ನು ಹುಡುಕುವ ಅಗತ್ಯವಿಲ್ಲ. ಎಲ್ಮೋ ಮತ್ತು ಬರ್ಟ್‌ರನ್ನು ಗುರುತಿಸಲು ನಾನು ಬಹಳ ಸಮಯ ಕಳೆದಿದ್ದೇನೆ, ಅವರು ತಕ್ಷಣ ನನ್ನನ್ನು ಉನ್ನತ ಸ್ಥಾನಕ್ಕೆ ಕೊಂಡೊಯ್ಯುತ್ತಾರೆ ಎಂದು ಆಶಿಸಿದರು ಮತ್ತು ಇದರ ಪರಿಣಾಮವಾಗಿ ನಾನು ರಷ್ಯಾದ ಭಾಷೆಗಾಗಿ ಫಾಸ್ಟ್‌ಟೆಕ್ಸ್ಟ್ ಪೂರ್ವ-ತರಬೇತಿ ಪಡೆದ ಎಂಬೆಡಿಂಗ್‌ಗಳನ್ನು ಬಳಸಿದ್ದೇನೆ. ನಾನು ಎಲ್ಮೋ ಜೊತೆಗೆ ಉತ್ತಮ ವೇಗವನ್ನು ಸಾಧಿಸಲು ಸಾಧ್ಯವಾಗಲಿಲ್ಲ, ಮತ್ತು ಬರ್ಟ್‌ನೊಂದಿಗೆ ಅದನ್ನು ಲೆಕ್ಕಾಚಾರ ಮಾಡಲು ನನಗೆ ಇನ್ನೂ ಸಮಯವಿಲ್ಲ.
  4. <ವಿವಾದಾತ್ಮಕ ಸಲಹೆ> ಒಂದು ಕೊಲೆಗಾರ ವೈಶಿಷ್ಟ್ಯವನ್ನು ಹುಡುಕುವ ಅಗತ್ಯವಿಲ್ಲ. ಡೇಟಾವನ್ನು ನೋಡುವಾಗ, ಸುಮಾರು 1 ಪ್ರತಿಶತ ಪಠ್ಯಗಳು ವಾಸ್ತವವಾಗಿ ಪಠ್ಯವನ್ನು ಹೊಂದಿಲ್ಲ ಎಂದು ನಾನು ಗಮನಿಸಿದೆ! ಆದರೆ ಕೆಲವು ಸಂಪನ್ಮೂಲಗಳಿಗೆ ಲಿಂಕ್‌ಗಳು ಇದ್ದವು ಮತ್ತು ನಾನು ಸರಳವಾದ ಪಾರ್ಸರ್ ಅನ್ನು ಬರೆದಿದ್ದೇನೆ ಅದು ಸೈಟ್ ಅನ್ನು ತೆರೆಯಿತು ಮತ್ತು ಶೀರ್ಷಿಕೆ ಮತ್ತು ವಿವರಣೆಯನ್ನು ಹೊರತೆಗೆಯಿತು. ಇದು ಒಳ್ಳೆಯದು ಎಂದು ತೋರುತ್ತದೆ, ಆದರೆ ನಂತರ ನಾನು ದೂರ ಹೋಗಿದ್ದೆ ಮತ್ತು ಎಲ್ಲಾ ಪಠ್ಯಗಳಿಗೆ ಎಲ್ಲಾ ಲಿಂಕ್‌ಗಳನ್ನು ಪಾರ್ಸ್ ಮಾಡಲು ನಿರ್ಧರಿಸಿದೆ ಮತ್ತು ಮತ್ತೆ ಸಾಕಷ್ಟು ಸಮಯವನ್ನು ಕಳೆದುಕೊಂಡೆ. ಇದೆಲ್ಲವೂ ಅಂತಿಮ ಫಲಿತಾಂಶದಲ್ಲಿ ಗಮನಾರ್ಹ ಸುಧಾರಣೆಯನ್ನು ಒದಗಿಸಲಿಲ್ಲ (ಉದಾಹರಣೆಗೆ, ನಾನು ಸ್ಟೆಮ್ಮಿಂಗ್ ಅನ್ನು ಕಂಡುಕೊಂಡಿದ್ದೇನೆ).
  5. ಕ್ಲಾಸಿಕ್ ವೈಶಿಷ್ಟ್ಯಗಳು ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ. ನಾವು Google, ಉದಾಹರಣೆಗೆ, "ಪಠ್ಯ ವೈಶಿಷ್ಟ್ಯಗಳು ಕಾಗಲ್", ಎಲ್ಲವನ್ನೂ ಓದುತ್ತೇವೆ ಮತ್ತು ಸೇರಿಸುತ್ತೇವೆ. ಪಠ್ಯದ ಉದ್ದ, ಪದಗಳು ಮತ್ತು ವಿರಾಮಚಿಹ್ನೆಯ ಮೊತ್ತದಂತಹ ಅಂಕಿಅಂಶಗಳ ವೈಶಿಷ್ಟ್ಯಗಳಂತೆ TF-IDF ಸುಧಾರಣೆಯನ್ನು ಒದಗಿಸಿದೆ.
  6. ಡೇಟ್‌ಟೈಮ್ ಕಾಲಮ್‌ಗಳು ಇದ್ದರೆ, ಅವುಗಳನ್ನು ಹಲವಾರು ಪ್ರತ್ಯೇಕ ವೈಶಿಷ್ಟ್ಯಗಳಾಗಿ (ಗಂಟೆಗಳು, ವಾರದ ದಿನಗಳು, ಇತ್ಯಾದಿ) ಪಾರ್ಸ್ ಮಾಡುವುದು ಯೋಗ್ಯವಾಗಿದೆ. ಯಾವ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಹೈಲೈಟ್ ಮಾಡಬೇಕು ಎಂಬುದನ್ನು ಗ್ರಾಫ್‌ಗಳು/ಕೆಲವು ಮೆಟ್ರಿಕ್‌ಗಳನ್ನು ಬಳಸಿಕೊಂಡು ವಿಶ್ಲೇಷಿಸಬೇಕು. ಇಲ್ಲಿ, ಹುಚ್ಚಾಟಿಕೆಯಲ್ಲಿ, ನಾನು ಎಲ್ಲವನ್ನೂ ಸರಿಯಾಗಿ ಮಾಡಿದ್ದೇನೆ ಮತ್ತು ಅಗತ್ಯ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಹೈಲೈಟ್ ಮಾಡಿದ್ದೇನೆ, ಆದರೆ ಸಾಮಾನ್ಯ ವಿಶ್ಲೇಷಣೆಯು ನೋಯಿಸುವುದಿಲ್ಲ (ಉದಾಹರಣೆಗೆ, ನಾವು ಫೈನಲ್ನಲ್ಲಿ ಮಾಡಿದಂತೆ).

ದೊಡ್ಡ ಹ್ಯಾಡ್ರಾನ್ ಕೊಲೈಡರ್ ಮತ್ತು ಓಡ್ನೋಕ್ಲಾಸ್ನಿಕಿ

ಸ್ಪರ್ಧೆಯ ಪರಿಣಾಮವಾಗಿ, ನಾನು ಒಂದು ಕೆರಾಸ್ ಮಾದರಿಯನ್ನು ವರ್ಡ್ ಕಾನ್ವಲ್ಯೂಷನ್‌ನೊಂದಿಗೆ ಮತ್ತು ಇನ್ನೊಂದು LSTM ಮತ್ತು GRU ಅನ್ನು ಆಧರಿಸಿ ತರಬೇತಿ ನೀಡಿದ್ದೇನೆ. ಇಬ್ಬರೂ ರಷ್ಯನ್ ಭಾಷೆಗಾಗಿ ಪೂರ್ವ-ತರಬೇತಿ ಪಡೆದ ಫಾಸ್ಟ್‌ಟೆಕ್ಸ್ಟ್ ಎಂಬೆಡಿಂಗ್‌ಗಳನ್ನು ಬಳಸಿದ್ದಾರೆ (ನಾನು ಹಲವಾರು ಇತರ ಎಂಬೆಡಿಂಗ್‌ಗಳನ್ನು ಪ್ರಯತ್ನಿಸಿದೆ, ಆದರೆ ಇವುಗಳು ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಿದವು). ಮುನ್ನೋಟಗಳನ್ನು ಸರಾಸರಿ ಮಾಡಿದ ನಂತರ, ನಾನು 7 ಭಾಗವಹಿಸುವವರಲ್ಲಿ ಅಂತಿಮ 76 ನೇ ಸ್ಥಾನವನ್ನು ಪಡೆದುಕೊಂಡೆ.

ಮೊದಲ ಹಂತದ ನಂತರ ಅದನ್ನು ಪ್ರಕಟಿಸಲಾಯಿತು ನಿಕೊಲಾಯ್ ಅನೋಖಿನ್ ಅವರ ಲೇಖನ, ಅವರು ಎರಡನೇ ಸ್ಥಾನವನ್ನು ಪಡೆದರು (ಅವರು ಸ್ಪರ್ಧೆಯಿಂದ ಹೊರಗೆ ಭಾಗವಹಿಸಿದರು), ಮತ್ತು ಕೆಲವು ಹಂತದವರೆಗೆ ಅವರ ಪರಿಹಾರವು ಗಣಿ ಪುನರಾವರ್ತನೆಯಾಯಿತು, ಆದರೆ ಅವರು ಪ್ರಶ್ನೆ-ಕೀ-ಮೌಲ್ಯದ ಗಮನ ಯಾಂತ್ರಿಕತೆಯ ಕಾರಣದಿಂದಾಗಿ ಮುಂದೆ ಹೋದರು.

ಎರಡನೇ ಹಂತ ಸರಿ & IDAO

ಸ್ಪರ್ಧೆಗಳ ಎರಡನೇ ಹಂತಗಳು ಬಹುತೇಕ ಸತತವಾಗಿ ನಡೆದವು, ಆದ್ದರಿಂದ ನಾನು ಅವುಗಳನ್ನು ಒಟ್ಟಿಗೆ ನೋಡಲು ನಿರ್ಧರಿಸಿದೆ.

ಮೊದಲಿಗೆ, ನಾನು ಮತ್ತು ಹೊಸದಾಗಿ ಸ್ವಾಧೀನಪಡಿಸಿಕೊಂಡ ತಂಡವು Mail.ru ಕಂಪನಿಯ ಪ್ರಭಾವಶಾಲಿ ಕಚೇರಿಯಲ್ಲಿ ಕೊನೆಗೊಂಡಿತು, ಅಲ್ಲಿ ನಮ್ಮ ಕಾರ್ಯವು ಮೊದಲ ಹಂತದಿಂದ ಮೂರು ಟ್ರ್ಯಾಕ್‌ಗಳ ಮಾದರಿಗಳನ್ನು ಸಂಯೋಜಿಸುವುದು - ಪಠ್ಯ, ಚಿತ್ರಗಳು ಮತ್ತು ಕೊಲಾಬ್. ಇದಕ್ಕಾಗಿ 2 ದಿನಗಳಿಗಿಂತ ಸ್ವಲ್ಪ ಹೆಚ್ಚು ಸಮಯವನ್ನು ನಿಗದಿಪಡಿಸಲಾಗಿದೆ, ಅದು ತುಂಬಾ ಕಡಿಮೆಯಾಗಿದೆ. ವಾಸ್ತವವಾಗಿ, ವಿಲೀನದಿಂದ ಯಾವುದೇ ಲಾಭವನ್ನು ಪಡೆಯದೆಯೇ ನಾವು ಮೊದಲ ಹಂತದಿಂದ ನಮ್ಮ ಫಲಿತಾಂಶಗಳನ್ನು ಪುನರಾವರ್ತಿಸಲು ಸಾಧ್ಯವಾಯಿತು. ಕೊನೆಯಲ್ಲಿ, ನಾವು 5 ನೇ ಸ್ಥಾನವನ್ನು ಪಡೆದುಕೊಂಡಿದ್ದೇವೆ, ಆದರೆ ಪಠ್ಯ ಮಾದರಿಯನ್ನು ಬಳಸಲು ನಮಗೆ ಸಾಧ್ಯವಾಗಲಿಲ್ಲ. ಇತರ ಭಾಗವಹಿಸುವವರ ಪರಿಹಾರಗಳನ್ನು ನೋಡಿದ ನಂತರ, ಪಠ್ಯಗಳನ್ನು ಕ್ಲಸ್ಟರ್ ಮಾಡಲು ಮತ್ತು ಅವುಗಳನ್ನು ಕೊಲಾಬ್ ಮಾದರಿಗೆ ಸೇರಿಸಲು ಪ್ರಯತ್ನಿಸುವುದು ಯೋಗ್ಯವಾಗಿದೆ ಎಂದು ತೋರುತ್ತದೆ. ಈ ಹಂತದ ಒಂದು ಅಡ್ಡ ಪರಿಣಾಮವೆಂದರೆ ಹೊಸ ಅನಿಸಿಕೆಗಳು, ತಂಪಾದ ಭಾಗವಹಿಸುವವರು ಮತ್ತು ಸಂಘಟಕರೊಂದಿಗೆ ಸಭೆ ಮತ್ತು ಸಂವಹನ, ಹಾಗೆಯೇ ನಿದ್ರೆಯ ತೀವ್ರ ಕೊರತೆ, ಇದು IDAO ನ ಅಂತಿಮ ಹಂತದ ಫಲಿತಾಂಶದ ಮೇಲೆ ಪರಿಣಾಮ ಬೀರಬಹುದು.

IDAO 2019 ರ ಅಂತಿಮ ಹಂತದ ಕಾರ್ಯವು ವಿಮಾನ ನಿಲ್ದಾಣದಲ್ಲಿ ಯಾಂಡೆಕ್ಸ್ ಟ್ಯಾಕ್ಸಿ ಡ್ರೈವರ್‌ಗಳಿಗೆ ಆದೇಶಕ್ಕಾಗಿ ಕಾಯುವ ಸಮಯವನ್ನು ಊಹಿಸುವುದು. ಹಂತ 2 ರಲ್ಲಿ, 3 ಕಾರ್ಯಗಳು = 3 ವಿಮಾನ ನಿಲ್ದಾಣಗಳನ್ನು ಗುರುತಿಸಲಾಗಿದೆ. ಪ್ರತಿ ವಿಮಾನ ನಿಲ್ದಾಣಕ್ಕೆ, ಆರು ತಿಂಗಳವರೆಗೆ ಟ್ಯಾಕ್ಸಿ ಆರ್ಡರ್‌ಗಳ ಸಂಖ್ಯೆಯ ನಿಮಿಷದಿಂದ ನಿಮಿಷದ ಡೇಟಾವನ್ನು ನೀಡಲಾಗುತ್ತದೆ. ಮತ್ತು ಪರೀಕ್ಷಾ ಡೇಟಾದಂತೆ, ಕಳೆದ 2 ವಾರಗಳ ಆರ್ಡರ್‌ಗಳಲ್ಲಿ ಮುಂದಿನ ತಿಂಗಳು ಮತ್ತು ನಿಮಿಷದಿಂದ ನಿಮಿಷದ ಡೇಟಾವನ್ನು ನೀಡಲಾಗಿದೆ. ಸ್ವಲ್ಪ ಸಮಯವಿತ್ತು (1,5 ದಿನಗಳು), ಕಾರ್ಯವು ಸಾಕಷ್ಟು ನಿರ್ದಿಷ್ಟವಾಗಿತ್ತು, ತಂಡದಿಂದ ಒಬ್ಬ ವ್ಯಕ್ತಿ ಮಾತ್ರ ಸ್ಪರ್ಧೆಗೆ ಬಂದರು - ಮತ್ತು ಇದರ ಪರಿಣಾಮವಾಗಿ, ಇದು ಕೊನೆಯಲ್ಲಿ ದುಃಖದ ಸ್ಥಳವಾಗಿತ್ತು. ಆಸಕ್ತಿದಾಯಕ ವಿಚಾರಗಳು ಬಾಹ್ಯ ಡೇಟಾವನ್ನು ಬಳಸುವ ಪ್ರಯತ್ನಗಳನ್ನು ಒಳಗೊಂಡಿವೆ: ಹವಾಮಾನ, ಟ್ರಾಫಿಕ್ ಜಾಮ್ಗಳು ಮತ್ತು ಯಾಂಡೆಕ್ಸ್ ಟ್ಯಾಕ್ಸಿ ಆರ್ಡರ್ ಅಂಕಿಅಂಶಗಳು. ಈ ವಿಮಾನ ನಿಲ್ದಾಣಗಳು ಯಾವುವು ಎಂದು ಸಂಘಟಕರು ಹೇಳದಿದ್ದರೂ, ಅನೇಕ ಭಾಗವಹಿಸುವವರು ಅವರು ಶೆರೆಮೆಟಿಯೆವೊ, ಡೊಮೊಡೆಡೊವೊ ಮತ್ತು ವ್ನುಕೊವೊ ಎಂದು ಊಹಿಸಿದ್ದಾರೆ. ಸ್ಪರ್ಧೆಯ ನಂತರ ಈ ಊಹೆಯನ್ನು ನಿರಾಕರಿಸಲಾಗಿದ್ದರೂ, ವೈಶಿಷ್ಟ್ಯಗಳು, ಉದಾಹರಣೆಗೆ, ಮಾಸ್ಕೋ ಹವಾಮಾನ ಡೇಟಾದಿಂದ ಮೌಲ್ಯಮಾಪನ ಮತ್ತು ಲೀಡರ್‌ಬೋರ್ಡ್‌ನಲ್ಲಿ ಫಲಿತಾಂಶಗಳನ್ನು ಸುಧಾರಿಸಿದೆ.

ತೀರ್ಮಾನಕ್ಕೆ

  1. ಎಂಎಲ್ ಸ್ಪರ್ಧೆಗಳು ತಂಪಾದ ಮತ್ತು ಆಸಕ್ತಿದಾಯಕವಾಗಿವೆ! ಇಲ್ಲಿ ನೀವು ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ ಕೌಶಲ್ಯಗಳ ಬಳಕೆಯನ್ನು ಕಾಣಬಹುದು, ಮತ್ತು ಕುತಂತ್ರ ಮಾದರಿಗಳು ಮತ್ತು ತಂತ್ರಗಳಲ್ಲಿ, ಮತ್ತು ಸರಳವಾಗಿ ಸಾಮಾನ್ಯ ಅರ್ಥದಲ್ಲಿ ಸ್ವಾಗತಾರ್ಹ.
  2. ML ಈಗಾಗಲೇ ಘಾತೀಯವಾಗಿ ಬೆಳೆಯುತ್ತಿರುವಂತೆ ತೋರುವ ಜ್ಞಾನದ ಒಂದು ದೊಡ್ಡ ದೇಹವಾಗಿದೆ. ವಿವಿಧ ಕ್ಷೇತ್ರಗಳೊಂದಿಗೆ (ಸಿಗ್ನಲ್‌ಗಳು, ಚಿತ್ರಗಳು, ಕೋಷ್ಟಕಗಳು, ಪಠ್ಯ) ಪರಿಚಯ ಮಾಡಿಕೊಳ್ಳಲು ನಾನು ಗುರಿಯನ್ನು ಹೊಂದಿದ್ದೇನೆ ಮತ್ತು ಅಧ್ಯಯನ ಮಾಡಲು ಎಷ್ಟು ಇದೆ ಎಂದು ಈಗಾಗಲೇ ಅರಿತುಕೊಂಡೆ. ಉದಾಹರಣೆಗೆ, ಈ ಸ್ಪರ್ಧೆಗಳ ನಂತರ ನಾನು ಅಧ್ಯಯನ ಮಾಡಲು ನಿರ್ಧರಿಸಿದೆ: ಕ್ಲಸ್ಟರಿಂಗ್ ಅಲ್ಗಾರಿದಮ್‌ಗಳು, ಗ್ರೇಡಿಯಂಟ್ ಬೂಸ್ಟಿಂಗ್ ಲೈಬ್ರರಿಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಲು ಸುಧಾರಿತ ತಂತ್ರಗಳು (ನಿರ್ದಿಷ್ಟವಾಗಿ, GPU ನಲ್ಲಿ ಕ್ಯಾಟ್‌ಬೂಸ್ಟ್‌ನೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವುದು), ಕ್ಯಾಪ್ಸುಲ್ ನೆಟ್‌ವರ್ಕ್‌ಗಳು, ಪ್ರಶ್ನೆ-ಕೀ-ಮೌಲ್ಯ ಗಮನ ಕಾರ್ಯವಿಧಾನ.
  3. ಬರೀ ಕಗ್ಗಿನಿಂದ ಅಲ್ಲ! ಅನೇಕ ಇತರ ಸ್ಪರ್ಧೆಗಳಿವೆ, ಅಲ್ಲಿ ಕನಿಷ್ಠ ಟಿ-ಶರ್ಟ್ ಅನ್ನು ಪಡೆಯುವುದು ಸುಲಭ, ಮತ್ತು ಇತರ ಬಹುಮಾನಗಳಿಗೆ ಹೆಚ್ಚಿನ ಅವಕಾಶಗಳಿವೆ.
  4. ಸಂವಹನ! ಯಂತ್ರ ಕಲಿಕೆ ಮತ್ತು ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಕ್ಷೇತ್ರದಲ್ಲಿ ಈಗಾಗಲೇ ದೊಡ್ಡ ಸಮುದಾಯವಿದೆ, Mail.ru, Yandex ಮತ್ತು ಇತರ ಕಂಪನಿಗಳಿಂದ ಟೆಲಿಗ್ರಾಮ್, ಸ್ಲಾಕ್ ಮತ್ತು ಗಂಭೀರ ವ್ಯಕ್ತಿಗಳಲ್ಲಿ ವಿಷಯಾಧಾರಿತ ಗುಂಪುಗಳಿವೆ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರಿಸಲು ಮತ್ತು ಆರಂಭಿಕರಿಗೆ ಮತ್ತು ಈ ಕ್ಷೇತ್ರದಲ್ಲಿ ತಮ್ಮ ಹಾದಿಯನ್ನು ಮುಂದುವರಿಸುವವರಿಗೆ ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಜ್ಞಾನದ.
  5. ಹಿಂದಿನ ಅಂಶದಿಂದ ಸ್ಫೂರ್ತಿ ಪಡೆದ ಎಲ್ಲರಿಗೂ ಭೇಟಿ ನೀಡಲು ನಾನು ಸಲಹೆ ನೀಡುತ್ತೇನೆ ಡೇಟಾಫೆಸ್ಟ್ - ಮಾಸ್ಕೋದಲ್ಲಿ ಒಂದು ಪ್ರಮುಖ ಉಚಿತ ಸಮ್ಮೇಳನ, ಇದು ಮೇ 10-11 ರಂದು ನಡೆಯುತ್ತದೆ.

ಮೂಲ: www.habr.com

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ