Habré ನಲ್ಲಿ ಯಂತ್ರ ಕಲಿಕೆ ಸ್ಪರ್ಧೆಗಳ ಥೀಮ್ ಅನ್ನು ಮುಂದುವರಿಸುತ್ತಾ, ನಾವು ಓದುಗರಿಗೆ ಇನ್ನೂ ಎರಡು ವೇದಿಕೆಗಳನ್ನು ಪರಿಚಯಿಸಲು ಬಯಸುತ್ತೇವೆ. ಅವರು ನಿಸ್ಸಂಶಯವಾಗಿ ಕಗ್ಗಲ್ನಂತೆ ದೊಡ್ಡದಾಗಿಲ್ಲ, ಆದರೆ ಅವರು ಖಂಡಿತವಾಗಿಯೂ ಗಮನಕ್ಕೆ ಅರ್ಹರಾಗಿದ್ದಾರೆ.
ವೈಯಕ್ತಿಕವಾಗಿ, ಹಲವಾರು ಕಾರಣಗಳಿಗಾಗಿ ನಾನು ಕಗ್ಗಲ್ ಅನ್ನು ಹೆಚ್ಚು ಇಷ್ಟಪಡುವುದಿಲ್ಲ:
ಮೊದಲನೆಯದಾಗಿ, ಅಲ್ಲಿ ಸ್ಪರ್ಧೆಗಳು ಹಲವಾರು ತಿಂಗಳುಗಳವರೆಗೆ ಇರುತ್ತದೆ, ಮತ್ತು ಸಕ್ರಿಯ ಭಾಗವಹಿಸುವಿಕೆಗೆ ಸಾಕಷ್ಟು ಶ್ರಮ ಬೇಕಾಗುತ್ತದೆ;
ಎರಡನೆಯದಾಗಿ, ಸಾರ್ವಜನಿಕ ಕರ್ನಲ್ಗಳು (ಸಾರ್ವಜನಿಕ ಪರಿಹಾರಗಳು). ಕಾಗ್ಲೆ ಅನುಯಾಯಿಗಳು ಅವರನ್ನು ಟಿಬೆಟಿಯನ್ ಸನ್ಯಾಸಿಗಳ ಶಾಂತತೆಯಿಂದ ಪರಿಗಣಿಸಲು ಸಲಹೆ ನೀಡುತ್ತಾರೆ, ಆದರೆ ವಾಸ್ತವದಲ್ಲಿ ನೀವು ಒಂದು ಅಥವಾ ಎರಡು ತಿಂಗಳ ಕಾಲ ಕೆಲಸ ಮಾಡುತ್ತಿರುವುದನ್ನು ಇದ್ದಕ್ಕಿದ್ದಂತೆ ಎಲ್ಲರಿಗೂ ಬೆಳ್ಳಿಯ ತಟ್ಟೆಯಲ್ಲಿ ಹಾಕಿದಾಗ ಅದು ತುಂಬಾ ಅವಮಾನಕರವಾಗಿದೆ.
ಅದೃಷ್ಟವಶಾತ್, ಯಂತ್ರ ಕಲಿಕೆ ಸ್ಪರ್ಧೆಗಳನ್ನು ಇತರ ವೇದಿಕೆಗಳಲ್ಲಿ ನಡೆಸಲಾಗುತ್ತದೆ ಮತ್ತು ಈ ಸ್ಪರ್ಧೆಗಳಲ್ಲಿ ಒಂದೆರಡು ಚರ್ಚಿಸಲಾಗುವುದು.
ಅಧಿಕೃತ ಭಾಷೆ: ಇಂಗ್ಲೀಷ್,
ಸಂಘಟಕರು: Yandex, Sberbank, HSE
ಅಧಿಕೃತ ರಷ್ಯನ್ ಭಾಷೆ,
ಸಂಘಟಕರು: Mail.ru ಗುಂಪು
ಆನ್ಲೈನ್ ಸುತ್ತು: ಜನವರಿ 15 — ಫೆಬ್ರವರಿ 11, 2019;
ಆನ್-ಸೈಟ್ ಫೈನಲ್: ಎಪ್ರಿಲ್ 4-6, 2019
ಆನ್ಲೈನ್ - ಫೆಬ್ರವರಿ 7 ರಿಂದ ಮಾರ್ಚ್ 15 ರವರೆಗೆ;
ಆಫ್ಲೈನ್ - ಮಾರ್ಚ್ 30 ರಿಂದ ಏಪ್ರಿಲ್ 1 ರವರೆಗೆ.
ಲಾರ್ಜ್ ಹ್ಯಾಡ್ರಾನ್ ಕೊಲೈಡರ್ (ಪಥ, ಆವೇಗ, ಮತ್ತು ಇತರ ಸಂಕೀರ್ಣ ಭೌತಿಕ ನಿಯತಾಂಕಗಳು) ನಲ್ಲಿರುವ ಕಣದ ಬಗ್ಗೆ ಒಂದು ನಿರ್ದಿಷ್ಟ ದತ್ತಾಂಶವನ್ನು ಬಳಸಿ, ಅದು ಮ್ಯೂಯಾನ್ ಅಥವಾ ಇಲ್ಲವೇ ಎಂಬುದನ್ನು ನಿರ್ಧರಿಸಿ
ಈ ಹೇಳಿಕೆಯಿಂದ, 2 ಕಾರ್ಯಗಳನ್ನು ಗುರುತಿಸಲಾಗಿದೆ:
- ಒಂದರಲ್ಲಿ ನೀವು ನಿಮ್ಮ ಭವಿಷ್ಯವನ್ನು ಕಳುಹಿಸಬೇಕಾಗಿತ್ತು,
- ಮತ್ತು ಇನ್ನೊಂದರಲ್ಲಿ - ಸಂಪೂರ್ಣ ಕೋಡ್ ಮತ್ತು ಭವಿಷ್ಯಕ್ಕಾಗಿ ಮಾದರಿ, ಮತ್ತು ಮರಣದಂಡನೆಯು ಚಾಲನೆಯಲ್ಲಿರುವ ಸಮಯ ಮತ್ತು ಮೆಮೊರಿ ಬಳಕೆಯ ಮೇಲೆ ಸಾಕಷ್ಟು ಕಟ್ಟುನಿಟ್ಟಾದ ನಿರ್ಬಂಧಗಳಿಗೆ ಒಳಪಟ್ಟಿರುತ್ತದೆ.
SNA ಹ್ಯಾಕಥಾನ್ ಸ್ಪರ್ಧೆಗಾಗಿ, ಫೆಬ್ರವರಿ-ಮಾರ್ಚ್ 2018 ಗಾಗಿ ಬಳಕೆದಾರರ ಸುದ್ದಿ ಫೀಡ್ಗಳಲ್ಲಿ ತೆರೆದ ಗುಂಪುಗಳಿಂದ ವಿಷಯ ಪ್ರದರ್ಶನಗಳ ಲಾಗ್ಗಳನ್ನು ಸಂಗ್ರಹಿಸಲಾಗಿದೆ. ಪರೀಕ್ಷಾ ಸೆಟ್ ಮಾರ್ಚ್ ಕೊನೆಯ ವಾರ ಮತ್ತು ಅರ್ಧವನ್ನು ಒಳಗೊಂಡಿದೆ. ಲಾಗ್ನಲ್ಲಿನ ಪ್ರತಿಯೊಂದು ನಮೂದು ಏನನ್ನು ತೋರಿಸಲಾಗಿದೆ ಮತ್ತು ಯಾರಿಗೆ, ಹಾಗೆಯೇ ಬಳಕೆದಾರರು ಈ ವಿಷಯಕ್ಕೆ ಹೇಗೆ ಪ್ರತಿಕ್ರಿಯಿಸಿದ್ದಾರೆ ಎಂಬುದರ ಕುರಿತು ಮಾಹಿತಿಯನ್ನು ಒಳಗೊಂಡಿದೆ: ಇದನ್ನು ರೇಟ್ ಮಾಡಲಾಗಿದೆ, ಕಾಮೆಂಟ್ ಮಾಡಲಾಗಿದೆ, ನಿರ್ಲಕ್ಷಿಸಲಾಗಿದೆ ಅಥವಾ ಫೀಡ್ನಿಂದ ಮರೆಮಾಡಲಾಗಿದೆ.
ಎಸ್ಎನ್ಎ ಹ್ಯಾಕಥಾನ್ನ ಕಾರ್ಯಗಳ ಸಾರವೆಂದರೆ ಸಾಮಾಜಿಕ ನೆಟ್ವರ್ಕ್ ಓಡ್ನೋಕ್ಲಾಸ್ನಿಕಿಯ ಪ್ರತಿ ಬಳಕೆದಾರರಿಗೆ ಅವರ ಫೀಡ್ ಅನ್ನು ಶ್ರೇಣೀಕರಿಸುವುದು, "ವರ್ಗ" ವನ್ನು ಸ್ವೀಕರಿಸುವ ಪೋಸ್ಟ್ಗಳನ್ನು ಸಾಧ್ಯವಾದಷ್ಟು ಹೆಚ್ಚಿಸುವುದು.
ಆನ್ಲೈನ್ ಹಂತದಲ್ಲಿ, ಕಾರ್ಯವನ್ನು 3 ಭಾಗಗಳಾಗಿ ವಿಂಗಡಿಸಲಾಗಿದೆ:
1. ವಿವಿಧ ಸಹಯೋಗದ ಗುಣಲಕ್ಷಣಗಳ ಪ್ರಕಾರ ಶ್ರೇಣಿಯ ಪೋಸ್ಟ್ಗಳು
2. ಪೋಸ್ಟ್ಗಳನ್ನು ಹೊಂದಿರುವ ಚಿತ್ರಗಳ ಆಧಾರದ ಮೇಲೆ ಶ್ರೇಯಾಂಕ ನೀಡಿ
3. ಪೋಸ್ಟ್ಗಳನ್ನು ಅವು ಒಳಗೊಂಡಿರುವ ಪಠ್ಯದ ಪ್ರಕಾರ ಶ್ರೇಣಿ ಮಾಡಿ
ಸಂಕೀರ್ಣವಾದ ಕಸ್ಟಮ್ ಮೆಟ್ರಿಕ್, ROC-AUC ನಂತಹವು
ಬಳಕೆದಾರರಿಂದ ಸರಾಸರಿ ROC-AUC
ಮೊದಲ ಹಂತಕ್ಕೆ ಬಹುಮಾನಗಳು - ಎನ್ ಸ್ಥಳಗಳಿಗೆ ಟಿ-ಶರ್ಟ್ಗಳು, ಎರಡನೇ ಹಂತಕ್ಕೆ ಹಾದುಹೋಗುವಿಕೆ, ಅಲ್ಲಿ ಸ್ಪರ್ಧೆಯ ಸಮಯದಲ್ಲಿ ವಸತಿ ಮತ್ತು ಊಟವನ್ನು ಪಾವತಿಸಲಾಯಿತು
ಎರಡನೇ ಹಂತ - ??? (ಕೆಲವು ಕಾರಣಗಳಿಗಾಗಿ, ನಾನು ಪ್ರಶಸ್ತಿ ಪ್ರದಾನ ಸಮಾರಂಭದಲ್ಲಿ ಉಪಸ್ಥಿತರಿರಲಿಲ್ಲ ಮತ್ತು ಅಂತಿಮವಾಗಿ ಬಹುಮಾನಗಳು ಏನೆಂದು ಕಂಡುಹಿಡಿಯಲು ಸಾಧ್ಯವಾಗಲಿಲ್ಲ). ಅವರು ವಿಜೇತ ತಂಡದ ಎಲ್ಲಾ ಸದಸ್ಯರಿಗೆ ಲ್ಯಾಪ್ಟಾಪ್ಗಳನ್ನು ಭರವಸೆ ನೀಡಿದರು
ಮೊದಲ ಹಂತಕ್ಕೆ ಬಹುಮಾನಗಳು - 100 ಅತ್ಯುತ್ತಮ ಭಾಗವಹಿಸುವವರಿಗೆ ಟಿ-ಶರ್ಟ್ಗಳು, ಎರಡನೇ ಹಂತಕ್ಕೆ ಅಂಗೀಕಾರ, ಅಲ್ಲಿ ಮಾಸ್ಕೋಗೆ ಪ್ರಯಾಣ, ಸ್ಪರ್ಧೆಯ ಸಮಯದಲ್ಲಿ ವಸತಿ ಮತ್ತು ಊಟವನ್ನು ಪಾವತಿಸಲಾಯಿತು. ಅಲ್ಲದೆ, ಮೊದಲ ಹಂತದ ಅಂತ್ಯದ ವೇಳೆಗೆ, ಹಂತ 3 ರಲ್ಲಿ 1 ಕಾರ್ಯಗಳಲ್ಲಿ ಅತ್ಯುತ್ತಮವಾದವರಿಗೆ ಬಹುಮಾನಗಳನ್ನು ಘೋಷಿಸಲಾಯಿತು: ಪ್ರತಿಯೊಬ್ಬರೂ RTX 2080 TI ವೀಡಿಯೊ ಕಾರ್ಡ್ ಅನ್ನು ಗೆದ್ದಿದ್ದಾರೆ!
ಎರಡನೇ ಹಂತವು ತಂಡದ ಹಂತವಾಗಿತ್ತು, ತಂಡಗಳು 2 ರಿಂದ 5 ಜನರನ್ನು ಒಳಗೊಂಡಿತ್ತು, ಬಹುಮಾನಗಳು:
1 ನೇ ಸ್ಥಾನ - 300 ರೂಬಲ್ಸ್ಗಳು
2 ನೇ ಸ್ಥಾನ - 200 ರೂಬಲ್ಸ್ಗಳು
3 ನೇ ಸ್ಥಾನ - 100 ರೂಬಲ್ಸ್ಗಳು
ತೀರ್ಪುಗಾರರ ಬಹುಮಾನ - 100 ರೂಬಲ್ಸ್ಗಳು
ಅಧಿಕೃತ ಟೆಲಿಗ್ರಾಮ್ ಗುಂಪು, ~ 190 ಭಾಗವಹಿಸುವವರು, ಇಂಗ್ಲಿಷ್ನಲ್ಲಿ ಸಂವಹನ, ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರಕ್ಕಾಗಿ ಹಲವಾರು ದಿನಗಳು ಕಾಯಬೇಕಾಯಿತು
ಟೆಲಿಗ್ರಾಮ್ನಲ್ಲಿ ಅಧಿಕೃತ ಗುಂಪು, ~ 1500 ಭಾಗವಹಿಸುವವರು, ಭಾಗವಹಿಸುವವರು ಮತ್ತು ಸಂಘಟಕರ ನಡುವಿನ ಕಾರ್ಯಗಳ ಸಕ್ರಿಯ ಚರ್ಚೆ
ಸಂಘಟಕರು ಸರಳ ಮತ್ತು ಸುಧಾರಿತ ಎರಡು ಮೂಲಭೂತ ಪರಿಹಾರಗಳನ್ನು ಒದಗಿಸಿದ್ದಾರೆ. ಸರಳಕ್ಕೆ 16 GB ಗಿಂತ ಕಡಿಮೆ RAM ಅಗತ್ಯವಿದೆ, ಮತ್ತು ಸುಧಾರಿತ ಮೆಮೊರಿ 16 ಗೆ ಹೊಂದಿಕೆಯಾಗುವುದಿಲ್ಲ. ಅದೇ ಸಮಯದಲ್ಲಿ, ಸ್ವಲ್ಪ ಮುಂದೆ ನೋಡಿದಾಗ, ಭಾಗವಹಿಸುವವರು ಸುಧಾರಿತ ಪರಿಹಾರವನ್ನು ಗಮನಾರ್ಹವಾಗಿ ಮೀರಿಸಲು ಸಾಧ್ಯವಾಗಲಿಲ್ಲ. ಈ ಪರಿಹಾರಗಳನ್ನು ಪ್ರಾರಂಭಿಸಲು ಯಾವುದೇ ತೊಂದರೆಗಳಿಲ್ಲ. ಸುಧಾರಿತ ಉದಾಹರಣೆಯಲ್ಲಿ ಪರಿಹಾರವನ್ನು ಸುಧಾರಿಸಲು ಎಲ್ಲಿ ಪ್ರಾರಂಭಿಸಬೇಕು ಎಂಬುದರ ಕುರಿತು ಸುಳಿವು ಹೊಂದಿರುವ ಕಾಮೆಂಟ್ ಇದೆ ಎಂದು ಗಮನಿಸಬೇಕು.
ಪ್ರತಿಯೊಂದು ಕಾರ್ಯಗಳಿಗೆ ಮೂಲಭೂತ ಪ್ರಾಚೀನ ಪರಿಹಾರಗಳನ್ನು ಒದಗಿಸಲಾಗಿದೆ, ಅದನ್ನು ಭಾಗವಹಿಸುವವರು ಸುಲಭವಾಗಿ ಮೀರಿಸುತ್ತಾರೆ. ಸ್ಪರ್ಧೆಯ ಆರಂಭಿಕ ದಿನಗಳಲ್ಲಿ, ಭಾಗವಹಿಸುವವರು ಹಲವಾರು ತೊಂದರೆಗಳನ್ನು ಎದುರಿಸಿದರು: ಮೊದಲನೆಯದಾಗಿ, ಡೇಟಾವನ್ನು ಅಪಾಚೆ ಪ್ಯಾರ್ಕ್ವೆಟ್ ರೂಪದಲ್ಲಿ ನೀಡಲಾಯಿತು, ಮತ್ತು ಪೈಥಾನ್ ಮತ್ತು ಪ್ಯಾರ್ಕ್ವೆಟ್ ಪ್ಯಾಕೇಜ್ನ ಎಲ್ಲಾ ಸಂಯೋಜನೆಗಳು ದೋಷಗಳಿಲ್ಲದೆ ಕೆಲಸ ಮಾಡಲಿಲ್ಲ. ಎರಡನೆಯ ತೊಂದರೆಯು ಮೇಲ್ ಕ್ಲೌಡ್ನಿಂದ ಚಿತ್ರಗಳನ್ನು ಡೌನ್ಲೋಡ್ ಮಾಡುವುದು; ಈ ಸಮಯದಲ್ಲಿ ದೊಡ್ಡ ಪ್ರಮಾಣದ ಡೇಟಾವನ್ನು ಏಕಕಾಲದಲ್ಲಿ ಡೌನ್ಲೋಡ್ ಮಾಡಲು ಸುಲಭವಾದ ಮಾರ್ಗವಿಲ್ಲ. ಪರಿಣಾಮವಾಗಿ, ಈ ಸಮಸ್ಯೆಗಳು ಭಾಗವಹಿಸುವವರನ್ನು ಒಂದೆರಡು ದಿನಗಳವರೆಗೆ ವಿಳಂಬಗೊಳಿಸಿದವು.
IDAO. ಮೊದಲ ಹಂತ
ಮ್ಯೂಯಾನ್/ಮುವಾನ್ ಅಲ್ಲದ ಕಣಗಳನ್ನು ಅವುಗಳ ಗುಣಲಕ್ಷಣಗಳ ಪ್ರಕಾರ ವರ್ಗೀಕರಿಸುವುದು ಕಾರ್ಯವಾಗಿತ್ತು. ಈ ಕಾರ್ಯದ ಪ್ರಮುಖ ಲಕ್ಷಣವೆಂದರೆ ತರಬೇತಿ ಡೇಟಾದಲ್ಲಿ ತೂಕದ ಕಾಲಮ್ನ ಉಪಸ್ಥಿತಿ, ಸಂಘಟಕರು ಸ್ವತಃ ಈ ಸಾಲಿನ ಉತ್ತರದಲ್ಲಿ ವಿಶ್ವಾಸ ಎಂದು ವ್ಯಾಖ್ಯಾನಿಸಿದ್ದಾರೆ. ಸಮಸ್ಯೆಯೆಂದರೆ ಕೆಲವು ಸಾಲುಗಳು ಋಣಾತ್ಮಕ ತೂಕವನ್ನು ಒಳಗೊಂಡಿವೆ.
ಸುಳಿವು ಹೊಂದಿರುವ ರೇಖೆಯ ಬಗ್ಗೆ ಕೆಲವು ನಿಮಿಷಗಳ ಕಾಲ ಯೋಚಿಸಿದ ನಂತರ (ಸುಳಿವು ತೂಕದ ಕಾಲಮ್ನ ಈ ವೈಶಿಷ್ಟ್ಯಕ್ಕೆ ಗಮನ ಸೆಳೆಯಿತು) ಮತ್ತು ಈ ಗ್ರಾಫ್ ಅನ್ನು ನಿರ್ಮಿಸಿದ ನಂತರ, ನಾವು 3 ಆಯ್ಕೆಗಳನ್ನು ಪರಿಶೀಲಿಸಲು ನಿರ್ಧರಿಸಿದ್ದೇವೆ:
1) ಋಣಾತ್ಮಕ ತೂಕದೊಂದಿಗೆ ರೇಖೆಗಳ ಗುರಿಯನ್ನು ತಿರುಗಿಸಿ (ಮತ್ತು ಅದಕ್ಕೆ ಅನುಗುಣವಾಗಿ ತೂಕ)
2) ತೂಕವನ್ನು ಕನಿಷ್ಠ ಮೌಲ್ಯಕ್ಕೆ ವರ್ಗಾಯಿಸಿ ಇದರಿಂದ ಅವು 0 ರಿಂದ ಪ್ರಾರಂಭವಾಗುತ್ತವೆ
3) ಸ್ಟ್ರಿಂಗ್ ತೂಕವನ್ನು ಬಳಸಬೇಡಿ
ಮೂರನೆಯ ಆಯ್ಕೆಯು ಕೆಟ್ಟದಾಗಿದೆ, ಆದರೆ ಮೊದಲ ಎರಡು ಫಲಿತಾಂಶವನ್ನು ಸುಧಾರಿಸಿದೆ, ಉತ್ತಮವಾದ ಆಯ್ಕೆ ಸಂಖ್ಯೆ 1, ಇದು ತಕ್ಷಣವೇ ನಮ್ಮನ್ನು ಮೊದಲ ಕಾರ್ಯದಲ್ಲಿ ಪ್ರಸ್ತುತ ಎರಡನೇ ಸ್ಥಾನಕ್ಕೆ ಮತ್ತು ಎರಡನೆಯದರಲ್ಲಿ ಮೊದಲ ಸ್ಥಾನಕ್ಕೆ ತಂದಿತು.
ಕಳೆದುಹೋದ ಮೌಲ್ಯಗಳಿಗಾಗಿ ಡೇಟಾವನ್ನು ಪರಿಶೀಲಿಸುವುದು ನಮ್ಮ ಮುಂದಿನ ಹಂತವಾಗಿದೆ. ಸಂಘಟಕರು ನಮಗೆ ಈಗಾಗಲೇ ಬಾಚಣಿಗೆ ಡೇಟಾವನ್ನು ನೀಡಿದರು, ಅಲ್ಲಿ ಕೆಲವು ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳು ಇದ್ದವು ಮತ್ತು ಅವುಗಳನ್ನು -9999 ನಿಂದ ಬದಲಾಯಿಸಲಾಯಿತು.
MatchedHit_{X,Y,Z}[N] ಮತ್ತು MatchedHit_D{X,Y,Z}[N] ಕಾಲಮ್ಗಳಲ್ಲಿ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳನ್ನು ನಾವು ಕಂಡುಕೊಂಡಿದ್ದೇವೆ ಮತ್ತು N=2 ಅಥವಾ 3 ಆಗ ಮಾತ್ರ. ನಾವು ಅರ್ಥಮಾಡಿಕೊಂಡಂತೆ, ಕೆಲವು ಕಣಗಳು ಇಲ್ಲ ಎಲ್ಲಾ 4 ಡಿಟೆಕ್ಟರ್ಗಳನ್ನು ಹಾದುಹೋಗಿರಿ ಮತ್ತು 3 ನೇ ಅಥವಾ 4 ನೇ ಪ್ಲೇಟ್ನಲ್ಲಿ ನಿಲ್ಲಿಸಿ. ಡೇಟಾವು Lextra_{X,Y}[N] ಕಾಲಮ್ಗಳನ್ನು ಸಹ ಒಳಗೊಂಡಿದೆ, ಇದು ಸ್ಪಷ್ಟವಾಗಿ MatchedHit_{X,Y,Z}[N] ನಂತೆಯೇ ವಿವರಿಸುತ್ತದೆ, ಆದರೆ ಕೆಲವು ರೀತಿಯ ಎಕ್ಸ್ಟ್ರಾಪೋಲೇಶನ್ ಅನ್ನು ಬಳಸುತ್ತದೆ. MatchedHit_{X,Y,Z}[N] (X ಮತ್ತು Y ನಿರ್ದೇಶಾಂಕಗಳಿಗೆ ಮಾತ್ರ) ನಲ್ಲಿ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳಿಗೆ Lextra_{X,Y}[N] ಅನ್ನು ಬದಲಿಸಬಹುದು ಎಂದು ಈ ಅಲ್ಪ ಊಹೆಗಳು ಸೂಚಿಸಿವೆ. MatchedHit_Z[N] ಮಧ್ಯದಿಂದ ಚೆನ್ನಾಗಿ ತುಂಬಿದೆ. ಈ ಕುಶಲತೆಯು ಎರಡೂ ಕಾರ್ಯಗಳಲ್ಲಿ 1 ನೇ ಮಧ್ಯಂತರ ಸ್ಥಾನವನ್ನು ತಲುಪಲು ನಮಗೆ ಅವಕಾಶ ಮಾಡಿಕೊಟ್ಟಿತು.
ಮೊದಲ ಹಂತವನ್ನು ಗೆಲ್ಲಲು ಅವರು ಏನನ್ನೂ ನೀಡಲಿಲ್ಲ ಎಂದು ಪರಿಗಣಿಸಿ, ನಾವು ಅಲ್ಲಿಯೇ ನಿಲ್ಲಿಸಬಹುದಿತ್ತು, ಆದರೆ ನಾವು ಮುಂದುವರಿಸಿದ್ದೇವೆ, ಕೆಲವು ಸುಂದರವಾದ ಚಿತ್ರಗಳನ್ನು ಚಿತ್ರಿಸಿದ್ದೇವೆ ಮತ್ತು ಹೊಸ ವೈಶಿಷ್ಟ್ಯಗಳೊಂದಿಗೆ ಬಂದಿದ್ದೇವೆ.
ಉದಾಹರಣೆಗೆ, ನಾವು ಪ್ರತಿ ನಾಲ್ಕು ಡಿಟೆಕ್ಟರ್ ಪ್ಲೇಟ್ಗಳೊಂದಿಗೆ ಕಣದ ಛೇದನದ ಬಿಂದುಗಳನ್ನು ರೂಪಿಸಿದರೆ, ಪ್ರತಿಯೊಂದು ಪ್ಲೇಟ್ಗಳ ಮೇಲಿನ ಬಿಂದುಗಳನ್ನು 5 ರಿಂದ 4 ರ ಆಕಾರ ಅನುಪಾತದೊಂದಿಗೆ 5 ಆಯತಗಳಾಗಿ ವರ್ಗೀಕರಿಸಲಾಗಿದೆ ಮತ್ತು ಕೇಂದ್ರೀಕೃತವಾಗಿರುವುದನ್ನು ನಾವು ನೋಡಬಹುದು. ಪಾಯಿಂಟ್ (0,0), ಮತ್ತು ಮೊದಲ ಆಯತದಲ್ಲಿ ಯಾವುದೇ ಬಿಂದುಗಳಿಲ್ಲ.
ಪ್ಲೇಟ್ ಸಂಖ್ಯೆ. / ಆಯತ ಆಯಾಮಗಳು
1
2
3
4
5
ಪ್ಲೇಟ್ 1
500h625
1000h1250
2000h2500
4000h5000
8000h10000
ಪ್ಲೇಟ್ 2
520h650
1040h1300
2080h2600
4160h5200
8320h10400
ಪ್ಲೇಟ್ 3
560h700
1120h1400
2240h2800
4480h5600
8960h11200
ಪ್ಲೇಟ್ 4
600h750
1200h1500
2400h3000
4800h6000
9600h12000
ಈ ಆಯಾಮಗಳನ್ನು ನಿರ್ಧರಿಸಿದ ನಂತರ, ನಾವು ಪ್ರತಿ ಕಣಕ್ಕೂ 4 ಹೊಸ ವರ್ಗೀಯ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಸೇರಿಸಿದ್ದೇವೆ - ಅದು ಪ್ರತಿ ಪ್ಲೇಟ್ ಅನ್ನು ಛೇದಿಸುವ ಆಯತದ ಸಂಖ್ಯೆ.
ಕಣಗಳು ಕೇಂದ್ರದಿಂದ ಬದಿಗಳಿಗೆ ಚದುರಿದಂತೆ ತೋರುತ್ತಿದೆ ಎಂದು ನಾವು ಗಮನಿಸಿದ್ದೇವೆ ಮತ್ತು ಈ ಸ್ಕ್ಯಾಟರಿಂಗ್ನ "ಗುಣಮಟ್ಟ" ವನ್ನು ಹೇಗಾದರೂ ಮೌಲ್ಯಮಾಪನ ಮಾಡುವ ಆಲೋಚನೆ ಹುಟ್ಟಿಕೊಂಡಿತು. ತಾತ್ತ್ವಿಕವಾಗಿ, ಟೇಕ್-ಆಫ್ ಪಾಯಿಂಟ್ ಅನ್ನು ಅವಲಂಬಿಸಿ ಕೆಲವು ರೀತಿಯ "ಆದರ್ಶ" ಪ್ಯಾರಾಬೋಲಾದೊಂದಿಗೆ ಬರಲು ಮತ್ತು ಅದರಿಂದ ವಿಚಲನವನ್ನು ಅಂದಾಜು ಮಾಡಲು ಸಾಧ್ಯವಿದೆ, ಆದರೆ ನಾವು "ಆದರ್ಶ" ಸರಳ ರೇಖೆಗೆ ನಮ್ಮನ್ನು ಸೀಮಿತಗೊಳಿಸಿದ್ದೇವೆ. ಪ್ರವೇಶದ ಪ್ರತಿ ಬಿಂದುವಿಗೆ ಅಂತಹ ಆದರ್ಶ ಸರಳ ರೇಖೆಗಳನ್ನು ನಿರ್ಮಿಸಿದ ನಂತರ, ಈ ಸರಳ ರೇಖೆಯಿಂದ ಪ್ರತಿ ಕಣದ ಪಥದ ಪ್ರಮಾಣಿತ ವಿಚಲನವನ್ನು ನಾವು ಲೆಕ್ಕಾಚಾರ ಮಾಡಲು ಸಾಧ್ಯವಾಯಿತು. ಗುರಿ = 1 ಗಾಗಿ ಸರಾಸರಿ ವಿಚಲನವು 152 ಆಗಿರುವುದರಿಂದ ಮತ್ತು ಗುರಿ = 0 ಗಾಗಿ ಅದು 390 ಆಗಿರುವುದರಿಂದ, ನಾವು ತಾತ್ಕಾಲಿಕವಾಗಿ ಈ ವೈಶಿಷ್ಟ್ಯವನ್ನು ಉತ್ತಮವೆಂದು ನಿರ್ಣಯಿಸಿದ್ದೇವೆ. ಮತ್ತು ವಾಸ್ತವವಾಗಿ, ಈ ವೈಶಿಷ್ಟ್ಯವು ತಕ್ಷಣವೇ ಹೆಚ್ಚು ಉಪಯುಕ್ತವಾದವುಗಳಲ್ಲಿ ಅಗ್ರಸ್ಥಾನದಲ್ಲಿದೆ.
ನಾವು ಸಂತೋಷಪಟ್ಟಿದ್ದೇವೆ ಮತ್ತು ಆದರ್ಶ ಸರಳ ರೇಖೆಯಿಂದ ಪ್ರತಿ ಕಣಕ್ಕೆ ಎಲ್ಲಾ 4 ಛೇದಕ ಬಿಂದುಗಳ ವಿಚಲನವನ್ನು ಹೆಚ್ಚುವರಿ 4 ವೈಶಿಷ್ಟ್ಯಗಳಾಗಿ ಸೇರಿಸಿದ್ದೇವೆ (ಮತ್ತು ಅವುಗಳು ಸಹ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ).
ಸ್ಪರ್ಧೆಯ ವಿಷಯದ ಕುರಿತು ವೈಜ್ಞಾನಿಕ ಲೇಖನಗಳಿಗೆ ಲಿಂಕ್ಗಳು, ಸಂಘಟಕರು ನಮಗೆ ನೀಡಿದ್ದು, ಈ ಸಮಸ್ಯೆಯನ್ನು ಪರಿಹರಿಸಲು ನಾವು ಮೊದಲಿಗರಿಂದ ದೂರವಿದ್ದೇವೆ ಮತ್ತು ಬಹುಶಃ ಕೆಲವು ರೀತಿಯ ವಿಶೇಷ ಸಾಫ್ಟ್ವೇರ್ ಇದೆ ಎಂಬ ಕಲ್ಪನೆಯನ್ನು ಪ್ರೇರೇಪಿಸಿತು. IsMuonSimple, IsMuon, IsMuonLoose ವಿಧಾನಗಳನ್ನು ಅಳವಡಿಸಲಾಗಿರುವ ಗಿಥಬ್ನಲ್ಲಿ ರೆಪೊಸಿಟರಿಯನ್ನು ಕಂಡುಹಿಡಿದ ನಂತರ, ನಾವು ಅವುಗಳನ್ನು ಸಣ್ಣ ಮಾರ್ಪಾಡುಗಳೊಂದಿಗೆ ನಮ್ಮ ಸೈಟ್ಗೆ ವರ್ಗಾಯಿಸಿದ್ದೇವೆ. ವಿಧಾನಗಳು ತುಂಬಾ ಸರಳವಾಗಿದ್ದವು: ಉದಾಹರಣೆಗೆ, ಶಕ್ತಿಯು ಒಂದು ನಿರ್ದಿಷ್ಟ ಮಿತಿಗಿಂತ ಕಡಿಮೆಯಿದ್ದರೆ, ಅದು ಮ್ಯೂಯಾನ್ ಅಲ್ಲ, ಇಲ್ಲದಿದ್ದರೆ ಅದು ಮ್ಯೂಯಾನ್ ಆಗಿದೆ. ಅಂತಹ ಸರಳ ವೈಶಿಷ್ಟ್ಯಗಳು ನಿಸ್ಸಂಶಯವಾಗಿ ಗ್ರೇಡಿಯಂಟ್ ಬೂಸ್ಟಿಂಗ್ ಅನ್ನು ಬಳಸುವ ಸಂದರ್ಭದಲ್ಲಿ ಹೆಚ್ಚಳವನ್ನು ನೀಡಲು ಸಾಧ್ಯವಾಗಲಿಲ್ಲ, ಆದ್ದರಿಂದ ನಾವು ಹೊಸ್ತಿಲಿಗೆ ಮತ್ತೊಂದು ಮಹತ್ವದ "ದೂರ" ವನ್ನು ಸೇರಿಸಿದ್ದೇವೆ. ಈ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಸ್ವಲ್ಪ ಸುಧಾರಿಸಲಾಗಿದೆ. ಬಹುಶಃ, ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ವಿಧಾನಗಳನ್ನು ಹೆಚ್ಚು ಕೂಲಂಕಷವಾಗಿ ವಿಶ್ಲೇಷಿಸುವ ಮೂಲಕ, ಬಲವಾದ ವಿಧಾನಗಳನ್ನು ಕಂಡುಹಿಡಿಯುವುದು ಮತ್ತು ಅವುಗಳನ್ನು ಚಿಹ್ನೆಗಳಿಗೆ ಸೇರಿಸುವುದು ಸಾಧ್ಯವಾಯಿತು.
ಸ್ಪರ್ಧೆಯ ಕೊನೆಯಲ್ಲಿ, ನಾವು ಎರಡನೇ ಸಮಸ್ಯೆಗೆ "ತ್ವರಿತ" ಪರಿಹಾರವನ್ನು ಸ್ವಲ್ಪಮಟ್ಟಿಗೆ ಟ್ವೀಕ್ ಮಾಡಿದ್ದೇವೆ; ಕೊನೆಯಲ್ಲಿ, ಇದು ಕೆಳಗಿನ ಅಂಶಗಳಲ್ಲಿ ಬೇಸ್ಲೈನ್ನಿಂದ ಭಿನ್ನವಾಗಿದೆ:
ಋಣಾತ್ಮಕ ತೂಕದ ಸಾಲುಗಳಲ್ಲಿ ಗುರಿಯು ತಲೆಕೆಳಗಾಯಿತು
MatchedHit_{X,Y,Z}[N] ನಲ್ಲಿ ಕಾಣೆಯಾದ ಮೌಲ್ಯಗಳನ್ನು ಭರ್ತಿ ಮಾಡಲಾಗಿದೆ
ಆಳವನ್ನು 7 ಕ್ಕೆ ಇಳಿಸಲಾಗಿದೆ
ಕಲಿಕೆಯ ದರವನ್ನು 0.1 ಕ್ಕೆ ಇಳಿಸಲಾಗಿದೆ (0.19 ಆಗಿತ್ತು)
ಪರಿಣಾಮವಾಗಿ, ನಾವು ಹೆಚ್ಚಿನ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಪ್ರಯತ್ನಿಸಿದ್ದೇವೆ (ಅತ್ಯಂತ ಯಶಸ್ವಿಯಾಗಿಲ್ಲ), ಆಯ್ಕೆಮಾಡಿದ ಪ್ಯಾರಾಮೀಟರ್ಗಳು ಮತ್ತು ತರಬೇತಿ ಪಡೆದ ಕ್ಯಾಟ್ಬೂಸ್ಟ್, ಲೈಟ್ಜಿಬಿಎಂ ಮತ್ತು ಎಕ್ಸ್ಜಿಬೂಸ್ಟ್, ವಿಭಿನ್ನವಾದ ಮುನ್ಸೂಚನೆಗಳ ಮಿಶ್ರಣಗಳನ್ನು ಪ್ರಯತ್ನಿಸಿದ್ದೇವೆ ಮತ್ತು ಖಾಸಗಿಯನ್ನು ತೆರೆಯುವ ಮೊದಲು ನಾವು ಎರಡನೇ ಕಾರ್ಯದಲ್ಲಿ ವಿಶ್ವಾಸದಿಂದ ಗೆದ್ದಿದ್ದೇವೆ ಮತ್ತು ಮೊದಲನೆಯದರಲ್ಲಿ ನಾವು ಸೇರಿದ್ದೇವೆ. ನಾಯಕರು.
ಖಾಸಗಿಯನ್ನು ತೆರೆದ ನಂತರ ನಾವು 10 ನೇ ಕಾರ್ಯಕ್ಕೆ 1 ನೇ ಸ್ಥಾನದಲ್ಲಿ ಮತ್ತು ಎರಡನೆಯದಕ್ಕೆ 3 ನೇ ಸ್ಥಾನದಲ್ಲಿದ್ದೆವು. ಎಲ್ಲಾ ನಾಯಕರು ಬೆರೆತರು, ಮತ್ತು ಖಾಸಗಿಯಾಗಿ ವೇಗವು ಲಿಬ್ಬೋರ್ಡ್ಗಿಂತ ಹೆಚ್ಚಿತ್ತು. ಡೇಟಾವು ಕಳಪೆಯಾಗಿ ಶ್ರೇಣೀಕರಿಸಲ್ಪಟ್ಟಿದೆ ಎಂದು ತೋರುತ್ತದೆ (ಅಥವಾ ಉದಾಹರಣೆಗೆ ಖಾಸಗಿಯಾಗಿ ನಕಾರಾತ್ಮಕ ತೂಕದೊಂದಿಗೆ ಯಾವುದೇ ಸಾಲುಗಳಿಲ್ಲ) ಮತ್ತು ಇದು ಸ್ವಲ್ಪ ನಿರಾಶಾದಾಯಕವಾಗಿತ್ತು.
SNA ಹ್ಯಾಕಥಾನ್ 2019 - ಪಠ್ಯಗಳು. ಮೊದಲ ಹಂತ
ಓಡ್ನೋಕ್ಲಾಸ್ನಿಕಿ ಸಾಮಾಜಿಕ ನೆಟ್ವರ್ಕ್ನಲ್ಲಿ ಬಳಕೆದಾರರ ಪೋಸ್ಟ್ಗಳನ್ನು ಅವರು ಒಳಗೊಂಡಿರುವ ಪಠ್ಯದ ಆಧಾರದ ಮೇಲೆ ಶ್ರೇಣೀಕರಿಸುವುದು ಕಾರ್ಯವಾಗಿತ್ತು; ಪಠ್ಯದ ಜೊತೆಗೆ, ಪೋಸ್ಟ್ನ ಇನ್ನೂ ಕೆಲವು ಗುಣಲಕ್ಷಣಗಳಿವೆ (ಭಾಷೆ, ಮಾಲೀಕರು, ದಿನಾಂಕ ಮತ್ತು ರಚನೆಯ ಸಮಯ, ದಿನಾಂಕ ಮತ್ತು ವೀಕ್ಷಣೆಯ ಸಮಯ )
ಪಠ್ಯದೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಲು ಶಾಸ್ತ್ರೀಯ ವಿಧಾನಗಳಂತೆ, ನಾನು ಎರಡು ಆಯ್ಕೆಗಳನ್ನು ಹೈಲೈಟ್ ಮಾಡುತ್ತೇನೆ:
ಪ್ರತಿ ಪದವನ್ನು n-ಆಯಾಮದ ವೆಕ್ಟರ್ ಜಾಗಕ್ಕೆ ಮ್ಯಾಪಿಂಗ್ ಮಾಡುವುದು ಅಂದರೆ ಒಂದೇ ರೀತಿಯ ಪದಗಳು ಒಂದೇ ರೀತಿಯ ವೆಕ್ಟರ್ಗಳನ್ನು ಹೊಂದಿರುತ್ತವೆ (ಇನ್ನಷ್ಟು ಓದಿ ನಮ್ಮ ಲೇಖನ), ನಂತರ ಪಠ್ಯಕ್ಕಾಗಿ ಸರಾಸರಿ ಪದವನ್ನು ಕಂಡುಹಿಡಿಯುವುದು ಅಥವಾ ಪದಗಳ ಸಂಬಂಧಿತ ಸ್ಥಾನವನ್ನು ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳುವ ಕಾರ್ಯವಿಧಾನಗಳನ್ನು ಬಳಸುವುದು (CNN, LSTM/GRU).
ಸಂಪೂರ್ಣ ವಾಕ್ಯಗಳೊಂದಿಗೆ ತಕ್ಷಣವೇ ಕೆಲಸ ಮಾಡಬಹುದಾದ ಮಾದರಿಗಳನ್ನು ಬಳಸುವುದು. ಉದಾಹರಣೆಗೆ, ಬರ್ಟ್. ಸಿದ್ಧಾಂತದಲ್ಲಿ, ಈ ವಿಧಾನವು ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಬೇಕು.
ಪಠ್ಯಗಳೊಂದಿಗೆ ಇದು ನನ್ನ ಮೊದಲ ಅನುಭವವಾದ್ದರಿಂದ, ಯಾರಿಗಾದರೂ ಕಲಿಸುವುದು ತಪ್ಪಾಗುತ್ತದೆ, ಹಾಗಾಗಿ ನಾನೇ ಕಲಿಸುತ್ತೇನೆ. ಸ್ಪರ್ಧೆಯ ಆರಂಭದಲ್ಲಿ ನಾನು ನೀಡುವ ಸಲಹೆಗಳು ಇವು:
ನೀವು ಏನನ್ನಾದರೂ ಕಲಿಸಲು ಓಡುವ ಮೊದಲು, ಡೇಟಾವನ್ನು ನೋಡಿ! ಪಠ್ಯದ ಜೊತೆಗೆ, ಡೇಟಾವು ಹಲವಾರು ಕಾಲಮ್ಗಳನ್ನು ಹೊಂದಿತ್ತು ಮತ್ತು ನಾನು ಮಾಡಿದ್ದಕ್ಕಿಂತ ಹೆಚ್ಚಿನದನ್ನು ಅವುಗಳಿಂದ ಹಿಂಡಲು ಸಾಧ್ಯವಾಯಿತು. ಸರಳವಾದ ವಿಷಯವೆಂದರೆ ಕೆಲವು ಕಾಲಮ್ಗಳಿಗೆ ಗುರಿ ಎನ್ಕೋಡಿಂಗ್ ಮಾಡುವುದು.
ಎಲ್ಲಾ ಡೇಟಾದಿಂದ ಕಲಿಯಬೇಡಿ! ಸಾಕಷ್ಟು ಡೇಟಾ ಇತ್ತು (ಸುಮಾರು 17 ಮಿಲಿಯನ್ ಸಾಲುಗಳು) ಮತ್ತು ಊಹೆಗಳನ್ನು ಪರೀಕ್ಷಿಸಲು ಅವೆಲ್ಲವನ್ನೂ ಬಳಸುವುದು ಸಂಪೂರ್ಣವಾಗಿ ಅನಿವಾರ್ಯವಲ್ಲ. ತರಬೇತಿ ಮತ್ತು ಪೂರ್ವ ಸಂಸ್ಕರಣೆಯು ತುಂಬಾ ನಿಧಾನವಾಗಿತ್ತು, ಮತ್ತು ಹೆಚ್ಚು ಆಸಕ್ತಿದಾಯಕ ಊಹೆಗಳನ್ನು ಪರೀಕ್ಷಿಸಲು ನಾನು ನಿಸ್ಸಂಶಯವಾಗಿ ಸಮಯವನ್ನು ಹೊಂದಿದ್ದೇನೆ.
<ವಿವಾದಾತ್ಮಕ ಸಲಹೆ> ಕೊಲೆಗಾರ ಮಾದರಿಯನ್ನು ಹುಡುಕುವ ಅಗತ್ಯವಿಲ್ಲ. ಎಲ್ಮೋ ಮತ್ತು ಬರ್ಟ್ರನ್ನು ಗುರುತಿಸಲು ನಾನು ಬಹಳ ಸಮಯ ಕಳೆದಿದ್ದೇನೆ, ಅವರು ತಕ್ಷಣ ನನ್ನನ್ನು ಉನ್ನತ ಸ್ಥಾನಕ್ಕೆ ಕೊಂಡೊಯ್ಯುತ್ತಾರೆ ಎಂದು ಆಶಿಸಿದರು ಮತ್ತು ಇದರ ಪರಿಣಾಮವಾಗಿ ನಾನು ರಷ್ಯಾದ ಭಾಷೆಗಾಗಿ ಫಾಸ್ಟ್ಟೆಕ್ಸ್ಟ್ ಪೂರ್ವ-ತರಬೇತಿ ಪಡೆದ ಎಂಬೆಡಿಂಗ್ಗಳನ್ನು ಬಳಸಿದ್ದೇನೆ. ನಾನು ಎಲ್ಮೋ ಜೊತೆಗೆ ಉತ್ತಮ ವೇಗವನ್ನು ಸಾಧಿಸಲು ಸಾಧ್ಯವಾಗಲಿಲ್ಲ, ಮತ್ತು ಬರ್ಟ್ನೊಂದಿಗೆ ಅದನ್ನು ಲೆಕ್ಕಾಚಾರ ಮಾಡಲು ನನಗೆ ಇನ್ನೂ ಸಮಯವಿಲ್ಲ.
<ವಿವಾದಾತ್ಮಕ ಸಲಹೆ> ಒಂದು ಕೊಲೆಗಾರ ವೈಶಿಷ್ಟ್ಯವನ್ನು ಹುಡುಕುವ ಅಗತ್ಯವಿಲ್ಲ. ಡೇಟಾವನ್ನು ನೋಡುವಾಗ, ಸುಮಾರು 1 ಪ್ರತಿಶತ ಪಠ್ಯಗಳು ವಾಸ್ತವವಾಗಿ ಪಠ್ಯವನ್ನು ಹೊಂದಿಲ್ಲ ಎಂದು ನಾನು ಗಮನಿಸಿದೆ! ಆದರೆ ಕೆಲವು ಸಂಪನ್ಮೂಲಗಳಿಗೆ ಲಿಂಕ್ಗಳು ಇದ್ದವು ಮತ್ತು ನಾನು ಸರಳವಾದ ಪಾರ್ಸರ್ ಅನ್ನು ಬರೆದಿದ್ದೇನೆ ಅದು ಸೈಟ್ ಅನ್ನು ತೆರೆಯಿತು ಮತ್ತು ಶೀರ್ಷಿಕೆ ಮತ್ತು ವಿವರಣೆಯನ್ನು ಹೊರತೆಗೆಯಿತು. ಇದು ಒಳ್ಳೆಯದು ಎಂದು ತೋರುತ್ತದೆ, ಆದರೆ ನಂತರ ನಾನು ದೂರ ಹೋಗಿದ್ದೆ ಮತ್ತು ಎಲ್ಲಾ ಪಠ್ಯಗಳಿಗೆ ಎಲ್ಲಾ ಲಿಂಕ್ಗಳನ್ನು ಪಾರ್ಸ್ ಮಾಡಲು ನಿರ್ಧರಿಸಿದೆ ಮತ್ತು ಮತ್ತೆ ಸಾಕಷ್ಟು ಸಮಯವನ್ನು ಕಳೆದುಕೊಂಡೆ. ಇದೆಲ್ಲವೂ ಅಂತಿಮ ಫಲಿತಾಂಶದಲ್ಲಿ ಗಮನಾರ್ಹ ಸುಧಾರಣೆಯನ್ನು ಒದಗಿಸಲಿಲ್ಲ (ಉದಾಹರಣೆಗೆ, ನಾನು ಸ್ಟೆಮ್ಮಿಂಗ್ ಅನ್ನು ಕಂಡುಕೊಂಡಿದ್ದೇನೆ).
ಕ್ಲಾಸಿಕ್ ವೈಶಿಷ್ಟ್ಯಗಳು ಕಾರ್ಯನಿರ್ವಹಿಸುತ್ತವೆ. ನಾವು Google, ಉದಾಹರಣೆಗೆ, "ಪಠ್ಯ ವೈಶಿಷ್ಟ್ಯಗಳು ಕಾಗಲ್", ಎಲ್ಲವನ್ನೂ ಓದುತ್ತೇವೆ ಮತ್ತು ಸೇರಿಸುತ್ತೇವೆ. ಪಠ್ಯದ ಉದ್ದ, ಪದಗಳು ಮತ್ತು ವಿರಾಮಚಿಹ್ನೆಯ ಮೊತ್ತದಂತಹ ಅಂಕಿಅಂಶಗಳ ವೈಶಿಷ್ಟ್ಯಗಳಂತೆ TF-IDF ಸುಧಾರಣೆಯನ್ನು ಒದಗಿಸಿದೆ.
ಡೇಟ್ಟೈಮ್ ಕಾಲಮ್ಗಳು ಇದ್ದರೆ, ಅವುಗಳನ್ನು ಹಲವಾರು ಪ್ರತ್ಯೇಕ ವೈಶಿಷ್ಟ್ಯಗಳಾಗಿ (ಗಂಟೆಗಳು, ವಾರದ ದಿನಗಳು, ಇತ್ಯಾದಿ) ಪಾರ್ಸ್ ಮಾಡುವುದು ಯೋಗ್ಯವಾಗಿದೆ. ಯಾವ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಹೈಲೈಟ್ ಮಾಡಬೇಕು ಎಂಬುದನ್ನು ಗ್ರಾಫ್ಗಳು/ಕೆಲವು ಮೆಟ್ರಿಕ್ಗಳನ್ನು ಬಳಸಿಕೊಂಡು ವಿಶ್ಲೇಷಿಸಬೇಕು. ಇಲ್ಲಿ, ಹುಚ್ಚಾಟಿಕೆಯಲ್ಲಿ, ನಾನು ಎಲ್ಲವನ್ನೂ ಸರಿಯಾಗಿ ಮಾಡಿದ್ದೇನೆ ಮತ್ತು ಅಗತ್ಯ ವೈಶಿಷ್ಟ್ಯಗಳನ್ನು ಹೈಲೈಟ್ ಮಾಡಿದ್ದೇನೆ, ಆದರೆ ಸಾಮಾನ್ಯ ವಿಶ್ಲೇಷಣೆಯು ನೋಯಿಸುವುದಿಲ್ಲ (ಉದಾಹರಣೆಗೆ, ನಾವು ಫೈನಲ್ನಲ್ಲಿ ಮಾಡಿದಂತೆ).
ಸ್ಪರ್ಧೆಯ ಪರಿಣಾಮವಾಗಿ, ನಾನು ಒಂದು ಕೆರಾಸ್ ಮಾದರಿಯನ್ನು ವರ್ಡ್ ಕಾನ್ವಲ್ಯೂಷನ್ನೊಂದಿಗೆ ಮತ್ತು ಇನ್ನೊಂದು LSTM ಮತ್ತು GRU ಅನ್ನು ಆಧರಿಸಿ ತರಬೇತಿ ನೀಡಿದ್ದೇನೆ. ಇಬ್ಬರೂ ರಷ್ಯನ್ ಭಾಷೆಗಾಗಿ ಪೂರ್ವ-ತರಬೇತಿ ಪಡೆದ ಫಾಸ್ಟ್ಟೆಕ್ಸ್ಟ್ ಎಂಬೆಡಿಂಗ್ಗಳನ್ನು ಬಳಸಿದ್ದಾರೆ (ನಾನು ಹಲವಾರು ಇತರ ಎಂಬೆಡಿಂಗ್ಗಳನ್ನು ಪ್ರಯತ್ನಿಸಿದೆ, ಆದರೆ ಇವುಗಳು ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸಿದವು). ಮುನ್ನೋಟಗಳನ್ನು ಸರಾಸರಿ ಮಾಡಿದ ನಂತರ, ನಾನು 7 ಭಾಗವಹಿಸುವವರಲ್ಲಿ ಅಂತಿಮ 76 ನೇ ಸ್ಥಾನವನ್ನು ಪಡೆದುಕೊಂಡೆ.
ಮೊದಲ ಹಂತದ ನಂತರ ಅದನ್ನು ಪ್ರಕಟಿಸಲಾಯಿತು ನಿಕೊಲಾಯ್ ಅನೋಖಿನ್ ಅವರ ಲೇಖನ, ಅವರು ಎರಡನೇ ಸ್ಥಾನವನ್ನು ಪಡೆದರು (ಅವರು ಸ್ಪರ್ಧೆಯಿಂದ ಹೊರಗೆ ಭಾಗವಹಿಸಿದರು), ಮತ್ತು ಕೆಲವು ಹಂತದವರೆಗೆ ಅವರ ಪರಿಹಾರವು ಗಣಿ ಪುನರಾವರ್ತನೆಯಾಯಿತು, ಆದರೆ ಅವರು ಪ್ರಶ್ನೆ-ಕೀ-ಮೌಲ್ಯದ ಗಮನ ಯಾಂತ್ರಿಕತೆಯ ಕಾರಣದಿಂದಾಗಿ ಮುಂದೆ ಹೋದರು.
ಎರಡನೇ ಹಂತ ಸರಿ & IDAO
ಸ್ಪರ್ಧೆಗಳ ಎರಡನೇ ಹಂತಗಳು ಬಹುತೇಕ ಸತತವಾಗಿ ನಡೆದವು, ಆದ್ದರಿಂದ ನಾನು ಅವುಗಳನ್ನು ಒಟ್ಟಿಗೆ ನೋಡಲು ನಿರ್ಧರಿಸಿದೆ.
ಮೊದಲಿಗೆ, ನಾನು ಮತ್ತು ಹೊಸದಾಗಿ ಸ್ವಾಧೀನಪಡಿಸಿಕೊಂಡ ತಂಡವು Mail.ru ಕಂಪನಿಯ ಪ್ರಭಾವಶಾಲಿ ಕಚೇರಿಯಲ್ಲಿ ಕೊನೆಗೊಂಡಿತು, ಅಲ್ಲಿ ನಮ್ಮ ಕಾರ್ಯವು ಮೊದಲ ಹಂತದಿಂದ ಮೂರು ಟ್ರ್ಯಾಕ್ಗಳ ಮಾದರಿಗಳನ್ನು ಸಂಯೋಜಿಸುವುದು - ಪಠ್ಯ, ಚಿತ್ರಗಳು ಮತ್ತು ಕೊಲಾಬ್. ಇದಕ್ಕಾಗಿ 2 ದಿನಗಳಿಗಿಂತ ಸ್ವಲ್ಪ ಹೆಚ್ಚು ಸಮಯವನ್ನು ನಿಗದಿಪಡಿಸಲಾಗಿದೆ, ಅದು ತುಂಬಾ ಕಡಿಮೆಯಾಗಿದೆ. ವಾಸ್ತವವಾಗಿ, ವಿಲೀನದಿಂದ ಯಾವುದೇ ಲಾಭವನ್ನು ಪಡೆಯದೆಯೇ ನಾವು ಮೊದಲ ಹಂತದಿಂದ ನಮ್ಮ ಫಲಿತಾಂಶಗಳನ್ನು ಪುನರಾವರ್ತಿಸಲು ಸಾಧ್ಯವಾಯಿತು. ಕೊನೆಯಲ್ಲಿ, ನಾವು 5 ನೇ ಸ್ಥಾನವನ್ನು ಪಡೆದುಕೊಂಡಿದ್ದೇವೆ, ಆದರೆ ಪಠ್ಯ ಮಾದರಿಯನ್ನು ಬಳಸಲು ನಮಗೆ ಸಾಧ್ಯವಾಗಲಿಲ್ಲ. ಇತರ ಭಾಗವಹಿಸುವವರ ಪರಿಹಾರಗಳನ್ನು ನೋಡಿದ ನಂತರ, ಪಠ್ಯಗಳನ್ನು ಕ್ಲಸ್ಟರ್ ಮಾಡಲು ಮತ್ತು ಅವುಗಳನ್ನು ಕೊಲಾಬ್ ಮಾದರಿಗೆ ಸೇರಿಸಲು ಪ್ರಯತ್ನಿಸುವುದು ಯೋಗ್ಯವಾಗಿದೆ ಎಂದು ತೋರುತ್ತದೆ. ಈ ಹಂತದ ಒಂದು ಅಡ್ಡ ಪರಿಣಾಮವೆಂದರೆ ಹೊಸ ಅನಿಸಿಕೆಗಳು, ತಂಪಾದ ಭಾಗವಹಿಸುವವರು ಮತ್ತು ಸಂಘಟಕರೊಂದಿಗೆ ಸಭೆ ಮತ್ತು ಸಂವಹನ, ಹಾಗೆಯೇ ನಿದ್ರೆಯ ತೀವ್ರ ಕೊರತೆ, ಇದು IDAO ನ ಅಂತಿಮ ಹಂತದ ಫಲಿತಾಂಶದ ಮೇಲೆ ಪರಿಣಾಮ ಬೀರಬಹುದು.
IDAO 2019 ರ ಅಂತಿಮ ಹಂತದ ಕಾರ್ಯವು ವಿಮಾನ ನಿಲ್ದಾಣದಲ್ಲಿ ಯಾಂಡೆಕ್ಸ್ ಟ್ಯಾಕ್ಸಿ ಡ್ರೈವರ್ಗಳಿಗೆ ಆದೇಶಕ್ಕಾಗಿ ಕಾಯುವ ಸಮಯವನ್ನು ಊಹಿಸುವುದು. ಹಂತ 2 ರಲ್ಲಿ, 3 ಕಾರ್ಯಗಳು = 3 ವಿಮಾನ ನಿಲ್ದಾಣಗಳನ್ನು ಗುರುತಿಸಲಾಗಿದೆ. ಪ್ರತಿ ವಿಮಾನ ನಿಲ್ದಾಣಕ್ಕೆ, ಆರು ತಿಂಗಳವರೆಗೆ ಟ್ಯಾಕ್ಸಿ ಆರ್ಡರ್ಗಳ ಸಂಖ್ಯೆಯ ನಿಮಿಷದಿಂದ ನಿಮಿಷದ ಡೇಟಾವನ್ನು ನೀಡಲಾಗುತ್ತದೆ. ಮತ್ತು ಪರೀಕ್ಷಾ ಡೇಟಾದಂತೆ, ಕಳೆದ 2 ವಾರಗಳ ಆರ್ಡರ್ಗಳಲ್ಲಿ ಮುಂದಿನ ತಿಂಗಳು ಮತ್ತು ನಿಮಿಷದಿಂದ ನಿಮಿಷದ ಡೇಟಾವನ್ನು ನೀಡಲಾಗಿದೆ. ಸ್ವಲ್ಪ ಸಮಯವಿತ್ತು (1,5 ದಿನಗಳು), ಕಾರ್ಯವು ಸಾಕಷ್ಟು ನಿರ್ದಿಷ್ಟವಾಗಿತ್ತು, ತಂಡದಿಂದ ಒಬ್ಬ ವ್ಯಕ್ತಿ ಮಾತ್ರ ಸ್ಪರ್ಧೆಗೆ ಬಂದರು - ಮತ್ತು ಇದರ ಪರಿಣಾಮವಾಗಿ, ಇದು ಕೊನೆಯಲ್ಲಿ ದುಃಖದ ಸ್ಥಳವಾಗಿತ್ತು. ಆಸಕ್ತಿದಾಯಕ ವಿಚಾರಗಳು ಬಾಹ್ಯ ಡೇಟಾವನ್ನು ಬಳಸುವ ಪ್ರಯತ್ನಗಳನ್ನು ಒಳಗೊಂಡಿವೆ: ಹವಾಮಾನ, ಟ್ರಾಫಿಕ್ ಜಾಮ್ಗಳು ಮತ್ತು ಯಾಂಡೆಕ್ಸ್ ಟ್ಯಾಕ್ಸಿ ಆರ್ಡರ್ ಅಂಕಿಅಂಶಗಳು. ಈ ವಿಮಾನ ನಿಲ್ದಾಣಗಳು ಯಾವುವು ಎಂದು ಸಂಘಟಕರು ಹೇಳದಿದ್ದರೂ, ಅನೇಕ ಭಾಗವಹಿಸುವವರು ಅವರು ಶೆರೆಮೆಟಿಯೆವೊ, ಡೊಮೊಡೆಡೊವೊ ಮತ್ತು ವ್ನುಕೊವೊ ಎಂದು ಊಹಿಸಿದ್ದಾರೆ. ಸ್ಪರ್ಧೆಯ ನಂತರ ಈ ಊಹೆಯನ್ನು ನಿರಾಕರಿಸಲಾಗಿದ್ದರೂ, ವೈಶಿಷ್ಟ್ಯಗಳು, ಉದಾಹರಣೆಗೆ, ಮಾಸ್ಕೋ ಹವಾಮಾನ ಡೇಟಾದಿಂದ ಮೌಲ್ಯಮಾಪನ ಮತ್ತು ಲೀಡರ್ಬೋರ್ಡ್ನಲ್ಲಿ ಫಲಿತಾಂಶಗಳನ್ನು ಸುಧಾರಿಸಿದೆ.
ತೀರ್ಮಾನಕ್ಕೆ
ಎಂಎಲ್ ಸ್ಪರ್ಧೆಗಳು ತಂಪಾದ ಮತ್ತು ಆಸಕ್ತಿದಾಯಕವಾಗಿವೆ! ಇಲ್ಲಿ ನೀವು ಡೇಟಾ ವಿಶ್ಲೇಷಣೆಯಲ್ಲಿ ಕೌಶಲ್ಯಗಳ ಬಳಕೆಯನ್ನು ಕಾಣಬಹುದು, ಮತ್ತು ಕುತಂತ್ರ ಮಾದರಿಗಳು ಮತ್ತು ತಂತ್ರಗಳಲ್ಲಿ, ಮತ್ತು ಸರಳವಾಗಿ ಸಾಮಾನ್ಯ ಅರ್ಥದಲ್ಲಿ ಸ್ವಾಗತಾರ್ಹ.
ML ಈಗಾಗಲೇ ಘಾತೀಯವಾಗಿ ಬೆಳೆಯುತ್ತಿರುವಂತೆ ತೋರುವ ಜ್ಞಾನದ ಒಂದು ದೊಡ್ಡ ದೇಹವಾಗಿದೆ. ವಿವಿಧ ಕ್ಷೇತ್ರಗಳೊಂದಿಗೆ (ಸಿಗ್ನಲ್ಗಳು, ಚಿತ್ರಗಳು, ಕೋಷ್ಟಕಗಳು, ಪಠ್ಯ) ಪರಿಚಯ ಮಾಡಿಕೊಳ್ಳಲು ನಾನು ಗುರಿಯನ್ನು ಹೊಂದಿದ್ದೇನೆ ಮತ್ತು ಅಧ್ಯಯನ ಮಾಡಲು ಎಷ್ಟು ಇದೆ ಎಂದು ಈಗಾಗಲೇ ಅರಿತುಕೊಂಡೆ. ಉದಾಹರಣೆಗೆ, ಈ ಸ್ಪರ್ಧೆಗಳ ನಂತರ ನಾನು ಅಧ್ಯಯನ ಮಾಡಲು ನಿರ್ಧರಿಸಿದೆ: ಕ್ಲಸ್ಟರಿಂಗ್ ಅಲ್ಗಾರಿದಮ್ಗಳು, ಗ್ರೇಡಿಯಂಟ್ ಬೂಸ್ಟಿಂಗ್ ಲೈಬ್ರರಿಗಳೊಂದಿಗೆ ಕೆಲಸ ಮಾಡಲು ಸುಧಾರಿತ ತಂತ್ರಗಳು (ನಿರ್ದಿಷ್ಟವಾಗಿ, GPU ನಲ್ಲಿ ಕ್ಯಾಟ್ಬೂಸ್ಟ್ನೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುವುದು), ಕ್ಯಾಪ್ಸುಲ್ ನೆಟ್ವರ್ಕ್ಗಳು, ಪ್ರಶ್ನೆ-ಕೀ-ಮೌಲ್ಯ ಗಮನ ಕಾರ್ಯವಿಧಾನ.
ಬರೀ ಕಗ್ಗಿನಿಂದ ಅಲ್ಲ! ಅನೇಕ ಇತರ ಸ್ಪರ್ಧೆಗಳಿವೆ, ಅಲ್ಲಿ ಕನಿಷ್ಠ ಟಿ-ಶರ್ಟ್ ಅನ್ನು ಪಡೆಯುವುದು ಸುಲಭ, ಮತ್ತು ಇತರ ಬಹುಮಾನಗಳಿಗೆ ಹೆಚ್ಚಿನ ಅವಕಾಶಗಳಿವೆ.
ಸಂವಹನ! ಯಂತ್ರ ಕಲಿಕೆ ಮತ್ತು ಡೇಟಾ ವಿಶ್ಲೇಷಣೆ ಕ್ಷೇತ್ರದಲ್ಲಿ ಈಗಾಗಲೇ ದೊಡ್ಡ ಸಮುದಾಯವಿದೆ, Mail.ru, Yandex ಮತ್ತು ಇತರ ಕಂಪನಿಗಳಿಂದ ಟೆಲಿಗ್ರಾಮ್, ಸ್ಲಾಕ್ ಮತ್ತು ಗಂಭೀರ ವ್ಯಕ್ತಿಗಳಲ್ಲಿ ವಿಷಯಾಧಾರಿತ ಗುಂಪುಗಳಿವೆ ಪ್ರಶ್ನೆಗಳಿಗೆ ಉತ್ತರಿಸಲು ಮತ್ತು ಆರಂಭಿಕರಿಗೆ ಮತ್ತು ಈ ಕ್ಷೇತ್ರದಲ್ಲಿ ತಮ್ಮ ಹಾದಿಯನ್ನು ಮುಂದುವರಿಸುವವರಿಗೆ ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಜ್ಞಾನದ.
ಹಿಂದಿನ ಅಂಶದಿಂದ ಸ್ಫೂರ್ತಿ ಪಡೆದ ಎಲ್ಲರಿಗೂ ಭೇಟಿ ನೀಡಲು ನಾನು ಸಲಹೆ ನೀಡುತ್ತೇನೆ ಡೇಟಾಫೆಸ್ಟ್ - ಮಾಸ್ಕೋದಲ್ಲಿ ಒಂದು ಪ್ರಮುಖ ಉಚಿತ ಸಮ್ಮೇಳನ, ಇದು ಮೇ 10-11 ರಂದು ನಡೆಯುತ್ತದೆ.