ಸೈಟ್‌ನಲ್ಲಿ ಒಳನುಗ್ಗುವವರನ್ನು ಎದುರಿಸಲು ಸ್ವಯಂಚಾಲಿತ ವ್ಯವಸ್ಥೆಯನ್ನು ರಚಿಸುವುದು (ವಂಚನೆ)

ಕಳೆದ ಆರು ತಿಂಗಳಿನಿಂದ, ನಾನು ಯಾವುದೇ ಆರಂಭಿಕ ಮೂಲಸೌಕರ್ಯವಿಲ್ಲದೆ ವಂಚನೆ (ಮೋಸದ ಚಟುವಟಿಕೆ, ವಂಚನೆ, ಇತ್ಯಾದಿ) ವಿರುದ್ಧ ಹೋರಾಡುವ ವ್ಯವಸ್ಥೆಯನ್ನು ರಚಿಸುತ್ತಿದ್ದೇನೆ. ನಮ್ಮ ವ್ಯವಸ್ಥೆಯಲ್ಲಿ ನಾವು ಕಂಡುಕೊಂಡ ಮತ್ತು ಕಾರ್ಯಗತಗೊಳಿಸಿದ ಇಂದಿನ ಆಲೋಚನೆಗಳು ಅನೇಕ ಮೋಸದ ಚಟುವಟಿಕೆಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಲು ಮತ್ತು ವಿಶ್ಲೇಷಿಸಲು ನಮಗೆ ಸಹಾಯ ಮಾಡುತ್ತದೆ. ಈ ಲೇಖನದಲ್ಲಿ, ನಾವು ಅನುಸರಿಸಿದ ತತ್ವಗಳ ಬಗ್ಗೆ ಮಾತನಾಡಲು ನಾನು ಬಯಸುತ್ತೇನೆ ಮತ್ತು ನಮ್ಮ ವ್ಯವಸ್ಥೆಯ ಪ್ರಸ್ತುತ ಸ್ಥಿತಿಯನ್ನು ಸಾಧಿಸಲು ನಾವು ಏನು ಮಾಡಿದ್ದೇವೆ, ತಾಂತ್ರಿಕ ಭಾಗವನ್ನು ಪರಿಶೀಲಿಸದೆ.

ನಮ್ಮ ವ್ಯವಸ್ಥೆಯ ತತ್ವಗಳು

"ಸ್ವಯಂಚಾಲಿತ" ಮತ್ತು "ವಂಚನೆ" ಯಂತಹ ಪದಗಳನ್ನು ನೀವು ಕೇಳಿದಾಗ ನೀವು ಹೆಚ್ಚಾಗಿ ಯಂತ್ರ ಕಲಿಕೆ, ಅಪಾಚೆ ಸ್ಪಾರ್ಕ್, ಹಡೂಪ್, ಪೈಥಾನ್, ಏರ್‌ಫ್ಲೋ ಮತ್ತು ಅಪಾಚೆ ಫೌಂಡೇಶನ್ ಪರಿಸರ ವ್ಯವಸ್ಥೆ ಮತ್ತು ಡೇಟಾ ಸೈನ್ಸ್ ಕ್ಷೇತ್ರದಲ್ಲಿ ಇತರ ತಂತ್ರಜ್ಞಾನಗಳ ಬಗ್ಗೆ ಯೋಚಿಸಲು ಪ್ರಾರಂಭಿಸುತ್ತೀರಿ. ಈ ಪರಿಕರಗಳನ್ನು ಸಾಮಾನ್ಯವಾಗಿ ಉಲ್ಲೇಖಿಸದಿರುವ ಒಂದು ಅಂಶವಿದೆ ಎಂದು ನಾನು ಭಾವಿಸುತ್ತೇನೆ: ನೀವು ಅವುಗಳನ್ನು ಬಳಸುವ ಮೊದಲು ನಿಮ್ಮ ಎಂಟರ್‌ಪ್ರೈಸ್ ಸಿಸ್ಟಮ್‌ನಲ್ಲಿ ಕೆಲವು ಪೂರ್ವಾಪೇಕ್ಷಿತಗಳು ಇರಬೇಕಾಗುತ್ತದೆ. ಸಂಕ್ಷಿಪ್ತವಾಗಿ, ಡೇಟಾ ಲೇಕ್ ಮತ್ತು ಸಂಗ್ರಹಣೆಯನ್ನು ಒಳಗೊಂಡಿರುವ ಎಂಟರ್‌ಪ್ರೈಸ್ ಡೇಟಾ ಪ್ಲಾಟ್‌ಫಾರ್ಮ್ ನಿಮಗೆ ಅಗತ್ಯವಿದೆ. ಆದರೆ ನೀವು ಅಂತಹ ವೇದಿಕೆಯನ್ನು ಹೊಂದಿಲ್ಲದಿದ್ದರೆ ಮತ್ತು ಇನ್ನೂ ಈ ಅಭ್ಯಾಸವನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಬೇಕಾದರೆ ಏನು? ನಾನು ಕೆಳಗೆ ವಿವರಿಸುವ ಈ ಕೆಳಗಿನ ತತ್ವಗಳು, ಕೆಲಸ ಮಾಡುವ ಒಂದನ್ನು ಕಂಡುಹಿಡಿಯುವುದಕ್ಕಿಂತ ಹೆಚ್ಚಾಗಿ ನಮ್ಮ ಆಲೋಚನೆಗಳನ್ನು ಸುಧಾರಿಸುವಲ್ಲಿ ನಾವು ಗಮನಹರಿಸಬಹುದಾದ ಹಂತಕ್ಕೆ ಹೋಗಲು ನಮಗೆ ಸಹಾಯ ಮಾಡಿದೆ. ಆದಾಗ್ಯೂ, ಇದು ಯೋಜನೆಯ "ಪ್ರಸ್ಥಭೂಮಿ" ಅಲ್ಲ. ತಾಂತ್ರಿಕ ಮತ್ತು ಉತ್ಪನ್ನದ ದೃಷ್ಟಿಕೋನದಿಂದ ಯೋಜನೆಯಲ್ಲಿ ಇನ್ನೂ ಹಲವು ವಿಷಯಗಳಿವೆ.

ತತ್ವ 1: ವ್ಯಾಪಾರ ಮೌಲ್ಯ ಮೊದಲು

ನಮ್ಮ ಎಲ್ಲಾ ಪ್ರಯತ್ನಗಳಲ್ಲಿ ನಾವು "ವ್ಯಾಪಾರ ಮೌಲ್ಯ" ವನ್ನು ಮುಂಚೂಣಿಯಲ್ಲಿ ಇಡುತ್ತೇವೆ. ಸಾಮಾನ್ಯವಾಗಿ, ಯಾವುದೇ ಸ್ವಯಂಚಾಲಿತ ವಿಶ್ಲೇಷಣಾ ವ್ಯವಸ್ಥೆಯು ಉನ್ನತ ಮಟ್ಟದ ಯಾಂತ್ರೀಕೃತಗೊಂಡ ಮತ್ತು ತಾಂತ್ರಿಕ ಸಂಕೀರ್ಣತೆಯನ್ನು ಹೊಂದಿರುವ ಸಂಕೀರ್ಣ ವ್ಯವಸ್ಥೆಗಳ ಗುಂಪಿಗೆ ಸೇರಿದೆ. ನೀವು ಅದನ್ನು ಮೊದಲಿನಿಂದ ರಚಿಸಿದರೆ ಸಂಪೂರ್ಣ ಪರಿಹಾರವನ್ನು ರಚಿಸುವುದು ಸಾಕಷ್ಟು ಸಮಯ ತೆಗೆದುಕೊಳ್ಳುತ್ತದೆ. ನಾವು ವ್ಯವಹಾರದ ಮೌಲ್ಯವನ್ನು ಮೊದಲು ಮತ್ತು ತಾಂತ್ರಿಕ ಪರಿಪಕ್ವತೆಯನ್ನು ಎರಡನೆಯದಾಗಿ ಇರಿಸಲು ನಿರ್ಧರಿಸಿದ್ದೇವೆ. ನಿಜ ಜೀವನದಲ್ಲಿ, ನಾವು ಸುಧಾರಿತ ತಂತ್ರಜ್ಞಾನವನ್ನು ಸಿದ್ಧಾಂತವಾಗಿ ಸ್ವೀಕರಿಸುವುದಿಲ್ಲ ಎಂದರ್ಥ. ಈ ಸಮಯದಲ್ಲಿ ನಮಗೆ ಉತ್ತಮವಾಗಿ ಕಾರ್ಯನಿರ್ವಹಿಸುವ ತಂತ್ರಜ್ಞಾನವನ್ನು ನಾವು ಆಯ್ಕೆ ಮಾಡುತ್ತೇವೆ. ಕಾಲಾನಂತರದಲ್ಲಿ, ನಾವು ಕೆಲವು ಮಾಡ್ಯೂಲ್‌ಗಳನ್ನು ಪುನಃ ಕಾರ್ಯಗತಗೊಳಿಸಬೇಕಾಗಿದೆ ಎಂದು ತೋರುತ್ತದೆ. ಇದು ನಾವು ಒಪ್ಪಿಕೊಂಡ ರಾಜಿ.

ತತ್ವ 2: ವರ್ಧಿತ ಬುದ್ಧಿಮತ್ತೆ

ಯಂತ್ರ ಕಲಿಕೆಯ ಪರಿಹಾರಗಳನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುವಲ್ಲಿ ಆಳವಾಗಿ ತೊಡಗಿಸಿಕೊಂಡಿರದ ಹೆಚ್ಚಿನ ಜನರು ಮಾನವ ಬದಲಿ ಗುರಿ ಎಂದು ಭಾವಿಸಬಹುದು ಎಂದು ನಾನು ಬಾಜಿ ಮಾಡುತ್ತೇನೆ. ವಾಸ್ತವವಾಗಿ, ಯಂತ್ರ ಕಲಿಕೆಯ ಪರಿಹಾರಗಳು ಪರಿಪೂರ್ಣತೆಯಿಂದ ದೂರವಿದೆ ಮತ್ತು ಕೆಲವು ಪ್ರದೇಶಗಳಲ್ಲಿ ಮಾತ್ರ ಬದಲಿ ಸಾಧ್ಯ. ಹಲವಾರು ಕಾರಣಗಳಿಗಾಗಿ ನಾವು ಪ್ರಾರಂಭದಿಂದಲೂ ಈ ಕಲ್ಪನೆಯನ್ನು ಕೈಬಿಟ್ಟಿದ್ದೇವೆ: ಮೋಸದ ಚಟುವಟಿಕೆಯ ಅಸಮತೋಲಿತ ಡೇಟಾ ಮತ್ತು ಯಂತ್ರ ಕಲಿಕೆಯ ಮಾದರಿಗಳಿಗಾಗಿ ವೈಶಿಷ್ಟ್ಯಗಳ ಸಂಪೂರ್ಣ ಪಟ್ಟಿಯನ್ನು ಒದಗಿಸಲು ಅಸಮರ್ಥತೆ. ಇದಕ್ಕೆ ವಿರುದ್ಧವಾಗಿ, ನಾವು ವರ್ಧಿತ ಗುಪ್ತಚರ ಆಯ್ಕೆಯನ್ನು ಆರಿಸಿಕೊಂಡಿದ್ದೇವೆ. ಇದು ಕೃತಕ ಬುದ್ಧಿಮತ್ತೆಯ ಪರ್ಯಾಯ ಪರಿಕಲ್ಪನೆಯಾಗಿದ್ದು, ಇದು AI ಯ ಪೋಷಕ ಪಾತ್ರದ ಮೇಲೆ ಕೇಂದ್ರೀಕರಿಸುತ್ತದೆ, ಅರಿವಿನ ತಂತ್ರಜ್ಞಾನಗಳನ್ನು ಮಾನವ ಬುದ್ಧಿಮತ್ತೆಯನ್ನು ಹೆಚ್ಚಿಸಲು ವಿನ್ಯಾಸಗೊಳಿಸಲಾಗಿದೆಯೇ ಹೊರತು ಅದನ್ನು ಬದಲಿಸುವುದಿಲ್ಲ ಎಂಬ ಅಂಶವನ್ನು ಒತ್ತಿಹೇಳುತ್ತದೆ. [1]

ಇದನ್ನು ಗಮನದಲ್ಲಿಟ್ಟುಕೊಂಡು, ಪ್ರಾರಂಭದಿಂದಲೂ ಸಂಪೂರ್ಣ ಯಂತ್ರ ಕಲಿಕೆಯ ಪರಿಹಾರವನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸಲು ನಮ್ಮ ವ್ಯವಹಾರಕ್ಕೆ ಮೌಲ್ಯದ ರಚನೆಯನ್ನು ವಿಳಂಬಗೊಳಿಸುವ ದೊಡ್ಡ ಪ್ರಮಾಣದ ಪ್ರಯತ್ನದ ಅಗತ್ಯವಿರುತ್ತದೆ. ನಮ್ಮ ಡೊಮೇನ್ ತಜ್ಞರ ಮಾರ್ಗದರ್ಶನದ ಅಡಿಯಲ್ಲಿ ನಾವು ಪುನರಾವರ್ತಿತವಾಗಿ ಬೆಳೆಯುತ್ತಿರುವ ಯಂತ್ರ ಕಲಿಕೆಯ ಅಂಶದೊಂದಿಗೆ ವ್ಯವಸ್ಥೆಯನ್ನು ನಿರ್ಮಿಸಲು ನಿರ್ಧರಿಸಿದ್ದೇವೆ. ಅಂತಹ ವ್ಯವಸ್ಥೆಯನ್ನು ಅಭಿವೃದ್ಧಿಪಡಿಸುವ ಟ್ರಿಕಿ ಭಾಗವೆಂದರೆ ಅದು ನಮ್ಮ ವಿಶ್ಲೇಷಕರಿಗೆ ಇದು ಮೋಸದ ಚಟುವಟಿಕೆಯೇ ಅಥವಾ ಇಲ್ಲವೇ ಎಂಬ ವಿಷಯದಲ್ಲಿ ಮಾತ್ರವಲ್ಲದೆ ಕೇಸ್ ಸ್ಟಡೀಸ್ ಅನ್ನು ಒದಗಿಸಬೇಕು. ಸಾಮಾನ್ಯವಾಗಿ, ಗ್ರಾಹಕರ ನಡವಳಿಕೆಯಲ್ಲಿನ ಯಾವುದೇ ಅಸಂಗತತೆಯು ಅನುಮಾನಾಸ್ಪದ ಪ್ರಕರಣವಾಗಿದ್ದು, ತಜ್ಞರು ತನಿಖೆ ನಡೆಸಬೇಕು ಮತ್ತು ಹೇಗಾದರೂ ಪ್ರತಿಕ್ರಿಯಿಸಬೇಕು. ಈ ದಾಖಲಾದ ಕೆಲವು ಪ್ರಕರಣಗಳನ್ನು ಮಾತ್ರ ನಿಜವಾಗಿಯೂ ವಂಚನೆ ಎಂದು ವರ್ಗೀಕರಿಸಬಹುದು.

ತತ್ವ 3: ಶ್ರೀಮಂತ ಒಳನೋಟಗಳ ವೇದಿಕೆ

ನಮ್ಮ ಸಿಸ್ಟಂನ ಅತ್ಯಂತ ಕಷ್ಟಕರವಾದ ಭಾಗವೆಂದರೆ ಸಿಸ್ಟಂನ ಕೆಲಸದ ಹರಿವಿನ ಅಂತ್ಯದಿಂದ ಅಂತ್ಯದ ಪರಿಶೀಲನೆಯಾಗಿದೆ. ವಿಶ್ಲೇಷಕರು ಮತ್ತು ಡೆವಲಪರ್‌ಗಳು ವಿಶ್ಲೇಷಣೆಗಾಗಿ ಬಳಸಿದ ಎಲ್ಲಾ ಮೆಟ್ರಿಕ್‌ಗಳೊಂದಿಗೆ ಐತಿಹಾಸಿಕ ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ಸುಲಭವಾಗಿ ಪಡೆಯಬೇಕು. ಹೆಚ್ಚುವರಿಯಾಗಿ, ಡೇಟಾ ಪ್ಲಾಟ್‌ಫಾರ್ಮ್ ಹೊಸದರೊಂದಿಗೆ ಅಸ್ತಿತ್ವದಲ್ಲಿರುವ ಸೂಚಕಗಳ ಗುಂಪನ್ನು ಪೂರೈಸಲು ಸುಲಭವಾದ ಮಾರ್ಗವನ್ನು ಒದಗಿಸಬೇಕು. ನಾವು ರಚಿಸುವ ಪ್ರಕ್ರಿಯೆಗಳು ಮತ್ತು ಇವುಗಳು ಕೇವಲ ಸಾಫ್ಟ್‌ವೇರ್ ಪ್ರಕ್ರಿಯೆಗಳಲ್ಲ, ಹಿಂದಿನ ಅವಧಿಗಳನ್ನು ಮರು ಲೆಕ್ಕಾಚಾರ ಮಾಡುವುದು, ಹೊಸ ಮೆಟ್ರಿಕ್‌ಗಳನ್ನು ಸೇರಿಸುವುದು ಮತ್ತು ಡೇಟಾ ಮುನ್ಸೂಚನೆಯನ್ನು ಬದಲಾಯಿಸುವುದು ಸುಲಭವಾಗುತ್ತದೆ. ನಮ್ಮ ಉತ್ಪಾದನಾ ವ್ಯವಸ್ಥೆಯು ಉತ್ಪಾದಿಸುವ ಎಲ್ಲಾ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸುವ ಮೂಲಕ ನಾವು ಇದನ್ನು ಸಾಧಿಸಬಹುದು. ಅಂತಹ ಸಂದರ್ಭದಲ್ಲಿ, ಡೇಟಾ ಕ್ರಮೇಣ ಅಡಚಣೆಯಾಗುತ್ತದೆ. ನಾವು ಬಳಸದ ಹೆಚ್ಚುತ್ತಿರುವ ಡೇಟಾವನ್ನು ನಾವು ಸಂಗ್ರಹಿಸಬೇಕು ಮತ್ತು ಅದನ್ನು ರಕ್ಷಿಸಬೇಕು. ಅಂತಹ ಸನ್ನಿವೇಶದಲ್ಲಿ, ಡೇಟಾವು ಕಾಲಾನಂತರದಲ್ಲಿ ಹೆಚ್ಚು ಹೆಚ್ಚು ಅಪ್ರಸ್ತುತವಾಗುತ್ತದೆ, ಆದರೆ ಅದನ್ನು ನಿರ್ವಹಿಸಲು ನಮ್ಮ ಪ್ರಯತ್ನಗಳು ಇನ್ನೂ ಅಗತ್ಯವಿದೆ. ನಮಗೆ, ಡೇಟಾ ಸಂಗ್ರಹಣೆಯಲ್ಲಿ ಅರ್ಥವಿಲ್ಲ, ಮತ್ತು ನಾವು ಬೇರೆ ವಿಧಾನವನ್ನು ಬಳಸಲು ನಿರ್ಧರಿಸಿದ್ದೇವೆ. ನಾವು ವರ್ಗೀಕರಿಸಲು ಬಯಸುವ ಗುರಿ ಘಟಕಗಳ ಸುತ್ತ ನೈಜ-ಸಮಯದ ಡೇಟಾ ಗೋದಾಮುಗಳನ್ನು ಆಯೋಜಿಸಲು ನಾವು ನಿರ್ಧರಿಸಿದ್ದೇವೆ ಮತ್ತು ಇತ್ತೀಚಿನ ಮತ್ತು ನವೀಕೃತ ಅವಧಿಗಳನ್ನು ಪರಿಶೀಲಿಸಲು ನಮಗೆ ಅನುಮತಿಸುವ ಡೇಟಾವನ್ನು ಮಾತ್ರ ಸಂಗ್ರಹಿಸುತ್ತೇವೆ. ಈ ಪ್ರಯತ್ನದ ಸವಾಲು ಏನೆಂದರೆ, ನಮ್ಮ ಸಿಸ್ಟಮ್ ಬಹು ಡೇಟಾ ಸ್ಟೋರ್‌ಗಳು ಮತ್ತು ಸಾಫ್ಟ್‌ವೇರ್ ಮಾಡ್ಯೂಲ್‌ಗಳೊಂದಿಗೆ ಭಿನ್ನಜಾತಿಯಾಗಿದೆ, ಇದು ಸ್ಥಿರವಾದ ರೀತಿಯಲ್ಲಿ ಕೆಲಸ ಮಾಡಲು ಎಚ್ಚರಿಕೆಯ ಯೋಜನೆ ಅಗತ್ಯವಿರುತ್ತದೆ.

ನಮ್ಮ ವ್ಯವಸ್ಥೆಯ ವಿನ್ಯಾಸ ಪರಿಕಲ್ಪನೆಗಳು

ನಮ್ಮ ಸಿಸ್ಟಂನಲ್ಲಿ ನಾವು ನಾಲ್ಕು ಮುಖ್ಯ ಅಂಶಗಳನ್ನು ಹೊಂದಿದ್ದೇವೆ: ಇಂಜೆಶನ್ ಸಿಸ್ಟಮ್, ಕಂಪ್ಯೂಟೇಶನಲ್ ಸಿಸ್ಟಮ್, ಬಿಐ ವಿಶ್ಲೇಷಣೆ ಮತ್ತು ಟ್ರ್ಯಾಕಿಂಗ್ ಸಿಸ್ಟಮ್. ಅವರು ನಿರ್ದಿಷ್ಟವಾದ ಪ್ರತ್ಯೇಕ ಉದ್ದೇಶಗಳನ್ನು ಪೂರೈಸುತ್ತಾರೆ ಮತ್ತು ಕೆಲವು ಅಭಿವೃದ್ಧಿ ವಿಧಾನಗಳನ್ನು ಅನುಸರಿಸುವ ಮೂಲಕ ನಾವು ಅವುಗಳನ್ನು ಪ್ರತ್ಯೇಕಿಸುತ್ತೇವೆ.

ಸೈಟ್‌ನಲ್ಲಿ ಒಳನುಗ್ಗುವವರನ್ನು ಎದುರಿಸಲು ಸ್ವಯಂಚಾಲಿತ ವ್ಯವಸ್ಥೆಯನ್ನು ರಚಿಸುವುದು (ವಂಚನೆ)

ಒಪ್ಪಂದ ಆಧಾರಿತ ವಿನ್ಯಾಸ

ಮೊದಲನೆಯದಾಗಿ, ಘಟಕಗಳು ಅವುಗಳ ನಡುವೆ ಹಾದುಹೋಗುವ ಕೆಲವು ಡೇಟಾ ರಚನೆಗಳನ್ನು (ಒಪ್ಪಂದಗಳು) ಮಾತ್ರ ಅವಲಂಬಿಸಬೇಕೆಂದು ನಾವು ಒಪ್ಪಿಕೊಂಡಿದ್ದೇವೆ. ಇದು ಅವುಗಳ ನಡುವೆ ಸಂಯೋಜಿಸಲು ಸುಲಭಗೊಳಿಸುತ್ತದೆ ಮತ್ತು ಘಟಕಗಳ ನಿರ್ದಿಷ್ಟ ಸಂಯೋಜನೆಯನ್ನು (ಮತ್ತು ಕ್ರಮವನ್ನು) ವಿಧಿಸುವುದಿಲ್ಲ. ಉದಾಹರಣೆಗೆ, ಕೆಲವು ಸಂದರ್ಭಗಳಲ್ಲಿ ಇದು ಸ್ವೀಕರಿಸುವ ವ್ಯವಸ್ಥೆಯನ್ನು ಎಚ್ಚರಿಕೆಯ ಟ್ರ್ಯಾಕಿಂಗ್ ಸಿಸ್ಟಮ್‌ನೊಂದಿಗೆ ನೇರವಾಗಿ ಸಂಯೋಜಿಸಲು ನಮಗೆ ಅನುಮತಿಸುತ್ತದೆ. ಅಂತಹ ಸಂದರ್ಭದಲ್ಲಿ, ಒಪ್ಪಿದ ಅಧಿಸೂಚನೆ ಒಪ್ಪಂದದ ಪ್ರಕಾರ ಇದನ್ನು ಮಾಡಲಾಗುತ್ತದೆ. ಇದರರ್ಥ ಯಾವುದೇ ಇತರ ಘಟಕಗಳನ್ನು ಬಳಸಬಹುದಾದ ಒಪ್ಪಂದವನ್ನು ಬಳಸಿಕೊಂಡು ಎರಡೂ ಘಟಕಗಳನ್ನು ಸಂಯೋಜಿಸಲಾಗುತ್ತದೆ. ಇನ್‌ಪುಟ್ ಸಿಸ್ಟಮ್‌ನಿಂದ ಟ್ರ್ಯಾಕಿಂಗ್ ಸಿಸ್ಟಮ್‌ಗೆ ಎಚ್ಚರಿಕೆಗಳನ್ನು ಸೇರಿಸಲು ನಾವು ಹೆಚ್ಚುವರಿ ಒಪ್ಪಂದವನ್ನು ಸೇರಿಸುವುದಿಲ್ಲ. ಈ ವಿಧಾನವು ಪೂರ್ವನಿರ್ಧರಿತ ಕನಿಷ್ಠ ಸಂಖ್ಯೆಯ ಒಪ್ಪಂದಗಳ ಬಳಕೆಯನ್ನು ಬಯಸುತ್ತದೆ ಮತ್ತು ವ್ಯವಸ್ಥೆ ಮತ್ತು ಸಂವಹನಗಳನ್ನು ಸರಳಗೊಳಿಸುತ್ತದೆ. ಮೂಲಭೂತವಾಗಿ, ನಾವು "ಕಾಂಟ್ರಾಕ್ಟ್ ಫಸ್ಟ್ ಡಿಸೈನ್" ಎಂಬ ವಿಧಾನವನ್ನು ತೆಗೆದುಕೊಳ್ಳುತ್ತಿದ್ದೇವೆ ಮತ್ತು ಅದನ್ನು ಸ್ಟ್ರೀಮಿಂಗ್ ಒಪ್ಪಂದಗಳಿಗೆ ಅನ್ವಯಿಸುತ್ತೇವೆ. [2]

ಎಲ್ಲೆಡೆ ಸ್ಟ್ರೀಮಿಂಗ್

ವ್ಯವಸ್ಥೆಯಲ್ಲಿ ರಾಜ್ಯವನ್ನು ಉಳಿಸುವುದು ಮತ್ತು ನಿರ್ವಹಿಸುವುದು ಅನಿವಾರ್ಯವಾಗಿ ಅದರ ಅನುಷ್ಠಾನದಲ್ಲಿ ತೊಡಕುಗಳಿಗೆ ಕಾರಣವಾಗುತ್ತದೆ. ಸಾಮಾನ್ಯವಾಗಿ, ರಾಜ್ಯವು ಯಾವುದೇ ಘಟಕದಿಂದ ಪ್ರವೇಶಿಸಬಹುದಾದಂತಿರಬೇಕು, ಅದು ಸ್ಥಿರವಾಗಿರಬೇಕು ಮತ್ತು ಎಲ್ಲಾ ಘಟಕಗಳಾದ್ಯಂತ ಅತ್ಯಂತ ನವೀಕೃತ ಮೌಲ್ಯವನ್ನು ಒದಗಿಸಬೇಕು ಮತ್ತು ಸರಿಯಾದ ಮೌಲ್ಯಗಳೊಂದಿಗೆ ವಿಶ್ವಾಸಾರ್ಹವಾಗಿರಬೇಕು. ಹೆಚ್ಚುವರಿಯಾಗಿ, ಇತ್ತೀಚಿನ ಸ್ಥಿತಿಯನ್ನು ಪಡೆಯಲು ನಿರಂತರ ಸಂಗ್ರಹಣೆಗೆ ಕರೆಗಳನ್ನು ಹೊಂದಿರುವ I/O ಪ್ರಮಾಣವು ಮತ್ತು ನಮ್ಮ ನೈಜ-ಸಮಯದ ಪೈಪ್‌ಲೈನ್‌ಗಳಲ್ಲಿ ಬಳಸುವ ಅಲ್ಗಾರಿದಮ್‌ಗಳ ಸಂಕೀರ್ಣತೆಯನ್ನು ಹೆಚ್ಚಿಸುತ್ತದೆ. ಈ ಕಾರಣದಿಂದಾಗಿ, ಸಾಧ್ಯವಾದರೆ, ನಮ್ಮ ಸಿಸ್ಟಂನಿಂದ ಸಂಪೂರ್ಣವಾಗಿ ರಾಜ್ಯದ ಸಂಗ್ರಹಣೆಯನ್ನು ತೆಗೆದುಹಾಕಲು ನಾವು ನಿರ್ಧರಿಸಿದ್ದೇವೆ. ಈ ವಿಧಾನವು ಎಲ್ಲಾ ಅಗತ್ಯ ಡೇಟಾವನ್ನು ರವಾನಿಸಿದ ಡೇಟಾ ಘಟಕದಲ್ಲಿ (ಸಂದೇಶ) ಸೇರಿಸುವ ಅಗತ್ಯವಿದೆ. ಉದಾಹರಣೆಗೆ, ನಾವು ಕೆಲವು ಅವಲೋಕನಗಳ ಒಟ್ಟು ಸಂಖ್ಯೆಯನ್ನು (ಕೆಲವು ಗುಣಲಕ್ಷಣಗಳೊಂದಿಗೆ ಕಾರ್ಯಾಚರಣೆಗಳು ಅಥವಾ ಪ್ರಕರಣಗಳ ಸಂಖ್ಯೆ) ಲೆಕ್ಕಾಚಾರ ಮಾಡಬೇಕಾದರೆ, ನಾವು ಅದನ್ನು ಮೆಮೊರಿಯಲ್ಲಿ ಲೆಕ್ಕ ಹಾಕುತ್ತೇವೆ ಮತ್ತು ಅಂತಹ ಮೌಲ್ಯಗಳ ಸ್ಟ್ರೀಮ್ ಅನ್ನು ರಚಿಸುತ್ತೇವೆ. ಅವಲಂಬಿತ ಮಾಡ್ಯೂಲ್‌ಗಳು ಸ್ಟ್ರೀಮ್ ಅನ್ನು ಘಟಕಗಳ ಮೂಲಕ ವಿಭಜಿಸಲು ಮತ್ತು ಇತ್ತೀಚಿನ ಮೌಲ್ಯಗಳ ಮೇಲೆ ಕಾರ್ಯನಿರ್ವಹಿಸಲು ವಿಭಜನೆ ಮತ್ತು ಬ್ಯಾಚಿಂಗ್ ಅನ್ನು ಬಳಸುತ್ತವೆ. ಈ ವಿಧಾನವು ಅಂತಹ ಡೇಟಾಕ್ಕಾಗಿ ನಿರಂತರವಾದ ಡಿಸ್ಕ್ ಸಂಗ್ರಹಣೆಯ ಅಗತ್ಯವನ್ನು ತೆಗೆದುಹಾಕುತ್ತದೆ. ನಮ್ಮ ಸಿಸ್ಟಮ್ ಕಾಫ್ಕಾವನ್ನು ಸಂದೇಶ ಬ್ರೋಕರ್ ಆಗಿ ಬಳಸುತ್ತದೆ ಮತ್ತು ಅದನ್ನು KSQL ನೊಂದಿಗೆ ಡೇಟಾಬೇಸ್ ಆಗಿ ಬಳಸಬಹುದು. [3] ಆದರೆ ಅದನ್ನು ಬಳಸುವುದರಿಂದ ನಮ್ಮ ಪರಿಹಾರವನ್ನು ಕಾಫ್ಕಾಗೆ ಬಲವಾಗಿ ಜೋಡಿಸಬಹುದು ಮತ್ತು ನಾವು ಅದನ್ನು ಬಳಸದಿರಲು ನಿರ್ಧರಿಸಿದ್ದೇವೆ. ನಾವು ಆಯ್ಕೆಮಾಡಿದ ವಿಧಾನವು ಕಾಫ್ಕಾವನ್ನು ಮತ್ತೊಂದು ಸಂದೇಶ ಬ್ರೋಕರ್ನೊಂದಿಗೆ ಸಿಸ್ಟಮ್ಗೆ ಪ್ರಮುಖ ಆಂತರಿಕ ಬದಲಾವಣೆಗಳಿಲ್ಲದೆ ಬದಲಾಯಿಸಲು ನಮಗೆ ಅನುಮತಿಸುತ್ತದೆ.

ಈ ಪರಿಕಲ್ಪನೆಯು ನಾವು ಡಿಸ್ಕ್ ಸಂಗ್ರಹಣೆ ಮತ್ತು ಡೇಟಾಬೇಸ್‌ಗಳನ್ನು ಬಳಸುವುದಿಲ್ಲ ಎಂದು ಅರ್ಥವಲ್ಲ. ಸಿಸ್ಟಮ್ನ ಕಾರ್ಯಕ್ಷಮತೆಯನ್ನು ಪರಿಶೀಲಿಸಲು ಮತ್ತು ವಿಶ್ಲೇಷಿಸಲು, ನಾವು ಡಿಸ್ಕ್ನಲ್ಲಿ ಗಮನಾರ್ಹ ಪ್ರಮಾಣದ ಡೇಟಾವನ್ನು ಸಂಗ್ರಹಿಸಬೇಕಾಗಿದೆ, ಇದು ವಿವಿಧ ಸೂಚಕಗಳು ಮತ್ತು ರಾಜ್ಯಗಳನ್ನು ಪ್ರತಿನಿಧಿಸುತ್ತದೆ. ಇಲ್ಲಿ ಪ್ರಮುಖ ಅಂಶವೆಂದರೆ ನೈಜ-ಸಮಯದ ಅಲ್ಗಾರಿದಮ್‌ಗಳು ಅಂತಹ ಡೇಟಾವನ್ನು ಅವಲಂಬಿಸಿಲ್ಲ. ಹೆಚ್ಚಿನ ಸಂದರ್ಭಗಳಲ್ಲಿ, ಸಿಸ್ಟಮ್ ಉತ್ಪಾದಿಸುವ ನಿರ್ದಿಷ್ಟ ಪ್ರಕರಣಗಳು ಮತ್ತು ಫಲಿತಾಂಶಗಳ ಆಫ್‌ಲೈನ್ ವಿಶ್ಲೇಷಣೆ, ಡೀಬಗ್ ಮಾಡುವಿಕೆ ಮತ್ತು ಟ್ರ್ಯಾಕಿಂಗ್‌ಗಾಗಿ ನಾವು ಉಳಿಸಿದ ಡೇಟಾವನ್ನು ಬಳಸುತ್ತೇವೆ.

ನಮ್ಮ ವ್ಯವಸ್ಥೆಯಲ್ಲಿನ ತೊಂದರೆಗಳು

ನಾವು ಒಂದು ನಿರ್ದಿಷ್ಟ ಮಟ್ಟಕ್ಕೆ ಪರಿಹರಿಸಿದ ಕೆಲವು ಸಮಸ್ಯೆಗಳಿವೆ, ಆದರೆ ಅವುಗಳಿಗೆ ಹೆಚ್ಚು ಚಿಂತನಶೀಲ ಪರಿಹಾರಗಳು ಬೇಕಾಗುತ್ತವೆ. ಸದ್ಯಕ್ಕೆ, ನಾನು ಅವುಗಳನ್ನು ಇಲ್ಲಿ ಉಲ್ಲೇಖಿಸಲು ಬಯಸುತ್ತೇನೆ, ಏಕೆಂದರೆ ಪ್ರತಿಯೊಂದು ಐಟಂ ತನ್ನದೇ ಆದ ಲೇಖನಕ್ಕೆ ಯೋಗ್ಯವಾಗಿದೆ.

  • ನಮ್ಮ ಸ್ವಯಂಚಾಲಿತ ವಿಶ್ಲೇಷಣೆ, ಅನ್ವೇಷಣೆ ಮತ್ತು ಡೇಟಾ ಅನ್ವೇಷಣೆಗಾಗಿ ಅರ್ಥಪೂರ್ಣ ಮತ್ತು ಸಂಬಂಧಿತ ಡೇಟಾವನ್ನು ರಚಿಸಲು ಸಹಾಯ ಮಾಡುವ ಪ್ರಕ್ರಿಯೆಗಳು ಮತ್ತು ನೀತಿಗಳನ್ನು ನಾವು ಇನ್ನೂ ವ್ಯಾಖ್ಯಾನಿಸಬೇಕಾಗಿದೆ.
  • ಇತ್ತೀಚಿನ ಡೇಟಾದೊಂದಿಗೆ ಅದನ್ನು ನವೀಕರಿಸಲು ಸಿಸ್ಟಮ್ ಅನ್ನು ಸ್ವಯಂಚಾಲಿತವಾಗಿ ಟ್ಯೂನ್ ಮಾಡುವ ಪ್ರಕ್ರಿಯೆಯಲ್ಲಿ ವ್ಯಕ್ತಿಯ ವಿಶ್ಲೇಷಣೆಯ ಫಲಿತಾಂಶಗಳ ಪರಿಚಯ. ಇದು ನಮ್ಮ ಮಾದರಿಯ ನವೀಕರಣ ಮಾತ್ರವಲ್ಲ, ನಮ್ಮ ಪ್ರಕ್ರಿಯೆಗಳಿಗೆ ನವೀಕರಣ ಮತ್ತು ನಮ್ಮ ಡೇಟಾದ ಉತ್ತಮ ತಿಳುವಳಿಕೆಯಾಗಿದೆ.
  • IF-ELSE ಮತ್ತು ML ನ ನಿರ್ಣಾಯಕ ವಿಧಾನದ ನಡುವೆ ಸಮತೋಲನವನ್ನು ಕಂಡುಹಿಡಿಯುವುದು. ಯಾರೋ ಹೇಳಿದರು: "ML ಹತಾಶರಿಗೆ ಒಂದು ಸಾಧನವಾಗಿದೆ." ನಿಮ್ಮ ಅಲ್ಗಾರಿದಮ್‌ಗಳನ್ನು ಹೇಗೆ ಆಪ್ಟಿಮೈಜ್ ಮಾಡುವುದು ಮತ್ತು ಸುಧಾರಿಸುವುದು ಎಂಬುದನ್ನು ನೀವು ಇನ್ನು ಮುಂದೆ ಅರ್ಥಮಾಡಿಕೊಳ್ಳದಿರುವಾಗ ನೀವು ML ಅನ್ನು ಬಳಸಲು ಬಯಸುತ್ತೀರಿ ಎಂದರ್ಥ. ಮತ್ತೊಂದೆಡೆ, ನಿರ್ಣಾಯಕ ವಿಧಾನವು ಊಹಿಸದ ವೈಪರೀತ್ಯಗಳನ್ನು ಪತ್ತೆಹಚ್ಚಲು ಅನುಮತಿಸುವುದಿಲ್ಲ.
  • ಡೇಟಾದಲ್ಲಿನ ಮೆಟ್ರಿಕ್‌ಗಳ ನಡುವಿನ ನಮ್ಮ ಕಲ್ಪನೆಗಳು ಅಥವಾ ಪರಸ್ಪರ ಸಂಬಂಧಗಳನ್ನು ಪರೀಕ್ಷಿಸಲು ನಮಗೆ ಸುಲಭವಾದ ಮಾರ್ಗದ ಅಗತ್ಯವಿದೆ.
  • ಸಿಸ್ಟಮ್ ನಿಜವಾದ ಧನಾತ್ಮಕ ಫಲಿತಾಂಶಗಳ ಬಹು ಹಂತಗಳನ್ನು ಹೊಂದಿರಬೇಕು. ವಂಚನೆ ಪ್ರಕರಣಗಳು ವ್ಯವಸ್ಥೆಗೆ ಧನಾತ್ಮಕವಾಗಿ ಪರಿಗಣಿಸಬಹುದಾದ ಎಲ್ಲಾ ಪ್ರಕರಣಗಳ ಒಂದು ಭಾಗ ಮಾತ್ರ. ಉದಾಹರಣೆಗೆ, ವಿಶ್ಲೇಷಕರು ಎಲ್ಲಾ ಅನುಮಾನಾಸ್ಪದ ಪ್ರಕರಣಗಳನ್ನು ಪರಿಶೀಲನೆಗಾಗಿ ಸ್ವೀಕರಿಸಲು ಬಯಸುತ್ತಾರೆ ಮತ್ತು ಅವುಗಳಲ್ಲಿ ಒಂದು ಸಣ್ಣ ಭಾಗ ಮಾತ್ರ ಮೋಸವಾಗಿದೆ. ವ್ಯವಸ್ಥೆಯು ವಿಶ್ಲೇಷಕರಿಗೆ ಎಲ್ಲಾ ಪ್ರಕರಣಗಳೊಂದಿಗೆ ಪರಿಣಾಮಕಾರಿಯಾಗಿ ಒದಗಿಸಬೇಕು, ಅದು ನಿಜವಾದ ವಂಚನೆ ಅಥವಾ ಕೇವಲ ಅನುಮಾನಾಸ್ಪದ ನಡವಳಿಕೆ.
  • ಡೇಟಾ ಪ್ಲಾಟ್‌ಫಾರ್ಮ್‌ಗೆ ಐತಿಹಾಸಿಕ ಡೇಟಾಸೆಟ್‌ಗಳನ್ನು ಹಿಂಪಡೆಯಲು ಸಾಧ್ಯವಾಗಬೇಕು ಮತ್ತು ಫ್ಲೈನಲ್ಲಿ ರಚಿಸಲಾದ ಮತ್ತು ಲೆಕ್ಕಾಚಾರ ಮಾಡಿದ ಲೆಕ್ಕಾಚಾರಗಳೊಂದಿಗೆ.
  • ಕನಿಷ್ಠ ಮೂರು ವಿಭಿನ್ನ ಪರಿಸರಗಳಲ್ಲಿ ಯಾವುದೇ ಸಿಸ್ಟಮ್ ಘಟಕಗಳ ಸರಳ ಮತ್ತು ಸ್ವಯಂಚಾಲಿತ ನಿಯೋಜನೆ: ಉತ್ಪಾದನೆ, ಪ್ರಾಯೋಗಿಕ (ಬೀಟಾ), ಮತ್ತು ಡೆವಲಪರ್‌ಗಳಿಗೆ.
  • ಮತ್ತು ಕೊನೆಯದು ಆದರೆ ಕನಿಷ್ಠವಲ್ಲ. ನಾವು ನಮ್ಮ ಮಾದರಿಗಳನ್ನು ವಿಶ್ಲೇಷಿಸಲು ವ್ಯಾಪಕವಾದ ಮಾನದಂಡದ ವೇದಿಕೆಯನ್ನು ರಚಿಸಬೇಕಾಗಿದೆ. [4]

ಉಲ್ಲೇಖಗಳು

  1. ಆಗ್ಮೆಂಟೆಡ್ ಇಂಟೆಲಿಜೆನ್ಸ್ ಎಂದರೇನು?
  2. API-ಮೊದಲ ವಿನ್ಯಾಸ ವಿಧಾನವನ್ನು ಅಳವಡಿಸುವುದು
  3. ಕಾಫ್ಕಾ "ಈವೆಂಟ್ ಸ್ಟ್ರೀಮಿಂಗ್ ಡೇಟಾಬೇಸ್" ಆಗಿ ರೂಪಾಂತರಗೊಳ್ಳುತ್ತಿದೆ
  4. AUC-ROC ಕರ್ವ್ ಅನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳುವುದು

ಮೂಲ: www.habr.com

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ