ಹ್ಯಾಬ್ರಾಸ್ಟ್ಯಾಟಿಸ್ಟಿಕ್ಸ್: ಓದುಗರ ಕಾಮೆಂಟ್‌ಗಳನ್ನು ವಿಶ್ಲೇಷಿಸುವುದು

ಹಲೋ ಹಬ್ರ್. IN ಹಿಂದಿನ ಭಾಗ ಸೈಟ್ನ ವಿವಿಧ ವಿಭಾಗಗಳ ಜನಪ್ರಿಯತೆಯನ್ನು ವಿಶ್ಲೇಷಿಸಲಾಗಿದೆ, ಮತ್ತು ಅದೇ ಸಮಯದಲ್ಲಿ ಪ್ರಶ್ನೆಯು ಹುಟ್ಟಿಕೊಂಡಿತು - ಲೇಖನಗಳ ಕಾಮೆಂಟ್ಗಳಿಂದ ಯಾವ ಡೇಟಾವನ್ನು ಹೊರತೆಗೆಯಬಹುದು. ನಾನು ಒಂದು ಊಹೆಯನ್ನು ಪರೀಕ್ಷಿಸಲು ಬಯಸುತ್ತೇನೆ, ಅದನ್ನು ನಾನು ಕೆಳಗೆ ಚರ್ಚಿಸುತ್ತೇನೆ.
ಹ್ಯಾಬ್ರಾಸ್ಟ್ಯಾಟಿಸ್ಟಿಕ್ಸ್: ಓದುಗರ ಕಾಮೆಂಟ್‌ಗಳನ್ನು ವಿಶ್ಲೇಷಿಸುವುದು

ಡೇಟಾವು ಸಾಕಷ್ಟು ಆಸಕ್ತಿದಾಯಕವಾಗಿದೆ; ನಾವು ವ್ಯಾಖ್ಯಾನಕಾರರ ಸಣ್ಣ "ಮಿನಿ-ರೇಟಿಂಗ್" ಅನ್ನು ರಚಿಸಲು ಸಹ ನಿರ್ವಹಿಸುತ್ತಿದ್ದೇವೆ. ಕಟ್ ಅಡಿಯಲ್ಲಿ ಮುಂದುವರೆಯಿತು.

ಮಾಹಿತಿ ಸಂಗ್ರಹ

ವಿಶ್ಲೇಷಣೆಗಾಗಿ, ನಾವು ಈ ವರ್ಷ, 2019 ರ ಡೇಟಾವನ್ನು ಬಳಸುತ್ತೇವೆ, ವಿಶೇಷವಾಗಿ ನಾನು ಈಗಾಗಲೇ csv ರೂಪದಲ್ಲಿ ಲೇಖನಗಳ ಪಟ್ಟಿಯನ್ನು ಸ್ವೀಕರಿಸಿದ್ದೇನೆ. ಪ್ರತಿ ಲೇಖನದಿಂದ ಕಾಮೆಂಟ್‌ಗಳನ್ನು ಹೊರತೆಗೆಯುವುದು ಮಾತ್ರ ಉಳಿದಿದೆ; ಅದೃಷ್ಟವಶಾತ್ ನಮಗೆ, ಅವುಗಳನ್ನು ಅಲ್ಲಿ ಸಂಗ್ರಹಿಸಲಾಗಿದೆ ಮತ್ತು ಯಾವುದೇ ಹೆಚ್ಚುವರಿ ವಿನಂತಿಗಳನ್ನು ಮಾಡಬೇಕಾಗಿಲ್ಲ.

ಲೇಖನದಿಂದ ಕಾಮೆಂಟ್‌ಗಳನ್ನು ಹೈಲೈಟ್ ಮಾಡಲು, ಈ ಕೆಳಗಿನ ಕೋಡ್ ಸಾಕು:

r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')

comments_list = []
for comment in comments:
    body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
    if len(body) < 4: continue

    body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
    body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace('  ', ' ')

    user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
    date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
    vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
    date = dateparser.parse(date_str)

    csv_data = "{},{},{},{}".format(user, date, vote, body)
    comments_list.append(csv_data)

ಈ ರೀತಿಯ ಕಾಮೆಂಟ್‌ಗಳ ಪಟ್ಟಿಯನ್ನು ಪಡೆಯಲು ಇದು ನಮಗೆ ಅನುಮತಿಸುತ್ತದೆ (ಗೌಪ್ಯತೆ ಕಾರಣಗಳಿಗಾಗಿ ಅಡ್ಡಹೆಸರುಗಳನ್ನು ತೆಗೆದುಹಾಕಲಾಗಿದೆ):

xxxxxxx,2019-02-06 11:50:00,0,А можно пример как именно?
xxxxxxx-02-24 16:15:00,+1,Побольше читайте независимые официальные источники чтобы таких вопросов не было.
xxxxxxx,2019-02-23 20:15:00,–5,А не важно главное в итоге в плюсе оказаться

ನೀವು ನೋಡುವಂತೆ, ಪ್ರತಿ ಕಾಮೆಂಟ್‌ಗೆ ನಾವು ಬಳಕೆದಾರರ ಹೆಸರು, ದಿನಾಂಕ, ರೇಟಿಂಗ್ ಮತ್ತು ನಿಜವಾದ ಪಠ್ಯವನ್ನು ಪಡೆಯಬಹುದು. ಇದರಿಂದ ನಾವು ಏನು ಪಡೆಯಬಹುದು ಎಂದು ನೋಡೋಣ.

ಅಂದಹಾಗೆ, ಆರಂಭದಲ್ಲಿ, ರೇಟಿಂಗ್‌ಗಳನ್ನು ಸಂಗ್ರಹಿಸುವ ಕಲ್ಪನೆಯು ಸ್ವಲ್ಪ ವಿಭಿನ್ನವಾಗಿತ್ತು - ಬಳಕೆದಾರರು ಯಾವ ರೇಟಿಂಗ್‌ಗಳನ್ನು ನೀಡುತ್ತಾರೆ ಎಂಬುದನ್ನು ನೋಡಲು. ಉದಾಹರಣೆಗೆ, ನೀವು YouTube ನಲ್ಲಿ ನೋಡಬಹುದು - ಅತ್ಯಂತ ಆದರ್ಶ ವೀಡಿಯೊ, ಯಾವುದೇ ವ್ಯಕ್ತಿನಿಷ್ಠ ಮಾಹಿತಿಯನ್ನು ಹೊಂದಿರದ ವೀಡಿಯೊ ಕೂಡ, ಸಂಪೂರ್ಣವಾಗಿ ಉಲ್ಲೇಖಕ್ಕಾಗಿ ಅಥವಾ ಸುದ್ದಿ ಬಿಡುಗಡೆಗಾಗಿ, ಇನ್ನೂ ನಿರ್ದಿಷ್ಟ ಸಂಖ್ಯೆಯ ಮೈನಸಸ್‌ಗಳನ್ನು ಪಡೆಯುತ್ತದೆ. ಊಹೆಯ ಪ್ರಕಾರ, ಸಂಪೂರ್ಣವಾಗಿ ಪ್ರಾಯೋಗಿಕವಾಗಿ, ಎಲ್ಲವನ್ನೂ ಇಷ್ಟಪಡದ ಬಳಕೆದಾರರಿದ್ದಾರೆ, ಬಹುಶಃ ಸಿರೊಟೋನಿನ್ ಮೆದುಳಿನಲ್ಲಿ ಅಥವಾ ಬೇರೆ ಯಾವುದೋ ಉತ್ಪತ್ತಿಯಾಗುವುದಿಲ್ಲ. ಬಹುಶಃ ಒಬ್ಬ ವ್ಯಕ್ತಿಯು ಇನ್ನು ಮುಂದೆ ಹಬ್ರೆಯಲ್ಲಿ ಕುಳಿತುಕೊಳ್ಳಬೇಕಾಗಿಲ್ಲ, ಆದರೆ ಖಿನ್ನತೆಗೆ ಚಿಕಿತ್ಸೆ ನೀಡಲು ... ಆದರೆ ಅದು ಬದಲಾದಂತೆ, ನಾನು ಇದನ್ನು ಇಲ್ಲಿ ಪರಿಶೀಲಿಸಲು ಸಾಧ್ಯವಿಲ್ಲ, ಏಕೆಂದರೆ ... ರೇಟಿಂಗ್ ನೀಡಿದವರ ಪಟ್ಟಿಯನ್ನು ಕಾಮೆಂಟ್ ಅಥವಾ ಲೇಖನದಲ್ಲಿ ಉಳಿಸಲಾಗಿಲ್ಲ. ಸರಿ, ಅಂದರೆ, ನಾವು ಲಭ್ಯವಿರುವ ಡೇಟಾದೊಂದಿಗೆ ಕೆಲಸ ಮಾಡುತ್ತೇವೆ. ಫಲಿತಾಂಶವು "ರಿವರ್ಸ್" ರೇಟಿಂಗ್ ಆಗಿದೆ - ಬಳಕೆದಾರರು ಯಾವ ರೇಟಿಂಗ್‌ಗಳನ್ನು _ಸ್ವೀಕರಿಸುತ್ತಾರೆ_ ಎಂಬುದನ್ನು ನೀವು ನೋಡಬಹುದು. ಇದು ತಾತ್ವಿಕವಾಗಿ ಸಹ ಆಸಕ್ತಿದಾಯಕವಾಗಿದೆ.

ಪ್ರಕ್ರಿಯೆಗೊಳಿಸಲಾಗುತ್ತಿದೆ

ಪ್ರಾರಂಭಿಸಲು, ಸಾಂಪ್ರದಾಯಿಕ ಹಕ್ಕು ನಿರಾಕರಣೆ. ಈ ರೇಟಿಂಗ್, ಹಿಂದಿನ ಎಲ್ಲಾ ರೇಟಿಂಗ್‌ಗಳಂತೆ ಅನಧಿಕೃತವಾಗಿದೆ. ನಾನು ಎಲ್ಲಿಯೂ ತಪ್ಪು ಮಾಡಿಲ್ಲ ಎಂದು ನಾನು ಖಾತರಿ ನೀಡುವುದಿಲ್ಲ. ತಾಂತ್ರಿಕ ವಿವರಗಳಲ್ಲಿ ಆಸಕ್ತಿ ಹೊಂದಿರುವವರಿಗೆ, ಹೆಚ್ಚು ವಿವರವಾದ ಕೋಡ್ ಅನ್ನು ಒದಗಿಸಲಾಗಿದೆ ಹಿಂದಿನ ಭಾಗದಲ್ಲಿ.

ಆದ್ದರಿಂದ ಪ್ರಾರಂಭಿಸೋಣ. ಈ ವರ್ಷದ ಕಾಮೆಂಟ್‌ಗಳು, 2019 (ಇದು ಇನ್ನೂ ಮುಗಿದಿಲ್ಲ), ವಿಶ್ಲೇಷಣೆಗಾಗಿ ತೆಗೆದುಕೊಳ್ಳಲಾಗಿದೆ. ಬರೆಯುವ ಸಮಯದಲ್ಲಿ, ಬಳಕೆದಾರರು ಬರೆದಿದ್ದಾರೆ 448533 ಕಾಮೆಂಟ್, csv ಫೈಲ್‌ನ ಗಾತ್ರ 288MB. ಶಕ್ತಿಯುತ, ಪ್ರಭಾವಶಾಲಿ.

ಬರೆಯುವ ಸಮಯ

ವಾರದ ದಿನಗಳು ಮತ್ತು ವಾರಾಂತ್ಯಗಳನ್ನು ಪ್ರತ್ಯೇಕವಾಗಿ ವಿಂಗಡಿಸಿ, ಕಾಮೆಂಟ್‌ಗಳನ್ನು ಗಂಟೆಗೆ ಗುಂಪು ಮಾಡೋಣ.

ಹ್ಯಾಬ್ರಾಸ್ಟ್ಯಾಟಿಸ್ಟಿಕ್ಸ್: ಓದುಗರ ಕಾಮೆಂಟ್‌ಗಳನ್ನು ವಿಶ್ಲೇಷಿಸುವುದು

ಇಲ್ಲಿ ನಾವು ಸಂಪೂರ್ಣ ಮೌಲ್ಯಗಳಲ್ಲಿ ಆಸಕ್ತಿ ಹೊಂದಿಲ್ಲ, ಆದರೆ ಸಂಬಂಧಿತ ಮೌಲ್ಯಗಳಲ್ಲಿ. ನೀವು ಅದನ್ನು "ಇರುವಂತೆ" ನೋಡಿದರೆ, ಅದು ತಿರುಗುತ್ತದೆоಹೆಚ್ಚಿನ ಕಾಮೆಂಟ್‌ಗಳನ್ನು 10 ರಿಂದ 18 ರವರೆಗಿನ ಕೆಲಸದ ಸಮಯದಲ್ಲಿ ಬರೆಯಲಾಗಿದೆ 😉 ಮತ್ತೊಂದೆಡೆ, ಸಮಯ ವಲಯಗಳನ್ನು ಇಲ್ಲಿ ಗಣನೆಗೆ ತೆಗೆದುಕೊಳ್ಳುವುದಿಲ್ಲ, ಆದ್ದರಿಂದ ಪ್ರಶ್ನೆಯು ಇನ್ನೂ ತೆರೆದಿರುತ್ತದೆ.

ವರ್ಷದುದ್ದಕ್ಕೂ ಕಾಮೆಂಟ್‌ಗಳ ವಿತರಣೆಯನ್ನು ನೋಡೋಣ:

ಹ್ಯಾಬ್ರಾಸ್ಟ್ಯಾಟಿಸ್ಟಿಕ್ಸ್: ಓದುಗರ ಕಾಮೆಂಟ್‌ಗಳನ್ನು ವಿಶ್ಲೇಷಿಸುವುದು

ಮತ್ತು ಇನ್ನೂ ಅದು ತಿರುಗುತ್ತದೆ; ವಾರದ ದಿನಗಳಲ್ಲಿ ಉಲ್ಬಣವು ಸ್ಪಷ್ಟವಾಗಿ ಗೋಚರಿಸುತ್ತದೆ - ಸಾಪ್ತಾಹಿಕ ಆವರ್ತಕತೆಯು ಸ್ಪಷ್ಟವಾಗಿ ಗೋಚರಿಸುತ್ತದೆ, ಆದ್ದರಿಂದ ಜನರು ಕೆಲಸದಿಂದ ಹಬರ್ ಅನ್ನು ಓದುತ್ತಿದ್ದಾರೆ ಮತ್ತು ಕಾಮೆಂಟ್ ಮಾಡುತ್ತಿದ್ದಾರೆ ಎಂದು ನಾವು ಸಾಕಷ್ಟು ಹೆಚ್ಚಿನ ವಿಶ್ವಾಸದಿಂದ ಹೇಳಬಹುದು (ಆದರೆ ಇದು ಖಚಿತವಾಗಿಲ್ಲ).

ಅಂದಹಾಗೆ, ಸ್ವೀಕರಿಸಿದ ಮೈನಸಸ್ ಅಥವಾ ಪ್ಲಸ್‌ಗಳ ಸಂಖ್ಯೆಯು ದಿನ ಅಥವಾ ಸಮಯದಿಂದ ಭಿನ್ನವಾಗಿದೆಯೇ ಎಂದು ಊಹೆಯನ್ನು ಪರೀಕ್ಷಿಸುವ ಆಲೋಚನೆ ಇತ್ತು, ಆದರೆ ಸಂಬಂಧವನ್ನು ಕಂಡುಹಿಡಿಯಲು ಸಾಧ್ಯವಾಗಲಿಲ್ಲ - ರೇಟಿಂಗ್ ನೀಡಿದ ಸಮಯವನ್ನು ಉಳಿಸಲಾಗಿಲ್ಲ, ಮತ್ತು ಕಾಮೆಂಟ್‌ನ ಸಮಯದೊಂದಿಗೆ ಯಾವುದೇ ನೇರ ಸಂಪರ್ಕವಿಲ್ಲ.

ಬಳಕೆದಾರರು

ಸಹಜವಾಗಿ, ಸೈಟ್ನಲ್ಲಿ ಬಳಕೆದಾರರ ನಿಖರವಾದ ಸಂಖ್ಯೆ ನನಗೆ ತಿಳಿದಿಲ್ಲ. ಆದರೆ ಈ ವರ್ಷ ಕನಿಷ್ಠ ಒಂದು ಕಾಮೆಂಟ್ ಅನ್ನು ಬಿಟ್ಟವರು ಸರಿಸುಮಾರು 25000 ಜನರು.

ಬಳಕೆದಾರರು ಬಿಟ್ಟ ಸಂದೇಶಗಳ ಸಂಖ್ಯೆಯ ಗ್ರಾಫ್ ಸಾಕಷ್ಟು ಆಸಕ್ತಿದಾಯಕವಾಗಿ ಕಾಣುತ್ತದೆ:

ಹ್ಯಾಬ್ರಾಸ್ಟ್ಯಾಟಿಸ್ಟಿಕ್ಸ್: ಓದುಗರ ಕಾಮೆಂಟ್‌ಗಳನ್ನು ವಿಶ್ಲೇಷಿಸುವುದು

ಮೊದಲಿಗೆ ನಾನು ಅದನ್ನು ನಂಬಲಿಲ್ಲ, ಆದರೆ ಯಾವುದೇ ತಪ್ಪಿಲ್ಲ ಎಂದು ತೋರುತ್ತದೆ. 5% ಬಳಕೆದಾರರು 60% ಸಂದೇಶಗಳನ್ನು ಬಿಡುತ್ತಾರೆ. ಎಲ್ಲಾ ಸಂದೇಶಗಳಲ್ಲಿ 10% - 74% (ಅದರಲ್ಲಿ, ಈ ವರ್ಷ, 450 ಸಾವಿರವನ್ನು ನಾನು ನಿಮಗೆ ನೆನಪಿಸುತ್ತೇನೆ). ಬಹುಪಾಲು ಜನರು ಸೈಟ್ ಅನ್ನು ಸರಳವಾಗಿ ಓದುತ್ತಾರೆ, ಕಾಮೆಂಟ್ಗಳನ್ನು ಬಹಳ ವಿರಳವಾಗಿ ಬಿಡುತ್ತಾರೆ, ಅಥವಾ ಅವುಗಳನ್ನು ಬಿಡುವುದಿಲ್ಲ (ಅವುಗಳು, ಸ್ವಾಭಾವಿಕವಾಗಿ, ನನ್ನ ಪಟ್ಟಿಯಲ್ಲಿ ಸೇರಿಸಲಾಗಿಲ್ಲ).

ರೇಟಿಂಗ್ಗಳು

ಅಂಕಿಅಂಶಗಳ ಕೊನೆಯ ಮತ್ತು ಅತ್ಯಂತ ಮೋಜಿನ ಭಾಗಕ್ಕೆ ಹೋಗೋಣ - ರೇಟಿಂಗ್ಗಳು. ಗೌಪ್ಯತೆಯ ಕಾರಣಗಳಿಗಾಗಿ, ನಾನು ಬಳಕೆದಾರರ ಪೂರ್ಣ ಅಡ್ಡಹೆಸರುಗಳನ್ನು ನೀಡುವುದಿಲ್ಲ, ಯಾರು ಬಯಸುತ್ತಾರೆ, ಅವರು ತಮ್ಮನ್ನು ಗುರುತಿಸಿಕೊಳ್ಳುತ್ತಾರೆ ಎಂದು ನಾನು ಭಾವಿಸುತ್ತೇನೆ.

ಬೈ ಕಾಮೆಂಟ್‌ಗಳ ಸಂಖ್ಯೆ ಈ ವರ್ಷಕ್ಕೆ, ಟಾಪ್ 5 ಅನ್ನು VoXXXX (3377 ಕಾಮೆಂಟ್‌ಗಳು), 0xdXXXXX (3286 ಕಾಮೆಂಟ್‌ಗಳು), strXXXX (3043 ಕಾಮೆಂಟ್‌ಗಳು), AmXXXX (2897 ಕಾಮೆಂಟ್‌ಗಳು) ಮತ್ತು khXXXX (2748 ಕಾಮೆಂಟ್‌ಗಳು) ಆಕ್ರಮಿಸಿಕೊಂಡಿವೆ.

ಬೈ ಸ್ವೀಕರಿಸಿದ ಪ್ರಯೋಜನಗಳ ಸಂಖ್ಯೆ, ಟಾಪ್ 5 ಅನ್ನು amXXXX (1395 ಕಾಮೆಂಟ್‌ಗಳು, ರೇಟಿಂಗ್‌ಗಳು +3231/-309), tvXXXX (1544 ಕಾಮೆಂಟ್‌ಗಳು, ರೇಟಿಂಗ್‌ಗಳು +3231/-97), WhuXXXX (921 ಕಾಮೆಂಟ್‌ಗಳು, ರೇಟಿಂಗ್‌ಗಳು +2288/-13), MTTXXXX (1328 ಕಾಮೆಂಟ್‌ಗಳು, 1383 ಕಾಮೆಂಟ್‌ಗಳು, +7 /-736) ಮತ್ತು amaXXXX (1340 ಕಾಮೆಂಟ್‌ಗಳು, ರೇಟಿಂಗ್ +16/-XNUMX).

ಬೈ ಸಂಪೂರ್ಣ ಧನಾತ್ಮಕ ರೇಟಿಂಗ್ (ಯಾರೂ ಇಲ್ಲ ನಕಾರಾತ್ಮಕವಾಗಿ ರೇಟ್ ಮಾಡಲಾದ ಕಾಮೆಂಟ್) ಮೇಲ್ಭಾಗದ ಮೇಲ್ಭಾಗವನ್ನು ಆಕ್ರಮಿಸಿಕೊಂಡಿದೆ ಮಿಲ್ಫ್ಗಾರ್ಡ್ и ಬೂಂಬುರಂ. ಒಂದು ವಿನಾಯಿತಿಯಾಗಿ, ನಾನು ಅವರ ಅಡ್ಡಹೆಸರುಗಳನ್ನು ಪೂರ್ಣವಾಗಿ ಪ್ರಸ್ತುತಪಡಿಸುತ್ತೇನೆ, ಅವರು ಅದಕ್ಕೆ ಅರ್ಹರು ಎಂದು ನಾನು ಭಾವಿಸುತ್ತೇನೆ.

ದುಷ್ಪರಿಣಾಮಗಳು ಸಹ ಆಸಕ್ತಿದಾಯಕವಾಗಿವೆ. ಟಾಪ್ ಬೈ ಸಂಗ್ರಹಿಸಿದ ಮೈನಸಸ್ಗಳ ಸಂಖ್ಯೆ ಈ ವರ್ಷ ಅವರು siXX (473 ಪ್ಲಸ್‌ಗಳು, 699 ಮೈನಸಸ್), khXX (1915 ಪ್ಲಸ್‌ಗಳು, 573 ಮೈನಸಸ್) ಮತ್ತು nicXXXXX (456 ಪ್ಲಸಸ್, 487 ಮೈನಸ್‌ಗಳು) ಆಕ್ರಮಿಸಿಕೊಂಡಿದ್ದಾರೆ. ಆದರೆ ನೀವು ನೋಡುವಂತೆ, ಈ ಬಳಕೆದಾರರು ಸಾಕಷ್ಟು ಧನಾತ್ಮಕ ಕಾಮೆಂಟ್ಗಳನ್ನು ಹೊಂದಿದ್ದಾರೆ. ಆದರೆ ಪ್ರಕಾರ ಸಂಪೂರ್ಣ ಮೈನಸ್ ಆಂಟಿಟೋಪಿಕ್ vladXXXX (55 ಕಾಮೆಂಟ್‌ಗಳು, 84 ಮೈನಸಸ್, 0 ಪ್ಲಸಸ್), ekoXXXX (77 ಕಾಮೆಂಟ್‌ಗಳು, 92 ಮೈನಸಸ್, 1 ಪ್ಲಸ್) ಮತ್ತು iMXXXX (225 ಕಾಮೆಂಟ್‌ಗಳು, 205 ಮೈನಸಸ್, 12 ಪ್ಲಸಸ್) ಅನ್ನು ಒಳಗೊಂಡಿದೆ.

ತೀರ್ಮಾನಕ್ಕೆ

ಯೋಜಿತ ಎಲ್ಲವನ್ನೂ ಲೆಕ್ಕಹಾಕಲು ನನಗೆ ಸಾಧ್ಯವಾಗಲಿಲ್ಲ, ಆದರೆ ಇದು ಆಸಕ್ತಿದಾಯಕವಾಗಿದೆ ಎಂದು ನಾನು ಭಾವಿಸುತ್ತೇನೆ.

ನೀವು ನೋಡುವಂತೆ, ಅಂತಹ ಕಡಿಮೆ ಸಂಖ್ಯೆಯ ಕ್ಷೇತ್ರಗಳನ್ನು ಹೊಂದಿರುವ ಡೇಟಾಸೆಟ್ ಕೂಡ ವಿಶ್ಲೇಷಣೆಗಾಗಿ ಆಸಕ್ತಿದಾಯಕ ಡೇಟಾವನ್ನು ಒದಗಿಸುತ್ತದೆ. "ವರ್ಡ್ ಕ್ಲೌಡ್" ಅನ್ನು ನಿರ್ಮಿಸುವುದರಿಂದ ಹಿಡಿದು ಪಠ್ಯ ವಿಶ್ಲೇಷಣೆಯವರೆಗೆ ಅಗೆಯಲು ಇನ್ನೂ ಬಹಳಷ್ಟು ಇದೆ. ಯಾವುದೇ ಆಸಕ್ತಿದಾಯಕ ಫಲಿತಾಂಶಗಳು ಹೊರಹೊಮ್ಮಿದರೆ, ಅವುಗಳನ್ನು ಪ್ರಕಟಿಸಲಾಗುತ್ತದೆ.

ಮೂಲ: www.habr.com

ಕಾಮೆಂಟ್ ಅನ್ನು ಸೇರಿಸಿ