Хабрастатистик: уншигчдын сэтгэгдлийг шинжлэх

Сайн уу Хабр. IN өмнөх хэсэг Сайтын янз бүрийн хэсгүүдийн алдар нэрд дүн шинжилгээ хийж, үүнтэй зэрэгцэн асуулт гарч ирэв - нийтлэл дээрх сэтгэгдлээс ямар өгөгдлийг гаргаж авах боломжтой вэ. Би бас нэг таамаглалыг шалгахыг хүссэн бөгөөд үүнийг доор хэлэлцэх болно.
Хабрастатистик: уншигчдын сэтгэгдлийг шинжлэх

Мэдээлэл нь нэлээд сонирхолтой болж, бид тайлбарлагчдын жижиг "мини-үнэлгээ" бий болгож чадсан. Тасалгааны дор үргэлжилсэн.

Өгөгдөл цуглуулах

Шинжилгээ хийхийн тулд бид 2019 оны энэ жилийн өгөгдлийг ашиглах болно, ялангуяа би нийтлэлийн жагсаалтыг csv хэлбэрээр аль хэдийн хүлээн авсан тул. Нийтлэл тус бүрээс тайлбар авах л үлдлээ; аз болоход бидний хувьд тэдгээр нь тэнд хадгалагдаж байгаа бөгөөд нэмэлт хүсэлт гаргах шаардлагагүй.

Нийтлэлээс гарсан сэтгэгдлийг тодруулахын тулд дараах код хангалттай.

r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')

comments_list = []
for comment in comments:
    body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
    if len(body) < 4: continue

    body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
    body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace('  ', ' ')

    user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
    date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
    vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
    date = dateparser.parse(date_str)

    csv_data = "{},{},{},{}".format(user, date, vote, body)
    comments_list.append(csv_data)

Энэ нь бидэнд иймэрхүү харагдах сэтгэгдлүүдийн жагсаалтыг авах боломжийг олгодог (нууцлалын шалтгаанаар хасагдсан хоч):

xxxxxxx,2019-02-06 11:50:00,0,А можно пример как именно?
xxxxxxx-02-24 16:15:00,+1,Побольше читайте независимые официальные источники чтобы таких вопросов не было.
xxxxxxx,2019-02-23 20:15:00,–5,А не важно главное в итоге в плюсе оказаться

Таны харж байгаагаар сэтгэгдэл бүрийн хувьд бид хэрэглэгчийн нэр, огноо, үнэлгээ, бодит текстийг авах боломжтой. Үүнээс юу авч болохыг харцгаая.

Дашрамд хэлэхэд, эхлээд үнэлгээ цуглуулах санаа нь арай өөр байсан - хэрэглэгчид ямар үнэлгээ өгөхийг харахын тулд. Жишээлбэл, та YouTube-ийг үзэж болно - тэр ч байтугай хамгийн тохиромжтой видео, тэр ч байтугай ямар ч субьектив мэдээлэл агуулаагүй, зөвхөн лавлагаа эсвэл мэдээний мэдээлэл агуулаагүй видео ч гэсэн тодорхой тооны сөрөг талыг олж авдаг. Таамаглал нь зөвхөн эмнэлзүйн хувьд бүх зүйлд дургүй байдаг, магадгүй серотонин нь тархинд үүсдэггүй эсвэл өөр зүйл байдаг гэсэн таамаглал байв. Магадгүй хүн Хабре дээр суух шаардлагагүй, харин сэтгэлийн хямралыг эмчлэх шаардлагатай байж магадгүй юм ... Гэхдээ тодорхой болсон тул би үүнийг энд шалгаж чадахгүй, учир нь ... Үнэлгээ өгсөн хүмүүсийн жагсаалтыг сэтгэгдэл эсвэл нийтлэлд хадгалаагүй болно. За, бид байгаа өгөгдөлтэй ажиллах болно. Үр дүн нь "урвуу" үнэлгээ юм - та хэрэглэгчид ямар үнэлгээ авч байгааг харах боломжтой. Энэ нь зарчмын хувьд бас сонирхолтой юм.

Боловсруулалт

Эхлэхийн тулд уламжлалт татгалзал. Энэ үнэлгээ нь өмнөх бүх үнэлгээний нэгэн адил албан бус байна. Би хаана ч алдаа гаргаагүй гэсэн баталгаа өгөхгүй. Техникийн дэлгэрэнгүй мэдээллийг сонирхож буй хүмүүст илүү дэлгэрэнгүй кодыг өгсөн болно өмнөх хэсэгт.

Ингээд эхэлцгээе. Энэ жил буюу 2019 оны (одоохондоо дуусаагүй байгаа) сэтгэгдлийг дүн шинжилгээнд авав. Үүнийг бичиж байх үед хэрэглэгчид бичсэн 448533 сэтгэгдэл, csv файлын хэмжээ нь 288 МБ. Хүчтэй, гайхалтай.

Бичих цаг

Ажлын болон амралтын өдрүүдийг тус тусад нь хувааж, сэтгэгдлүүдийг цагаар нь бүлэглэе.

Хабрастатистик: уншигчдын сэтгэгдлийг шинжлэх

Энд бид үнэмлэхүй үнэ цэнийг сонирхдоггүй, харин харьцангуй үнэ цэнийг сонирхож байна. Хэрэв та үүнийг "байгаагаар нь" харвал энэ нь гарч ирнэоИхэнх сэтгэгдлийг ажлын цагаар 10-18 цагийн хооронд бичсэн байна 😉 Нөгөө талаар энд цагийн бүсийг харгалзаагүй тул асуулт нээлттэй хэвээр байна.

Жилийн туршид сэтгэгдлийн тархалтыг харцгаая:

Хабрастатистик: уншигчдын сэтгэгдлийг шинжлэх

Гэсэн хэдий ч энэ нь эргэлддэг; өсөлт нь ажлын өдрүүдэд тодорхой харагдаж байна - долоо хоногийн давтамж нь тодорхой харагдаж байгаа тул хүмүүс ажлаасаа Хабрыг уншиж, сэтгэгдэл бичиж байна гэж бид маш их итгэлтэйгээр хэлж чадна (гэхдээ энэ нь тодорхойгүй байна).

Дашрамд хэлэхэд, хүлээн авсан хасах эсвэл нэмэх тоо нь өдрийн эсвэл өдрийн цагаар ялгаатай эсэхийг таамаглах санаа байсан боловч хамаарлыг олох боломжгүй байсан - үнэлгээ өгсөн цаг хадгалагдаагүй, мөн сэтгэгдэл бичих цагтай шууд холбоо байхгүй.

Хэрэглэгчид

Мэдээжийн хэрэг, би сайт дээрх хэрэглэгчдийн яг тоог мэдэхгүй байна. Гэхдээ энэ жил дор хаяж нэг сэтгэгдэл үлдээсэн хүмүүс ойролцоогоор гарч ирэв 25000 хүмүүс.

Хэрэглэгчдийн үлдээсэн мессежийн тооны график нэлээд сонирхолтой харагдаж байна.

Хабрастатистик: уншигчдын сэтгэгдлийг шинжлэх

Эхэндээ би өөрөө үүнд итгээгүй ч алдаа байхгүй юм шиг санагдсан. Хэрэглэгчдийн 5% нь мессежийн 60% үлдээдэг. Нийт мессежийн 10% - 74% (энэ жил 450 мянга байгааг сануулъя). Ихэнх нь зүгээр л сайтыг уншдаг, маш ховор сэтгэгдэл үлдээдэг, эсвэл огт орхидоггүй (энэ нь мэдээжийн хэрэг миний жагсаалтад ороогүй).

Үнэлгээ

Статистикийн хамгийн сүүлчийн бөгөөд хамгийн хөгжилтэй хэсэг болох үнэлгээ рүү шилжье. Хувийн нууцлалын үүднээс би хэрэглэгчдийн хоч нэрийг бүрэн өгөхгүй, хэн хүссэн нь өөрсдийгөө таних болно гэж бодож байна.

Нь сэтгэгдлийн тоо Энэ жилийн хувьд эхний 5-т VoXXXX (3377 сэтгэгдэл), 0xdXXXXXX (3286 сэтгэгдэл), strXXXX (3043 сэтгэгдэл), AmXXXX (2897 сэтгэгдэл) болон khXXXX (2748 сэтгэгдэл) орсон байна.

Нь хүлээн авсан тэтгэмжийн тоо, шилдэг 5-т amXXXX (1395 сэтгэгдэл, үнэлгээ +3231/-309), tvXXXX (1544 сэтгэгдэл, үнэлгээ +3231/-97), WhuXXXX (921 сэтгэгдэл, үнэлгээ +2288/-13), MTXXXX (1328 сэтгэгдэл, +1383 /-7) болон amaXXXX (736 сэтгэгдэл, үнэлгээ +1340/-16).

Нь үнэмлэхүй эерэг үнэлгээ (хэн ч биш сөрөг үнэлгээтэй сэтгэгдэл) дээд талын дээд хэсгийг эзэлдэг Милфгард и Boomburum. Үл хамаарах зүйлээр би тэдний хочийг бүрэн эхээр нь танилцуулж байна, тэд үүнийг хүртэх ёстой гэж бодож байна.

Сул тал нь бас сонирхолтой юм. Тэргүүлсэн цуглуулсан хасах тоо Энэ жилийн хувьд тэдгээрийг siXX (473 нэмэх, 699 хасах), khXX (1915 нэмэх, 573 хасах) болон nicXXXXX (456 нэмэх, 487 хасах) эзэлж байна. Гэхдээ таны харж байгаагаар эдгээр хэрэглэгчид хангалттай эерэг сэтгэгдэлтэй байна. Гэхдээ дагуу үнэмлэхүй хасах Эсрэг сэдэвт vladXXXX (55 сэтгэгдэл, 84 хасах, 0 нэмэх), ekoXXXX (77 сэтгэгдэл, 92 хасах, 1 нэмэх) болон iMXXXX (225 сэтгэгдэл, 205 хасах, 12 нэмэх) орно.

дүгнэлт

Төлөвлөсөн бүх зүйлийг тооцоолж чадаагүй ч сонирхолтой байсан гэж найдаж байна.

Таны харж байгаагаар ийм цөөн тооны талбар бүхий өгөгдлийн багц ч гэсэн дүн шинжилгээ хийхэд сонирхолтой өгөгдлийг өгч чадна. "Үгийн үүл" бүтээхээс эхлээд текстийн шинжилгээ хүртэл ухах зүйл их байна. Сонирхолтой үр дүн гарвал нийтлэх болно.

Эх сурвалж: www.habr.com

сэтгэгдэл нэмэх