Habrastatistics: falanqaynta faallooyinka akhristaha

Hello Habr. IN qayb hore Caannimada qaybaha kala duwan ee goobta ayaa la falanqeeyay, isla mar ahaantaana su'aashu waxay soo baxday - waxa xogta laga soo saari karo faallooyinka maqaallada. Waxa kale oo aan rabay in aan tijaabiyo hal mala awaal, oo aan hoos kaga hadli doono.
Habrastatistics: falanqaynta faallooyinka akhristaha

Xogtu waxay noqotay mid aad u xiiso badan; waxaan sidoo kale ku guuleysanay inaan abuurno "qiimeyn yar" oo yar oo faallooyinka ah. Ku sii socota hoos goynta.

Xog ururin

Falanqaynta, waxaanu isticmaali doonaa xogta sanadkan, 2019, gaar ahaan maadaama aan horey u helay liiska maqaallada qaabka csv. Waxa hadhay oo dhan waa in faallooyinka laga soo saaro maqaal kasta, nasiib wanaag annaga, halkaas ayay ku kaydsan yihiin, mana jirto codsiyo dheeraad ah oo loo baahan yahay.

Si loo muujiyo faallooyinka maqaalka, koodka soo socda ayaa ku filan:

r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')

comments_list = []
for comment in comments:
    body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
    if len(body) < 4: continue

    body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
    body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace('  ', ' ')

    user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
    date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
    vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
    date = dateparser.parse(date_str)

    csv_data = "{},{},{},{}".format(user, date, vote, body)
    comments_list.append(csv_data)

Tani waxay noo ogolaanaysaa inaan helno liis faallooyin u eg sidan (nanaysyada laga saaray sababo gaar ah):

xxxxxxx,2019-02-06 11:50:00,0,А ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Ρ€ ΠΊΠ°ΠΊ ΠΈΠΌΠ΅Π½Π½ΠΎ?
xxxxxxx-02-24 16:15:00,+1,ПобольшС Ρ‡ΠΈΡ‚Π°ΠΉΡ‚Π΅ нСзависимыС ΠΎΡ„ΠΈΡ†ΠΈΠ°Π»ΡŒΠ½Ρ‹Π΅ источники Ρ‡Ρ‚ΠΎΠ±Ρ‹ Ρ‚Π°ΠΊΠΈΡ… вопросов Π½Π΅ Π±Ρ‹Π»ΠΎ.
xxxxxxx,2019-02-23 20:15:00,–5,А Π½Π΅ Π²Π°ΠΆΠ½ΠΎ Π³Π»Π°Π²Π½ΠΎΠ΅ Π² ΠΈΡ‚ΠΎΠ³Π΅ Π² плюсС ΠΎΠΊΠ°Π·Π°Ρ‚ΡŒΡΡ

Sida aad arki karto, faallo kasta waxaan heli karnaa magaca isticmaalaha, taariikhda, qiimeynta, iyo qoraalka dhabta ah. Aan aragno waxa aan ka heli karno tan.

By habka, markii hore, fikradda ururinta ratings ahaa wax yar ka duwan - si aad u aragto waxa ratings dadka isticmaala. Tusaale ahaan, waxaad eegi kartaa YouTube - xitaa fiidiyoowga ugu habboon, xitaa fiidiyoow aan xanbaarin wax macluumaad ah oo mawduuc ah, oo kaliya tixraac ama sii deyn wareed, ayaa weli helaya tiro go'an oo laga jaray. Mala-awaalku wuxuu ahaa inay jiraan isticmaaleyaal, kaliya kiliinikada, aan jeclayn wax walba, laga yaabee in serotonin aan lagu soo saarin maskaxda ama wax kale. Waxaa laga yaabaa in qofku uusan u baahnayn inuu ku fadhiisto HabrΓ©, laakiin si loo daweeyo niyad-jabka ... Laakiin sida ay soo baxday, halkan kuma hubin karo, sababtoo ah ... Liiska kuwa bixiyay qiimeynta laguma keydin faallooyinka ama maqaallada. Hagaag, taasi waa, waxaanu la shaqayn doonaa xogta la heli karo. Natiijadu waa qiimeynta "ka-noqoshada" - waxaad arki kartaa qiimeynta _receive_ ee isticmaalayaasha. Taas oo mabda' ahaan, sidoo kale xiiso leh.

Kala shaqeynta

Si aan ku bilaabo, afeef dhaqameed. Qiimayntan, sida dhammaan kuwii hore, waa mid aan rasmi ahayn. Ma dammaanad qaadayo in aanan meelna qalad ka gelin. Kuwa xiiseynaya faahfaahinta farsamada, kood faahfaahsan ayaa la bixiyaa qaybta hore.

Haddaba aan bilowno. Faallooyinka sanadkan, 2019 (oo aan wali dhamaan), ayaa loo qaatay falanqayn. Waqtiga qorista, isticmaalayaashu waxay qoreen Faallooyinka 448533, cabbirka faylka csv waa 288MB. Awood leh, cajiib ah.

Waqtiga qorista

Aynu koox ahaan u qaybinno faallooyinka saacad ahaan, anagoo u qaybinayna maalmaha shaqada iyo maalmaha fasaxa si gaar ah.

Habrastatistics: falanqaynta faallooyinka akhristaha

Halkan ma danayneyno qiyamka saxda ah, laakiin kuwa qaraabada ah. Haddii aad u fiirsato "sida ay tahay", markaa way soo baxaysaa taasΠΎInta badan faallooyinka waxaa la qoray saacadaha shaqada laga bilaabo 10 ilaa 18

Aynu eegno qaybinta faallooyinka sanadka oo dhan:

Habrastatistics: falanqaynta faallooyinka akhristaha

Haddana way wareegtaa; qalliin ayaa si cad loo arki karaa maalmaha shaqada - usbuuca toddobaadlaha ah si cad ayaa loo arki karaa, markaa waxaan si kalsooni leh u dhihi karnaa in dadku akhrinayaan oo ay ka faalloonayaan Habr shaqada (laakiin tani lama hubo).

By habka, waxaa jiray fikrad ah in la tijaabiyo mala awaalka in tirada minuses ama pluses helay ka duwan yahay maalinta ama wakhtiga maalintii, laakiin ma ay suurto gal in la helo xiriir - waqtiga rating la siiyey aan la badbaadiyey, iyo ma jiro xiriir toos ah oo la leh waqtiga faallooyinka.

Isticmaalayaasha

Dabcan, ma garanayo tirada saxda ah ee isticmaalayaasha goobta. Laakiin kuwa ka tagay ugu yaraan hal faallo sanadkan waxay noqdeen qiyaastii Dadka 25000.

Garaafka tirada fariimaha ay ka tageen isticmaalayaashu waxay u egtahay mid xiiso leh:

Habrastatistics: falanqaynta faallooyinka akhristaha

Markii hore anigu ma rumaysni nafteyda, laakiin ma jirin wax qalad ah. 5% isticmaalayaashu waxay ka tagaan 60% fariimaha. 10% - 74% dhammaan fariimaha (kuwaas oo, aan ku xasuusiyo, sanadkan, 450 kun). Inta badan waxay si fudud u akhriyaan goobta, iyagoo ka tagaya faallooyinka si aad dhif u ah, ama aan ka tagin gabi ahaanba (kuwa, si dabiici ah, kuma jiraan liiskayga).

Qiimeynta

Aan u gudubno qaybta ugu dambeysa uguna xiisaha badan ee tirakoobka - qiimeynta. Sababaha gaarka ah awgeed, ma bixin doono naanaysta buuxa ee isticmaalayaasha, qof kasta oo raba, waxaan u maleynayaa, inuu is aqoonsan doono.

By tirada faallooyinka sanadkan, 5 ee ugu sareeya waxaa ku jira VoXXXX (3377 comments), 0xdXXXXX (3286 comments), strXXXX (3043 comments), AmXXXX (2897 comments) iyo khXXXX (2748 comments).

By tirada faa'iidooyinka la helay, 5-ta sare waxa haystey amXXXX (1395 faallooyin, ratings +3231/-309), tvXXXX (1544 comments, ratings +3231/-97), WhuXXXX (921 comments, ratings +2288/-13), MTXXXX (1328 comments, +1383 /-7) iyo amaXXXX (736 faallooyin, rating +1340/-16).

By qiimaynta togan (cidna faalo si xun loo qiimeeyay) meesha sare ee sare ayaa lagu hayaa Milfgard ΠΈ Boomburum. Marka laga reebo, waxaan si buuxda u soo bandhigay naanaystahooda, waxaan u maleynayaa inay u qalmaan.

Hoos-u-dhacyadu sidoo kale waa kuwo xiiso leh. Sare by tirada minuses la ururiyey sanadkan waxa ku jira lixx (473 pluses, 699 minuses), khXX (1915 pluses, 573 minuses) iyo nicXXXXX (456 pluses, 487 minuses). Laakiin sida aad arki karto, isticmaalayaashani waxay leeyihiin faallooyin wanaagsan oo ku filan. Laakiin sida laga soo xigtay gabi ahaanba laga jaray Mawduuca lidka ku ah waxa ka mid ah vladXXXX (55 faallooyin, 84 laga jaray, 0 pluses), ekoXXXX (77 faallooyin, 92 laga jaray, 1 lagu daray) iyo iMXXXX (225 faallooyin, 205 laga jaray, 12 lagu daray).

gunaanad

Ma awoodin inaan xisaabiyo wax kasta oo la qorsheeyay, laakiin waxaan rajeynayaa inay ahayd mid xiiso leh.

Sida aad arki karto, xitaa xog-ururin leh tiro yar oo beero ah ayaa ku siin kara xog xiiso leh falanqaynta. Weli waxaa jira wax badan oo la qodayo, laga bilaabo dhisidda "daruur kelmad" ilaa falanqaynta qoraalka. Haddii natiijooyin xiiso leh ay soo baxaan, waa la daabici doonaa.

Source: www.habr.com

Add a comment