Hello Habr. IN
Xogtu waxay noqotay mid aad u xiiso badan; waxaan sidoo kale ku guuleysanay inaan abuurno "qiimeyn yar" oo yar oo faallooyinka ah. Ku sii socota hoos goynta.
Xog ururin
Falanqaynta, waxaanu isticmaali doonaa xogta sanadkan, 2019, gaar ahaan maadaama aan horey u helay liiska maqaallada qaabka csv. Waxa hadhay oo dhan waa in faallooyinka laga soo saaro maqaal kasta, nasiib wanaag annaga, halkaas ayay ku kaydsan yihiin, mana jirto codsiyo dheeraad ah oo loo baahan yahay.
Si loo muujiyo faallooyinka maqaalka, koodka soo socda ayaa ku filan:
r = requests.get("https://habr.com/ru/post/467453/")
data_html = r.text
comments = data_html.split('<div class="comment" id=')
comments_list = []
for comment in comments:
body = Str(comment).find_between('<div class="comment__message', '<div class="comment__footer"').find_between('>', '</div>')# .replace('n', '-')
if len(body) < 4: continue
body = body.translate(str.maketrans(dict.fromkeys("tnrvf")))
body = body.replace('"', "'").replace(',', " ").replace('<br>', ' ').replace('<p>', '').replace('</p>', '').replace(' ', ' ')
user = Str(comment).find_between('data-user-login', '>').find_between('"', '"')
date_str = Str(comment).find_between('<time class="comment__date-time comment__date-time_published', 'time>').find_between('>', '<')
vote = Str(comment).find_between('<div class="voting-wjt', '</div>').find_between('<span', 'span>').find_between('>', '<')
date = dateparser.parse(date_str)
csv_data = "{},{},{},{}".format(user, date, vote, body)
comments_list.append(csv_data)
Tani waxay noo ogolaanaysaa inaan helno liis faallooyin u eg sidan (nanaysyada laga saaray sababo gaar ah):
xxxxxxx,2019-02-06 11:50:00,0,Π ΠΌΠΎΠΆΠ½ΠΎ ΠΏΡΠΈΠΌΠ΅Ρ ΠΊΠ°ΠΊ ΠΈΠΌΠ΅Π½Π½ΠΎ?
xxxxxxx-02-24 16:15:00,+1,ΠΠΎΠ±ΠΎΠ»ΡΡΠ΅ ΡΠΈΡΠ°ΠΉΡΠ΅ Π½Π΅Π·Π°Π²ΠΈΡΠΈΠΌΡΠ΅ ΠΎΡΠΈΡΠΈΠ°Π»ΡΠ½ΡΠ΅ ΠΈΡΡΠΎΡΠ½ΠΈΠΊΠΈ ΡΡΠΎΠ±Ρ ΡΠ°ΠΊΠΈΡ
Π²ΠΎΠΏΡΠΎΡΠΎΠ² Π½Π΅ Π±ΡΠ»ΠΎ.
xxxxxxx,2019-02-23 20:15:00,β5,Π Π½Π΅ Π²Π°ΠΆΠ½ΠΎ Π³Π»Π°Π²Π½ΠΎΠ΅ Π² ΠΈΡΠΎΠ³Π΅ Π² ΠΏΠ»ΡΡΠ΅ ΠΎΠΊΠ°Π·Π°ΡΡΡΡ
Sida aad arki karto, faallo kasta waxaan heli karnaa magaca isticmaalaha, taariikhda, qiimeynta, iyo qoraalka dhabta ah. Aan aragno waxa aan ka heli karno tan.
By habka, markii hore, fikradda ururinta ratings ahaa wax yar ka duwan - si aad u aragto waxa ratings dadka isticmaala. Tusaale ahaan, waxaad eegi kartaa YouTube - xitaa fiidiyoowga ugu habboon, xitaa fiidiyoow aan xanbaarin wax macluumaad ah oo mawduuc ah, oo kaliya tixraac ama sii deyn wareed, ayaa weli helaya tiro go'an oo laga jaray. Mala-awaalku wuxuu ahaa inay jiraan isticmaaleyaal, kaliya kiliinikada, aan jeclayn wax walba, laga yaabee in serotonin aan lagu soo saarin maskaxda ama wax kale. Waxaa laga yaabaa in qofku uusan u baahnayn inuu ku fadhiisto HabrΓ©, laakiin si loo daweeyo niyad-jabka ... Laakiin sida ay soo baxday, halkan kuma hubin karo, sababtoo ah ... Liiska kuwa bixiyay qiimeynta laguma keydin faallooyinka ama maqaallada. Hagaag, taasi waa, waxaanu la shaqayn doonaa xogta la heli karo. Natiijadu waa qiimeynta "ka-noqoshada" - waxaad arki kartaa qiimeynta _receive_ ee isticmaalayaasha. Taas oo mabda' ahaan, sidoo kale xiiso leh.
Kala shaqeynta
Si aan ku bilaabo, afeef dhaqameed. Qiimayntan, sida dhammaan kuwii hore, waa mid aan rasmi ahayn. Ma dammaanad qaadayo in aanan meelna qalad ka gelin. Kuwa xiiseynaya faahfaahinta farsamada, kood faahfaahsan ayaa la bixiyaa
Haddaba aan bilowno. Faallooyinka sanadkan, 2019 (oo aan wali dhamaan), ayaa loo qaatay falanqayn. Waqtiga qorista, isticmaalayaashu waxay qoreen Faallooyinka 448533, cabbirka faylka csv waa 288MB. Awood leh, cajiib ah.
Waqtiga qorista
Aynu koox ahaan u qaybinno faallooyinka saacad ahaan, anagoo u qaybinayna maalmaha shaqada iyo maalmaha fasaxa si gaar ah.
Halkan ma danayneyno qiyamka saxda ah, laakiin kuwa qaraabada ah. Haddii aad u fiirsato "sida ay tahay", markaa way soo baxaysaa taasΠΎInta badan faallooyinka waxaa la qoray saacadaha shaqada laga bilaabo 10 ilaa 18
Aynu eegno qaybinta faallooyinka sanadka oo dhan:
Haddana way wareegtaa; qalliin ayaa si cad loo arki karaa maalmaha shaqada - usbuuca toddobaadlaha ah si cad ayaa loo arki karaa, markaa waxaan si kalsooni leh u dhihi karnaa in dadku akhrinayaan oo ay ka faalloonayaan Habr shaqada (laakiin tani lama hubo).
By habka, waxaa jiray fikrad ah in la tijaabiyo mala awaalka in tirada minuses ama pluses helay ka duwan yahay maalinta ama wakhtiga maalintii, laakiin ma ay suurto gal in la helo xiriir - waqtiga rating la siiyey aan la badbaadiyey, iyo ma jiro xiriir toos ah oo la leh waqtiga faallooyinka.
Isticmaalayaasha
Dabcan, ma garanayo tirada saxda ah ee isticmaalayaasha goobta. Laakiin kuwa ka tagay ugu yaraan hal faallo sanadkan waxay noqdeen qiyaastii Dadka 25000.
Garaafka tirada fariimaha ay ka tageen isticmaalayaashu waxay u egtahay mid xiiso leh:
Markii hore anigu ma rumaysni nafteyda, laakiin ma jirin wax qalad ah. 5% isticmaalayaashu waxay ka tagaan 60% fariimaha. 10% - 74% dhammaan fariimaha (kuwaas oo, aan ku xasuusiyo, sanadkan, 450 kun). Inta badan waxay si fudud u akhriyaan goobta, iyagoo ka tagaya faallooyinka si aad dhif u ah, ama aan ka tagin gabi ahaanba (kuwa, si dabiici ah, kuma jiraan liiskayga).
Qiimeynta
Aan u gudubno qaybta ugu dambeysa uguna xiisaha badan ee tirakoobka - qiimeynta. Sababaha gaarka ah awgeed, ma bixin doono naanaysta buuxa ee isticmaalayaasha, qof kasta oo raba, waxaan u maleynayaa, inuu is aqoonsan doono.
By tirada faallooyinka sanadkan, 5 ee ugu sareeya waxaa ku jira VoXXXX (3377 comments), 0xdXXXXX (3286 comments), strXXXX (3043 comments), AmXXXX (2897 comments) iyo khXXXX (2748 comments).
By tirada faa'iidooyinka la helay, 5-ta sare waxa haystey amXXXX (1395 faallooyin, ratings +3231/-309), tvXXXX (1544 comments, ratings +3231/-97), WhuXXXX (921 comments, ratings +2288/-13), MTXXXX (1328 comments, +1383 /-7) iyo amaXXXX (736 faallooyin, rating +1340/-16).
By qiimaynta togan (cidna faalo si xun loo qiimeeyay) meesha sare ee sare ayaa lagu hayaa
Hoos-u-dhacyadu sidoo kale waa kuwo xiiso leh. Sare by tirada minuses la ururiyey sanadkan waxa ku jira lixx (473 pluses, 699 minuses), khXX (1915 pluses, 573 minuses) iyo nicXXXXX (456 pluses, 487 minuses). Laakiin sida aad arki karto, isticmaalayaashani waxay leeyihiin faallooyin wanaagsan oo ku filan. Laakiin sida laga soo xigtay gabi ahaanba laga jaray Mawduuca lidka ku ah waxa ka mid ah vladXXXX (55 faallooyin, 84 laga jaray, 0 pluses), ekoXXXX (77 faallooyin, 92 laga jaray, 1 lagu daray) iyo iMXXXX (225 faallooyin, 205 laga jaray, 12 lagu daray).
gunaanad
Ma awoodin inaan xisaabiyo wax kasta oo la qorsheeyay, laakiin waxaan rajeynayaa inay ahayd mid xiiso leh.
Sida aad arki karto, xitaa xog-ururin leh tiro yar oo beero ah ayaa ku siin kara xog xiiso leh falanqaynta. Weli waxaa jira wax badan oo la qodayo, laga bilaabo dhisidda "daruur kelmad" ilaa falanqaynta qoraalka. Haddii natiijooyin xiiso leh ay soo baxaan, waa la daabici doonaa.
Source: www.habr.com