மதிய வணக்கம். எழுதி 2 வருடங்கள் ஆகிறது. கடைசி கட்டுரை ஹப்ரைப் பாகுபடுத்துவது பற்றி, சில புள்ளிகள் மாறிவிட்டன.
நான் ஹப்ரின் நகலை வைத்திருக்க விரும்பியபோது, ஆசிரியர்களின் அனைத்து உள்ளடக்கங்களையும் தரவுத்தளத்தில் சேமிக்கும் ஒரு பாகுபடுத்தி எழுத முடிவு செய்தேன். அது எப்படி நடந்தது மற்றும் நான் என்ன பிழைகளை சந்தித்தேன் - நீங்கள் வெட்டுக்கு கீழ் படிக்கலாம்.
பாகுபடுத்தியின் முதல் பதிப்பு. ஒரு நூல், பல பிரச்சனைகள்
தொடங்குவதற்கு, நான் ஒரு ஸ்கிரிப்ட் முன்மாதிரியை உருவாக்க முடிவு செய்தேன், அதில் கட்டுரை பதிவிறக்கம் செய்யப்பட்ட உடனேயே பாகுபடுத்தப்பட்டு தரவுத்தளத்தில் வைக்கப்படும். இருமுறை யோசிக்காமல், நான் sqlite3 ஐப் பயன்படுத்தினேன், ஏனெனில். இது குறைவான உழைப்புத் தேவையாக இருந்தது: உள்ளூர் சேவையகம் இருக்க வேண்டிய அவசியமில்லை, உருவாக்கப்பட்ட-தோற்றப்பட்ட-நீக்கப்பட்ட மற்றும் அது போன்ற விஷயங்கள்.
one_thread.py
from bs4 import BeautifulSoup
import sqlite3
import requests
from datetime import datetime
def main(min, max):
conn = sqlite3.connect('habr.db')
c = conn.cursor()
c.execute('PRAGMA encoding = "UTF-8"')
c.execute("CREATE TABLE IF NOT EXISTS habr(id INT, author VARCHAR(255), title VARCHAR(255), content TEXT, tags TEXT)")
start_time = datetime.now()
c.execute("begin")
for i in range(min, max):
url = "https://m.habr.com/post/{}".format(i)
try:
r = requests.get(url)
except:
with open("req_errors.txt") as file:
file.write(i)
continue
if(r.status_code != 200):
print("{} - {}".format(i, r.status_code))
continue
html_doc = r.text
soup = BeautifulSoup(html_doc, 'html.parser')
try:
author = soup.find(class_="tm-user-info__username").get_text()
content = soup.find(id="post-content-body")
content = str(content)
title = soup.find(class_="tm-article-title__text").get_text()
tags = soup.find(class_="tm-article__tags").get_text()
tags = tags[5:]
except:
author,title,tags = "Error", "Error {}".format(r.status_code), "Error"
content = "При парсинге этой странице произошла ошибка."
c.execute('INSERT INTO habr VALUES (?, ?, ?, ?, ?)', (i, author, title, content, tags))
print(i)
c.execute("commit")
print(datetime.now() - start_time)
main(1, 490406)
எல்லாம் உன்னதமானது - நாங்கள் அழகான சூப்பைப் பயன்படுத்துகிறோம், கோரிக்கைகள் மற்றும் விரைவான முன்மாதிரி தயாராக உள்ளது. அது தான்…
பக்க பதிவிறக்கம் ஒரு தொடரிழையில் உள்ளது
ஸ்கிரிப்ட்டின் செயல்பாட்டை நீங்கள் குறுக்கிடினால், முழு தரவுத்தளமும் எங்கும் செல்லாது. எல்லாவற்றிற்கும் மேலாக, அனைத்து பாகுபடுத்தலுக்குப் பிறகுதான் உறுதிப்பாடு செய்யப்படுகிறது.
நிச்சயமாக, ஒவ்வொரு செருகலுக்குப் பிறகும் நீங்கள் தரவுத்தளத்தில் மாற்றங்களைச் செய்யலாம், ஆனால் ஸ்கிரிப்ட் செயல்படுத்தும் நேரம் கணிசமாக அதிகரிக்கும்.
முதல் 100 கட்டுரைகளைப் பாகுபடுத்த எனக்கு 000 மணிநேரம் ஆனது.
அடுத்து பயனர் கட்டுரையைக் கண்டேன் ஒருங்கிணைந்த, இந்த செயல்முறையை விரைவுபடுத்த சில லைஃப் ஹேக்குகளை நான் படித்து கண்டுபிடித்தேன்:
மல்டித்ரெடிங்கைப் பயன்படுத்துவது சில நேரங்களில் பதிவிறக்குவதை வேகப்படுத்துகிறது.
நீங்கள் ஹபரின் முழுப் பதிப்பைப் பெற முடியாது, ஆனால் அதன் மொபைல் பதிப்பைப் பெறலாம்.
எடுத்துக்காட்டாக, டெஸ்க்டாப் பதிப்பில் ஒரு ஒருங்கிணைந்த கட்டுரை 378 KB எடையுள்ளதாக இருந்தால், மொபைல் பதிப்பில் அது ஏற்கனவே 126 KB ஆகும்.
இரண்டாவது பதிப்பு. பல நூல்கள், ஹப்ரிலிருந்து தற்காலிக தடை
பைத்தானில் மல்டித்ரெடிங் என்ற தலைப்பில் நான் இணையத்தில் தேடியபோது, multiprocessing.dummy என்ற எளிய விருப்பத்தைத் தேர்ந்தெடுத்தேன், மல்டித்ரெடிங்கில் சிக்கல்கள் தோன்றியதைக் கவனித்தேன்.
SQLite3 ஒன்றுக்கு மேற்பட்ட நூல்களுடன் வேலை செய்ய விரும்பவில்லை.
சரி செய்யப்பட்டது check_same_thread=False, ஆனால் இந்த பிழை மட்டும் இல்லை, தரவுத்தளத்தில் செருக முயற்சிக்கும்போது, சில நேரங்களில் பிழைகள் ஏற்படுகின்றன, அதை என்னால் தீர்க்க முடியவில்லை.
எனவே, கட்டுரைகளை நேரடியாக தரவுத்தளத்தில் செருகுவதை கைவிட முடிவு செய்கிறேன், மேலும் ஒருங்கிணைந்த தீர்வை நினைவில் வைத்துக் கொண்டு, கோப்புகளைப் பயன்படுத்த முடிவு செய்கிறேன், ஏனெனில் ஒரு கோப்பில் பல-திரிகை எழுதுவதில் சிக்கல்கள் இல்லை.
ஹப்ர் மூன்று நூல்களுக்கு மேல் பயன்படுத்துவதைத் தடை செய்யத் தொடங்குகிறார்.
குறிப்பாக ஹப்ருக்குச் செல்வதற்கான ஆர்வமுள்ள முயற்சிகள் சில மணிநேரங்களுக்கு ஐபி தடையுடன் முடிவடையும். எனவே நீங்கள் 3 நூல்களை மட்டுமே பயன்படுத்த வேண்டும், ஆனால் இது ஏற்கனவே நன்றாக உள்ளது, ஏனெனில் 100 க்கும் மேற்பட்ட கட்டுரைகளை மீண்டும் எழுதுவதற்கான நேரம் 26 முதல் 12 வினாடிகளாக குறைக்கப்பட்டுள்ளது.
இந்த பதிப்பு மிகவும் நிலையற்றது என்பது குறிப்பிடத்தக்கது, மேலும் பதிவிறக்கங்கள் அவ்வப்போது அதிக எண்ணிக்கையிலான கட்டுரைகளில் விழும்.
async_v1.py
from bs4 import BeautifulSoup
import requests
import os, sys
import json
from multiprocessing.dummy import Pool as ThreadPool
from datetime import datetime
import logging
def worker(i):
currentFile = "files\{}.json".format(i)
if os.path.isfile(currentFile):
logging.info("{} - File exists".format(i))
return 1
url = "https://m.habr.com/post/{}".format(i)
try: r = requests.get(url)
except:
with open("req_errors.txt") as file:
file.write(i)
return 2
# Запись заблокированных запросов на сервер
if (r.status_code == 503):
with open("Error503.txt", "a") as write_file:
write_file.write(str(i) + "n")
logging.warning('{} / 503 Error'.format(i))
# Если поста не существует или он был скрыт
if (r.status_code != 200):
logging.info("{} / {} Code".format(i, r.status_code))
return r.status_code
html_doc = r.text
soup = BeautifulSoup(html_doc, 'html5lib')
try:
author = soup.find(class_="tm-user-info__username").get_text()
timestamp = soup.find(class_='tm-user-meta__date')
timestamp = timestamp['title']
content = soup.find(id="post-content-body")
content = str(content)
title = soup.find(class_="tm-article-title__text").get_text()
tags = soup.find(class_="tm-article__tags").get_text()
tags = tags[5:]
# Метка, что пост является переводом или туториалом.
tm_tag = soup.find(class_="tm-tags tm-tags_post").get_text()
rating = soup.find(class_="tm-votes-score").get_text()
except:
author = title = tags = timestamp = tm_tag = rating = "Error"
content = "При парсинге этой странице произошла ошибка."
logging.warning("Error parsing - {}".format(i))
with open("Errors.txt", "a") as write_file:
write_file.write(str(i) + "n")
# Записываем статью в json
try:
article = [i, timestamp, author, title, content, tm_tag, rating, tags]
with open(currentFile, "w") as write_file:
json.dump(article, write_file)
except:
print(i)
raise
if __name__ == '__main__':
if len(sys.argv) < 3:
print("Необходимы параметры min и max. Использование: async_v1.py 1 100")
sys.exit(1)
min = int(sys.argv[1])
max = int(sys.argv[2])
# Если потоков >3
# то хабр банит ipшник на время
pool = ThreadPool(3)
# Отсчет времени, запуск потоков
start_time = datetime.now()
results = pool.map(worker, range(min, max))
# После закрытия всех потоков печатаем время
pool.close()
pool.join()
print(datetime.now() - start_time)
மூன்றாவது பதிப்பு. இறுதி
இரண்டாவது பதிப்பை பிழைத்திருத்தம் செய்யும் போது, ஹப்ர், திடீரென்று, தளத்தின் மொபைல் பதிப்பு அணுகும் API ஐக் கொண்டிருப்பதைக் கண்டுபிடித்தேன். இது மொபைல் பதிப்பை விட வேகமாக ஏற்றுகிறது, ஏனெனில் இது json மட்டுமே, இது பாகுபடுத்த வேண்டிய அவசியமில்லை. இறுதியில், எனது ஸ்கிரிப்டை மீண்டும் எழுத முடிவு செய்தேன்.
எனவே, கண்டுபிடித்தேன் இந்த இணைப்பு API, நீங்கள் அதை பாகுபடுத்த ஆரம்பிக்கலாம்.
async_v2.py
import requests
import os, sys
import json
from multiprocessing.dummy import Pool as ThreadPool
from datetime import datetime
import logging
def worker(i):
currentFile = "files\{}.json".format(i)
if os.path.isfile(currentFile):
logging.info("{} - File exists".format(i))
return 1
url = "https://m.habr.com/kek/v1/articles/{}/?fl=ru%2Cen&hl=ru".format(i)
try:
r = requests.get(url)
if r.status_code == 503:
logging.critical("503 Error")
return 503
except:
with open("req_errors.txt") as file:
file.write(i)
return 2
data = json.loads(r.text)
if data['success']:
article = data['data']['article']
id = article['id']
is_tutorial = article['is_tutorial']
time_published = article['time_published']
comments_count = article['comments_count']
lang = article['lang']
tags_string = article['tags_string']
title = article['title']
content = article['text_html']
reading_count = article['reading_count']
author = article['author']['login']
score = article['voting']['score']
data = (id, is_tutorial, time_published, title, content, comments_count, lang, tags_string, reading_count, author, score)
with open(currentFile, "w") as write_file:
json.dump(data, write_file)
if __name__ == '__main__':
if len(sys.argv) < 3:
print("Необходимы параметры min и max. Использование: asyc.py 1 100")
sys.exit(1)
min = int(sys.argv[1])
max = int(sys.argv[2])
# Если потоков >3
# то хабр банит ipшник на время
pool = ThreadPool(3)
# Отсчет времени, запуск потоков
start_time = datetime.now()
results = pool.map(worker, range(min, max))
# После закрытия всех потоков печатаем время
pool.close()
pool.join()
print(datetime.now() - start_time)
இது கட்டுரை மற்றும் அதை எழுதிய ஆசிரியருடன் தொடர்புடைய துறைகளைக் கொண்டுள்ளது.
API.png
ஒவ்வொரு கட்டுரையின் முழு json-ஐ நான் டம்ப் செய்யவில்லை, ஆனால் எனக்குத் தேவையான புலங்களை மட்டும் சேமித்தேன்:
id
என்பது_பயிற்சி
நேரம்_வெளியிடப்பட்டது
தலைப்பு
உள்ளடக்கம்
கருத்துகள்_எண்ணிக்கை
lang என்பது கட்டுரை எழுதப்பட்ட மொழி. இதுவரை en மற்றும் ru மட்டுமே உள்ளது.
tags_string - இடுகையில் உள்ள அனைத்து குறிச்சொற்களும்
வாசிப்பு_எண்ணிக்கை
ஆசிரியர்
மதிப்பெண் - கட்டுரை மதிப்பீடு.
எனவே, API ஐப் பயன்படுத்தி, ஸ்கிரிப்ட் செயல்படுத்தும் நேரத்தை 8 urlக்கு 100 வினாடிகளாகக் குறைத்தேன்.
நமக்குத் தேவையான தரவைப் பதிவிறக்கிய பிறகு, அதைச் செயலாக்கி தரவுத்தளத்தில் உள்ளிட வேண்டும். எனக்கும் இதில் எந்த பிரச்சனையும் இல்லை:
parser.py
import json
import sqlite3
import logging
from datetime import datetime
def parser(min, max):
conn = sqlite3.connect('habr.db')
c = conn.cursor()
c.execute('PRAGMA encoding = "UTF-8"')
c.execute('PRAGMA synchronous = 0') # Отключаем подтверждение записи, так скорость увеличивается в разы.
c.execute("CREATE TABLE IF NOT EXISTS articles(id INTEGER, time_published TEXT, author TEXT, title TEXT, content TEXT,
lang TEXT, comments_count INTEGER, reading_count INTEGER, score INTEGER, is_tutorial INTEGER, tags_string TEXT)")
try:
for i in range(min, max):
try:
filename = "files\{}.json".format(i)
f = open(filename)
data = json.load(f)
(id, is_tutorial, time_published, title, content, comments_count, lang,
tags_string, reading_count, author, score) = data
# Ради лучшей читаемости базы можно пренебречь читаемостью кода. Или нет?
# Если вам так кажется, можно просто заменить кортеж аргументом data. Решать вам.
c.execute('INSERT INTO articles VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)', (id, time_published, author,
title, content, lang,
comments_count, reading_count,
score, is_tutorial,
tags_string))
f.close()
except IOError:
logging.info('FileNotExists')
continue
finally:
conn.commit()
start_time = datetime.now()
parser(490000, 490918)
print(datetime.now() - start_time)
புள்ளிவிவரங்கள்
சரி, பாரம்பரியமாக, இறுதியாக, நீங்கள் தரவிலிருந்து சில புள்ளிவிவரங்களைப் பிரித்தெடுக்கலாம்:
எதிர்பார்க்கப்பட்ட 490 பதிவிறக்கங்களில், 406 கட்டுரைகள் மட்டுமே பதிவிறக்கம் செய்யப்பட்டன. Habré பற்றிய கட்டுரைகளில் பாதிக்கும் மேலானவை (228) மறைக்கப்பட்டுள்ளன அல்லது நீக்கப்பட்டுள்ளன.
கிட்டத்தட்ட அரை மில்லியன் கட்டுரைகளைக் கொண்ட முழு தரவுத்தளமும் 2.95 ஜிபி எடையைக் கொண்டுள்ளது. சுருக்கப்பட்ட வடிவத்தில் - 495 எம்பி.
மொத்தம், 37804 பேர் ஹப்ரேயின் ஆசிரியர்கள். இந்த புள்ளிவிவரங்கள் நேரடி இடுகைகளில் இருந்து மட்டுமே என்பதை நான் உங்களுக்கு நினைவூட்டுகிறேன்.
ஹப்ரேயில் மிகவும் பயனுள்ள எழுத்தாளர் - அலிசார் - 8774 கட்டுரைகள்.