Oduvijek me zanimalo kako najbolje distribuirati knjige u svojoj elektroničkoj knjižnici. Na kraju sam došao do ove opcije s automatskim izračunom broja stranica i ostalim delicijama. Molim sve zainteresirane osobe pod kat.
Dio 1. Dropbox
Sve moje knjige su na dropboxu. Postoje 4 kategorije u koje sam sve podijelio: udžbenik, referenca, beletristika, publicistika. Ali ne dodajem referentne knjige na tablicu.
Većina knjiga je .epub, ostale su .pdf. Odnosno, konačno rješenje mora nekako pokriti obje opcije.
Moji putevi do knjiga su otprilike ovako:
/Книги/Нехудожественное/Новое/Дизайн/Юрий Гордон/Книга про буквы от А до Я.epub
Ako je knjiga fikcija, tada se kategorija (to jest, "Dizajn" u gornjem slučaju) uklanja.
Odlučio sam se ne zamarati Dropbox API-jem, jer imam njihovu aplikaciju koja sinkronizira mapu. Odnosno, plan je sljedeći: uzmemo knjige iz mape, svaku knjigu provučemo kroz brojač riječi i dodamo je u Notion.
Dio 2. Dodajte liniju
Sam stol trebao bi izgledati otprilike ovako. PAŽNJA: nazive stupaca bolje je napisati na latinici.
Koristit ćemo neslužbeni Notion API, jer službeni još nije isporučen.
Idite na Notion, pritisnite Ctrl + Shift + J, idite na Application -> Cookies, kopirajte token_v2 i nazovite ga TOKEN. Zatim idemo na stranicu koja nam je potrebna sa znakom knjižnice i kopiramo vezu. Mi to zovemo POJAM.
Zatim pišemo kod za povezivanje s Notionom.
database = client.get_collection_view(NOTION)
current_rows = database.default_query().execute()
Zatim, napišimo funkciju za dodavanje retka u tablicu.
def add_row(path, file, words_count, pages_count, hours):
row = database.collection.add_row()
row.title = file
tags = path.split("/")
if len(tags) >= 1:
row.what = tags[0]
if len(tags) >= 2:
row.state = tags[1]
if len(tags) >= 3:
if tags[0] == "Художественное":
row.author = tags[2]
elif tags[0] == "Нехудожественное":
row.tags = tags[2]
elif tags[0] == "Учебники":
row.tags = tags[2]
if len(tags) >= 4:
row.author = tags[3]
row.hours = hours
row.pages = pages_count
row.words = words_count
Što se ovdje događa. Uzimamo i dodajemo novi red tablici u prvi red. Zatim dijelimo naš put duž "/" i dobivamo oznake. Oznake - u smislu "Umjetnost", "Dizajn", tko je autor i tako dalje. Zatim postavljamo sva potrebna polja ploče.
Dio 3. Brojanje riječi, sati i drugih užitaka
Ovo je teži zadatak. Kao što se sjećamo, imamo dva formata: epub i pdf. Ako je s epubom sve jasno - riječi su vjerojatno tu, onda s pdf-om nije sve tako jasno: možda se jednostavno sastoji od zalijepljenih slika.
Dakle, naša funkcija za brojanje riječi u PDF-u izgledat će ovako: uzimamo broj stranica i množimo s određenom konstantom (prosječan broj riječi po stranici).
evo je:
def get_words_count(pages_number):
return pages_number * WORDS_PER_PAGE
Ovo WORDS_PER_PAGE za A4 stranicu je približno 300.
Sada napišimo funkciju za brojanje stranica. Koristit ćemo se
def get_pdf_pages_number(path, filename):
pdf = PdfFileReader(open(os.path.join(path, filename), 'rb'))
return pdf.getNumPages()
Zatim ćemo napisati nešto za brojanje stranica u Epubu. Koristimo
def get_epub_pages_number(path, filename):
book = open_book(os.path.join(path, filename))
lines = convert_epub_to_lines(book)
words_count = 0
for line in lines:
words_count += len(line.split(" "))
return round(words_count / WORDS_PER_PAGE)
Sada izračunajmo vrijeme. Uzimamo naš omiljeni broj riječi i dijelimo ga s vašom brzinom čitanja.
def get_reading_time(words_count):
return round(((words_count / WORDS_PER_MINUTE) / 60) * 10) / 10
Dio 4. Spajanje svih dijelova
Moramo proći kroz sve moguće staze u našoj mapi s knjigama. Provjerite postoji li već knjiga u Notionu: ako postoji, više ne moramo stvarati liniju.
Zatim trebamo odrediti vrstu datoteke i ovisno o tome izbrojati broj riječi. Dodajte knjigu na kraju.
Ovo je kod koji dobivamo:
for root, subdirs, files in os.walk(BOOKS_DIR):
if len(files) > 0 and check_for_excusion(root):
for file in files:
array = file.split(".")
filetype = file.split(".")[len(array) - 1]
filename = file.replace("." + filetype, "")
local_root = root.replace(BOOKS_DIR, "")
print("Dir: {}, file: {}".format(local_root, file))
if not check_for_existence(filename):
print("Dir: {}, file: {}".format(local_root, file))
if filetype == "pdf":
count = get_pdf_pages_number(root, file)
else:
count = get_epub_pages_number(root, file)
words_count = get_words_count(count)
hours = get_reading_time(words_count)
print("Pages: {}, Words: {}, Hours: {}".format(count, words_count, hours))
add_row(local_root, filename, words_count, count, hours)
A funkcija za provjeru je li knjiga dodana izgleda ovako:
def check_for_existence(filename):
for row in current_rows:
if row.title in filename:
return True
elif filename in row.title:
return True
return False
Zaključak
Hvala svima koji su pročitali ovaj članak. Nadam se da će vam pomoći da čitate više :)
Izvor: www.habr.com