Мне заўсёды было цікава, як лепей размеркаваць кнігі ў сябе ў электроннай бібліятэцы. У выніку прыйшоў да такога варыянту з аўтаматычным падлікам колькасці старонак і іншымі плюшкамі. Усіх зацікаўленых прашу пад кат.
Частка 1. Dropbox
Усе кніжкі ў мяне ляжаць на дропбоксе. Існуюць 4 катэгорыі, на якія я ўсё падзяліў: Падручнік, Даведнік, Мастацкае, Немастацкае. Але даведнікі я ў таблічку не дадаю.
Большая частка з кніг – .epub, астатнія – .pdf. Гэта значыць канчатковае рашэнне павінна неяк пакрываць абодва варыянты.
Шляхі да кніг у мяне прыкладна такія:
/Книги/Нехудожественное/Новое/Дизайн/Юрий Гордон/Книга про буквы от А до Я.epub
Калі кніга мастацкая, то катэгорыя (гэта значыць "Дызайн" у выпадку вышэй) прыбіраецца.
Я вырашыў не затлумляцца з API дропбокса, балазе ў мяне варта іх дадатак, якое сінхранізуе тэчку. Гэта значыць план такі: бярэм кнігі з тэчкі, кожную кнігу праганяем праз лічыльнік слоў, дадаем у Notion.
Частка 2. Дадаем радок
Сама табліца павінна выглядаць прыблізна наступным чынам. УВАГА: назвы слупкоў лепш рабіць лацінкай.
Выкарыстоўваць будзем неафіцыйнае API Notion'а, бо афіцыйнае яшчэ не завезлі.
Ідзем у Notion, жмякаем Ctrl + Shift + J, ідзем у Application -> Cookies, які капіюецца token_v2 і завём яго TOKEN. Потым ідзем на патрэбную нам старонку з шыльдачкай бібліятэкі і капіюем спасылку. Называем NOTION.
Потым пішам код на падлучэнне да Notion'у.
database = client.get_collection_view(NOTION)
current_rows = database.default_query().execute()
Далей напішам-ка функцыю на даданне радка ў таблічку.
def add_row(path, file, words_count, pages_count, hours):
row = database.collection.add_row()
row.title = file
tags = path.split("/")
if len(tags) >= 1:
row.what = tags[0]
if len(tags) >= 2:
row.state = tags[1]
if len(tags) >= 3:
if tags[0] == "Художественное":
row.author = tags[2]
elif tags[0] == "Нехудожественное":
row.tags = tags[2]
elif tags[0] == "Учебники":
row.tags = tags[2]
if len(tags) >= 4:
row.author = tags[3]
row.hours = hours
row.pages = pages_count
row.words = words_count
Што тут адбываецца? Мы бярэм і дадаем новы радок да табліцы ў першым радку. Далей сплоцім наш шлях па "/" і атрымліваем тэгі. Тэгі - у плане "Мастацкае", "Дызайн", хто аўтар і гэтак далей. Потым задаем усе неабходныя палі таблічкі.
Частка 3. Лічым словы, гадзіны і іншыя любаты
Гэта ўжо задача цяжэй. Як мы памятаем, у нас ёсць два фарматы: епаб і пдф. Калі з епабам усё зразумела - словы там, верагодна, сапраўды ёсць, то вось наконт пдф усё не так адназначна: яно можа складацца проста са злепленых малюнкаў.
Так што функцыя для падліку слоў у пдф у нас будзе выглядаць наступным чынам: мы бярэм колькасць старонак і памнажаем на пэўную канстанту (сярэдні лік слоў на старонцы).
Вось яна:
def get_words_count(pages_number):
return pages_number * WORDS_PER_PAGE
Гэта самае WORDS_PER_PAGE для старонкі A4 прыкладна роўна 300.
Цяпер давайце напішам функцыю для падліку старонак. Будзем юзаць
def get_pdf_pages_number(path, filename):
pdf = PdfFileReader(open(os.path.join(path, filename), 'rb'))
return pdf.getNumPages()
Далей напішам штучку для падліку старонак у епабе. Выкарыстоўваны
def get_epub_pages_number(path, filename):
book = open_book(os.path.join(path, filename))
lines = convert_epub_to_lines(book)
words_count = 0
for line in lines:
words_count += len(line.split(" "))
return round(words_count / WORDS_PER_PAGE)
Цяпер зробім падлік часу. Бярэм наша любімая колькасць слоў і дзелім на вашу хуткасць чытання.
def get_reading_time(words_count):
return round(((words_count / WORDS_PER_MINUTE) / 60) * 10) / 10
Частка 4. Злучаем усе часткі
Нам трэба абысці ўсе магчымыя шляхі ў нашай папцы з кнігамі. Праверыць, ці ёсць ужо кніга ў Notion: калі ёсць - радок ствараць нам ужо не трэба.
Пасля нам трэба вызначыць тып файла, у залежнасці ад гэтага падлічыць колькасць слоў. У канцы дадаць кнігу.
Вось такі код у нас атрымліваецца:
for root, subdirs, files in os.walk(BOOKS_DIR):
if len(files) > 0 and check_for_excusion(root):
for file in files:
array = file.split(".")
filetype = file.split(".")[len(array) - 1]
filename = file.replace("." + filetype, "")
local_root = root.replace(BOOKS_DIR, "")
print("Dir: {}, file: {}".format(local_root, file))
if not check_for_existence(filename):
print("Dir: {}, file: {}".format(local_root, file))
if filetype == "pdf":
count = get_pdf_pages_number(root, file)
else:
count = get_epub_pages_number(root, file)
words_count = get_words_count(count)
hours = get_reading_time(words_count)
print("Pages: {}, Words: {}, Hours: {}".format(count, words_count, hours))
add_row(local_root, filename, words_count, count, hours)
А функцыя для праверкі, ці дададзеная кніга, выглядае так:
def check_for_existence(filename):
for row in current_rows:
if row.title in filename:
return True
elif filename in row.title:
return True
return False
Заключэнне
Дзякуй усім, хто прачытаў гэты артыкул. Спадзяюся, яна дапаможа вам чытаць больш 🙂
Крыніца: habr.com