Робім хатнюю бібліятэку з Notion і Python

Мне заўсёды было цікава, як лепей размеркаваць кнігі ў сябе ў электроннай бібліятэцы. У выніку прыйшоў да такога варыянту з аўтаматычным падлікам колькасці старонак і іншымі плюшкамі. Усіх зацікаўленых прашу пад кат.

Частка 1. Dropbox

Усе кніжкі ў мяне ляжаць на дропбоксе. Існуюць 4 катэгорыі, на якія я ўсё падзяліў: Падручнік, Даведнік, Мастацкае, Немастацкае. Але даведнікі я ў таблічку не дадаю.

Большая частка з кніг – .epub, астатнія – .pdf. Гэта значыць канчатковае рашэнне павінна неяк пакрываць абодва варыянты.

Шляхі да кніг у мяне прыкладна такія:

/Книги/Нехудожественное/Новое/Дизайн/Юрий Гордон/Книга про буквы от А до Я.epub 

Калі кніга мастацкая, то катэгорыя (гэта значыць "Дызайн" у выпадку вышэй) прыбіраецца.

Я вырашыў не затлумляцца з API дропбокса, балазе ў мяне варта іх дадатак, якое сінхранізуе тэчку. Гэта значыць план такі: бярэм кнігі з тэчкі, кожную кнігу праганяем праз лічыльнік слоў, дадаем у Notion.

Частка 2. Дадаем радок

Сама табліца павінна выглядаць прыблізна наступным чынам. УВАГА: назвы слупкоў лепш рабіць лацінкай.

Робім хатнюю бібліятэку з Notion і Python

Выкарыстоўваць будзем неафіцыйнае API Notion'а, бо афіцыйнае яшчэ не завезлі.

Робім хатнюю бібліятэку з Notion і Python

Ідзем у Notion, жмякаем Ctrl + Shift + J, ідзем у Application -> Cookies, які капіюецца token_v2 і завём яго TOKEN. Потым ідзем на патрэбную нам старонку з шыльдачкай бібліятэкі і капіюем спасылку. Называем NOTION.

Потым пішам код на падлучэнне да Notion'у.

database = client.get_collection_view(NOTION)
current_rows = database.default_query().execute()

Далей напішам-ка функцыю на даданне радка ў таблічку.

def add_row(path, file, words_count, pages_count, hours):
    row = database.collection.add_row()
    row.title = file

    tags = path.split("/")

    if len(tags) >= 1:
        row.what = tags[0]

    if len(tags) >= 2:
        row.state = tags[1]

    if len(tags) >= 3:
        if tags[0] == "Художественное":
            row.author = tags[2]

        elif tags[0] == "Нехудожественное":
            row.tags = tags[2]

        elif tags[0] == "Учебники":
            row.tags = tags[2]

    if len(tags) >= 4:
        row.author = tags[3]

    row.hours = hours
    row.pages = pages_count
    row.words = words_count

Што тут адбываецца? Мы бярэм і дадаем новы радок да табліцы ў першым радку. Далей сплоцім наш шлях па "/" і атрымліваем тэгі. Тэгі - у плане "Мастацкае", "Дызайн", хто аўтар і гэтак далей. Потым задаем усе неабходныя палі таблічкі.

Частка 3. Лічым словы, гадзіны і іншыя любаты

Гэта ўжо задача цяжэй. Як мы памятаем, у нас ёсць два фарматы: епаб і пдф. Калі з епабам усё зразумела - словы там, верагодна, сапраўды ёсць, то вось наконт пдф усё не так адназначна: яно можа складацца проста са злепленых малюнкаў.

Так што функцыя для падліку слоў у пдф у нас будзе выглядаць наступным чынам: мы бярэм колькасць старонак і памнажаем на пэўную канстанту (сярэдні лік слоў на старонцы).

Вось яна:

def get_words_count(pages_number):
    return pages_number * WORDS_PER_PAGE

Гэта самае WORDS_PER_PAGE для старонкі A4 прыкладна роўна 300.

Цяпер давайце напішам функцыю для падліку старонак. Будзем юзаць pyPDF2.

def get_pdf_pages_number(path, filename):
    pdf = PdfFileReader(open(os.path.join(path, filename), 'rb'))
    return pdf.getNumPages()

Далей напішам штучку для падліку старонак у епабе. Выкарыстоўваны epub_converter. Тут мы бярэм кніжку, канвертуем у радкі, і для кожнага радка лічым словы.

def get_epub_pages_number(path, filename):
    book = open_book(os.path.join(path, filename))
    lines = convert_epub_to_lines(book)
    words_count = 0

    for line in lines:
        words_count += len(line.split(" "))

    return round(words_count / WORDS_PER_PAGE)

Цяпер зробім падлік часу. Бярэм наша любімая колькасць слоў і дзелім на вашу хуткасць чытання.

def get_reading_time(words_count):
    return round(((words_count / WORDS_PER_MINUTE) / 60) * 10) / 10

Частка 4. Злучаем усе часткі

Нам трэба абысці ўсе магчымыя шляхі ў нашай папцы з кнігамі. Праверыць, ці ёсць ужо кніга ў Notion: калі ёсць - радок ствараць нам ужо не трэба.
Пасля нам трэба вызначыць тып файла, у залежнасці ад гэтага падлічыць колькасць слоў. У канцы дадаць кнігу.

Вось такі код у нас атрымліваецца:

for root, subdirs, files in os.walk(BOOKS_DIR):
    if len(files) > 0 and check_for_excusion(root):
        for file in files:
            array = file.split(".")
            filetype = file.split(".")[len(array) - 1]
            filename = file.replace("." + filetype, "")
            local_root = root.replace(BOOKS_DIR, "")

            print("Dir: {}, file: {}".format(local_root, file))

            if not check_for_existence(filename):
                print("Dir: {}, file: {}".format(local_root, file))

                if filetype == "pdf":
                    count = get_pdf_pages_number(root, file)

                else:
                    count = get_epub_pages_number(root, file)

                words_count = get_words_count(count)
                hours = get_reading_time(words_count)
                print("Pages: {}, Words: {}, Hours: {}".format(count, words_count, hours))
                add_row(local_root, filename, words_count, count, hours)

А функцыя для праверкі, ці дададзеная кніга, выглядае так:

def check_for_existence(filename):
    for row in current_rows:
        if row.title in filename:
            return True

        elif filename in row.title:
            return True

    return False

Заключэнне

Дзякуй усім, хто прачытаў гэты артыкул. Спадзяюся, яна дапаможа вам чытаць больш 🙂

Крыніца: habr.com

Дадаць каментар