Робимо домашню бібліотеку з Notion та Python

Мені завжди було цікаво, як би краще розподілити книги у себе в електронній бібліотеці. У результаті прийшов до такого варіанту з автоматичним підрахунком кількості сторінок та іншими плюшками. Усіх зацікавлених прошу під кат.

Частина 1. Dropbox

Усі книжки у мене лежать на дропбоксі. Існують 4 категорії, на які я все поділив: Підручник, Довідник, Художнє, Нехудожнє. Але довідники я до таблички не додаю.

Більшість книг — .epub, інші — .pdf. Тобто кінцеве рішення має якось покривати обидва варіанти.

Шляхи до книг у мене приблизно такі:

/Книги/Нехудожественное/Новое/Дизайн/Юрий Гордон/Книга про буквы от А до Я.epub 

Якщо книга художня, то категорія (тобто «Дизайн» у разі вище) забирається.

Я вирішив не морочитися з API дропбокса, благо у мене стоїть їхня програма, яка синхронізує папку. Тобто такий план: беремо книги з папки, кожну книгу проганяємо через лічильник слів, додаємо в Notion.

Частина 2. Додаємо рядок

Сама таблиця має виглядати приблизно так. УВАГА: назви стовпців краще робити латиницею.

Робимо домашню бібліотеку з Notion та Python

Використовуватимемо неофіційне API Notion'а, бо офіційне ще не завезли.

Робимо домашню бібліотеку з Notion та Python

Йдемо в Notion, клацаємо Ctrl + Shift + J, йдемо в Application -> Cookies, копіюємо token_v2 і називаємо його TOKEN. Потім йдемо на потрібну нам сторінку з табличкою бібліотеки та копіюємо посилання. Називаємо NOTION.

Потім пишемо код на підключення до Notion'у.

database = client.get_collection_view(NOTION)
current_rows = database.default_query().execute()

Далі напишемо функцію на додавання рядка в табличку.

def add_row(path, file, words_count, pages_count, hours):
    row = database.collection.add_row()
    row.title = file

    tags = path.split("/")

    if len(tags) >= 1:
        row.what = tags[0]

    if len(tags) >= 2:
        row.state = tags[1]

    if len(tags) >= 3:
        if tags[0] == "Художественное":
            row.author = tags[2]

        elif tags[0] == "Нехудожественное":
            row.tags = tags[2]

        elif tags[0] == "Учебники":
            row.tags = tags[2]

    if len(tags) >= 4:
        row.author = tags[3]

    row.hours = hours
    row.pages = pages_count
    row.words = words_count

Що тут відбувається. Ми беремо та додаємо новий рядок до таблиці у першому рядку. Далі сплітемо наш шлях по «/» і отримуємо теги. Теги — у плані «Художнє», «Дизайн», хто автор і таке інше. Потім задаємо всі необхідні поля таблички.

Частина 3. Вважаємо слова, годинник та інші принади

Це вже завдання складніше. Як ми пам'ятаємо, у нас є два формати: єпаб та пдф. Якщо з єпабом все зрозуміло — слова там, мабуть, точно є, то щодо пдф все не так однозначно: воно може складатися просто зі склеєних зображень.

Так що функція для підрахунку слів у пдф у нас буде виглядати так: ми беремо кількість сторінок і примножуємо на певну константу (середня кількість слів на сторінці).

Ось вона:

def get_words_count(pages_number):
    return pages_number * WORDS_PER_PAGE

Це WORDS_PER_PAGE для сторінки A4 приблизно дорівнює 300.

Тепер давайте напишемо функцію для підрахунку сторінок. Будемо юзати pyPDF2.

def get_pdf_pages_number(path, filename):
    pdf = PdfFileReader(open(os.path.join(path, filename), 'rb'))
    return pdf.getNumPages()

Далі напишемо штучку для підрахунку сторінок у епабі. Використовуємо epub_converter. Тут ми беремо книжку, конвертуємо в рядки, і кожного рядка вважаємо слова.

def get_epub_pages_number(path, filename):
    book = open_book(os.path.join(path, filename))
    lines = convert_epub_to_lines(book)
    words_count = 0

    for line in lines:
        words_count += len(line.split(" "))

    return round(words_count / WORDS_PER_PAGE)

Тепер зробимо підрахунок часу. Беремо нашу улюблену кількість слів та ділимо на вашу швидкість читання.

def get_reading_time(words_count):
    return round(((words_count / WORDS_PER_MINUTE) / 60) * 10) / 10

Частина 4. З'єднуємо всі частини

Нам потрібно обійти всі можливі шляхи у нашій папці з книгами. Перевірити, чи є вже книга в Notion: якщо є рядок створювати нам уже не треба.
Потім потрібно визначити тип файлу, залежно від цього підрахувати кількість слів. Наприкінці додати книгу.

Ось такий код у нас виходить:

for root, subdirs, files in os.walk(BOOKS_DIR):
    if len(files) > 0 and check_for_excusion(root):
        for file in files:
            array = file.split(".")
            filetype = file.split(".")[len(array) - 1]
            filename = file.replace("." + filetype, "")
            local_root = root.replace(BOOKS_DIR, "")

            print("Dir: {}, file: {}".format(local_root, file))

            if not check_for_existence(filename):
                print("Dir: {}, file: {}".format(local_root, file))

                if filetype == "pdf":
                    count = get_pdf_pages_number(root, file)

                else:
                    count = get_epub_pages_number(root, file)

                words_count = get_words_count(count)
                hours = get_reading_time(words_count)
                print("Pages: {}, Words: {}, Hours: {}".format(count, words_count, hours))
                add_row(local_root, filename, words_count, count, hours)

А функція для перевірки, чи додано книгу, виглядає так:

def check_for_existence(filename):
    for row in current_rows:
        if row.title in filename:
            return True

        elif filename in row.title:
            return True

    return False

Висновок

Дякую всім, хто прочитав цю статтю. Сподіваюся, вона допоможе вам читати більше 🙂

Джерело: habr.com

Додати коментар або відгук