Създаване на домашна библиотека с Notion и Python

Винаги съм се интересувал как най-добре да разпространявам книгите в моята електронна библиотека. В крайна сметка стигнах до тази опция с автоматично изчисляване на броя страници и други екстри. Моля всички заинтересовани лица под кат.

Част 1. Dropbox

Всичките ми книги са в dropbox. Има 4 категории, в които разделих всичко: Учебник, Справочник, Художествена литература, Научна литература. Но аз не добавям справочници към таблицата.

Повечето книги са .epub, останалите са .pdf. Тоест крайното решение трябва по някакъв начин да покрива и двата варианта.

Моите пътища към книгите са нещо подобно:

/Книги/Нехудожественное/Новое/Дизайн/Юрий Гордон/Книга про буквы от А до Я.epub 

Ако книгата е художествена литература, тогава категорията (т.е. „Дизайн“ в горния случай) се премахва.

Реших да не се занимавам с Dropbox API, тъй като имам тяхното приложение, което синхронизира папката. Тоест планът е следният: вземаме книги от папката, пускаме всяка книга през брояч на думи и я добавяме към Notion.

Част 2. Добавете линия

Самата маса трябва да изглежда така. ВНИМАНИЕ: по-добре е да правите имена на колони на латиница.

Създаване на домашна библиотека с Notion и Python

Ще използваме неофициалния API на Notion, тъй като официалният все още не е доставен.

Създаване на домашна библиотека с Notion и Python

Отидете на Notion, натиснете Ctrl + Shift + J, отидете на Application -> Cookies, копирайте token_v2 и го наречете TOKEN. След това отиваме на страницата, от която се нуждаем, със знака на библиотеката и копираме връзката. Ние го наричаме ПОНЯТИЕ.

След това пишем кода за свързване с Notion.

database = client.get_collection_view(NOTION)
current_rows = database.default_query().execute()

След това нека напишем функция за добавяне на ред към таблицата.

def add_row(path, file, words_count, pages_count, hours):
    row = database.collection.add_row()
    row.title = file

    tags = path.split("/")

    if len(tags) >= 1:
        row.what = tags[0]

    if len(tags) >= 2:
        row.state = tags[1]

    if len(tags) >= 3:
        if tags[0] == "Художественное":
            row.author = tags[2]

        elif tags[0] == "Нехудожественное":
            row.tags = tags[2]

        elif tags[0] == "Учебники":
            row.tags = tags[2]

    if len(tags) >= 4:
        row.author = tags[3]

    row.hours = hours
    row.pages = pages_count
    row.words = words_count

Какво става тук. Взимаме и добавяме нов ред към таблицата в първия ред. След това разделяме нашия път по "/" и получаваме тагове. Тагове - по отношение на „Изкуство“, „Дизайн“, кой е авторът и т.н. След това задаваме всички необходими полета на табелата.

Част 3. Броене на думи, часове и други удоволствия

Това е по-трудна задача. Както си спомняме, имаме два формата: epub и pdf. Ако всичко е ясно с epub - думите вероятно са там, тогава всичко не е толкова ясно за pdf: той може просто да се състои от залепени изображения.

Така че нашата функция за броене на думи в PDF ще изглежда така: вземаме броя на страниците и умножаваме по определена константа (средния брой думи на страница).

Ето я:

def get_words_count(pages_number):
    return pages_number * WORDS_PER_PAGE

Това WORDS_PER_PAGE за страница A4 е приблизително 300.

Сега нека напишем функция за броене на страници. Ще използваме pyPDF2.

def get_pdf_pages_number(path, filename):
    pdf = PdfFileReader(open(os.path.join(path, filename), 'rb'))
    return pdf.getNumPages()

След това ще напишем нещо за броене на страници в Epub. Ние използваме epub_конвертор. Тук вземаме книгата, преобразуваме я в редове и броим думите за всеки ред.

def get_epub_pages_number(path, filename):
    book = open_book(os.path.join(path, filename))
    lines = convert_epub_to_lines(book)
    words_count = 0

    for line in lines:
        words_count += len(line.split(" "))

    return round(words_count / WORDS_PER_PAGE)

Сега нека изчислим времето. Ние вземаме броя на любимите си думи и го разделяме на вашата скорост на четене.

def get_reading_time(words_count):
    return round(((words_count / WORDS_PER_MINUTE) / 60) * 10) / 10

Част 4. Свързване на всички части

Трябва да преминем през всички възможни пътища в нашата папка с книги. Проверете дали вече има книга в Notion: ако има, вече не е необходимо да създаваме ред.
След това трябва да определим типа на файла, в зависимост от това да преброим броя на думите. Добавете книга в края.

Това е кодът, който получаваме:

for root, subdirs, files in os.walk(BOOKS_DIR):
    if len(files) > 0 and check_for_excusion(root):
        for file in files:
            array = file.split(".")
            filetype = file.split(".")[len(array) - 1]
            filename = file.replace("." + filetype, "")
            local_root = root.replace(BOOKS_DIR, "")

            print("Dir: {}, file: {}".format(local_root, file))

            if not check_for_existence(filename):
                print("Dir: {}, file: {}".format(local_root, file))

                if filetype == "pdf":
                    count = get_pdf_pages_number(root, file)

                else:
                    count = get_epub_pages_number(root, file)

                words_count = get_words_count(count)
                hours = get_reading_time(words_count)
                print("Pages: {}, Words: {}, Hours: {}".format(count, words_count, hours))
                add_row(local_root, filename, words_count, count, hours)

А функцията за проверка дали е добавена книга изглежда така:

def check_for_existence(filename):
    for row in current_rows:
        if row.title in filename:
            return True

        elif filename in row.title:
            return True

    return False

Заключение

Благодаря на всички, които прочетоха тази статия. Надявам се да ви помогне да прочетете повече :)

Източник: www.habr.com

Добавяне на нов коментар