Տնային գրադարանի ստեղծում Notion-ի և Python-ի միջոցով

Ինձ միշտ հետաքրքրել է, թե ինչպես լավագույնս գրքերը բաժանել իմ էլեկտրոնային գրադարանում: Ի վերջո, ես հասա այս տարբերակին՝ էջերի քանակի և այլ բարիքների ավտոմատ հաշվարկով։ Կատուի տակ խնդրում եմ բոլոր հետաքրքրված անձանց.

Մաս 1. Dropbox

Իմ բոլոր գրքերը dropbox-ում են: Կան 4 կատեգորիաներ, որոնց ես ամեն ինչ բաժանեցի՝ Դասագիրք, Հղում, Գեղարվեստական, Ոչ գեղարվեստական: Բայց ես տեղեկատու գրքեր չեմ ավելացնում սեղանին:

Գրքերի մեծ մասը .epub է, մնացածը՝ .pdf։ Այսինքն՝ վերջնական լուծումը պետք է ինչ-որ կերպ ընդգրկի երկու տարբերակները։

Գրքեր տանող իմ ճանապարհները մոտավորապես այսպիսին են.

/Книги/Нехудожественное/Новое/Дизайн/Юрий Гордон/Книга про буквы от А до Я.epub 

Եթե ​​գիրքը գեղարվեստական ​​է, ապա կատեգորիան (այսինքն՝ «Դիզայն» վերը նշված դեպքում) հանվում է։

Ես որոշեցի չանհանգստանալ Dropbox API-ի հետ, քանի որ ունեմ նրանց հավելվածը, որը համաժամացնում է թղթապանակը: Այսինքն՝ պլանը սա է՝ մենք թղթապանակից վերցնում ենք գրքեր, յուրաքանչյուր գիրք անցկացնում ենք բառերի հաշվիչով և ավելացնում այն ​​«Notion»-ում:

Մաս 2. Ավելացնել տող

Աղյուսակն ինքնին պետք է նման բան լինի. ՈՒՇԱԴՐՈՒԹՅՈՒՆ՝ ավելի լավ է սյունակների անվանումները կատարել լատիներեն:

Տնային գրադարանի ստեղծում Notion-ի և Python-ի միջոցով

Մենք կօգտագործենք ոչ պաշտոնական Notion API-ն, քանի որ պաշտոնականը դեռ չի առաքվել։

Տնային գրադարանի ստեղծում Notion-ի և Python-ի միջոցով

Գնացեք Notion, սեղմեք Ctrl + Shift + J, անցեք Application -> Cookies, պատճենեք token_v2 և ​​անվանեք այն TOKEN: Այնուհետև գրադարանի նշանով գնում ենք մեզ անհրաժեշտ էջ և պատճենում հղումը։ Մենք դա անվանում ենք ՀԱՍԿԱՑՈՒԹՅՈՒՆ:

Հետո գրում ենք Notion-ին միանալու կոդը։

database = client.get_collection_view(NOTION)
current_rows = database.default_query().execute()

Հաջորդը, եկեք գրենք ֆունկցիա՝ աղյուսակում տող ավելացնելու համար:

def add_row(path, file, words_count, pages_count, hours):
    row = database.collection.add_row()
    row.title = file

    tags = path.split("/")

    if len(tags) >= 1:
        row.what = tags[0]

    if len(tags) >= 2:
        row.state = tags[1]

    if len(tags) >= 3:
        if tags[0] == "Художественное":
            row.author = tags[2]

        elif tags[0] == "Нехудожественное":
            row.tags = tags[2]

        elif tags[0] == "Учебники":
            row.tags = tags[2]

    if len(tags) >= 4:
        row.author = tags[3]

    row.hours = hours
    row.pages = pages_count
    row.words = words_count

Ինչ է այստեղ կատարվում. Վերցնում ենք և առաջին շարքի աղյուսակում նոր տող ենք ավելացնում։ Հաջորդը, մենք բաժանում ենք մեր ճանապարհը «/»-ի երկայնքով և ստանում պիտակներ: Պիտակներ - «Արվեստ», «Դիզայն», ով է հեղինակը և այլն: Այնուհետև մենք դրեցինք ափսեի բոլոր անհրաժեշտ դաշտերը:

Մաս 3. Բառերի, ժամերի և այլ հաճույքների հաշվում

Սա ավելի բարդ խնդիր է։ Ինչպես հիշում ենք, ունենք երկու ձևաչափ՝ epub և pdf։ Եթե ​​epub-ի հետ ամեն ինչ պարզ է, բառերը հավանաբար կան, ապա pdf-ի հետ կապված ամեն ինչ այնքան էլ պարզ չէ. այն կարող է պարզապես սոսնձված պատկերներից բաղկացած լինել:

Այսպիսով, PDF-ում բառերը հաշվելու մեր գործառույթը կունենա հետևյալ տեսքը. մենք վերցնում ենք էջերի քանակը և բազմապատկում որոշակի հաստատունով (բառերի միջին թիվը մեկ էջում):

Ահա նա.

def get_words_count(pages_number):
    return pages_number * WORDS_PER_PAGE

Այս WORDS_PER_PAGE A4 էջի համար մոտավորապես 300 է:

Հիմա եկեք էջերը հաշվելու ֆունկցիա գրենք։ Մենք կօգտագործենք pyPDF2.

def get_pdf_pages_number(path, filename):
    pdf = PdfFileReader(open(os.path.join(path, filename), 'rb'))
    return pdf.getNumPages()

Հաջորդը, մենք կգրենք Epub-ում էջերը հաշվելու համար: Մենք օգտագործում ենք epub_converter. Այստեղ մենք վերցնում ենք գիրքը, վերածում այն ​​տողերի և հաշվում բառերը յուրաքանչյուր տողի համար:

def get_epub_pages_number(path, filename):
    book = open_book(os.path.join(path, filename))
    lines = convert_epub_to_lines(book)
    words_count = 0

    for line in lines:
        words_count += len(line.split(" "))

    return round(words_count / WORDS_PER_PAGE)

Հիմա եկեք հաշվարկենք ժամանակը։ Մենք վերցնում ենք մեր սիրելի բառերի թիվը և այն բաժանում ձեր ընթերցանության արագության վրա:

def get_reading_time(words_count):
    return round(((words_count / WORDS_PER_MINUTE) / 60) * 10) / 10

Մաս 4. Բոլոր մասերի միացում

Մենք պետք է անցնենք մեր գրքերի պանակի բոլոր հնարավոր ուղիներով: Ստուգեք, արդյոք արդեն կա գիրք հասկացության մեջ. եթե կա, մենք այլևս կարիք չունենք տող ստեղծելու:
Այնուհետև մենք պետք է որոշենք ֆայլի տեսակը, կախված սրանից՝ հաշվենք բառերի քանակը։ Վերջում ավելացրեք գիրք:

Սա այն կոդը է, որը մենք ստանում ենք.

for root, subdirs, files in os.walk(BOOKS_DIR):
    if len(files) > 0 and check_for_excusion(root):
        for file in files:
            array = file.split(".")
            filetype = file.split(".")[len(array) - 1]
            filename = file.replace("." + filetype, "")
            local_root = root.replace(BOOKS_DIR, "")

            print("Dir: {}, file: {}".format(local_root, file))

            if not check_for_existence(filename):
                print("Dir: {}, file: {}".format(local_root, file))

                if filetype == "pdf":
                    count = get_pdf_pages_number(root, file)

                else:
                    count = get_epub_pages_number(root, file)

                words_count = get_words_count(count)
                hours = get_reading_time(words_count)
                print("Pages: {}, Words: {}, Hours: {}".format(count, words_count, hours))
                add_row(local_root, filename, words_count, count, hours)

Իսկ գիրքը ավելացվել է ստուգելու ֆունկցիան այսպիսին է թվում.

def check_for_existence(filename):
    for row in current_rows:
        if row.title in filename:
            return True

        elif filename in row.title:
            return True

    return False

Ամփոփում

Շնորհակալություն բոլորին, ովքեր կարդացել են այս հոդվածը: Հուսով եմ, որ այն կօգնի ձեզ կարդալ ավելին :)

Source: www.habr.com

Добавить комментарий