Прављење кућне библиотеке уз Нотион и Питхон

Увек ме је занимало како најбоље дистрибуирати књиге у својој електронској библиотеци. На крају сам дошао до ове опције са аутоматским прорачуном броја страница и осталих доброта. Молим све заинтересоване под кат.

Парт 1. Дропбок

Све моје књиге су у дропбок-у. Постоје 4 категорије у које сам све поделио: Уџбеник, Референца, Белетристика, Нон-фицтион. Али не додајем референтне књиге у табелу.

Већина књига је .епуб, а остале су .пдф. Односно, коначно решење мора некако да покрије обе опције.

Моји путеви до књига су отприлике овако:

/Книги/Нехудожественное/Новое/Дизайн/Юрий Гордон/Книга про буквы от А до Я.epub 

Ако је књига фикција, категорија (то јест, „Дизајн“ у случају изнад) се уклања.

Одлучио сам да се не замарам Дропбок АПИ-јем, пошто имам њихову апликацију која синхронизује фасциклу. То јест, план је следећи: узимамо књиге из фасцикле, провлачимо сваку књигу кроз бројач речи и додајемо је у Појам.

Део 2. Додајте линију

Сама табела би требала изгледати отприлике овако. ПАЖЊА: називе колона је боље направити латиницом.

Прављење кућне библиотеке уз Нотион и Питхон

Користићемо незванични Нотион АПИ, јер званични још није испоручен.

Прављење кућне библиотеке уз Нотион и Питхон

Идите на Нотион, притисните Цтрл + Схифт + Ј, идите на Апплицатион -> Цоокиес, копирајте токен_в2 и назовите га ТОКЕН. Затим идемо на страницу која нам је потребна са знаком библиотеке и копирамо везу. Ми то зовемо ПОЈАМ.

Затим пишемо код за повезивање са Нотион-ом.

database = client.get_collection_view(NOTION)
current_rows = database.default_query().execute()

Затим, напишимо функцију за додавање реда у табелу.

def add_row(path, file, words_count, pages_count, hours):
    row = database.collection.add_row()
    row.title = file

    tags = path.split("/")

    if len(tags) >= 1:
        row.what = tags[0]

    if len(tags) >= 2:
        row.state = tags[1]

    if len(tags) >= 3:
        if tags[0] == "Художественное":
            row.author = tags[2]

        elif tags[0] == "Нехудожественное":
            row.tags = tags[2]

        elif tags[0] == "Учебники":
            row.tags = tags[2]

    if len(tags) >= 4:
        row.author = tags[3]

    row.hours = hours
    row.pages = pages_count
    row.words = words_count

Шта се дешава овде. Узимамо и додајемо нови ред у табелу у првом реду. Затим делимо нашу путању дуж „/“ и добијамо ознаке. Ознаке - у смислу „уметности“, „дизајна“, ко је аутор и тако даље. Затим постављамо сва потребна поља плоче.

Део 3. Бројање речи, сати и других ужитака

Ово је тежи задатак. Као што се сећамо, имамо два формата: епуб и пдф. Ако је са епуб-ом све јасно - речи су вероватно ту, онда са пдф-ом све није тако јасно: он се може једноставно састојати од залепљених слика.

Дакле, наша функција за бројање речи у ПДФ-у ће изгледати овако: узимамо број страница и множимо са одређеном константом (просечан број речи по страници).

Ено је:

def get_words_count(pages_number):
    return pages_number * WORDS_PER_PAGE

Ова ВОРДС_ПЕР_ПАГЕ за А4 страницу је приближно 300.

Хајде сада да напишемо функцију за бројање страница. Користићемо ПиПДФ2.

def get_pdf_pages_number(path, filename):
    pdf = PdfFileReader(open(os.path.join(path, filename), 'rb'))
    return pdf.getNumPages()

Затим ћемо написати нешто за бројање страница у Епуб-у. Користимо епуб_цонвертер. Овде узимамо књигу, претварамо је у редове и бројимо речи за сваки ред.

def get_epub_pages_number(path, filename):
    book = open_book(os.path.join(path, filename))
    lines = convert_epub_to_lines(book)
    words_count = 0

    for line in lines:
        words_count += len(line.split(" "))

    return round(words_count / WORDS_PER_PAGE)

Сада израчунајмо време. Узимамо наш омиљени број речи и делимо га са вашом брзином читања.

def get_reading_time(words_count):
    return round(((words_count / WORDS_PER_MINUTE) / 60) * 10) / 10

Део 4. Повезивање свих делова

Морамо да прођемо кроз све могуће путеве у фасцикли са књигама. Проверите да ли већ постоји књига у Нотиону: ако постоји, више не треба да правимо линију.
Затим треба да одредимо тип датотеке и, у зависности од тога, пребројимо број речи. Додајте књигу на крају.

Ово је код који добијамо:

for root, subdirs, files in os.walk(BOOKS_DIR):
    if len(files) > 0 and check_for_excusion(root):
        for file in files:
            array = file.split(".")
            filetype = file.split(".")[len(array) - 1]
            filename = file.replace("." + filetype, "")
            local_root = root.replace(BOOKS_DIR, "")

            print("Dir: {}, file: {}".format(local_root, file))

            if not check_for_existence(filename):
                print("Dir: {}, file: {}".format(local_root, file))

                if filetype == "pdf":
                    count = get_pdf_pages_number(root, file)

                else:
                    count = get_epub_pages_number(root, file)

                words_count = get_words_count(count)
                hours = get_reading_time(words_count)
                print("Pages: {}, Words: {}, Hours: {}".format(count, words_count, hours))
                add_row(local_root, filename, words_count, count, hours)

А функција за проверу да ли је књига додата изгледа овако:

def check_for_existence(filename):
    for row in current_rows:
        if row.title in filename:
            return True

        elif filename in row.title:
            return True

    return False

Закључак

Хвала свима који су прочитали овај чланак. Надам се да ће вам помоћи да прочитате више :)

Извор: ввв.хабр.цом

Додај коментар