Pravljenje kućne biblioteke uz Notion i Python

Oduvijek me je zanimalo kako najbolje distribuirati knjige u svojoj elektronskoj biblioteci. Na kraju sam došao do ove opcije sa automatskim proračunom broja stranica i ostalih dobrota. Molim sve zainteresovane pod kat.

Dio 1. Dropbox

Sve moje knjige su u dropboxu. Postoje 4 kategorije u koje sam sve podijelio: Udžbenik, Priručnik, Beletristika, Non-fiction. Ali ne dodajem referentne knjige u tabelu.

Većina knjiga je .epub, a ostale su .pdf. Odnosno, konačno rješenje mora nekako pokriti obje opcije.

Moji putevi do knjiga su otprilike ovako:

/Книги/Нехудожественное/Новое/Дизайн/Юрий Гордон/Книга про буквы от А до Я.epub 

Ako je knjiga fikcija, kategorija (to jest, "Dizajn" u gornjem slučaju) se uklanja.

Odlučio sam da se ne zamaram Dropbox API-jem, pošto imam njihovu aplikaciju koja sinhronizuje folder. Odnosno, plan je sledeći: uzimamo knjige iz fascikle, provlačimo svaku knjigu kroz brojač reči i dodajemo je u Pojam.

Dio 2. Dodajte liniju

Sama tabela bi trebala izgledati otprilike ovako. PAŽNJA: nazive kolona je bolje napraviti latinicom.

Pravljenje kućne biblioteke uz Notion i Python

Koristićemo nezvanični Notion API, jer zvanični još nije isporučen.

Pravljenje kućne biblioteke uz Notion i Python

Idite na Notion, pritisnite Ctrl + Shift + J, idite na Application -> Cookies, kopirajte token_v2 i nazovite ga TOKEN. Zatim idemo na stranicu koja nam je potrebna sa znakom biblioteke i kopiramo link. Mi to zovemo POJAM.

Zatim pišemo kod za povezivanje sa Notionom.

database = client.get_collection_view(NOTION)
current_rows = database.default_query().execute()

Zatim, napišimo funkciju za dodavanje reda u tablicu.

def add_row(path, file, words_count, pages_count, hours):
    row = database.collection.add_row()
    row.title = file

    tags = path.split("/")

    if len(tags) >= 1:
        row.what = tags[0]

    if len(tags) >= 2:
        row.state = tags[1]

    if len(tags) >= 3:
        if tags[0] == "Художественное":
            row.author = tags[2]

        elif tags[0] == "Нехудожественное":
            row.tags = tags[2]

        elif tags[0] == "Учебники":
            row.tags = tags[2]

    if len(tags) >= 4:
        row.author = tags[3]

    row.hours = hours
    row.pages = pages_count
    row.words = words_count

Šta se ovde dešava. Uzimamo i dodajemo novi red u tabelu u prvom redu. Zatim dijelimo našu putanju duž “/” i dobijamo oznake. Oznake - u smislu “Umjetnost”, “Dizajn”, ko je autor itd. Zatim postavljamo sva potrebna polja ploče.

Dio 3. Brojanje riječi, sati i drugih užitaka

Ovo je teži zadatak. Kao što se sjećamo, imamo dva formata: epub i pdf. Ako je s epub-om sve jasno - riječi su vjerojatno tu, onda u pdf-u nije sve tako jasno: može se jednostavno sastojati od zalijepljenih slika.

Dakle, naša funkcija za brojanje riječi u PDF-u će izgledati ovako: uzimamo broj stranica i množimo sa određenom konstantom (prosječan broj riječi po stranici).

Evo ga:

def get_words_count(pages_number):
    return pages_number * WORDS_PER_PAGE

Ova WORDS_PER_PAGE za A4 stranicu je otprilike 300.

Sada napišimo funkciju za brojanje stranica. Koristićemo pyPDF2.

def get_pdf_pages_number(path, filename):
    pdf = PdfFileReader(open(os.path.join(path, filename), 'rb'))
    return pdf.getNumPages()

Zatim ćemo napisati stvar za brojanje stranica u Epubu. Koristimo epub_converter. Ovdje uzimamo knjigu, pretvaramo je u redove i brojimo riječi za svaki red.

def get_epub_pages_number(path, filename):
    book = open_book(os.path.join(path, filename))
    lines = convert_epub_to_lines(book)
    words_count = 0

    for line in lines:
        words_count += len(line.split(" "))

    return round(words_count / WORDS_PER_PAGE)

Sada izračunajmo vrijeme. Uzimamo naš omiljeni broj riječi i dijelimo ga s vašom brzinom čitanja.

def get_reading_time(words_count):
    return round(((words_count / WORDS_PER_MINUTE) / 60) * 10) / 10

Dio 4. Povezivanje svih dijelova

Moramo proći kroz sve moguće puteve u našem folderu knjiga. Provjerite da li već postoji knjiga u Notionu: ako postoji, više ne trebamo kreirati liniju.
Zatim moramo odrediti vrstu datoteke i, ovisno o tome, izbrojati broj riječi. Dodajte knjigu na kraju.

Ovo je kod koji dobijamo:

for root, subdirs, files in os.walk(BOOKS_DIR):
    if len(files) > 0 and check_for_excusion(root):
        for file in files:
            array = file.split(".")
            filetype = file.split(".")[len(array) - 1]
            filename = file.replace("." + filetype, "")
            local_root = root.replace(BOOKS_DIR, "")

            print("Dir: {}, file: {}".format(local_root, file))

            if not check_for_existence(filename):
                print("Dir: {}, file: {}".format(local_root, file))

                if filetype == "pdf":
                    count = get_pdf_pages_number(root, file)

                else:
                    count = get_epub_pages_number(root, file)

                words_count = get_words_count(count)
                hours = get_reading_time(words_count)
                print("Pages: {}, Words: {}, Hours: {}".format(count, words_count, hours))
                add_row(local_root, filename, words_count, count, hours)

A funkcija za provjeru da li je knjiga dodana izgleda ovako:

def check_for_existence(filename):
    for row in current_rows:
        if row.title in filename:
            return True

        elif filename in row.title:
            return True

    return False

zaključak

Hvala svima koji su pročitali ovaj članak. Nadam se da će vam pomoći da pročitate više :)

izvor: www.habr.com

Dodajte komentar