Facendo unha biblioteca doméstica con Notion e Python

Sempre me interesou a mellor forma de distribuír libros na miña biblioteca electrónica. Ao final, cheguei a esta opción co cálculo automático do número de páxinas e outras golosinas. Pregúntolle a todas as persoas interesadas baixo cat.

Parte 1. Dropbox

Todos os meus libros están en Dropbox. Hai 4 categorías nas que dividín todo: Libro de texto, Referencia, Ficción, Non ficción. Pero non engado libros de consulta á mesa.

A maioría dos libros son .epub, o resto son .pdf. É dicir, a solución final debe cubrir dalgunha maneira ambas opcións.

Os meus camiños cara aos libros son algo así:

/Книги/Нехудожественное/Новое/Дизайн/Юрий Гордон/Книга про буквы от А до Я.epub 

Se o libro é ficción, eliminarase a categoría (é dicir, "Deseño" no caso anterior).

Decidín non molestarme coa API de Dropbox, xa que teño a súa aplicación que sincroniza o cartafol. É dicir, o plan é este: collemos libros da carpeta, pasamos cada libro a través dun contador de palabras e engadímolo a Notion.

Parte 2. Engadir unha liña

A mesa en si debería parecer algo así. ATENCIÓN: é mellor facer os nomes das columnas en latín.

Facendo unha biblioteca doméstica con Notion e Python

Usaremos a API de Notion non oficial, porque a oficial aínda non foi entregada.

Facendo unha biblioteca doméstica con Notion e Python

Vaia a Notion, preme Ctrl + Maiús + J, vai a Aplicación -> Cookies, copia token_v2 e chámao TOKEN. Despois imos á páxina que necesitamos co cartel da biblioteca e copiamos a ligazón. Chamámoslle NOCIÓN.

Despois escribimos o código para conectarnos a Notion.

database = client.get_collection_view(NOTION)
current_rows = database.default_query().execute()

A continuación, imos escribir unha función para engadir unha fila á táboa.

def add_row(path, file, words_count, pages_count, hours):
    row = database.collection.add_row()
    row.title = file

    tags = path.split("/")

    if len(tags) >= 1:
        row.what = tags[0]

    if len(tags) >= 2:
        row.state = tags[1]

    if len(tags) >= 3:
        if tags[0] == "Художественное":
            row.author = tags[2]

        elif tags[0] == "Нехудожественное":
            row.tags = tags[2]

        elif tags[0] == "Учебники":
            row.tags = tags[2]

    if len(tags) >= 4:
        row.author = tags[3]

    row.hours = hours
    row.pages = pages_count
    row.words = words_count

Que está pasando aquí. Collemos e engadimos unha nova fila á táboa da primeira fila. A continuación, dividimos o noso camiño ao longo de "/" e obtemos etiquetas. Etiquetas - en termos de "Arte", "Deseño", quen é o autor, etc. Despois establecemos todos os campos necesarios da placa.

Parte 3. Contar palabras, horas e outras delicias

Esta é unha tarefa máis difícil. Como lembramos, temos dous formatos: epub e pdf. Se todo está claro co epub - probablemente as palabras estean alí, entón todo non está tan claro sobre o pdf: pode consistir simplemente en imaxes pegadas.

Polo tanto, a nosa función para contar palabras en PDF será así: tomamos o número de páxinas e multiplicamos por unha determinada constante (o número medio de palabras por páxina).

Aquí está ela:

def get_words_count(pages_number):
    return pages_number * WORDS_PER_PAGE

Esta WORDS_PER_PAGE para unha páxina A4 é de aproximadamente 300.

Agora imos escribir unha función para contar páxinas. Usaremos pyPDF2.

def get_pdf_pages_number(path, filename):
    pdf = PdfFileReader(open(os.path.join(path, filename), 'rb'))
    return pdf.getNumPages()

A continuación, escribiremos unha cousa para contar páxinas en Epub. Usamos epub_converter. Aquí collemos o libro, convertémolo en liñas e contamos as palabras de cada liña.

def get_epub_pages_number(path, filename):
    book = open_book(os.path.join(path, filename))
    lines = convert_epub_to_lines(book)
    words_count = 0

    for line in lines:
        words_count += len(line.split(" "))

    return round(words_count / WORDS_PER_PAGE)

Agora imos calcular o tempo. Tomamos o noso reconto de palabras favorito e dividilo pola túa velocidade de lectura.

def get_reading_time(words_count):
    return round(((words_count / WORDS_PER_MINUTE) / 60) * 10) / 10

Parte 4. Conectando todas as pezas

Debemos percorrer todos os camiños posibles no noso cartafol de libros. Comproba se xa hai un libro en Notion: se o hai, xa non necesitamos crear unha liña.
A continuación, necesitamos determinar o tipo de ficheiro, dependendo diso, contar o número de palabras. Engade un libro ao final.

Este é o código que obtemos:

for root, subdirs, files in os.walk(BOOKS_DIR):
    if len(files) > 0 and check_for_excusion(root):
        for file in files:
            array = file.split(".")
            filetype = file.split(".")[len(array) - 1]
            filename = file.replace("." + filetype, "")
            local_root = root.replace(BOOKS_DIR, "")

            print("Dir: {}, file: {}".format(local_root, file))

            if not check_for_existence(filename):
                print("Dir: {}, file: {}".format(local_root, file))

                if filetype == "pdf":
                    count = get_pdf_pages_number(root, file)

                else:
                    count = get_epub_pages_number(root, file)

                words_count = get_words_count(count)
                hours = get_reading_time(words_count)
                print("Pages: {}, Words: {}, Hours: {}".format(count, words_count, hours))
                add_row(local_root, filename, words_count, count, hours)

E a función para comprobar se se engadiu un libro ten o seguinte aspecto:

def check_for_existence(filename):
    for row in current_rows:
        if row.title in filename:
            return True

        elif filename in row.title:
            return True

    return False

Conclusión

Grazas a todos os que leron este artigo. Espero que che axude a ler máis :)

Fonte: www.habr.com

Engadir un comentario