Notion eta Python-ekin etxeko liburutegi bat egitea

Nire liburutegi elektronikoan liburuak nola banatu behar diren jakiteko interesa izan dut beti. Azkenean, aukera honetara orri-kopuruaren kalkulu automatikoarekin eta beste ontasun batzuekin iritsi nintzen. Interesa duten guztiei galdetzen diet cat azpian.

1. zatia. Dropbox

Nire liburu guztiak dropbox-en daude. Dena banatu dudan 4 kategoria daude: Testu liburua, Erreferentzia, Fikzioa, Ez-fikzioa. Baina ez ditut erreferentzia liburuak mahai gaineratzen.

Liburu gehienak .epub dira, gainerakoak .pdf. Hau da, azken irtenbideak nolabait bi aukerak estali behar ditu.

Liburuetarako nire bideak honelakoak dira:

/Книги/Нехудожественное/Новое/Дизайн/Юрий Гордон/Книга про буквы от А до Я.epub 

Liburua fikzioa bada, kategoria (hau da, "Diseinua" goiko kasuan) kendu egingo da.

Dropbox APIarekin ez kezkatzea erabaki nuen, karpeta sinkronizatzen duen haien aplikazioa dudalako. Hau da, plana hau da: liburuak karpetatik hartzen ditugu, liburu bakoitza hitz-kontagailu baten bidez pasatzen dugu eta Notion-era gehitzen dugu.

2. zatia. Gehitu lerro bat

Mahaiak berak horrelako zerbait izan beharko luke. ADI: hobe da zutabeen izenak latinez egitea.

Notion eta Python-ekin etxeko liburutegi bat egitea

Notion API ez-ofiziala erabiliko dugu, ofiziala oraindik ez delako entregatu.

Notion eta Python-ekin etxeko liburutegi bat egitea

Joan Notion-era, sakatu Ctrl + Shift + J, joan Aplikazioa -> Cookieak, kopiatu token_v2 eta deitu TOKEN. Ondoren, liburutegiko seinalearekin behar dugun orrialdera joan eta esteka kopiatu. NOZIOA deitzen diogu.

Ondoren, kodea idazten dugu Notion-era konektatzeko.

database = client.get_collection_view(NOTION)
current_rows = database.default_query().execute()

Ondoren, idatz dezagun funtzio bat taulari errenkada bat gehitzeko.

def add_row(path, file, words_count, pages_count, hours):
    row = database.collection.add_row()
    row.title = file

    tags = path.split("/")

    if len(tags) >= 1:
        row.what = tags[0]

    if len(tags) >= 2:
        row.state = tags[1]

    if len(tags) >= 3:
        if tags[0] == "Художественное":
            row.author = tags[2]

        elif tags[0] == "Нехудожественное":
            row.tags = tags[2]

        elif tags[0] == "Учебники":
            row.tags = tags[2]

    if len(tags) >= 4:
        row.author = tags[3]

    row.hours = hours
    row.pages = pages_count
    row.words = words_count

Zer gertatzen da hemen. Lehen lerroko taulan errenkada berri bat hartu eta gehitzen dugu. Jarraian, gure bidea "/"-n zatitu eta etiketak lortzen ditugu. Etiketak - "Artea", "Diseinua", nor den egilea, eta abar. Ondoren, plakaren beharrezko eremu guztiak ezarri ditugu.

3. zatia. Hitzak, orduak eta bestelako gozamenak zenbatzea

Lan zailagoa da hau. Gogoratzen dugunez, bi formatu ditugu: epub eta pdf. Epub-arekin dena argi badago - ziurrenik hitzak hor daude, orduan dena ez dago hain argi pdf-an: baliteke itsatsitako irudiez osatuta egotea.

Beraz, PDFan hitzak zenbatzeko gure funtzioa honela izango da: orrialde kopurua hartzen dugu eta konstante jakin batekin biderkatzen dugu (orriaren batez besteko hitz kopurua).

Hona hemen bera:

def get_words_count(pages_number):
    return pages_number * WORDS_PER_PAGE

A4 orri baterako WORDS_PER_PAGE hau gutxi gorabehera 300 da.

Orain idatz dezagun orriak zenbatzeko funtzio bat. Erabiliko dugu pyPDF2.

def get_pdf_pages_number(path, filename):
    pdf = PdfFileReader(open(os.path.join(path, filename), 'rb'))
    return pdf.getNumPages()

Jarraian, orrialdeak zenbatzeko gauza bat idatziko dugu Epub-en. Erabiltzen dugu epub_converter. Hemen liburua hartu, lerro bihurtu eta lerro bakoitzeko hitzak zenbatzen ditugu.

def get_epub_pages_number(path, filename):
    book = open_book(os.path.join(path, filename))
    lines = convert_epub_to_lines(book)
    words_count = 0

    for line in lines:
        words_count += len(line.split(" "))

    return round(words_count / WORDS_PER_PAGE)

Orain kalkula dezagun denbora. Gure gogoko hitzen kopurua hartzen dugu eta zure irakurketa abiadurarekin zatitzen dugu.

def get_reading_time(words_count):
    return round(((words_count / WORDS_PER_MINUTE) / 60) * 10) / 10

4. zatia. Zati guztiak lotzea

Gure liburuen karpetan posible diren bideetatik joan behar dugu. Egiaztatu dagoeneko libururik dagoen Notion-en: badago, jada ez dugu lerrorik sortu behar.
Ondoren, fitxategi mota zehaztu behar dugu, horren arabera, hitz kopurua zenbatu. Gehitu liburu bat amaieran.

Hau da lortzen dugun kodea:

for root, subdirs, files in os.walk(BOOKS_DIR):
    if len(files) > 0 and check_for_excusion(root):
        for file in files:
            array = file.split(".")
            filetype = file.split(".")[len(array) - 1]
            filename = file.replace("." + filetype, "")
            local_root = root.replace(BOOKS_DIR, "")

            print("Dir: {}, file: {}".format(local_root, file))

            if not check_for_existence(filename):
                print("Dir: {}, file: {}".format(local_root, file))

                if filetype == "pdf":
                    count = get_pdf_pages_number(root, file)

                else:
                    count = get_epub_pages_number(root, file)

                words_count = get_words_count(count)
                hours = get_reading_time(words_count)
                print("Pages: {}, Words: {}, Hours: {}".format(count, words_count, hours))
                add_row(local_root, filename, words_count, count, hours)

Eta liburu bat gehitu den egiaztatzeko funtzioak hauxe du:

def check_for_existence(filename):
    for row in current_rows:
        if row.title in filename:
            return True

        elif filename in row.title:
            return True

    return False

Ondorioa

Eskerrik asko artikulu hau irakurri duzuen guztioi. Espero dut gehiago irakurtzen lagunduko dizula :)

Iturria: www.habr.com

Gehitu iruzkin berria