สร้างโฮมไลบรารีด้วย Notion และ Python

ฉันสนใจมาตลอดว่าวิธีที่ดีที่สุดในการแจกจ่ายหนังสือในห้องสมุดอิเล็กทรอนิกส์ของฉันคืออะไร ในที่สุดฉันก็มาถึงตัวเลือกนี้พร้อมการคำนวณจำนวนหน้าและสินค้าอื่นๆ โดยอัตโนมัติ จึงขอให้ผู้สนใจใต้แมวทุกท่าน

ส่วนที่ 1. ดรอปบ็อกซ์

หนังสือของฉันทั้งหมดอยู่ในดรอปบ็อกซ์ ฉันแบ่งทุกอย่างออกเป็น 4 หมวดหมู่: หนังสือเรียน ข้อมูลอ้างอิง นิยาย และสารคดี แต่ฉันไม่เพิ่มหนังสืออ้างอิงลงในตาราง

หนังสือส่วนใหญ่เป็น .epub ส่วนที่เหลือเป็น .pdf นั่นคือวิธีแก้ปัญหาสุดท้ายจะต้องครอบคลุมทั้งสองตัวเลือก

เส้นทางสู่หนังสือของฉันเป็นดังนี้:

/Книги/Нехудожественное/Новое/Дизайн/Юрий Гордон/Книга про буквы от А до Я.epub 

หากหนังสือเป็นนิยาย หมวดหมู่ (นั่นคือ "การออกแบบ" ในกรณีด้านบน) จะถูกลบออก

ฉันตัดสินใจว่าจะไม่กังวลกับ Dropbox API เนื่องจากฉันมีแอปพลิเคชันที่ซิงโครไนซ์โฟลเดอร์ นั่นคือแผนเป็นดังนี้: เรานำหนังสือจากโฟลเดอร์ เรียกใช้หนังสือแต่ละเล่มโดยใช้ตัวนับคำ และเพิ่มลงใน Notion

ส่วนที่ 2 เพิ่มบรรทัด

ตัวตารางควรมีลักษณะเช่นนี้ ความสนใจ: ตั้งชื่อคอลัมน์เป็นภาษาละตินจะดีกว่า

สร้างโฮมไลบรารีด้วย Notion และ Python

เราจะใช้ Notion API อย่างไม่เป็นทางการ เนื่องจากยังไม่ได้ส่งมอบอย่างเป็นทางการ

สร้างโฮมไลบรารีด้วย Notion และ Python

ไปที่ Notion กด Ctrl + Shift + J ไปที่ Application -> Cookies คัดลอก token_v2 แล้วเรียกมันว่า TOKEN จากนั้นเราไปที่หน้าที่เราต้องการพร้อมป้ายห้องสมุดแล้วคัดลอกลิงค์ เราเรียกมันว่าความคิด

จากนั้นเราก็เขียนโค้ดเพื่อเชื่อมต่อกับ Notion

database = client.get_collection_view(NOTION)
current_rows = database.default_query().execute()

ต่อไป เรามาเขียนฟังก์ชันเพื่อเพิ่มแถวลงในตาราง

def add_row(path, file, words_count, pages_count, hours):
    row = database.collection.add_row()
    row.title = file

    tags = path.split("/")

    if len(tags) >= 1:
        row.what = tags[0]

    if len(tags) >= 2:
        row.state = tags[1]

    if len(tags) >= 3:
        if tags[0] == "Художественное":
            row.author = tags[2]

        elif tags[0] == "Нехудожественное":
            row.tags = tags[2]

        elif tags[0] == "Учебники":
            row.tags = tags[2]

    if len(tags) >= 4:
        row.author = tags[3]

    row.hours = hours
    row.pages = pages_count
    row.words = words_count

เกิดอะไรขึ้นที่นี่. เราใช้และเพิ่มแถวใหม่ลงในตารางในแถวแรก ต่อไป เราแบ่งเส้นทางของเราตาม “/” และรับแท็ก แท็ก - ในแง่ของ “ศิลปะ” “การออกแบบ” ใครเป็นผู้แต่ง และอื่นๆ จากนั้นเราก็ตั้งค่าฟิลด์ที่จำเป็นทั้งหมดของจาน

ตอนที่ 3 การนับคำ ชั่วโมง และความสุขอื่นๆ

นี่เป็นงานที่ยากยิ่งขึ้น อย่างที่เราจำได้ เรามีสองรูปแบบ: epub และ pdf หากทุกอย่างชัดเจนใน ePub - อาจมีคำต่างๆ อยู่ที่นั่น แสดงว่าทุกอย่างไม่ชัดเจนเกี่ยวกับ pdf: มันอาจประกอบด้วยภาพที่ติดกาว

ดังนั้นฟังก์ชันการนับคำของเราใน PDF จะมีลักษณะดังนี้: เราใช้จำนวนหน้าและคูณด้วยค่าคงที่ที่แน่นอน (จำนวนคำเฉลี่ยต่อหน้า)

เธออยู่นี่:

def get_words_count(pages_number):
    return pages_number * WORDS_PER_PAGE

WORDS_PER_PAGE นี้สำหรับหน้า A4 มีประมาณ 300

ตอนนี้เรามาเขียนฟังก์ชันเพื่อนับหน้ากัน เราจะใช้ pyPDF2.

def get_pdf_pages_number(path, filename):
    pdf = PdfFileReader(open(os.path.join(path, filename), 'rb'))
    return pdf.getNumPages()

ต่อไป เราจะเขียนเรื่องสำหรับการนับหน้าใน Epub เราใช้ epub_converter. ที่นี่เรานำหนังสือมาแปลงเป็นบรรทัด และนับคำในแต่ละบรรทัด

def get_epub_pages_number(path, filename):
    book = open_book(os.path.join(path, filename))
    lines = convert_epub_to_lines(book)
    words_count = 0

    for line in lines:
        words_count += len(line.split(" "))

    return round(words_count / WORDS_PER_PAGE)

ตอนนี้เรามาคำนวณเวลากัน เรานำจำนวนคำที่เราชื่นชอบมาหารด้วยความเร็วในการอ่านของคุณ

def get_reading_time(words_count):
    return round(((words_count / WORDS_PER_MINUTE) / 60) * 10) / 10

ส่วนที่ 4 การเชื่อมต่อทุกส่วน

เราจำเป็นต้องผ่านเส้นทางที่เป็นไปได้ทั้งหมดในโฟลเดอร์หนังสือของเรา ตรวจสอบว่ามีหนังสือใน Notion อยู่แล้วหรือไม่ ถ้ามี เราไม่จำเป็นต้องสร้างบรรทัดอีกต่อไป
จากนั้นเราจำเป็นต้องกำหนดประเภทไฟล์และนับจำนวนคำขึ้นอยู่กับสิ่งนี้ เพิ่มหนังสือในตอนท้าย

นี่คือรหัสที่เราได้รับ:

for root, subdirs, files in os.walk(BOOKS_DIR):
    if len(files) > 0 and check_for_excusion(root):
        for file in files:
            array = file.split(".")
            filetype = file.split(".")[len(array) - 1]
            filename = file.replace("." + filetype, "")
            local_root = root.replace(BOOKS_DIR, "")

            print("Dir: {}, file: {}".format(local_root, file))

            if not check_for_existence(filename):
                print("Dir: {}, file: {}".format(local_root, file))

                if filetype == "pdf":
                    count = get_pdf_pages_number(root, file)

                else:
                    count = get_epub_pages_number(root, file)

                words_count = get_words_count(count)
                hours = get_reading_time(words_count)
                print("Pages: {}, Words: {}, Hours: {}".format(count, words_count, hours))
                add_row(local_root, filename, words_count, count, hours)

และฟังก์ชั่นตรวจสอบว่ามีการเพิ่มหนังสือแล้วมีลักษณะดังนี้:

def check_for_existence(filename):
    for row in current_rows:
        if row.title in filename:
            return True

        elif filename in row.title:
            return True

    return False

ข้อสรุป

ขอบคุณทุกคนที่อ่านบทความนี้ ฉันหวังว่ามันจะช่วยให้คุณอ่านเพิ่มเติม :)

ที่มา: will.com

เพิ่มความคิดเห็น