د نوشن او پیتون سره د کور کتابتون جوړول

زه تل په دې اړه علاقه لرم چې څنګه په خپل بریښنایی کتابتون کې کتابونه توزیع کړم. په نهایت کې ، زه دې اختیار ته راغلم د مخونو شمیر او نورو نیکونو اتوماتیک محاسبې سره. زه د پیشو لاندې ټولو علاقمندانو څخه غوښتنه کوم.

برخه 1. Dropbox

زما ټول کتابونه په ډراپ باکس کې دي. دلته څلور کټګورۍ شتون لري چې ما هر څه ویشلي: درسي کتاب، حواله، افسانه، غیر افسانه. مګر زه په میز کې د حوالې کتابونه نه شاملوم.

ډیری کتابونه epub دي، پاتې نور یې .pdf دي. دا دی، وروستی حل باید په یو ډول دواړه اختیارونه پوښي.

کتابونو ته زما لارې داسې دي:

/Книги/Нехудожественное/Новое/Дизайн/Юрий Гордон/Книга про буквы от А до Я.epub 

که کتاب افسانه وي، نو بیا کټګوري (چې په پورتنۍ قضیه کې "ډیزاین" دی) لرې شوی.

ما پریکړه وکړه چې د ډراپ باکس API سره زحمت ونه کړم ، ځکه چې زه د دوی غوښتنلیک لرم چې فولډر همغږي کوي. دا دی ، پلان دا دی: موږ له فولډر څخه کتابونه اخلو ، هر کتاب د کلمې کاونټر له لارې پرمخ وړو ، او په نوشن کې یې اضافه کوو.

2 برخه. یوه کرښه اضافه کړئ

میز باید پخپله داسې ښکاري. پاملرنه: دا غوره ده چې د کالم نومونه په لاتین کې جوړ کړئ.

د نوشن او پیتون سره د کور کتابتون جوړول

موږ به غیر رسمي نوشن API وکاروو، ځکه چې رسمي یو لا تر اوسه نه دی سپارل شوی.

د نوشن او پیتون سره د کور کتابتون جوړول

نوشن ته لاړ شئ، Ctrl + Shift + J فشار ورکړئ، اپلیکیشن ته لاړ شئ -> کوکیز، کاپي token_v2 او دې ته TOKEN ووایاست. بیا موږ هغه پاڼې ته ځو چې موږ ورته د کتابتون نښه سره اړتیا لرو او لینک کاپي کوو. موږ دې ته NOTION وایو.

بیا موږ کوډ لیکو چې له نوشن سره وصل شي.

database = client.get_collection_view(NOTION)
current_rows = database.default_query().execute()

بیا، اجازه راکړئ یو فنکشن ولیکئ ترڅو میز ته قطار اضافه کړي.

def add_row(path, file, words_count, pages_count, hours):
    row = database.collection.add_row()
    row.title = file

    tags = path.split("/")

    if len(tags) >= 1:
        row.what = tags[0]

    if len(tags) >= 2:
        row.state = tags[1]

    if len(tags) >= 3:
        if tags[0] == "Художественное":
            row.author = tags[2]

        elif tags[0] == "Нехудожественное":
            row.tags = tags[2]

        elif tags[0] == "Учебники":
            row.tags = tags[2]

    if len(tags) >= 4:
        row.author = tags[3]

    row.hours = hours
    row.pages = pages_count
    row.words = words_count

دلته څه روان دي. موږ په لومړي قطار کې میز ته یو نوی قطار اخلو او اضافه کوو. بیا، موږ خپله لاره د "/" سره ویشو او ټاګونه ترلاسه کوو. ټکي - د "هنر"، "ډیزاین" په شرایطو کې، لیکوال څوک دی، او داسې نور. بیا موږ د پلیټ ټول اړین ساحې تنظیم کوو.

دریمه برخه. د کلمو شمیرل، ساعتونه او نور خوندونه

دا یو ډیر ستونزمن کار دی. لکه څنګه چې موږ یادونه کوو، موږ دوه بڼې لرو: epub او pdf. که هر څه د ایپب سره روښانه وي - ټکي شاید هلته وي، نو بیا هرڅه د pdf په اړه دومره روښانه ندي: دا ممکن په ساده ډول د چپ شوي عکسونو څخه جوړ وي.

نو په PDF کې د کلمو شمیرلو لپاره زموږ فعالیت به داسې ښکاري: موږ د پاڼو شمیر اخلو او د یو ټاکلي ثابت (په هره پاڼه کې د کلمو منځنۍ شمیره) سره ضرب کوو.

دلته هغه ده:

def get_words_count(pages_number):
    return pages_number * WORDS_PER_PAGE

دا WORDS_PER_PAGE د A4 پاڼې لپاره نږدې 300 دی.

اوس راځئ چې د پاڼو شمیرلو لپاره یو فنکشن ولیکو. موږ به وکاروو pyPDF2.

def get_pdf_pages_number(path, filename):
    pdf = PdfFileReader(open(os.path.join(path, filename), 'rb'))
    return pdf.getNumPages()

بیا، موږ به په Epub کې د پاڼو شمیرلو لپاره یو شی ولیکو. مونږ تری ګټه پورته کوو epub_converter. دلته موږ کتاب اخلو، په کرښو کې یې بدلوو، او د هرې کرښې لپاره ټکي حسابوو.

def get_epub_pages_number(path, filename):
    book = open_book(os.path.join(path, filename))
    lines = convert_epub_to_lines(book)
    words_count = 0

    for line in lines:
        words_count += len(line.split(" "))

    return round(words_count / WORDS_PER_PAGE)

اوس راځئ چې وخت محاسبه کړو. موږ د خپلې خوښې کلمې شمیرو او ستاسو د لوستلو سرعت سره یې ویشو.

def get_reading_time(words_count):
    return round(((words_count / WORDS_PER_MINUTE) / 60) * 10) / 10

4 برخه. د ټولو برخو نښلول

موږ اړتیا لرو چې زموږ د کتاب فولډر کې د ټولو ممکنه لارو څخه تیر شو. وګورئ چې آیا په یاد کې دمخه یو کتاب شتون لري: که شتون ولري، موږ نور اړتیا نلرو چې کرښه جوړه کړو.
بیا موږ اړتیا لرو چې د فایل ډول وټاکو، پدې پورې اړه لري، د کلمو شمیره حساب کړئ. په پای کې یو کتاب اضافه کړئ.

دا هغه کوډ دی چې موږ یې ترلاسه کوو:

for root, subdirs, files in os.walk(BOOKS_DIR):
    if len(files) > 0 and check_for_excusion(root):
        for file in files:
            array = file.split(".")
            filetype = file.split(".")[len(array) - 1]
            filename = file.replace("." + filetype, "")
            local_root = root.replace(BOOKS_DIR, "")

            print("Dir: {}, file: {}".format(local_root, file))

            if not check_for_existence(filename):
                print("Dir: {}, file: {}".format(local_root, file))

                if filetype == "pdf":
                    count = get_pdf_pages_number(root, file)

                else:
                    count = get_epub_pages_number(root, file)

                words_count = get_words_count(count)
                hours = get_reading_time(words_count)
                print("Pages: {}, Words: {}, Hours: {}".format(count, words_count, hours))
                add_row(local_root, filename, words_count, count, hours)

او د دې چک کولو فعالیت چې ایا یو کتاب اضافه شوی دی داسې ښکاري:

def check_for_existence(filename):
    for row in current_rows:
        if row.title in filename:
            return True

        elif filename in row.title:
            return True

    return False

پایلې

د هرچا څخه مننه چې دا مقاله یې لوستلې. زه امید لرم چې دا تاسو سره مرسته کوي نور ولولئ :)

سرچینه: www.habr.com

Add a comment