NotionとPythonでホームライブラリを作る

私は電子図書館で書籍を配布する最適な方法に常に興味を持っていました。 最終的には、ページ数の自動計算やその他の機能を備えたこのオプションに落ち着きました。 興味のある方は猫以下にお願いします。

パート 1. ドロップボックス

私の本はすべて Dropbox にあります。 すべてを教科書、参考書、フィクション、ノンフィクションの 4 つのカテゴリに分けました。 ただし、参考書はテーブルに追加しません。

ほとんどの書籍は .epub で、残りは .pdf です。 つまり、最終的な解決策は両方のオプションを何らかの方法でカバーする必要があります。

私の本へのパスは次のようなものです。

/Книги/Нехудожественное/Новое/Дизайн/Юрий Гордон/Книга про буквы от А до Я.epub 

本がフィクションの場合、カテゴリ (つまり、上記の場合は「デザイン」) が削除されます。

フォルダーを同期するアプリケーションがあるため、Dropbox API は気にしないことにしました。 つまり、計画は次のとおりです。フォルダーから本を取り出し、各本をワードカウンターで実行し、それを Notion に追加します。

パート 2. 行を追加する

テーブル自体は次のようになります。 注意: 列名はラテン語で付けることをお勧めします。

NotionとPythonでホームライブラリを作る

公式の Notion API はまだ提供されていないため、非公式の Notion API を使用します。

NotionとPythonでホームライブラリを作る

Notion に移動し、Ctrl + Shift + J を押して、[アプリケーション] -> [Cookie] に移動し、token_v2 をコピーして、TOKEN という名前を付けます。 次に、図書館の標識が付いている必要なページに移動し、リンクをコピーします。 私たちはそれをNOTIONと呼んでいます。

次に、Notion に接続するコードを記述します。

database = client.get_collection_view(NOTION)
current_rows = database.default_query().execute()

次に、テーブルに行を追加する関数を作成しましょう。

def add_row(path, file, words_count, pages_count, hours):
    row = database.collection.add_row()
    row.title = file

    tags = path.split("/")

    if len(tags) >= 1:
        row.what = tags[0]

    if len(tags) >= 2:
        row.state = tags[1]

    if len(tags) >= 3:
        if tags[0] == "Художественное":
            row.author = tags[2]

        elif tags[0] == "Нехудожественное":
            row.tags = tags[2]

        elif tags[0] == "Учебники":
            row.tags = tags[2]

    if len(tags) >= 4:
        row.author = tags[3]

    row.hours = hours
    row.pages = pages_count
    row.words = words_count

何が起きてる。 新しい行を取得してテーブルの最初の行に追加します。 次に、「/」に沿ってパスを分割し、タグを取得します。 タグ - 「アート」、「デザイン」、作者などの観点から。 次に、プレートの必要なフィールドをすべて設定します。

パート 3. 単語数、時間数、その他の楽しみを数える

これはさらに難しい作業です。 覚えているとおり、epub と pdf の XNUMX つの形式があります。 epub ですべてが明確であれば、おそらく単語はそこにありますが、pdf ではすべてがそれほど明確ではありません。単に画像が貼り付けられているだけである可能性があります。

したがって、PDF 内の単語をカウントする関数は次のようになります。ページ数を取得し、特定の定数 (ページごとの平均単語数) を掛けます。

これはそれです:

def get_words_count(pages_number):
    return pages_number * WORDS_PER_PAGE

A4 ページのこの WORDS_PER_PAGE は約 300 です。

次に、ページをカウントする関数を作成しましょう。 我々は使用するだろう pyPDF2.

def get_pdf_pages_number(path, filename):
    pdf = PdfFileReader(open(os.path.join(path, filename), 'rb'))
    return pdf.getNumPages()

次に、Epub のページ数をカウントするものを書きます。 を使用しております epub_コンバーター。 ここでは本を取り出して行に変換し、各行の単語を数えます。

def get_epub_pages_number(path, filename):
    book = open_book(os.path.join(path, filename))
    lines = convert_epub_to_lines(book)
    words_count = 0

    for line in lines:
        words_count += len(line.split(" "))

    return round(words_count / WORDS_PER_PAGE)

では時間を計算してみましょう。 お気に入りの単語数をあなたの読む速度で割ります。

def get_reading_time(words_count):
    return round(((words_count / WORDS_PER_MINUTE) / 60) * 10) / 10

パート 4. すべての部品を接続する

書籍フォルダー内のすべての可能なパスをたどる必要があります。 Notion にブックがすでに存在するかどうかを確認します。存在する場合は、行を作成する必要はありません。
次に、ファイルの種類を決定し、それに応じて単語数をカウントする必要があります。 最後に本を追加します。

取得したコードは次のとおりです。

for root, subdirs, files in os.walk(BOOKS_DIR):
    if len(files) > 0 and check_for_excusion(root):
        for file in files:
            array = file.split(".")
            filetype = file.split(".")[len(array) - 1]
            filename = file.replace("." + filetype, "")
            local_root = root.replace(BOOKS_DIR, "")

            print("Dir: {}, file: {}".format(local_root, file))

            if not check_for_existence(filename):
                print("Dir: {}, file: {}".format(local_root, file))

                if filetype == "pdf":
                    count = get_pdf_pages_number(root, file)

                else:
                    count = get_epub_pages_number(root, file)

                words_count = get_words_count(count)
                hours = get_reading_time(words_count)
                print("Pages: {}, Words: {}, Hours: {}".format(count, words_count, hours))
                add_row(local_root, filename, words_count, count, hours)

そして、本が追加されたかどうかを確認する関数は次のようになります。

def check_for_existence(filename):
    for row in current_rows:
        if row.title in filename:
            return True

        elif filename in row.title:
            return True

    return False

まとめ

この記事を読んでくださった皆様に感謝します。 続きを読むのに役立つことを願っています:)

出所: habr.com

コメントを追加します