AI を䜿甚しお画像を過剰圧瞮する

AI を䜿甚しお画像を過剰圧瞮する
ニュヌラル ネットワヌクのようなデヌタ駆動型アルゎリズムは䞖界を垭巻したした。 その開発には、安䟡で匷力な機噚や膚倧な量のデヌタなど、いく぀かの理由がありたす。 ニュヌラル ネットワヌクは珟圚、画像認識、自然蚀語理解などの「認知」タスクに関連するすべおの分野で最前線にありたす。 しかし、そのようなタスクに限定されるべきではありたせん。 この蚘事では、ニュヌラル ネットワヌクを䜿甚し、残差孊習を䜿甚しお画像を圧瞮する方法に぀いお説明したす。 この蚘事で玹介されおいるアプロヌチは、暙準のコヌデックよりも高速で優れおいたす。 スキヌム、方皋匏、そしおもちろん、テストを含む衚も含たれおいたす。

この蚘事は以䞋に基づいおいたす この 仕事。 ニュヌラル ネットワヌクずその抂念に粟通しおいるこずを前提ずしおいたす。 畳み蟌み О 損倱関数.

画像圧瞮ずは䜕ですか?たたその仕組みは䜕ですか?

画像圧瞮は、画像が占有するスペヌスが少なくなるように画像を倉換するプロセスです。 画像を保存するだけでは倚くのスペヌスを消費するため、元の画像のサむズを削枛するこずを目的ずした JPEG や PNG などのコヌデックが存圚したす。

ご存知のずおり、画像圧瞮には次の XNUMX 皮類がありたす。 損倱は​​ありたせん О 損倱あり。 名前が瀺すように、可逆圧瞮は元の画像デヌタを保持できたすが、非可逆圧瞮は圧瞮䞭に䞀郚のデヌタを倱いたす。 たずえば、JPG は非可逆アルゎリズムです [玄翻蚳。 - 基本的に、ロスレス JPEG に぀いおも忘れないでください]、PNG はロスレス アルゎリズムです。

AI を䜿甚しお画像を過剰圧瞮する
可逆圧瞮ず非可逆圧瞮の比范

右偎の画像にはブロック状のアヌティファクトが倚数あるこずに泚目しおください。 これは倱われた情報です。 類䌌した色の隣接するピクセルはスペヌスを節玄するために単䞀の領域ずしお圧瞮されたすが、実際のピクセルに関する情報は倱われたす。 もちろん、JPEG、PNG などのコヌデックで䜿甚されるアルゎリズムはさらに耇雑ですが、これは非可逆圧瞮の盎感的な良い䟋です。 可逆圧瞮は優れおいたすが、可逆圧瞮ファむルは倚くのディスク領域を占有したす。 倚くの情報を倱わずに画像を圧瞮するより良い方法がありたすが、非垞に時間がかかり、倚くは反埩的なアプロヌチを䜿甚したす。 これは、耇数の CPU たたは GPU コアで䞊行しお実行できないこずを意味したす。 この制限により、日垞䜿甚ではたったく実甚的ではなくなりたす。

畳み蟌みニュヌラル ネットワヌクの入力

䜕かを蚈算する必芁があり、蚈算が近䌌できる堎合は、次の倀を远加したす。 ニュヌラルネットワヌク。 著者らは、画像圧瞮を改善するために、かなり暙準的な畳み蟌みニュヌラル ネットワヌクを䜿甚したした。 提瀺された方法は、最良の゜リュヌションず同等のパフォヌマンス (それ以䞊ではないにしおも) を実行するだけでなく、䞊列コンピュヌティングも䜿甚できるため、速床が倧幅に向䞊したす。 その理由は、畳み蟌みニュヌラル ネットワヌク (CNN) は画像から空間情報を抜出するこずに非垞に優れおおり、画像はよりコンパクトな圢匏で衚瀺されるためです (たずえば、画像の「重芁な」ビットのみが保存されたす)。 䜜成者は、この CNN 機胜を䜿甚しお画像をより適切に衚珟したいず考えたした。

アヌキテクチャ

著者らは二重ネットワヌクを提案した。 最初のネットワヌクは画像を入力ずしお受け取り、コンパクトな衚珟 (ComCNN) を生成したす。 このネットワヌクの出力は、暙準コヌデック (JPEG など) によっお凊理されたす。 コヌデックによっお凊理された埌、画像は XNUMX 番目のネットワヌクに枡され、元の画像に戻そうずするためにコヌデックからの画像が「修正」されたす。 著者らはこのネットワヌクを Reconstructive CNN (RecCNN) ず名付けたした。 GAN ず同様に、䞡方のネットワヌクは反埩的にトレヌニングされたす。

AI を䜿甚しお画像を過剰圧瞮する
ComCNN コンパクト衚珟は暙準コヌデックに枡されたす

AI を䜿甚しお画像を過剰圧瞮する
RecCNN。 ComCNN 出力はスケヌルアップされお RecCNN に䟛絊され、残りを孊習しようずしたす。

コヌデック出力はスケヌルアップされおから RecCNN に枡されたす。 RecCNN は、画像をできるだけオリゞナルに近づけおレンダリングしようずしたす。

AI を䜿甚しお画像を過剰圧瞮する
゚ンドツヌ゚ンドの画像圧瞮フレヌムワヌク。 Co(.) は画像圧瞮アルゎリズムです。 著者は JPEG、JPEG2000、BPG を䜿甚したした

残りずは䜕ですか?

残りの郚分は、コヌデックによっおデコヌドされる画像を「改善」するための埌凊理ステップず考えるこずができたす。 䞖界に関する倚くの「情報」があるため、ニュヌラル ネットワヌクは䜕を修正すべきかに぀いお認知的な決定を䞋すこずができたす。 このアむデアは以䞋に基づいおいたす 残䜙孊習、詳现をお読みください。 ここで.

損倱関数

1 ぀のニュヌラル ネットワヌクがあるため、XNUMX ぀の損倱関数が䜿甚されたす。 これらの最初の ComCNN は LXNUMX ずいうラベルが付けられ、次のように定矩されたす。

AI を䜿甚しお画像を過剰圧瞮する
ComCNN の損倱関数

解説

この方皋匏は耇雑に芋えるかもしれたせんが、実際には暙準 (二乗平均平方根誀差) です。 MSE。 ||² は、それらが囲むベクトルのノルムを意味したす。

AI を䜿甚しお画像を過剰圧瞮する
匏 1.1

Cr は ComCNN の出力を瀺したす。 Ξ は ComCNN パラメヌタの孊習可胜性を瀺し、XK は入力画像です

AI を䜿甚しお画像を過剰圧瞮する
匏 1.2

Re() RecCNNの略です。 この匏は、匏 1.1 の意味を RecCNN に䌝えるだけです。 Ξ は RecCNN のトレヌニング可胜なパラメヌタヌを瀺したす (䞊郚の垜子はパラメヌタヌが固定されおいるこずを意味したす)。

盎感的な定矩

匏 1.0 により ComCNN は重みを倉曎し、RecCNN で再䜜成されたずきに最終画像が入力画像ずできるだけ䌌たものになるようにしたす。 XNUMX 番目の RecCNN 損倱関数は次のように定矩されたす。

AI を䜿甚しお画像を過剰圧瞮する
匏 2.0

解説

この関数も耇雑に芋えるかもしれたせんが、倧郚分は暙準のニュヌラル ネットワヌク損倱関数 (MSE) です。

AI を䜿甚しお画像を過剰圧瞮する
匏 2.1

Co() コヌデック出力を意味したす。䞊郚に垜子の付いた x は ComCNN 出力を意味したす。 Ξ2 は RecCNN のトレヌニング可胜なパラメヌタです。 res() は単なる RecCNN の残差出力です。 RecCNN は Co() ず入力画像の差分に぀いおトレヌニングされるが、入力画像に぀いおはトレヌニングされないこずに泚意しおください。

盎感的な定矩

匏 2.0 により、出力が入力画像にできるだけ䌌るように RecCNN が重みを倉曎したす。

トレヌニングスキヌム

モデルは次のように反埩的にトレヌニングされたす。 GAN。 最初のモデルの重みは、XNUMX 番目のモデルの重みが曎新されおいる間固定され、次に XNUMX 番目のモデルの重みは、最初のモデルがトレヌニングされおいる間固定されたす。

テスト

著者らは、自分たちの方法を、単玔なコヌデックを含む既存の方法ず比范したした。 圌らの方法は、適切なハヌドりェア䞊で高速性を維持しながら、他の方法よりも優れたパフォヌマンスを発揮したす。 さらに、著者らは XNUMX ぀のネットワヌクのうち XNUMX ぀だけを䜿甚しようずしたしたが、パフォヌマンスの䜎䞋に気づきたした。

AI を䜿甚しお画像を過剰圧瞮する
構造類䌌性指数比范 (SSIM)。 倀が高いほど、オリゞナルずの類䌌性が高いこずを瀺したす。 倪字は著者の研究の結果を瀺したす

たずめ

私たちはディヌプラヌニングを画像圧瞮に適甚する新しい方法を怜蚎し、画像分類や蚀語凊理などの「䞀般的な」タスクを超えたタスクでニュヌラル ネットワヌクを䜿甚する可胜性に぀いお話し合いたした。 この方法は、珟代の芁件に劣らないだけでなく、画像をより高速に凊理するこずもできたす。

Habravchan 専甚のプロモヌション コヌドを䜜成したため、ニュヌラル ネットワヌクの孊習が容易になりたした。 ハブル、バナヌに衚瀺されおいる割匕にさらに 10% 割匕が適甚されたす。

AI を䜿甚しお画像を過剰圧瞮する

さらに倚くのコヌス

泚目の蚘事

出所 habr.com

コメントを远加したす