استخدام الذكاء الاصطناعي لضغط الصور

استخدام الذكاء الاصطناعي لضغط الصور
استحوذت الخوارزميات القائمة على البيانات مثل الشبكات العصبية على العالم. يرجع تطورها إلى عدة أسباب ، بما في ذلك المعدات الرخيصة والقوية وكمية هائلة من البيانات. تعد الشبكات العصبية حاليًا في طليعة كل ما يتعلق بالمهام "المعرفية" مثل التعرف على الصور وفهم اللغة الطبيعية وما إلى ذلك. لكن لا ينبغي أن تقتصر على مثل هذه المهام. تتناول هذه المقالة كيفية ضغط الصور باستخدام الشبكات العصبية ، باستخدام التعلم المتبقي. النهج المقدم في المقالة أسرع وأفضل من برامج الترميز القياسية. المخططات والمعادلات وبالطبع جدول به اختبارات تحت الخفض.

هذه المقالة على أساس هذا عمل. من المفترض أنك على دراية بالشبكات العصبية ومفاهيمها. التفاف и فقدان وظيفة.

ما هو ضغط الصور وكيف يعمل؟

ضغط الصور هو عملية تحويل صورة بحيث تشغل مساحة أقل. ببساطة ، قد يستغرق تخزين الصور مساحة كبيرة ، وهذا هو سبب وجود برامج ترميز مثل JPEG و PNG تهدف إلى تقليل حجم الصورة الأصلية.

كما تعلم ، هناك نوعان من ضغط الصور: لا خسارة и مع الخسائر. كما توحي الأسماء ، يمكن للضغط بدون فقدان البيانات الاحتفاظ ببيانات الصورة الأصلية ، بينما يفقد الضغط المفقود بعض البيانات أثناء الضغط. على سبيل المثال ، JPG هي خوارزميات ضياع [تقريبًا. ترجمة. - بشكل أساسي ، دعونا أيضًا لا ننسى ملف JPEG الذي لا يتم فقدانه] ، و PNG هي خوارزمية بدون فقدان.

استخدام الذكاء الاصطناعي لضغط الصور
مقارنة بين ضغط بلا خسارة وفقد

لاحظ أن هناك الكثير من القطع الأثرية الممتلئة في الصورة على اليمين. هذه معلومات مفقودة. يتم ضغط وحدات البكسل المجاورة ذات الألوان المتشابهة كمساحة واحدة لتوفير مساحة ، ولكن يتم فقد المعلومات حول وحدات البكسل الفعلية. بالطبع ، تعد الخوارزميات المستخدمة في برامج الترميز JPEG و PNG وما إلى ذلك أكثر تعقيدًا ، ولكن هذا مثال بديهي جيد للضغط مع فقدان البيانات. يعد الضغط بدون فقد أمرًا جيدًا ، لكن الملفات المضغوطة التي لا تفقد فقدانًا تشغل مساحة كبيرة على القرص. هناك طرق أفضل لضغط الصور دون فقدان الكثير من المعلومات ، لكنها بطيئة للغاية ويستخدم الكثير منها أساليب تكرارية. هذا يعني أنه لا يمكن تشغيلها بالتوازي على عدة أنوية CPU أو GPU. هذا القيد يجعلها غير عملية تمامًا في الاستخدام اليومي.

مدخلات الشبكة العصبية التلافيفية

إذا كان هناك شيء يحتاج إلى حساب ويمكن أن تكون الحسابات تقريبية ، فأضف الشبكة العصبية. استخدم المؤلفون شبكة عصبية تلافيفية معيارية إلى حد ما لتحسين ضغط الصور. لا تعمل الطريقة المقدمة فقط على قدم المساواة مع أفضل الحلول (إن لم تكن أفضل) ، بل يمكنها أيضًا استخدام الحوسبة المتوازية ، مما يؤدي إلى زيادة كبيرة في السرعة. والسبب هو أن الشبكات العصبية التلافيفية (CNNs) جيدة جدًا في استخراج المعلومات المكانية من الصور ، والتي يتم تقديمها بعد ذلك في شكل أكثر إحكاما (على سبيل المثال ، يتم الاحتفاظ فقط بالقطع "المهمة" من الصورة). أراد المؤلفون استخدام قدرة CNN هذه لتمثيل الصور بشكل أفضل.

هندسة معمارية

اقترح المؤلفون شبكة مزدوجة. تأخذ الشبكة الأولى صورة كمدخلات وتقوم بإنشاء تمثيل مضغوط (ComCNN). ثم تتم معالجة إخراج هذه الشبكة بواسطة برنامج ترميز قياسي (مثل JPEG). بعد معالجتها بواسطة برنامج الترميز ، يتم تمرير الصورة إلى شبكة ثانية ، والتي "تصلح" الصورة من برنامج الترميز في محاولة لإرجاع الصورة الأصلية. أطلق المؤلفون على هذه الشبكة اسم Reconstructive CNN (RecCNN). مثل شبكات GAN ، يتم تدريب كلتا الشبكتين بشكل متكرر.

استخدام الذكاء الاصطناعي لضغط الصور
يتم تمرير تمثيل ComCNN المضغوط إلى برنامج الترميز القياسي

استخدام الذكاء الاصطناعي لضغط الصور
RecCNN. يتم توسيع نطاق إخراج ComCNN وتزويده بـ RecCNN ، والذي سيحاول معرفة الباقي

يتم تحجيم إخراج برنامج الترميز ثم تمريره إلى RecCNN. سيحاول RecCNN جعل الصورة أقرب ما يمكن إلى الصورة الأصلية.

استخدام الذكاء الاصطناعي لضغط الصور
إطار عمل لضغط الصور من طرف إلى طرف. Co (.) هي خوارزمية لضغط الصور. استخدم المؤلفون JPEG و JPEG2000 و BPG

ما هو الباقي؟

يمكن اعتبار الباقي بمثابة خطوة ما بعد المعالجة "لتحسين" الصورة التي يتم فك تشفيرها بواسطة برنامج الترميز. بوجود الكثير من "المعلومات" حول العالم ، يمكن للشبكة العصبية اتخاذ قرارات معرفية حول ما يجب إصلاحه. هذه الفكرة مبنية على التعلم المتبقي، اقرأ التفاصيل التي يمكنك هنا.

وظائف الخسارة

يتم استخدام وظيفتي الخسارة لأن لدينا شبكتين عصبيتين. أولها ، ComCNN ، يسمى L1 ويتم تعريفه على النحو التالي:

استخدام الذكاء الاصطناعي لضغط الصور
وظيفة الخسارة لـ ComCNN

تفسير

قد تبدو هذه المعادلة معقدة ، لكنها في الواقع هي المعيار (جذر متوسط ​​الخطأ التربيعي) MSE. || ² تعني معيار المتجه الذي يرفقونه.

استخدام الذكاء الاصطناعي لضغط الصور
المعادلة 1.1

يشير Cr إلى إخراج ComCNN. θ تشير إلى قابلية تعلم معلمات ComCNN ، XK هي صورة الإدخال

استخدام الذكاء الاصطناعي لضغط الصور
المعادلة 1.2

Re() لتقف على RecCNN. تنقل هذه المعادلة ببساطة معنى المعادلة 1.1 إلى RecCNN. تشير إلى معلمات RecCNN القابلة للتدريب (القبعة في الأعلى تعني أن المعلمات ثابتة).

تعريف حدسي

ستؤدي المعادلة 1.0 إلى قيام ComCNN بتغيير أوزانها بحيث عند إعادة إنشائها باستخدام RecCNN ، تبدو الصورة النهائية مشابهة قدر الإمكان للصورة المدخلة. يتم تعريف دالة خسارة RecCNN الثانية على النحو التالي:

استخدام الذكاء الاصطناعي لضغط الصور
المعادلة 2.0

تفسير

مرة أخرى ، قد تبدو الوظيفة معقدة ، ولكن هذه في الغالب وظيفة فقدان الشبكة العصبية القياسية (MSE).

استخدام الذكاء الاصطناعي لضغط الصور
المعادلة 2.1

Co() يعني إخراج برنامج الترميز ، x مع قبعة في الأعلى تعني إخراج ComCNN. θ2 هي معلمات RecCNN قابلة للتدريب ، res() هو مجرد إخراج RecCNN المتبقي. من الجدير بالذكر أن RecCNN يتم تدريبه على الفرق بين Co () والصورة المدخلة ، ولكن ليس على صورة الإدخال.

تعريف حدسي

ستؤدي المعادلة 2.0 إلى قيام RecCNN بتغيير أوزانها بحيث يبدو الناتج مشابهًا بقدر الإمكان لصورة الإدخال.

مخطط التدريب

يتم تدريب النماذج بشكل متكرر ، مثل GAN. يتم إصلاح أوزان النموذج الأول أثناء تحديث أوزان النموذج الثاني ، ثم يتم إصلاح أوزان النموذج الثاني أثناء تدريب النموذج الأول.

اختبارات

قارن المؤلفون طريقتهم مع الأساليب الحالية ، بما في ذلك برامج الترميز البسيطة. طريقتهم تعمل بشكل أفضل من غيرها مع الحفاظ على سرعة عالية على الأجهزة المناسبة. بالإضافة إلى ذلك ، حاول المؤلفون استخدام واحدة فقط من الشبكتين ولاحظوا انخفاضًا في الأداء.

استخدام الذكاء الاصطناعي لضغط الصور
مقارنة مؤشر التشابه الهيكلي (SSIM). تشير القيم العالية إلى تشابه أفضل مع الأصل. يشير النوع الغامق إلى نتيجة عمل المؤلفين

اختتام

نظرنا إلى طريقة جديدة لتطبيق التعلم العميق على ضغط الصور ، وتحدثنا عن إمكانية استخدام الشبكات العصبية في مهام تتجاوز المهام "العامة" مثل تصنيف الصور ومعالجة اللغة. هذه الطريقة ليست فقط أدنى من المتطلبات الحديثة ، ولكنها تتيح لك أيضًا معالجة الصور بشكل أسرع.

أصبح تعلم الشبكات العصبية أسهل ، لأننا صنعنا رمزًا ترويجيًا خصيصًا لـ Habravchan حبر، مع إعطاء خصم إضافي بنسبة 10٪ على الخصم الموضح على اللافتة.

استخدام الذكاء الاصطناعي لضغط الصور

المزيد من الدورات

مقالات مميزة

المصدر: www.habr.com

إضافة تعليق