MIT پس از شناسایی اصطلاحات نژادپرستانه و زن ستیز، مجموعه Tiny Images را حذف کرد

موسسه تکنولوژی ماساچوست حذف شده مجموعه داده تصاویر کوچک، دارای مجموعه ای مشروح از 80 میلیون تصویر کوچک 32x32 است. این مجموعه توسط گروهی در حال توسعه فناوری‌های بینایی کامپیوتری نگهداری می‌شود و از سال 2008 توسط محققان مختلف برای آموزش و آزمایش تشخیص اشیا در سیستم‌های یادگیری ماشین استفاده شده است.

دلیل حذف بود تشخیص استفاده از اصطلاحات نژادپرستانه و زن ستیز در برچسب هایی که اشیاء نشان داده شده در تصاویر را توصیف می کنند و همچنین وجود تصاویری که توهین آمیز تلقی می شوند. به عنوان مثال، تصاویری از اندام تناسلی با اصطلاحات عامیانه وجود داشت، تصاویر برخی از زنان به عنوان "فاحشه" توصیف می شد و از اصطلاحاتی استفاده می شد که در جامعه مدرن برای سیاه پوستان و آسیایی ها غیرقابل قبول بود.

با این حال، سند ذکر شده توسط MIT همچنین مشکلات جدی تری را در مورد چنین مجموعه هایی شناسایی می کند: فناوری های بینایی کامپیوتری می توانند برای توسعه سیستم های تشخیص چهره برای جستجوی نمایندگان گروه های جمعیتی استفاده شوند که به دلایلی ممنوع هستند. یک شبکه عصبی برای تولید تصویر می تواند نسخه اصلی را از داده های ناشناس بازسازی کند.

دلیل ظاهر شدن کلمات نامعتبر استفاده از یک فرآیند خودکار بود که از روابط معنایی پایگاه داده واژگانی انگلیسی برای طبقه بندی استفاده می کند. WordNet، در دهه 1980 در دانشگاه پرینستون ایجاد شد. از آنجایی که امکان بررسی دستی وجود زبان توهین آمیز در 80 میلیون عکس کوچک وجود ندارد، تصمیم گرفته شد که دسترسی به پایگاه داده به طور کامل مسدود شود. MIT همچنین از دیگر محققان خواست استفاده از این مجموعه را متوقف کرده و کپی هایی از آن را حذف کنند. مشکلات مشابهی در بزرگترین پایگاه داده تصویر مشروح مشاهده شده است IMAGEnet، که از لنگرهای WordNet نیز استفاده می کند.

MIT پس از شناسایی اصطلاحات نژادپرستانه و زن ستیز، مجموعه Tiny Images را حذف کرد

MIT پس از شناسایی اصطلاحات نژادپرستانه و زن ستیز، مجموعه Tiny Images را حذف کرد

منبع: opennet.ru

اضافه کردن نظر