آمازون سرویس تشخیص اسناد مبتنی بر ابر را راه اندازی کرد

آیا نیاز به استخراج سریع و خودکار اطلاعات از چندین سند دارید؟ و آیا آنها علاوه بر این، به صورت اسکن یا عکس ذخیره می شوند؟ اگر مشتری خدمات وب آمازون (AWS) باشید، خوش شانس هستید. آمازون از باز شدن دسترسی به متن، یک سرویس مبتنی بر ابر و کاملاً مدیریت شده که از یادگیری ماشین برای تجزیه و تحلیل جداول، فرم‌های متنی و کل صفحات متن در قالب‌های الکترونیکی رایج استفاده می‌کند. در حال حاضر، تنها در مناطق منتخب AWS، به ویژه شرق ایالات متحده (اوهایو و ویرجینیای شمالی)، غرب ایالات متحده (اورگان) و اتحادیه اروپا (ایرلند) در دسترس خواهد بود، و Textract در سال آینده عمومی خواهد شد.

آمازون سرویس تشخیص اسناد مبتنی بر ابر را راه اندازی کرد

به گفته آمازون، Texttract به طور قابل توجهی کارآمدتر از سیستم های تشخیص کاراکتر نوری معمولی است. از فایل های ذخیره شده در سطل آمازون S3، می تواند محتویات فیلدها و جداول را با در نظر گرفتن زمینه ای که این اطلاعات در آن ارائه می شود استخراج کند، به عنوان مثال، سیستم به طور خودکار نام ها و شماره های تامین اجتماعی را در فرم های مالیاتی یا مجموع ها برجسته می کند. از رسیدهای عکس گرفته شده همانطور که آمازون اشاره می کند بیانیه مطبوعاتی، متن از فرمت های تصویر مانند اسکن، فایل های PDF و عکس ها پشتیبانی می کند و به طور موثر با زمینه در اسناد خاص خدمات مالی، بیمه و مراقبت های بهداشتی کار می کند.

متن نتایج را در قالب JSON با حاشیه‌نویسی‌شده با شماره صفحه، بخش‌ها، برچسب‌های فرم و انواع داده‌ها ذخیره می‌کند و به صورت اختیاری با سرویس‌های پایگاه داده و تحلیلی مانند Amazon Elasticsearch Service، Amazon DynamoDB، Amazon Athena و محصولات یادگیری ماشینی مانند Amazon Comprehend، ادغام می‌شود. Amazon Comprehend Medical، Amazon Translate و Amazon SageMaker برای پس پردازش. متناوباً، داده‌های استخراج‌شده را می‌توان مستقیماً به سرویس‌های ابری شخص ثالث برای اهداف حسابداری و حسابرسی مطابقت یا برای پشتیبانی از جستجوهای هوشمند در آرشیو اسناد منتقل کرد. طبق گفته آمازون، Texttract می‌تواند میلیون‌ها صفحه از اسناد مختلف را در «فقط چند ساعت» به صورت «دقیق» پردازش کند.

بسیاری از مشتریان AWS در حال حاضر از Txtract استفاده می‌کنند، از جمله Globe and Mail، خدمات هواشناسی ملی انگلستان، PricewaterhouseCoopers، Healthfirst، یک سازمان مراقبت مدیریت شده غیرانتفاعی، و شرکت‌های اتوماسیون فرآیند روباتیک UiPath، Ripcord، و Blue Prism. Candor، استارت‌آپی که هدفش شفاف‌سازی صنعت وام مسکن است، از Texttract برای استخراج داده‌ها از اسنادی مانند صورت‌حساب‌های بانکی، اوراق خرد و اسناد مالیاتی مختلف استفاده می‌کند تا فرآیند تأیید وام را برای مشتریان خود سرعت بخشد.

سوامی سیواسوبرامانیان، معاون آموزش ماشین آمازون، گفت: «قدرت آمازون تکست این است که داده‌های متنی و ساختار یافته را تقریباً از هر سندی بدون نیاز به یادگیری ماشین قبلی استخراج می‌کند. علاوه بر ادغام با سایر سرویس‌های AWS، جامعه بزرگی که در اطراف آمازون تکست رشد می‌کند، مشتریان ما را قادر می‌سازد تا ارزش واقعی را از مجموعه فایل‌های خود دریافت کنند، کارآمدتر کار کنند، انطباق امنیتی را بهبود بخشند، ورود داده‌ها را خودکار کنند و تصمیم‌های تجاری را تسریع کنند.

در زیر می توانید ارائه Textract را در re:Invent 2018 به زبان انگلیسی تماشا کنید.



منبع: 3dnews.ru

اضافه کردن نظر