پاک کردن داده هایی مانند سنگ، کاغذ، قیچی. آیا این یک بازی با پایان است یا بدون پایان؟ قسمت 2. عملی

В بخش اول توضیح داده شد که این انتشار بر اساس مجموعه داده ای از نتایج ارزیابی کاداستر املاک در منطقه خودمختار خانتی-مانسی انجام شده است.

قسمت عملی در قالب مراحل ارائه شده است. همه تمیز کردن در اکسل انجام شد، زیرا رایج ترین ابزار و عملیات توصیف شده توسط اکثر متخصصانی که اکسل را می شناسند قابل تکرار هستند. و برای کارهای دست به دست کاملاً مناسب است.

مرحله صفر کار راه اندازی و ذخیره فایل خواهد بود، زیرا حجم آن 100 مگابایت است، پس با تعداد ده ها و صدها این عملیات زمان قابل توجهی را می طلبد.
باز شدن به طور متوسط ​​30 ثانیه است.
ذخیره - 22 ثانیه

مرحله اول با تعیین شاخص های آماری مجموعه داده آغاز می شود.

جدول 1. شاخص های آماری مجموعه داده
پاک کردن داده هایی مانند سنگ، کاغذ، قیچی. آیا این یک بازی با پایان است یا بدون پایان؟ قسمت 2. عملی

فناوری 2.1.

ما یک فیلد کمکی ایجاد می کنیم، من آن را تحت شماره - AY دارم. برای هر ورودی، فرمول "=LENGTH(F365502)+LENGTH(G365502)+…+LENGTH(AW365502)" را تشکیل می دهیم.

کل زمان صرف شده در مرحله 2.1 (برای فرمول شومان) t21 = 1 ساعت.
تعداد خطاهای یافت شده در مرحله 2.1 (برای فرمول شومان) n21 = 0 عدد.

مرحله دوم.
بررسی اجزای مجموعه داده
2.2. تمام مقادیر در رکوردها با استفاده از نمادهای استاندارد تشکیل می شوند. بنابراین، بیایید آمار را با نمادها دنبال کنیم.

جدول 2. شاخص های آماری کاراکترها در مجموعه داده با تجزیه و تحلیل اولیه نتایج.پاک کردن داده هایی مانند سنگ، کاغذ، قیچی. آیا این یک بازی با پایان است یا بدون پایان؟ قسمت 2. عملی
پاک کردن داده هایی مانند سنگ، کاغذ، قیچی. آیا این یک بازی با پایان است یا بدون پایان؟ قسمت 2. عملی
پاک کردن داده هایی مانند سنگ، کاغذ، قیچی. آیا این یک بازی با پایان است یا بدون پایان؟ قسمت 2. عملی
پاک کردن داده هایی مانند سنگ، کاغذ، قیچی. آیا این یک بازی با پایان است یا بدون پایان؟ قسمت 2. عملی
پاک کردن داده هایی مانند سنگ، کاغذ، قیچی. آیا این یک بازی با پایان است یا بدون پایان؟ قسمت 2. عملی

فناوری 2.2.1.

ما یک فیلد کمکی ایجاد می کنیم - "alpha1". برای هر رکورد، فرمول "=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)" را تشکیل می دهیم.
ما یک سلول ثابت امگا 1 ایجاد می کنیم. ما به طور متناوب کدهای کاراکتر را مطابق با Windows-1251 از 32 تا 255 در این سلول وارد می کنیم.
ما یک فیلد کمکی ایجاد می کنیم - "alpha2". با فرمول "=FIND(SYMBOL(Omega,1); "alpha1",N)".
ما یک فیلد کمکی ایجاد می کنیم - "alpha3". با فرمول "=IF(ISNUMBER("alpha2",N),1)"
یک سلول ثابت "Omega-2" با فرمول "=SUM("alpha3"N1: "alpha3"N365498)" ایجاد کنید.

جدول 3. نتایج تجزیه و تحلیل اولیه نتایجپاک کردن داده هایی مانند سنگ، کاغذ، قیچی. آیا این یک بازی با پایان است یا بدون پایان؟ قسمت 2. عملی

جدول 4. خطاهای ثبت شده در این مرحلهپاک کردن داده هایی مانند سنگ، کاغذ، قیچی. آیا این یک بازی با پایان است یا بدون پایان؟ قسمت 2. عملی

کل زمان صرف شده در مرحله 2.2.1 (برای فرمول شومان) t221 = 8 ساعت.
تعداد خطاهای اصلاح شده در مرحله 2.2.1 (برای فرمول شومان) n221 = 0 عدد.

مرحله 3.
مرحله سوم ثبت وضعیت مجموعه داده است. با اختصاص هر رکورد یک شماره (ID) منحصر به فرد و هر فیلد. این برای مقایسه مجموعه داده تبدیل شده با مجموعه اصلی ضروری است. این نیز برای استفاده کامل از قابلیت های گروه بندی و فیلترینگ ضروری است. در اینجا دوباره به جدول 2.2.2 می رویم و نمادی را انتخاب می کنیم که در مجموعه داده استفاده نمی شود. آنچه در شکل 10 نشان داده شده است را دریافت می کنیم.

پاک کردن داده هایی مانند سنگ، کاغذ، قیچی. آیا این یک بازی با پایان است یا بدون پایان؟ قسمت 2. عملی
شکل 10. تخصیص شناسه ها

کل زمان صرف شده در مرحله 3 (برای فرمول شومان) t3 = 0,75 ساعت.
تعداد خطاهای یافت شده در مرحله 3 (برای فرمول شومان) n3 = 0 عدد.

از آنجایی که فرمول شومان مستلزم آن است که مرحله با تصحیح خطاها تکمیل شود. بیایید به مرحله 2 برگردیم.

مرحله 2.2.2.
در این مرحله فاصله های دوتایی و سه گانه را نیز تصحیح می کنیم.
پاک کردن داده هایی مانند سنگ، کاغذ، قیچی. آیا این یک بازی با پایان است یا بدون پایان؟ قسمت 2. عملی
شکل 11. تعداد فضاهای دوتایی

تصحیح خطاهای شناسایی شده در جدول 2.2.4.

جدول 5. مرحله تصحیح خطاپاک کردن داده هایی مانند سنگ، کاغذ، قیچی. آیا این یک بازی با پایان است یا بدون پایان؟ قسمت 2. عملی
پاک کردن داده هایی مانند سنگ، کاغذ، قیچی. آیا این یک بازی با پایان است یا بدون پایان؟ قسمت 2. عملی

مثالی از اینکه چرا جنبه ای مانند استفاده از حروف "e" یا "e" قابل توجه است در شکل 12 ارائه شده است.

پاک کردن داده هایی مانند سنگ، کاغذ، قیچی. آیا این یک بازی با پایان است یا بدون پایان؟ قسمت 2. عملی
شکل 12. اختلاف در حرف "ه".

کل زمان صرف شده در مرحله 2.2.2 t222 = 4 ساعت.
تعداد خطاهای یافت شده در مرحله 2.2.2 (برای فرمول شومان) n222 = 583 عدد.

مرحله چهارم.
بررسی افزونگی میدان به خوبی در این مرحله قرار می گیرد. از 44 فیلد، 6 فیلد:
7 - هدف سازه
16 — تعداد طبقات زیر زمین
17 - شی والد
21 - شورای روستا
38 - پارامترهای ساختار (توضیحات)
40 - میراث فرهنگی

آنها هیچ ورودی ندارند. یعنی زائد هستند.
فیلد «22 – شهر» یک ورودی دارد، شکل 13.

پاک کردن داده هایی مانند سنگ، کاغذ، قیچی. آیا این یک بازی با پایان است یا بدون پایان؟ قسمت 2. عملی
شکل 13. تنها ورودی Z_348653 در قسمت "شهر" است.

فیلد "34 - نام ساختمان" حاوی ورودی هایی است که به وضوح با هدف فیلد مطابقت ندارند، شکل 14.

پاک کردن داده هایی مانند سنگ، کاغذ، قیچی. آیا این یک بازی با پایان است یا بدون پایان؟ قسمت 2. عملی
شکل 14. نمونه ای از یک ورودی غیرمنطبق.

ما این فیلدها را از مجموعه داده حذف می کنیم. و تغییر را در 214 رکورد ثبت می کنیم.

کل زمان صرف شده در مرحله 4 (برای فرمول شومان) t4 = 2,5 ساعت.
تعداد خطاهای یافت شده در مرحله 4 (برای فرمول شومان) n4 = 222 عدد.

جدول 6. تجزیه و تحلیل شاخص های مجموعه داده ها پس از مرحله 4

پاک کردن داده هایی مانند سنگ، کاغذ، قیچی. آیا این یک بازی با پایان است یا بدون پایان؟ قسمت 2. عملی

به طور کلی با تحلیل تغییرات شاخص ها (جدول 6) می توان گفت:
1) نسبت میانگین تعداد نمادها به اهرم انحراف استاندارد نزدیک به 3 است، یعنی نشانه هایی از توزیع نرمال وجود دارد (قانون شش سیگما).
2) انحراف قابل توجه اهرم های حداقل و حداکثر از اهرم متوسط ​​نشان می دهد که مطالعه دم ها یک جهت امیدوار کننده در هنگام جستجوی خطاها است.

بیایید نتایج یافتن خطاها را با استفاده از روش شومان بررسی کنیم.

مراحل بیکار

2.1. کل زمان صرف شده در مرحله 2.1 (برای فرمول شومان) t21 = 1 ساعت.
تعداد خطاهای یافت شده در مرحله 2.1 (برای فرمول شومان) n21 = 0 عدد.

3. کل زمان صرف شده در مرحله 3 (برای فرمول شومان) t3 = 0,75 ساعت.
تعداد خطاهای یافت شده در مرحله 3 (برای فرمول شومان) n3 = 0 عدد.

مراحل موثر
2.2. کل زمان صرف شده در مرحله 2.2.1 (برای فرمول شومان) t221 = 8 ساعت.
تعداد خطاهای اصلاح شده در مرحله 2.2.1 (برای فرمول شومان) n221 = 0 عدد.
کل زمان صرف شده در مرحله 2.2.2 t222 = 4 ساعت.
تعداد خطاهای یافت شده در مرحله 2.2.2 (برای فرمول شومان) n222 = 583 عدد.

کل زمان صرف شده در مرحله 2.2 t22 = 8 + 4 = 12 ساعت.
تعداد خطاهای یافت شده در مرحله 2.2.2 (برای فرمول شومان) n222 = 583 عدد.

4. کل زمان صرف شده در مرحله 4 (برای فرمول شومان) t4 = 2,5 ساعت.
تعداد خطاهای یافت شده در مرحله 4 (برای فرمول شومان) n4 = 222 عدد.

از آنجایی که مراحل صفر وجود دارد که باید در مرحله اول مدل شومان گنجانده شود و از طرف دیگر مراحل 2.2 و 4 ذاتا مستقل هستند، بنابراین با توجه به اینکه مدل شومن فرض می کند که با افزایش مدت زمان چک، احتمال وجود دارد. تشخیص خطا کاهش می یابد، یعنی جریان خرابی ها را کاهش می دهد، سپس با بررسی این جریان مشخص می کنیم که کدام مرحله را اول قرار دهیم، طبق قاعده، جایی که تراکم خرابی بیشتر است، آن مرحله را اول قرار می دهیم.

پاک کردن داده هایی مانند سنگ، کاغذ، قیچی. آیا این یک بازی با پایان است یا بدون پایان؟ قسمت 2. عملی
شکل 15

از فرمول شکل 15 چنین بر می آید که ترجیح داده می شود مرحله چهارم قبل از مرحله 2.2 در محاسبات قرار گیرد.

با استفاده از فرمول شومان، تعداد تخمینی اولیه خطاها را تعیین می کنیم:

پاک کردن داده هایی مانند سنگ، کاغذ، قیچی. آیا این یک بازی با پایان است یا بدون پایان؟ قسمت 2. عملی
شکل 16

از نتایج شکل 16 می توان دریافت که تعداد خطاهای پیش بینی شده N2 = 3167 است که از حداقل معیار 1459 بیشتر است.

در نتیجه اصلاح، 805 خطا را تصحیح کردیم و عدد پیش بینی شده 3167 – 805 = 2362 است که هنوز از حداقل آستانه ای که ما پذیرفته ایم بیشتر است.

ما پارامتر C، لامبدا و تابع قابلیت اطمینان را تعریف می کنیم:

پاک کردن داده هایی مانند سنگ، کاغذ، قیچی. آیا این یک بازی با پایان است یا بدون پایان؟ قسمت 2. عملی
شکل 17

اساساً، لامبدا یک شاخص واقعی از شدت تشخیص خطاها در هر مرحله است. اگر به بالا نگاه کنید، تخمین قبلی این اندیکاتور 42,4 خطا در ساعت بود که کاملاً با اندیکاتور شومان قابل مقایسه است. با عطف به بخش اول این مطالب، مشخص شد که سرعتی که توسعه‌دهنده خطاها را پیدا می‌کند نباید کمتر از 1 خطا در هر 250,4 رکورد، هنگام بررسی 1 رکورد در دقیقه باشد. از این رو ارزش بحرانی لامبدا برای مدل شومان:
60 / 250,4 = 0,239617.

یعنی نیاز به انجام مراحل تشخیص خطا باید تا زمانی انجام شود که لامبدا از 38,964 موجود به 0,239617 کاهش یابد.

یا تا زمانی که نشانگر N (تعداد بالقوه خطا) منهای n (تعداد تصحیح شده خطاها) به زیر آستانه ای که پذیرفته ایم (در قسمت اول) کاهش یابد - 1459 عدد.

بخش 1. نظری.

منبع: www.habr.com

اضافه کردن نظر