В
يتم تقديم الجزء العملي في شكل خطوات. تم إجراء جميع عمليات التنظيف في Excel ، حيث يمكن تكرار الأداة الأكثر شيوعًا والعمليات الموصوفة بواسطة معظم المتخصصين الذين يعرفون Excel. ومناسب تمامًا للعمل اليدوي.
المرحلة الصفرية هي العمل على الإطلاق وحفظ الملف ، حيث يبلغ حجمه 100 ميغا بايت ، ثم مع عدد هذه العمليات ، عشرات ومئات ، فإنها تستغرق وقتًا طويلاً.
الافتتاح ، في المتوسط ، - 30 ثانية.
الادخار - 22 ثانية.
تبدأ المرحلة الأولى بتحديد المؤشرات الإحصائية لمجموعة البيانات.
الجدول 1. احصائيات مجموعة البيانات
التكنولوجيا 2.1.
نقوم بإنشاء حقل مساعد ، لدي تحت الرقم - AY. لكل إدخال ، نشكل الصيغة "= DLSTR (F365502) + DLSTR (G365502) + ... + DLSTR (AW365502)"
إجمالي الوقت المنقضي في الخطوة 2.1 (معادلة شومان) t21 = 1 ساعة.
عدد الأخطاء التي تم العثور عليها في المرحلة 2.1 (معادلة شومان) n21 = 0 قطعة.
المرحلة الثانية.
فحص مكونات مجموعة البيانات.
2.2. يتم تشكيل جميع القيم في السجلات من خلال الأحرف القياسية. لذلك ، سوف نتتبع الإحصائيات بالرموز.
الجدول 2. إحصائيات شخصية في مجموعة البيانات مع تحليل أولي للنتائج.
التكنولوجيا 2.2.1.
قم بإنشاء حقل مساعد - "alpha1". لكل سجل ، نشكل الصيغة "= CONCATENATE (Sheet1! B9؛ ... Sheet1! AQ9)"
نقوم بإنشاء خلية ثابتة "أوميغا 1". في هذه الخلية ، سنقوم بإدخال رموز الأحرف لنظام التشغيل Windows-1251 بالتناوب من 32 إلى 255.
قم بإنشاء حقل مساعد - "alpha2". بالصيغة "= FIND (CHAR (Omega، 1)،" alpha1 "، N)".
قم بإنشاء حقل مساعد - "alpha3". باستخدام الصيغة "= IF (ISNUMBER (" alpha2 "؛ N) ؛ 1 ؛ 0)"
أنشئ خلية ثابتة "Omega-2" ، بالصيغة "= SUM (" alpha3 "N1:" alpha3 "N365498)"
الجدول 3. نتائج التحليل الأولي للنتائج
الجدول 4. إصلاح الأخطاء في هذه المرحلة
إجمالي الوقت المنقضي في الخطوة 2.2.1 (معادلة شومان) t221 = 8 ساعة.
عدد الأخطاء المصححة في المرحلة 2.2.1 (معادلة شومان) n221 = 0 قطعة.
الخطوة 3.
الخطوة الثالثة هي إصلاح حالة مجموعة البيانات. من خلال تخصيص رقم فريد (ID) لكل سجل ولكل حقل. يعد هذا ضروريًا لمقارنة مجموعة البيانات المحولة بالمجموعة الأصلية. من الضروري أيضًا الاستخدام الكامل لإمكانيات التجميع والتصفية. هنا ننتقل مرة أخرى إلى الجدول 2.2.2 ونختار رمزًا غير مستخدم في مجموعة البيانات. نحصل على ما هو مبين في الشكل 10.
الشكل 10. التنازل عن المعرفات.
إجمالي الوقت المنقضي في الخطوة 3 (معادلة شومان) t3 = 0,75 ساعة.
عدد الأخطاء التي تم العثور عليها في المرحلة 3 (معادلة شومان) n3 = 0 قطعة.
نظرًا لأن صيغة شومان تتطلب إكمال المرحلة عن طريق تصحيح الأخطاء. نعود إلى المرحلة الثانية.
الخطوة 2.2.2.
في هذه الخطوة ، سنصلح أيضًا المساحات المزدوجة والثلاثية.
الشكل 11. عدد المساحات المزدوجة.
تصحيح الأخطاء المحددة في الجدول 2.2.4.
الجدول 5. مرحلة تصحيح الخطأ
يظهر مثال على سبب أهمية جانب مثل استخدام الحروف "e" أو "" في الشكل 12.
الشكل 12. عدم تطابق الحرف "e".
إجمالي الوقت المنقضي في الخطوة 2.2.2 t222 = 4 ساعات.
عدد الأخطاء التي تم العثور عليها في المرحلة 2.2.2 (معادلة شومان) n222 = 583 قطعة.
المرحلة الرابعة.
التحقق من وجود فائض في الحقول يتناسب بشكل جيد مع هذه المرحلة. من بين 44 حقلاً 6 مجالات:
7- الغرض من البناء
16- عدد الطوابق تحت الارض
17 - الكائن الأصل
21- المجلس القروي
38 - معلمات الهيكل (الوصف)
40- التراث الثقافي
ليس لديهم أي سجلات. هذا هو ، زائدة عن الحاجة.
يحتوي الحقل "22 - المدينة" على إدخال واحد ، الشكل 13.
الشكل 13. الإدخال الوحيد هو Z_348653 في حقل "المدينة".
يحتوي الحقل "34 - اسم المبنى" على سجلات لا تتوافق بوضوح مع الغرض من الحقل ، الشكل 14.
الشكل 14. مثال على إدخال غير مطابق.
نستبعد هذه الحقول من مجموعة البيانات. كما قمنا بإصلاح تغيير 214 سجلاً.
إجمالي الوقت المنقضي في الخطوة 4 (معادلة شومان) t4 = 2,5 ساعة.
عدد الأخطاء التي تم العثور عليها في المرحلة 4 (معادلة شومان) n4 = 222 قطعة.
الجدول 6. تحليل مؤشرات مجموعة البيانات بعد المرحلة الرابعة
بشكل عام ، عند تحليل التغييرات في المؤشرات (الجدول 6) ، يمكننا القول:
1) نسبة الرافعة المالية لمتوسط عدد الرموز إلى رافعة الانحراف المعياري قريبة من 3 ، أي أن هناك علامات على التوزيع الطبيعي (قاعدة ستة سيجما).
2) يشير الانحراف الكبير في الحد الأدنى والحد الأقصى للرافعة عن الرافعة المتوسطة إلى أن دراسة ذيول هي اتجاه واعد في البحث عن الأخطاء.
نحن نحقق في نتائج اكتشاف الأخطاء باستخدام منهجية شومان.
مراحل الخمول
2.1. إجمالي الوقت المنقضي في الخطوة 2.1 (معادلة شومان) t21 = 1 ساعة.
عدد الأخطاء التي تم العثور عليها في المرحلة 2.1 (معادلة شومان) n21 = 0 قطعة.
3. إجمالي الوقت المنقضي في الخطوة 3 (معادلة شومان) t3 = 0,75 ساعة.
عدد الأخطاء التي تم العثور عليها في المرحلة 3 (معادلة شومان) n3 = 0 قطعة.
مراحل فعالة
2.2. إجمالي الوقت المنقضي في الخطوة 2.2.1 (معادلة شومان) t221 = 8 ساعة.
عدد الأخطاء المصححة في المرحلة 2.2.1 (معادلة شومان) n221 = 0 قطعة.
إجمالي الوقت المنقضي في الخطوة 2.2.2 t222 = 4 ساعات.
عدد الأخطاء التي تم العثور عليها في المرحلة 2.2.2 (معادلة شومان) n222 = 583 قطعة.
إجمالي الوقت المنقضي في الخطوة 2.2 t22 = 8 + 4 = 12 ساعة.
عدد الأخطاء التي تم العثور عليها في المرحلة 2.2.2 (معادلة شومان) n222 = 583 قطعة.
4. إجمالي الوقت المنقضي في الخطوة 4 (معادلة شومان) t4 = 2,5 ساعة.
عدد الأخطاء التي تم العثور عليها في المرحلة 4 (معادلة شومان) n4 = 222 قطعة.
نظرًا لوجود مراحل صفرية يجب تضمينها في المرحلة الأولى من نموذج شومان ، ومن ناحية أخرى ، فإن المرحلتين 2.2 و 4 مستقلتان بطبيعتهما ، بالنظر إلى أن نموذج شومان يفترض زيادة في مدة الفحص ، والاحتمال من الكشف عن خطأ ينخفض ، أي فشل التدفق ، ثم من خلال التحقيق في هذا التدفق ، سنحدد أي من المراحل يجب وضعها أولاً ، وفقًا للقاعدة ، حيث تكون كثافة الفشل أكثر تكرارًا ، نضع إحدى المراحل أولاً .
Ris.15.
يستنتج من الصيغة الواردة في الشكل 15 أنه من الأفضل وضع المرحلة الرابعة قبل المرحلة 2.2 في الحسابات.
باستخدام صيغة شومان ، نحدد العدد الأولي المقدر للأخطاء:
Ris.16.
من النتائج الواردة في الشكل 16 ، يمكن ملاحظة أن العدد المتوقع للأخطاء N2 = 3167 ، وهو أكثر من الحد الأدنى للمعيار وهو 1459.
نتيجة التصحيح ، قمنا بتصحيح 805 خطأ ، والرقم المتوقع هو 3167-805 = 2362 ، وهو ما يزال أكثر من الحد الأدنى المقبول من قبلنا.
نحدد المعلمة C و lambda ووظيفة الموثوقية:
Ris.17.
في جوهرها ، لامدا هي المعدل الفعلي الذي يتم اكتشاف الأخطاء به في كل مرحلة. إذا نظرت أعلاه ، فإن تقدير هذا المؤشر سابقًا كان 42,4 خطأ في الساعة ، وهو ما يمكن مقارنته تمامًا بمؤشر شومان. بالإشارة إلى الجزء الأول من هذه المادة ، تم تحديد أن معدل اكتشاف الأخطاء من قبل المطور لا ينبغي أن يكون أقل من خطأ واحد لكل 1 سجل ، عند فحص سجل واحد في الدقيقة. ومن هنا جاءت قيمة لامدا الحرجة لنموذج شومان:
60 / 250,4 = 0,239617.
أي أن الحاجة إلى تنفيذ إجراءات البحث عن الأخطاء يجب أن يتم تنفيذها حتى تنخفض قيمة لامدا ، من 38,964 المتاح ، إلى 0,239617.
أو حتى ينخفض المؤشر N (العدد المحتمل للأخطاء) مطروحًا منه n (العدد المصحح للأخطاء) إلى ما دون الحد الذي اعتمدناه (في الجزء الأول) - 1459 قطعة.
المصدر: www.habr.com