تنظيف البيانات مثل الصخور والورق والمقص. هل هي لعبة بنهاية أم بدونها؟ الجزء 2. عملي

В الجزء الأول تم وصف هذا المنشور على أساس مجموعة بيانات لنتائج التقييم المساحي للعقارات في إقليم خانتي مانسي المستقل.

يتم تقديم الجزء العملي في شكل خطوات. تم إجراء جميع عمليات التنظيف في Excel ، حيث يمكن تكرار الأداة الأكثر شيوعًا والعمليات الموصوفة بواسطة معظم المتخصصين الذين يعرفون Excel. ومناسب تمامًا للعمل اليدوي.

المرحلة الصفرية هي العمل على الإطلاق وحفظ الملف ، حيث يبلغ حجمه 100 ميغا بايت ، ثم مع عدد هذه العمليات ، عشرات ومئات ، فإنها تستغرق وقتًا طويلاً.
الافتتاح ، في المتوسط ​​، - 30 ثانية.
الادخار - 22 ثانية.

تبدأ المرحلة الأولى بتحديد المؤشرات الإحصائية لمجموعة البيانات.

الجدول 1. احصائيات مجموعة البيانات
تنظيف البيانات مثل الصخور والورق والمقص. هل هي لعبة بنهاية أم بدونها؟ الجزء 2. عملي

التكنولوجيا 2.1.

نقوم بإنشاء حقل مساعد ، لدي تحت الرقم - AY. لكل إدخال ، نشكل الصيغة "= DLSTR (F365502) + DLSTR (G365502) + ... + DLSTR (AW365502)"

إجمالي الوقت المنقضي في الخطوة 2.1 (معادلة شومان) t21 = 1 ساعة.
عدد الأخطاء التي تم العثور عليها في المرحلة 2.1 (معادلة شومان) n21 = 0 قطعة.

المرحلة الثانية.
فحص مكونات مجموعة البيانات.
2.2. يتم تشكيل جميع القيم في السجلات من خلال الأحرف القياسية. لذلك ، سوف نتتبع الإحصائيات بالرموز.

الجدول 2. إحصائيات شخصية في مجموعة البيانات مع تحليل أولي للنتائج.تنظيف البيانات مثل الصخور والورق والمقص. هل هي لعبة بنهاية أم بدونها؟ الجزء 2. عملي
تنظيف البيانات مثل الصخور والورق والمقص. هل هي لعبة بنهاية أم بدونها؟ الجزء 2. عملي
تنظيف البيانات مثل الصخور والورق والمقص. هل هي لعبة بنهاية أم بدونها؟ الجزء 2. عملي
تنظيف البيانات مثل الصخور والورق والمقص. هل هي لعبة بنهاية أم بدونها؟ الجزء 2. عملي
تنظيف البيانات مثل الصخور والورق والمقص. هل هي لعبة بنهاية أم بدونها؟ الجزء 2. عملي

التكنولوجيا 2.2.1.

قم بإنشاء حقل مساعد - "alpha1". لكل سجل ، نشكل الصيغة "= CONCATENATE (Sheet1! B9؛ ... Sheet1! AQ9)"
نقوم بإنشاء خلية ثابتة "أوميغا 1". في هذه الخلية ، سنقوم بإدخال رموز الأحرف لنظام التشغيل Windows-1251 بالتناوب من 32 إلى 255.
قم بإنشاء حقل مساعد - "alpha2". بالصيغة "= FIND (CHAR (Omega، 1)،" alpha1 "، N)".
قم بإنشاء حقل مساعد - "alpha3". باستخدام الصيغة "= IF (ISNUMBER (" alpha2 "؛ N) ؛ 1 ؛ 0)"
أنشئ خلية ثابتة "Omega-2" ، بالصيغة "= SUM (" alpha3 "N1:" alpha3 "N365498)"

الجدول 3. نتائج التحليل الأولي للنتائجتنظيف البيانات مثل الصخور والورق والمقص. هل هي لعبة بنهاية أم بدونها؟ الجزء 2. عملي

الجدول 4. إصلاح الأخطاء في هذه المرحلةتنظيف البيانات مثل الصخور والورق والمقص. هل هي لعبة بنهاية أم بدونها؟ الجزء 2. عملي

إجمالي الوقت المنقضي في الخطوة 2.2.1 (معادلة شومان) t221 = 8 ساعة.
عدد الأخطاء المصححة في المرحلة 2.2.1 (معادلة شومان) n221 = 0 قطعة.

الخطوة 3.
الخطوة الثالثة هي إصلاح حالة مجموعة البيانات. من خلال تخصيص رقم فريد (ID) لكل سجل ولكل حقل. يعد هذا ضروريًا لمقارنة مجموعة البيانات المحولة بالمجموعة الأصلية. من الضروري أيضًا الاستخدام الكامل لإمكانيات التجميع والتصفية. هنا ننتقل مرة أخرى إلى الجدول 2.2.2 ونختار رمزًا غير مستخدم في مجموعة البيانات. نحصل على ما هو مبين في الشكل 10.

تنظيف البيانات مثل الصخور والورق والمقص. هل هي لعبة بنهاية أم بدونها؟ الجزء 2. عملي
الشكل 10. التنازل عن المعرفات.

إجمالي الوقت المنقضي في الخطوة 3 (معادلة شومان) t3 = 0,75 ساعة.
عدد الأخطاء التي تم العثور عليها في المرحلة 3 (معادلة شومان) n3 = 0 قطعة.

نظرًا لأن صيغة شومان تتطلب إكمال المرحلة عن طريق تصحيح الأخطاء. نعود إلى المرحلة الثانية.

الخطوة 2.2.2.
في هذه الخطوة ، سنصلح أيضًا المساحات المزدوجة والثلاثية.
تنظيف البيانات مثل الصخور والورق والمقص. هل هي لعبة بنهاية أم بدونها؟ الجزء 2. عملي
الشكل 11. عدد المساحات المزدوجة.

تصحيح الأخطاء المحددة في الجدول 2.2.4.

الجدول 5. مرحلة تصحيح الخطأتنظيف البيانات مثل الصخور والورق والمقص. هل هي لعبة بنهاية أم بدونها؟ الجزء 2. عملي
تنظيف البيانات مثل الصخور والورق والمقص. هل هي لعبة بنهاية أم بدونها؟ الجزء 2. عملي

يظهر مثال على سبب أهمية جانب مثل استخدام الحروف "e" أو "" في الشكل 12.

تنظيف البيانات مثل الصخور والورق والمقص. هل هي لعبة بنهاية أم بدونها؟ الجزء 2. عملي
الشكل 12. عدم تطابق الحرف "e".

إجمالي الوقت المنقضي في الخطوة 2.2.2 t222 = 4 ساعات.
عدد الأخطاء التي تم العثور عليها في المرحلة 2.2.2 (معادلة شومان) n222 = 583 قطعة.

المرحلة الرابعة.
التحقق من وجود فائض في الحقول يتناسب بشكل جيد مع هذه المرحلة. من بين 44 حقلاً 6 مجالات:
7- الغرض من البناء
16- عدد الطوابق تحت الارض
17 - الكائن الأصل
21- المجلس القروي
38 - معلمات الهيكل (الوصف)
40- التراث الثقافي

ليس لديهم أي سجلات. هذا هو ، زائدة عن الحاجة.
يحتوي الحقل "22 - المدينة" على إدخال واحد ، الشكل 13.

تنظيف البيانات مثل الصخور والورق والمقص. هل هي لعبة بنهاية أم بدونها؟ الجزء 2. عملي
الشكل 13. الإدخال الوحيد هو Z_348653 في حقل "المدينة".

يحتوي الحقل "34 - اسم المبنى" على سجلات لا تتوافق بوضوح مع الغرض من الحقل ، الشكل 14.

تنظيف البيانات مثل الصخور والورق والمقص. هل هي لعبة بنهاية أم بدونها؟ الجزء 2. عملي
الشكل 14. مثال على إدخال غير مطابق.

نستبعد هذه الحقول من مجموعة البيانات. كما قمنا بإصلاح تغيير 214 سجلاً.

إجمالي الوقت المنقضي في الخطوة 4 (معادلة شومان) t4 = 2,5 ساعة.
عدد الأخطاء التي تم العثور عليها في المرحلة 4 (معادلة شومان) n4 = 222 قطعة.

الجدول 6. تحليل مؤشرات مجموعة البيانات بعد المرحلة الرابعة

تنظيف البيانات مثل الصخور والورق والمقص. هل هي لعبة بنهاية أم بدونها؟ الجزء 2. عملي

بشكل عام ، عند تحليل التغييرات في المؤشرات (الجدول 6) ، يمكننا القول:
1) نسبة الرافعة المالية لمتوسط ​​عدد الرموز إلى رافعة الانحراف المعياري قريبة من 3 ، أي أن هناك علامات على التوزيع الطبيعي (قاعدة ستة سيجما).
2) يشير الانحراف الكبير في الحد الأدنى والحد الأقصى للرافعة عن الرافعة المتوسطة إلى أن دراسة ذيول هي اتجاه واعد في البحث عن الأخطاء.

نحن نحقق في نتائج اكتشاف الأخطاء باستخدام منهجية شومان.

مراحل الخمول

2.1. إجمالي الوقت المنقضي في الخطوة 2.1 (معادلة شومان) t21 = 1 ساعة.
عدد الأخطاء التي تم العثور عليها في المرحلة 2.1 (معادلة شومان) n21 = 0 قطعة.

3. إجمالي الوقت المنقضي في الخطوة 3 (معادلة شومان) t3 = 0,75 ساعة.
عدد الأخطاء التي تم العثور عليها في المرحلة 3 (معادلة شومان) n3 = 0 قطعة.

مراحل فعالة
2.2. إجمالي الوقت المنقضي في الخطوة 2.2.1 (معادلة شومان) t221 = 8 ساعة.
عدد الأخطاء المصححة في المرحلة 2.2.1 (معادلة شومان) n221 = 0 قطعة.
إجمالي الوقت المنقضي في الخطوة 2.2.2 t222 = 4 ساعات.
عدد الأخطاء التي تم العثور عليها في المرحلة 2.2.2 (معادلة شومان) n222 = 583 قطعة.

إجمالي الوقت المنقضي في الخطوة 2.2 t22 = 8 + 4 = 12 ساعة.
عدد الأخطاء التي تم العثور عليها في المرحلة 2.2.2 (معادلة شومان) n222 = 583 قطعة.

4. إجمالي الوقت المنقضي في الخطوة 4 (معادلة شومان) t4 = 2,5 ساعة.
عدد الأخطاء التي تم العثور عليها في المرحلة 4 (معادلة شومان) n4 = 222 قطعة.

نظرًا لوجود مراحل صفرية يجب تضمينها في المرحلة الأولى من نموذج شومان ، ومن ناحية أخرى ، فإن المرحلتين 2.2 و 4 مستقلتان بطبيعتهما ، بالنظر إلى أن نموذج شومان يفترض زيادة في مدة الفحص ، والاحتمال من الكشف عن خطأ ينخفض ​​، أي فشل التدفق ، ثم من خلال التحقيق في هذا التدفق ، سنحدد أي من المراحل يجب وضعها أولاً ، وفقًا للقاعدة ، حيث تكون كثافة الفشل أكثر تكرارًا ، نضع إحدى المراحل أولاً .

تنظيف البيانات مثل الصخور والورق والمقص. هل هي لعبة بنهاية أم بدونها؟ الجزء 2. عملي
Ris.15.

يستنتج من الصيغة الواردة في الشكل 15 أنه من الأفضل وضع المرحلة الرابعة قبل المرحلة 2.2 في الحسابات.

باستخدام صيغة شومان ، نحدد العدد الأولي المقدر للأخطاء:

تنظيف البيانات مثل الصخور والورق والمقص. هل هي لعبة بنهاية أم بدونها؟ الجزء 2. عملي
Ris.16.

من النتائج الواردة في الشكل 16 ، يمكن ملاحظة أن العدد المتوقع للأخطاء N2 = 3167 ، وهو أكثر من الحد الأدنى للمعيار وهو 1459.

نتيجة التصحيح ، قمنا بتصحيح 805 خطأ ، والرقم المتوقع هو 3167-805 = 2362 ، وهو ما يزال أكثر من الحد الأدنى المقبول من قبلنا.

نحدد المعلمة C و lambda ووظيفة الموثوقية:

تنظيف البيانات مثل الصخور والورق والمقص. هل هي لعبة بنهاية أم بدونها؟ الجزء 2. عملي
Ris.17.

في جوهرها ، لامدا هي المعدل الفعلي الذي يتم اكتشاف الأخطاء به في كل مرحلة. إذا نظرت أعلاه ، فإن تقدير هذا المؤشر سابقًا كان 42,4 خطأ في الساعة ، وهو ما يمكن مقارنته تمامًا بمؤشر شومان. بالإشارة إلى الجزء الأول من هذه المادة ، تم تحديد أن معدل اكتشاف الأخطاء من قبل المطور لا ينبغي أن يكون أقل من خطأ واحد لكل 1 سجل ، عند فحص سجل واحد في الدقيقة. ومن هنا جاءت قيمة لامدا الحرجة لنموذج شومان:
60 / 250,4 = 0,239617.

أي أن الحاجة إلى تنفيذ إجراءات البحث عن الأخطاء يجب أن يتم تنفيذها حتى تنخفض قيمة لامدا ، من 38,964 المتاح ، إلى 0,239617.

أو حتى ينخفض ​​المؤشر N (العدد المحتمل للأخطاء) مطروحًا منه n (العدد المصحح للأخطاء) إلى ما دون الحد الذي اعتمدناه (في الجزء الأول) - 1459 قطعة.

الجزء 1. النظرية.

المصدر: www.habr.com

إضافة تعليق