قم بتنظيف البيانات مثل لعبة الحجر والورق والمقص. هل هذه لعبة بنهاية أم بدونها؟ الجزء 1. نظري

1. البيانات الأولية

يعد تنظيف البيانات أحد التحديات التي تواجه مهام تحليل البيانات. عكست هذه المادة التطورات والحلول التي نشأت نتيجة حل مشكلة عملية لتحليل قاعدة البيانات في تكوين القيمة المساحية. المصادر هنا "التقرير رقم 01/OKS-2019 بشأن نتائج التقييم المساحي للدولة لجميع أنواع العقارات (باستثناء قطع الأراضي) في إقليم خانتي مانسيسك ذاتية الحكم أوكروج - أوجرا".

تم النظر في ملف "total.ods للنموذج المقارن" في "الملحق ب. نتائج تحديد KS 5. معلومات حول طريقة تحديد القيمة المساحية 5.1 النهج المقارن".

الجدول 1. المؤشرات الإحصائية لمجموعة البيانات في ملف "total.ods النموذجي المقارن"
إجمالي عدد الحقول، جهاز كمبيوتر شخصى. — 44
العدد الإجمالي للسجلات، أجهزة الكمبيوتر. — 365
إجمالي عدد الأحرف، أجهزة الكمبيوتر. — 101
متوسط ​​عدد الأحرف في السجل، أجهزة الكمبيوتر. — 278,297
الانحراف المعياري للأحرف في السجل، أجهزة الكمبيوتر. - 15,510
الحد الأدنى لعدد الأحرف في الإدخال، أجهزة الكمبيوتر. - 198
الحد الأقصى لعدد الأحرف في الإدخال، أجهزة الكمبيوتر. — 363

2. الجزء التمهيدي. المعايير الأساسية

أثناء تحليل قاعدة البيانات المحددة، تم تشكيل مهمة لتحديد متطلبات درجة التنقية، لأنه، كما هو واضح للجميع، فإن قاعدة البيانات المحددة تخلق عواقب قانونية واقتصادية للمستخدمين. أثناء العمل، اتضح أنه لا توجد متطلبات محددة لدرجة تنظيف البيانات الضخمة. وبتحليل القواعد القانونية في هذا الشأن، توصلت إلى استنتاج مفاده أنها جميعها تتشكل من الاحتمالات. وهذا هو، ظهرت مهمة معينة، يتم تجميع مصادر المعلومات للمهمة، ثم يتم تشكيل مجموعة بيانات، وبناء على مجموعة البيانات التي تم إنشاؤها، أدوات لحل المشكلة. الحلول الناتجة هي نقاط مرجعية في الاختيار من البدائل. لقد قدمت هذا في الشكل 1.

قم بتنظيف البيانات مثل لعبة الحجر والورق والمقص. هل هذه لعبة بنهاية أم بدونها؟ الجزء 1. نظري

نظرًا لأنه من الأفضل الاعتماد على التقنيات المثبتة في مسائل تحديد أي معايير، فقد اخترت المتطلبات المنصوص عليها في "تعريفات وإرشادات سلامة بيانات MHRA GxP للصناعة"لأنني اعتبرت هذه الوثيقة الأكثر شمولاً لهذه المسألة. على وجه الخصوص، يقول القسم في هذه الوثيقة "تجدر الإشارة إلى أن متطلبات سلامة البيانات تنطبق بالتساوي على البيانات اليدوية (الورقية) والبيانات الإلكترونية." (الترجمة: "...تنطبق متطلبات سلامة البيانات بالتساوي على البيانات اليدوية (الورقية) والبيانات الإلكترونية"). ترتبط هذه الصيغة على وجه التحديد بمفهوم "الدليل الكتابي"، في أحكام المادة 71 من قانون الإجراءات المدنية، المادة. 70 CAS، المادة 75 APC، "كتابيًا" الفن. 84 قانون الإجراءات المدنية.

يعرض الشكل 2 رسمًا تخطيطيًا لتشكيل مناهج أنواع المعلومات في الفقه.

قم بتنظيف البيانات مثل لعبة الحجر والورق والمقص. هل هذه لعبة بنهاية أم بدونها؟ الجزء 1. نظري
أرز. 2. المصدر هنا.

ويبين الشكل 3 آلية الشكل 1 لمهام "التوجيهات" أعلاه. من السهل، من خلال المقارنة، أن نرى أن الأساليب المستخدمة عند تلبية متطلبات سلامة المعلومات في المعايير الحديثة لنظم المعلومات محدودة بشكل كبير مقارنة بالمفهوم القانوني للمعلومات.

قم بتنظيف البيانات مثل لعبة الحجر والورق والمقص. هل هذه لعبة بنهاية أم بدونها؟ الجزء 1. نظري
Ris.3

في الوثيقة المحددة (التوجيهات)، تم تأكيد الاتصال بالجزء الفني وإمكانيات معالجة البيانات وتخزينها جيدًا من خلال اقتباس من الفصل 18.2. قاعدة البيانات العلائقية: "إن بنية الملف هذه أكثر أمانًا بطبيعتها، حيث يتم الاحتفاظ بالبيانات بتنسيق ملف كبير مما يحافظ على العلاقة بين البيانات والبيانات التعريفية."

في الواقع، في هذا النهج - من القدرات التقنية الحالية، لا يوجد شيء غير طبيعي، وفي حد ذاته، هذه عملية طبيعية، لأن توسيع المفاهيم يأتي من النشاط الأكثر دراسة - تصميم قاعدة البيانات. ولكن من ناحية أخرى، تظهر القواعد القانونية التي لا تنص على تخفيضات على القدرات التقنية للأنظمة الحالية، على سبيل المثال: الناتج المحلي الإجمالي - اللائحة العامة لحماية البيانات.

قم بتنظيف البيانات مثل لعبة الحجر والورق والمقص. هل هذه لعبة بنهاية أم بدونها؟ الجزء 1. نظري
أرز. 4. مسار القدرات التقنية (مصدر).

في هذه الجوانب، يصبح من الواضح أنه يجب أولاً حفظ مجموعة البيانات الأصلية (الشكل 1)، وثانيًا، أن تكون الأساس لاستخراج معلومات إضافية منها. حسنًا، على سبيل المثال: الكاميرات التي تسجل قواعد المرور موجودة في كل مكان، وتتخلص أنظمة معالجة المعلومات من المخالفين، ولكن يمكن أيضًا تقديم معلومات أخرى للمستهلكين الآخرين، على سبيل المثال، كمراقبة تسويقية لهيكل تدفق العملاء إلى مركز التسوق. وهذا مصدر للقيمة المضافة الإضافية عند استخدام BigDat. ومن المحتمل جدًا أن تكون لمجموعات البيانات التي يتم جمعها الآن، في مكان ما في المستقبل، قيمة وفقًا لآلية مماثلة لقيمة طبعات 1700 النادرة في الوقت الحاضر. ففي الواقع، تعتبر مجموعات البيانات المؤقتة فريدة من نوعها ومن غير المرجح أن تتكرر في المستقبل.

3. الجزء التمهيدي. معيار التقييم

أثناء عملية المعالجة، تم تطوير التصنيف التالي للأخطاء.

1. فئة الخطأ (استنادًا إلى GOST R 8.736-2011): أ) أخطاء منهجية؛ ب) أخطاء عشوائية. ج) خطأ.

2. بالتعدد: أ) التشويه الأحادي؛ ب) تشويه متعدد.

3. حسب خطورة العواقب: أ) حرجة؛ ب) ليست حرجة.

4. حسب مصدر الحدوث:

أ) فنية – الأخطاء التي تحدث أثناء تشغيل المعدات. خطأ ذو صلة إلى حد ما بأنظمة إنترنت الأشياء، الأنظمة التي لها درجة كبيرة من التأثير على جودة الاتصالات والمعدات (الأجهزة).

ب) أخطاء المشغل - أخطاء في نطاق واسع بدءًا من الأخطاء المطبعية أثناء الإدخال وحتى الأخطاء في المواصفات الفنية لتصميم قاعدة البيانات.

ج) أخطاء المستخدم - فيما يلي أخطاء المستخدم في النطاق بأكمله من "نسيت تبديل التخطيط" إلى الخلط بين العدادات والأقدام.

5. مفصولة إلى فئة منفصلة:

أ) "مهمة الفاصل"، أي المسافة و":" (في حالتنا) عندما تم تكرارها؛
ب) الكلمات المكتوبة معا؛
ج) لا توجد مسافة بعد أحرف الخدمة
د) رموز متعددة بشكل متماثل: ()، ""، "...".

مجتمعة، مع تنظيم أخطاء قاعدة البيانات الموضحة في الشكل 5، يتم تشكيل نظام إحداثيات فعال إلى حد ما للبحث عن الأخطاء وتطوير خوارزمية تنظيف البيانات لهذا المثال.

قم بتنظيف البيانات مثل لعبة الحجر والورق والمقص. هل هذه لعبة بنهاية أم بدونها؟ الجزء 1. نظري
أرز. 5. الأخطاء النموذجية المقابلة للوحدات الهيكلية لقاعدة البيانات (المصدر: أوريشكوف في آي، باكلين إن بي. "المفاهيم الأساسية لتوحيد البيانات").

الدقة، سلامة المجال، نوع البيانات، الاتساق، التكرار، الاكتمال، الازدواجية، التوافق مع قواعد العمل، الوضوح الهيكلي، شذوذ البيانات، الوضوح، في الوقت المناسب، الالتزام بقواعد سلامة البيانات. (صفحة 334. أساسيات تخزين البيانات لمحترفي تكنولوجيا المعلومات / بولراج بونياه - الطبعة الثانية.)

تم عرض الصياغة الإنجليزية والترجمة الآلية الروسية بين قوسين.

دقة. القيمة المخزنة في النظام لعنصر البيانات هي القيمة الصحيحة لذلك التواجد لعنصر البيانات. إذا كان لديك اسم عميل وعنوان مخزن في سجل، فإن العنوان هو العنوان الصحيح للعميل الذي يحمل هذا الاسم. إذا وجدت الكمية المطلوبة كـ 1000 وحدة في سجل الطلب رقم 12345678، فإن هذه الكمية هي الكمية الدقيقة لذلك الطلب.
[دقة. القيمة المخزنة في النظام لعنصر البيانات هي القيمة الصحيحة لذلك التواجد لعنصر البيانات. إذا كان لديك اسم عميل وعنوان مخزنين في سجل، فإن العنوان هو العنوان الصحيح للعميل الذي يحمل هذا الاسم. إذا وجدت الكمية المطلوبة كـ 1000 وحدة في سجل الطلب رقم 12345678، فإن هذه الكمية هي الكمية الدقيقة لذلك الطلب.]

سلامة المجال. تقع قيمة البيانات الخاصة بالسمة في نطاق القيم المحددة المسموح بها. المثال الشائع هو القيم المسموح بها وهي "ذكر" و"أنثى" لعنصر بيانات الجنس.
[سلامة المجال. تقع قيمة بيانات السمة ضمن نطاق القيم الصالحة والمحددة. والمثال العام هو القيم الصالحة "ذكر" و"أنثى" لعنصر بيانات الجنس.]

نوع البيانات. يتم تخزين قيمة سمة البيانات فعليًا كنوع البيانات المحدد لتلك السمة. عندما يتم تعريف نوع بيانات حقل اسم المتجر على أنه "نص"، فإن كافة مثيلات هذا الحقل تحتوي على اسم المتجر الموضح بتنسيق نصي وليس رموز رقمية.
[نوع البيانات. يتم تخزين قيمة سمة البيانات فعليًا كنوع البيانات المحدد لتلك السمة. إذا تم تعريف نوع بيانات حقل اسم المتجر على أنه "نص"، فإن كافة مثيلات هذا الحقل تحتوي على اسم المتجر المعروض بتنسيق نصي بدلاً من الرموز الرقمية.]

تناسق. شكل ومحتوى حقل البيانات هو نفسه عبر أنظمة مصادر متعددة. إذا كان رمز المنتج للمنتج ABC في أحد الأنظمة هو 1234، فإن رمز هذا المنتج هو 1234 في كل نظام مصدر.
[تناسق. شكل ومحتوى حقل البيانات متماثلان في أنظمة المصدر المختلفة. إذا كان رمز المنتج للمنتج ABC على نظام واحد هو 1234، فإن رمز هذا المنتج هو 1234 على كل نظام مصدر.]

وفرة. ولا يجوز تخزين نفس البيانات في أكثر من مكان واحد في النظام. إذا تم، لأسباب تتعلق بالكفاءة، تخزين عنصر بيانات عمدًا في أكثر من مكان واحد في النظام، فيجب تحديد التكرار والتحقق منه بوضوح.
[وفرة. ولا يجوز تخزين نفس البيانات في أكثر من مكان واحد في النظام. إذا تم، لأسباب تتعلق بالكفاءة، تخزين عنصر بيانات عمدًا في مواقع متعددة في النظام، فيجب تحديد التكرار بوضوح والتحقق منه.]

الاكتمال. لا توجد قيم مفقودة لسمة معينة في النظام. على سبيل المثال، في ملف العميل، يجب أن تكون هناك قيمة صالحة لحقل "الحالة" لكل عميل. في ملف تفاصيل الطلب، يجب ملء كل سجل تفاصيل الطلب بالكامل.
[الاكتمال. لا توجد قيم مفقودة في النظام لهذه السمة. على سبيل المثال، يجب أن يحتوي ملف العميل على قيمة صالحة لحقل "الحالة" لكل عميل. في ملف تفاصيل الطلب، يجب إكمال كل سجل تفاصيل الطلب بالكامل.]

الازدواجية. تم حل ازدواجية السجلات في النظام بشكل كامل. إذا كان من المعروف أن ملف المنتج يحتوي على سجلات مكررة، فسيتم تحديد كافة السجلات المكررة لكل منتج وإنشاء إسناد ترافقي.
[ينسخ. تم القضاء تماما على ازدواجية السجلات في النظام. إذا كان من المعروف أن ملف المنتج يحتوي على إدخالات مكررة، فسيتم تحديد كافة الإدخالات المكررة لكل منتج ويتم إنشاء إسناد ترافقي.]

التوافق مع قواعد العمل. تلتزم قيم كل عنصر بيانات بقواعد العمل المحددة. في نظام المزاد، لا يمكن أن يكون سعر المطرقة أو سعر البيع أقل من السعر الاحتياطي. في نظام القروض المصرفية، يجب أن يكون رصيد القرض دائمًا موجبًا أو صفرًا.
[الامتثال لقواعد العمل. تتوافق قيم كل عنصر من عناصر البيانات مع قواعد العمل المعمول بها. في نظام المزاد، لا يمكن أن يكون سعر المطرقة أو سعر البيع أقل من السعر الاحتياطي. في نظام الائتمان المصرفي، يجب أن يكون رصيد القرض دائمًا موجبًا أو صفرًا.]

الوضوح الهيكلي. أينما يمكن تنظيم عنصر البيانات بشكل طبيعي إلى مكونات فردية، يجب أن يحتوي العنصر على هذه البنية المحددة جيدًا. على سبيل المثال، ينقسم اسم الفرد بشكل طبيعي إلى الاسم الأول والأحرف الأولى من الاسم الأوسط واسم العائلة. يجب تخزين قيم أسماء الأفراد كالاسم الأول والأحرف الأولى من الاسم الأوسط واسم العائلة. تعمل هذه الخاصية الخاصة بجودة البيانات على تبسيط تطبيق المعايير وتقليل القيم المفقودة.
[اليقين الهيكلي. عندما يمكن تنظيم عنصر البيانات بشكل طبيعي في مكونات فردية، يجب أن يحتوي العنصر على هذه البنية المحددة جيدًا. على سبيل المثال، ينقسم اسم الشخص بشكل طبيعي إلى الاسم الأول والأحرف الأولى من الاسم الأوسط واسم العائلة. يجب تخزين قيم الأسماء الفردية كالاسم الأول والأحرف الأولى من الاسم الأوسط واسم العائلة. تعمل خاصية جودة البيانات هذه على تبسيط تطبيق المعايير وتقليل القيم المفقودة.]

شذوذ البيانات. يجب استخدام الحقل فقط للغرض الذي تم تعريفه من أجله. إذا تم تعريف الحقل "العنوان-3" لأي سطر عنوان ثالث محتمل للعناوين الطويلة، فيجب استخدام هذا الحقل فقط لتسجيل السطر الثالث من العنوان. ويجب ألا يستخدم لإدخال رقم هاتف أو فاكس للعميل.
[شذوذ البيانات. يجب استخدام الحقل فقط للغرض الذي تم تعريفه من أجله. إذا تم تحديد حقل العنوان-3 لأي سطر عنوان ثالث محتمل للعناوين الطويلة، فيجب استخدام هذا الحقل فقط لتسجيل سطر العنوان الثالث. ولا ينبغي استخدامه لإدخال رقم هاتف أو فاكس للعميل.]

وضوح. قد يمتلك عنصر البيانات جميع الخصائص الأخرى للبيانات عالية الجودة، ولكن إذا لم يفهم المستخدمون معناها بوضوح، فإن عنصر البيانات لا قيمة له بالنسبة للمستخدمين. تساعد اصطلاحات التسمية الصحيحة في جعل عناصر البيانات مفهومة جيدًا من قبل المستخدمين.
[وضوح. قد يشتمل عنصر البيانات على جميع الخصائص الأخرى للبيانات الجيدة، ولكن إذا لم يفهم المستخدمون معناها بوضوح، فإن عنصر البيانات ليس له قيمة بالنسبة للمستخدمين. تساعد اصطلاحات التسمية الصحيحة في جعل عناصر البيانات مفهومة جيدًا من قبل المستخدمين.]

في الوقت المناسب. يحدد المستخدمون توقيت البيانات. إذا كان المستخدمون يتوقعون ألا تكون بيانات أبعاد العميل أقدم من يوم واحد، فيجب تطبيق التغييرات على بيانات العميل في الأنظمة المصدر على مستودع البيانات يوميًا.
[في الوقت المناسب. يحدد المستخدمون توقيت البيانات. إذا توقع المستخدمون ألا يزيد عمر بيانات أبعاد العميل عن يوم واحد، فيجب تطبيق التغييرات على بيانات العميل في الأنظمة المصدر على مستودع البيانات على أساس يومي.]

فائدة. يجب أن يفي كل عنصر بيانات في مستودع البيانات ببعض متطلبات مجموعة المستخدمين. قد يكون عنصر البيانات دقيقًا وذو جودة عالية، ولكن إذا لم يكن ذا قيمة للمستخدمين، فمن غير الضروري تمامًا أن يكون عنصر البيانات هذا في مستودع البيانات.
[جدوى. يجب أن يفي كل عنصر بيانات في مخزن البيانات ببعض متطلبات مجموعة المستخدم. قد يكون عنصر البيانات دقيقًا وذو جودة عالية، ولكن إذا لم يقدم قيمة للمستخدمين، فليس من الضروري أن يكون عنصر البيانات هذا في مستودع البيانات.]

الالتزام بقواعد سلامة البيانات. يجب أن تلتزم البيانات المخزنة في قواعد البيانات العلائقية للأنظمة المصدر بقواعد تكامل الكيان والتكامل المرجعي. أي جدول يسمح بالقيمة الخالية كمفتاح أساسي لا يحتوي على تكامل الكيان. يفرض التكامل المرجعي إنشاء العلاقات بين الوالدين والطفل بشكل صحيح. في العلاقة بين العميل والطلب، يضمن التكامل المرجعي وجود عميل لكل طلب في قاعدة البيانات.
[الامتثال لقواعد سلامة البيانات. يجب أن تتوافق البيانات المخزنة في قواعد البيانات العلائقية للأنظمة المصدر مع قواعد سلامة الكيان والسلامة المرجعية. أي جدول يسمح بالقيمة الخالية كمفتاح أساسي لا يتمتع بتكامل الكيان. التكامل المرجعي يفرض إقامة العلاقة بين الوالدين والأطفال بشكل صحيح. في علاقة طلب العميل، يضمن التكامل المرجعي وجود العميل لكل طلب في قاعدة البيانات.]

4. جودة تنظيف البيانات

تعد جودة تنظيف البيانات مشكلة إشكالية إلى حد ما في البيانات الضخمة. تعد الإجابة على سؤال ما هي درجة تنظيف البيانات اللازمة لإكمال المهمة أمرًا أساسيًا لكل محلل بيانات. في معظم المشاكل الحالية، يحدد كل محلل ذلك بنفسه ومن غير المرجح أن يتمكن أي شخص من الخارج من تقييم هذا الجانب في حله. ولكن بالنسبة للمهمة المطروحة في هذه الحالة، كانت هذه المسألة في غاية الأهمية، لأن موثوقية البيانات القانونية يجب أن تميل إلى واحد.

النظر في تقنيات اختبار البرمجيات لتحديد الموثوقية التشغيلية. اليوم هناك أكثر من هذه النماذج 200. تستخدم العديد من النماذج نموذج خدمة المطالبات:

قم بتنظيف البيانات مثل لعبة الحجر والورق والمقص. هل هذه لعبة بنهاية أم بدونها؟ الجزء 1. نظري
التين. 6

التفكير على النحو التالي: "إذا كان الخطأ الذي تم العثور عليه هو حدث مشابه لحدث الفشل في هذا النموذج، فكيف يمكن العثور على نظير للمعلمة t؟" وقمت بتجميع النموذج التالي: لنتخيل أن الوقت الذي يستغرقه المختبر للتحقق من سجل واحد هو دقيقة واحدة (لقاعدة البيانات المعنية)، ثم للعثور على جميع الأخطاء التي سيحتاجها 1 دقيقة، أي ما يقرب من 365 سنوات و494 أشهر من وقت العمل. كما نفهم، يعد هذا قدرًا كبيرًا جدًا من العمل وستكون تكاليف فحص قاعدة البيانات باهظة بالنسبة لمترجم قاعدة البيانات هذه. في هذا التأمل، يظهر المفهوم الاقتصادي للتكاليف وبعد التحليل توصلت إلى استنتاج مفاده أن هذه أداة فعالة إلى حد ما. بناءً على قانون الاقتصاد: "إن حجم الإنتاج (بالوحدات) الذي يتم عنده تحقيق أقصى ربح للشركة يقع عند النقطة التي تتم فيها مقارنة التكلفة الحدية لإنتاج وحدة جديدة من الإنتاج بالسعر الذي يمكن أن تحصل عليه هذه الشركة لوحدة جديدة." واستنادًا إلى الافتراض القائل بأن العثور على كل خطأ لاحق يتطلب المزيد والمزيد من فحص السجلات، فإن هذا يعد عامل تكلفة. أي أن الفرضية المعتمدة في نماذج الاختبار تأخذ معنى ماديًا بالنمط التالي: إذا كان من الضروري العثور على الخطأ i-th، فيجب التحقق من n من السجلات، ثم للعثور على الخطأ التالي (i+3) سيكون من الضروري للتحقق من سجلات م وفي نفس الوقت ن

  1. عندما يستقر عدد السجلات التي تم فحصها قبل العثور على خطأ جديد؛
  2. عندما يتم فحص عدد السجلات قبل العثور على الخطأ التالي سوف يزيد.

ولتحديد القيمة الحرجة لجأت إلى مفهوم الجدوى الاقتصادية، والذي يمكن صياغته في هذه الحالة باستخدام مفهوم التكاليف الاجتماعية على النحو التالي: “إن تكاليف تصحيح الخطأ يجب أن يتحملها العامل الاقتصادي الذي يمكنه القيام بذلك”. ذلك بأقل التكاليف." لدينا وكيل واحد - مُختبِر يقضي دقيقة واحدة في التحقق من سجل واحد. من الناحية النقدية، إذا كنت تكسب 1 روبل في اليوم، فسيكون هذا 6000 روبل. (اليوم تقريبًا). يبقى تحديد الجانب الثاني من التوازن في القانون الاقتصادي. لقد فكرت بهذه الطريقة. الخطأ الموجود سيتطلب من الشخص المعني بذل الجهد لتصحيحه، أي مالك العقار. لنفترض أن هذا يتطلب يومًا واحدًا من الإجراء (إرسال طلب، واستلام مستند مصحح). ثم، من وجهة نظر اجتماعية، ستكون تكاليفه مساوية لمتوسط ​​\u12,2b\u1bالراتب في اليوم الواحد. متوسط ​​الراتب المتراكم في منطقة خانتي مانسي المتمتعة بالحكم الذاتي "نتائج التنمية الاجتماعية والاقتصادية لمنطقة خانتي مانسيسك ذاتية الحكم - أوجرا للفترة من يناير إلى سبتمبر 2019" 73285 فرك. أو 3053,542 روبل / يوم. وبناء على ذلك نحصل على قيمة حرجة تساوي:
3053,542: 12,2 = 250,4 وحدة من السجلات.

وهذا يعني، من وجهة نظر اجتماعية، أنه إذا قام أحد المختبرين بفحص 251 سجلاً ووجد خطأً واحدًا، فإن ذلك يعادل قيام المستخدم بإصلاح هذا الخطأ بنفسه. وفقا لذلك، إذا قضى المختبر وقتا يساوي فحص 252 سجلا للعثور على الخطأ التالي، فمن الأفضل في هذه الحالة تحويل تكلفة التصحيح إلى المستخدم.

يتم تقديم نهج مبسط هنا، لأنه من وجهة نظر اجتماعية من الضروري أن تأخذ في الاعتبار جميع القيمة الإضافية الناتجة عن كل متخصص، أي التكاليف بما في ذلك الضرائب والمدفوعات الاجتماعية، ولكن النموذج واضح. نتيجة لهذه العلاقة هي المتطلبات التالية للمتخصصين: يجب أن يحصل المتخصص من صناعة تكنولوجيا المعلومات على راتب أكبر من المتوسط ​​​​الوطني. إذا كان راتبه أقل من متوسط ​​​​راتب مستخدمي قاعدة البيانات المحتملين، فيجب عليه هو نفسه التحقق من قاعدة البيانات بأكملها يدويًا.

عند استخدام المعيار الموصوف، يتم تشكيل الشرط الأول لجودة قاعدة البيانات:
أنا (آر). يجب ألا تتجاوز نسبة الأخطاء الجسيمة 1/250,4 = 0,39938%. أقل قليلا من تكرير الذهب في الصناعة . ومن الناحية المادية لا يوجد أكثر من 1459 سجلاً بها أخطاء.

تراجع اقتصادي.

في الواقع، من خلال ارتكاب مثل هذا العدد من الأخطاء في السجلات، يوافق المجتمع على تكبد خسائر اقتصادية بمبلغ:

1459*3053,542 = 4 روبل.

ويتحدد هذا المبلغ بحقيقة أن المجتمع لا يملك الأدوات اللازمة لخفض هذه التكاليف. ويترتب على ذلك أنه إذا كان لدى شخص ما تقنية تسمح له بتقليل عدد السجلات التي تحتوي على أخطاء إلى 259، على سبيل المثال، فإن هذا سيسمح للمجتمع بالحفظ:
1200*3053,542 = 3 روبل.

ولكن في الوقت نفسه، يمكنه أن يطلب موهبته وعمله، حسنًا، دعنا نقول - مليون روبل.
وهذا يعني أن التكاليف الاجتماعية يتم تخفيضها من خلال:

3 – 664 = 250 روبل.

في جوهره، هذا التأثير هو القيمة المضافة من استخدام تقنيات BigDat.

ولكن هنا يجب أن يؤخذ في الاعتبار أن هذا تأثير اجتماعي، ومالك قاعدة البيانات هو السلطات البلدية، ودخلها من استخدام الممتلكات المسجلة في قاعدة البيانات هذه، بنسبة 0,3٪، هو: 2,778 مليار روبل/ سنة. وهذه التكاليف (4 روبل) لا تزعجه كثيراً، حيث يتم نقلها إلى أصحاب العقارات. وفي هذا الجانب، سيتعين على مطور المزيد من تقنيات التكرير في Bigdata إظهار القدرة على إقناع مالك قاعدة البيانات هذه، ومثل هذه الأمور تتطلب موهبة كبيرة.

في هذا المثال، تم اختيار خوارزمية تقييم الأخطاء بناءً على نموذج شومان [2] للتحقق من البرمجيات أثناء اختبار الموثوقية. نظراً لانتشارها على شبكة الإنترنت وإمكانية الحصول على المؤشرات الإحصائية اللازمة. المنهجية مأخوذة من Monakhov Yu.M. "الاستقرار الوظيفي لنظم المعلومات"، انظر تحت المفسد في الشكل. 7-9.

أرز. 7 – 9 منهجية نموذج شومانقم بتنظيف البيانات مثل لعبة الحجر والورق والمقص. هل هذه لعبة بنهاية أم بدونها؟ الجزء 1. نظري

قم بتنظيف البيانات مثل لعبة الحجر والورق والمقص. هل هذه لعبة بنهاية أم بدونها؟ الجزء 1. نظري

قم بتنظيف البيانات مثل لعبة الحجر والورق والمقص. هل هذه لعبة بنهاية أم بدونها؟ الجزء 1. نظري

ويقدم الجزء الثاني من هذه المادة مثالاً لتنظيف البيانات، حيث يتم الحصول على نتائج استخدام نموذج شومان.
اسمحوا لي أن أقدم النتائج التي تم الحصول عليها:
العدد المقدر للأخطاء ن = 3167 ن.
المعلمة C، وظيفة لامدا والموثوقية:

قم بتنظيف البيانات مثل لعبة الحجر والورق والمقص. هل هذه لعبة بنهاية أم بدونها؟ الجزء 1. نظري
Ris.17

في الأساس، لامدا هي مؤشر فعلي لكثافة اكتشاف الأخطاء في كل مرحلة. إذا نظرت إلى الجزء الثاني، فإن تقدير هذا المؤشر كان 42,4 خطأ في الساعة، وهو مشابه تمامًا لمؤشر شومان. أعلاه، تم تحديد أن المعدل الذي يجد فيه المطور الأخطاء يجب ألا يقل عن خطأ واحد لكل 1 سجل، عند التحقق من سجل واحد في الدقيقة. ومن هنا تأتي القيمة الحرجة لامدا لنموذج شومان:

60 / 250,4 = 0,239617.

أي أن الحاجة إلى تنفيذ إجراءات البحث عن الأخطاء يجب أن يتم تنفيذها حتى تنخفض قيمة لامدا ، من 38,964 المتاح ، إلى 0,239617.

أو حتى ينخفض ​​المؤشر N (العدد المحتمل للأخطاء) ناقص n (العدد المصحح للأخطاء) إلى ما دون الحد المقبول لدينا - 1459 قطعة.

أدب

  1. موناخوف، يو م. الاستقرار الوظيفي لنظم المعلومات. في 3 ساعات الجزء 1. موثوقية البرمجيات: كتاب مدرسي. بدل / يو إم موناخوف ؛ فلاديم. ولاية جامعة. - فلاديمير: إزفو فلاديم. ولاية الجامعة، 2011. – 60 ص. – ردمك 978-5-9984-0189-3.
  2. مارتن ل. شومان، "النماذج الاحتمالية للتنبؤ بموثوقية البرمجيات."
  3. أساسيات تخزين البيانات لمتخصصي تكنولوجيا المعلومات / بولراج بونياه - الطبعة الثانية.

الجزء الثاني. نظري

المصدر: www.habr.com

إضافة تعليق