В
實踐部分以步驟的形式呈現。 所有清理工作均在 Excel 中完成,因為大多數了解 Excel 的專家都可以重複最常用的工具和所描述的操作。 並且非常適合手工作業。
零階段將是啟動和保存檔案的工作,因為它的大小為 100 MB,然後這些操作的數量達到數十甚至數百,它們需要大量時間。
平均開場時間為 30 秒。
節省 – 22 秒
第一階段從確定資料集的統計指標開始。
技術 2.1。
我們創建一個輔助字段,我將其放在數字 - AY 下。 對於每個條目,我們形成公式“=LENGTH(F365502)+LENGTH(G365502)+…+LENGTH(AW365502)”
階段 2.1 所花費的總時間(對於舒曼公式)t21 = 1 小時。
在第 2.1 階段發現的錯誤數量(對於舒曼公式)n21 = 0 個。
第二個階段。
檢查資料集的組成部分。
2.2. 記錄中的所有值均使用標準符號形成。 因此,讓我們透過符號來追蹤統計數據。
表2 資料集中性狀統計指標及結果初步分析
技術 2.2.1。
我們建立一個輔助欄位 - “alpha1”。 對於每筆記錄,我們形成公式“=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)”
我們創造了一個固定的 Omega-1 細胞。 我們將根據 Windows-1251 從 32 到 255 交替輸入字元代碼到此儲存格。
我們建立一個輔助欄位 - “alpha2”。 使用公式“=FIND(SYMBOL(Omega,1);“alpha1”,N)”。
我們建立一個輔助欄位 - “alpha3”。 公式為“=IF(ISNUMBER(“alpha2”,N),1)”
建立一個固定單元格“Omega-2”,公式為“=SUM(“alpha3”N1:“alpha3”N365498)”
表3 結果初步分析結果
表 4. 此階段記錄的錯誤
階段 2.2.1 所花費的總時間(對於舒曼公式)t221 = 8 小時。
階段 2.2.1 修正錯誤的數量(針對舒曼公式)n221 = 0 個。
步驟3。
第三步是記錄資料集的狀態。 透過為每筆記錄分配一個唯一的編號 (ID) 和每個欄位。 這是將轉換後的資料集與原始資料集進行比較所必需的。 這對於充分利用分組和過濾功能也是必要的。 這裡我們再次轉向表 2.2.2 並選擇資料集中未使用的符號。 我們得到如圖 10 所示的結果。
圖 10. 分配標識符。
階段 3 所花費的總時間(對於舒曼公式)t3 = 0,75 小時。
在第 3 階段發現的錯誤數量(對於舒曼公式)n3 = 0 個。
由於舒曼公式要求該階段透過修正錯誤來完成。 讓我們回到第二階段。
步驟2.2.2。
在此步驟中,我們還將修正雙倍和三倍空格。
圖 11. 雙空格的數量。
更正表 2.2.4 中指出的錯誤。
表 5. 糾錯階段
圖 12 顯示了為什麼使用字母「e」或「e」這樣的面向很重要的範例。
圖 12. 字母“e”的差異。
步驟 2.2.2 t222 花費的總時間 = 4 小時。
在第 2.2.2 階段發現的錯誤數量(對於舒曼公式)n222 = 583 個。
第四階段。
檢查現場冗餘非常適合此階段。 44 個欄位中,6 個欄位:
7 - 結構的目的
16——地下層數
17 - 父對象
21 - 村委會
38——結構參數(描述)
40 – 文化遺產
他們沒有任何條目。 也就是說,它們是多餘的。
「22 – 城市」欄位只有一個條目,如圖 13 所示。
圖13。 「城市」欄位中的唯一條目是 Z_348653。
欄位「34 - 建築物名稱」包含明顯不符合該欄位用途的條目,如圖 14 所示。
圖14。 不合規條目的範例。
我們從資料集中排除這些欄位。 我們將這項變更記錄在214筆記錄中。
階段 4 所花費的總時間(對於舒曼公式)t4 = 2,5 小時。
在第 4 階段發現的錯誤數量(對於舒曼公式)n4 = 222 個。
表6 第4階段後資料集指標分析
總的來說,分析指標變化(表6)我們可以說:
1)平均符號數與標準差槓桿之比接近3,即有常態分佈的跡象(XNUMX西格瑪規則)。
2)最小和最大槓桿與平均槓桿的顯著偏差表明尾部研究在尋找錯誤時是一個有前途的方向。
讓我們檢查一下使用舒曼方法來發現錯誤的結果。
空閒階段
2.1. 階段 2.1 所花費的總時間(對於舒曼公式)t21 = 1 小時。
在第 2.1 階段發現的錯誤數量(對於舒曼公式)n21 = 0 個。
3. 階段 3 所花費的總時間(對於舒曼公式)t3 = 0,75 小時。
在第 3 階段發現的錯誤數量(對於舒曼公式)n3 = 0 個。
有效階段
2.2. 階段 2.2.1 所花費的總時間(對於舒曼公式)t221 = 8 小時。
階段 2.2.1 修正錯誤的數量(針對舒曼公式)n221 = 0 個。
步驟 2.2.2 t222 花費的總時間 = 4 小時。
在第 2.2.2 階段發現的錯誤數量(對於舒曼公式)n222 = 583 個。
步驟 2.2 花費的總時間 t22 = 8 + 4 = 12 小時。
在第 2.2.2 階段發現的錯誤數量(對於舒曼公式)n222 = 583 個。
4. 階段 4 所花費的總時間(對於舒曼公式)t4 = 2,5 小時。
在第 4 階段發現的錯誤數量(對於舒曼公式)n4 = 222 個。
由於舒曼模型的第一階段必須包含零個階段,而另一方面,階段 2.2 和階段 4 本質上是獨立的,因此考慮到舒曼模型假設透過增加檢查的持續時間,機率檢測到錯誤的次數減少,即流程減少了故障,那麼透過檢查這個流程我們就會決定把哪一個階段放在前面,根據規則,哪裡的故障密度比較頻繁,我們就把那個階段放在前面。
圖。15。
從圖 15 的公式可以看出,在計算中最好將第四階段放在階段 2.2 之前。
使用舒曼公式,我們確定估計的初始錯誤數:
圖。16。
從圖 16 的結果可以看出,預測錯誤數為 N2 = 3167,超過了最小標準 1459。
修正的結果是,我們修正了 805 個錯誤,預測的數量是 3167 – 805 = 2362,這仍然超過了我們接受的最小閾值。
我們定義參數 C、lambda 和可靠度函數:
圖。17。
本質上,lambda 是每個階段檢測到錯誤的強度的實際指標。 如果你看上面,這個指標之前的估計是每小時 42,4 個錯誤,這與舒曼指標相當。 轉向本資料的第一部分,確定開發人員在每分鐘檢查 1 筆記錄時發現錯誤的比率應不低於每 250,4 筆記錄 1 個錯誤。 因此舒曼模型的 lambda 臨界值:
60 / 250,4 = 0,239617。
也就是說,必須執行錯誤偵測程序,直到 lambda 從現有的 38,964 減少到 0,239617。
或直到指標 N(潛在錯誤數)減去 n(已修正錯誤數)低於我們接受的閾值(在第一部分) - 1459 件。