像石頭剪刀布遊戲一樣清理資料。 這是一個有結局還是沒有結局的遊戲? 第 2 部分. 實用

В 第一部分 據介紹,該出版物是根據漢特-曼西自治區不動產地籍估價結果資料集編寫的。

實踐部分以步驟的形式呈現。所有清理工作均在 Excel 中進行,因為它是最常用的工具,大多數了解 Excel 的專家都可以重複所描述的操作。而且相當適合肉搏戰。

我將把啟動和儲存檔案的工作放在零階段,因為檔案大小為 100 MB,而這些操作的數量有數十和數百個,因此需要花費大量時間。
平均開啟時間為30秒。
節省 - 22 秒。

第一階段從定義資料集的統計指標開始。

表1 資料集統計指標
像石頭剪刀布遊戲一樣清理資料。 這是一個有結局還是沒有結局的遊戲? 第 2 部分. 實用

技術 2.1。

我們創建一個輔助字段,我將其編號為 - AY。對於每個條目,我們形成公式“=LEN(F365502)+LEN(G365502)+…+LEN(AW365502)”

在階段 2.1 上花費的總時間(對於舒曼公式)t21 = 1 小時。
在階段 2.1 發現的錯誤數量(對於舒曼公式)n21 = 0 個。

第二個階段。
檢查資料集組件。
2.2.記錄中的所有值均由標準符號組成。因此,讓我們按符號追蹤統計數據。

表2. 資料集中符號的統計指標及結果初步分析。像石頭剪刀布遊戲一樣清理資料。 這是一個有結局還是沒有結局的遊戲? 第 2 部分. 實用
像石頭剪刀布遊戲一樣清理資料。 這是一個有結局還是沒有結局的遊戲? 第 2 部分. 實用
像石頭剪刀布遊戲一樣清理資料。 這是一個有結局還是沒有結局的遊戲? 第 2 部分. 實用
像石頭剪刀布遊戲一樣清理資料。 這是一個有結局還是沒有結局的遊戲? 第 2 部分. 實用
像石頭剪刀布遊戲一樣清理資料。 這是一個有結局還是沒有結局的遊戲? 第 2 部分. 實用

技術 2.2.1。

我們建立一個輔助欄位—「alpha1」。對於每個條目,我們形成公式“=CONCATENATE(Sheet1!B9;…Sheet1!AQ9)”
我們創造了一個固定的 Omega-1 細胞。在這個儲存格中我們將根據 Windows-1251 從 32 到 255 逐一輸入字元代碼。
我們建立一個輔助欄位—「alpha2」。使用公式“=FIND(CHAR(Omega;1); "alpha1";N)”。
我們建立一個輔助欄位—「alpha3」。使用公式“=IF(ISNUMBER("alpha2";N);1;0)”
使用公式“=SUM("alpha2"N3:"alpha1"N3)”建立固定單元格“Omega-365498”

表3. 結果初步分析結果像石頭剪刀布遊戲一樣清理資料。 這是一個有結局還是沒有結局的遊戲? 第 2 部分. 實用

表 4. 此階段記錄的錯誤像石頭剪刀布遊戲一樣清理資料。 這是一個有結局還是沒有結局的遊戲? 第 2 部分. 實用

在階段 2.2.1 上花費的總時間(對於舒曼公式)t221 = 8 小時。
在階段 2.2.1 中修正的錯誤數量(針對舒曼公式)n221 = 0 個。

步驟3。
第三步,記錄資料集的狀態。透過為每個記錄和每個欄位分配一個唯一的編號(ID)。這對於將轉換後的資料集與原始資料集進行比較是必要的。這對於充分利用分組和過濾功能也是必要的。這裡我們再次轉到表 2.2.2 並選擇資料集中未使用的符號。我們得到如圖 10 所示的結果。

像石頭剪刀布遊戲一樣清理資料。 這是一個有結局還是沒有結局的遊戲? 第 2 部分. 實用
圖10。分配標識符。

在階段 3 上花費的總時間(對於舒曼公式)t3 = 0,75 小時。
在階段 3 發現的錯誤數量(對於舒曼公式)n3 = 0 個。

因為舒曼公式要求該階段必須透過糾錯來完成。讓我們回到第二階段。

步驟2.2.2。
在此階段,我們也會修正雙倍空格和三倍空格。
像石頭剪刀布遊戲一樣清理資料。 這是一個有結局還是沒有結局的遊戲? 第 2 部分. 實用
圖11。雙倍空格的數量。

更正表2.2.4發現的錯誤。

表 5. 錯誤修正階段像石頭剪刀布遊戲一樣清理資料。 這是一個有結局還是沒有結局的遊戲? 第 2 部分. 實用
像石頭剪刀布遊戲一樣清理資料。 這是一個有結局還是沒有結局的遊戲? 第 2 部分. 實用

圖 12 顯示了字母「e」或「yo」的使用為何如此重要的例子。

像石頭剪刀布遊戲一樣清理資料。 這是一個有結局還是沒有結局的遊戲? 第 2 部分. 實用
圖 12。字母“ё”不一致。

2.2.2 階段所花費的總時間 t222 = 4 小時。
在階段 2.2.2 發現的錯誤數量(對於舒曼公式)n222 = 583 個。

第四階段。
檢查字段冗餘非常適合這個階段。 44個字段中,有6個字段是:
7 — 結構的目的
16 - 地下樓層數
17 — 父對象
21 — 村委會
38 — 結構參數(描述)
40 - 文化遺產

他們沒有任何記錄。也就是說,它們是多餘的。
欄位「22 - 城市」有一個條目,如圖 13 所示。

像石頭剪刀布遊戲一樣清理資料。 這是一個有結局還是沒有結局的遊戲? 第 2 部分. 實用
圖13。城市字段中唯一的條目是 Z_348653。

欄位「34 - 建築物名稱」包含明顯與該欄位的用途不符的條目,圖 14。

像石頭剪刀布遊戲一樣清理資料。 這是一個有結局還是沒有結局的遊戲? 第 2 部分. 實用
圖 14。不合規條目的範例。

我們從資料集中排除這些欄位。我們記錄了 214 筆記錄的變更。

在階段 4 上花費的總時間(對於舒曼公式)t4 = 2,5 小時。
在階段 4 發現的錯誤數量(對於舒曼公式)n4 = 222 個。

表6. 第四階段資料集指標分析

像石頭剪刀布遊戲一樣清理資料。 這是一個有結局還是沒有結局的遊戲? 第 2 部分. 實用

整體來看,分析各項指標的變化(表6)可以得到以下結論:
1)平均符號數的槓桿與標準差的槓桿之比接近3,即有常態分佈的跡象(六西格瑪規則)。
2)最小和最大槓桿與平均槓桿的顯著偏差表明研究尾部是尋找錯誤的一個有希望的方向。

我們將使用舒曼的方法檢查找出錯誤的結果。

空閒階段

2.1.在階段 2.1 上花費的總時間(對於舒曼公式)t21 = 1 小時。
在階段 2.1 發現的錯誤數量(對於舒曼公式)n21 = 0 個。

3.在階段 3 上花費的總時間(對於舒曼公式)t3 = 0,75 小時。
在階段 3 發現的錯誤數量(對於舒曼公式)n3 = 0 個。

結果階段
2.2.在階段 2.2.1 上花費的總時間(對於舒曼公式)t221 = 8 小時。
在階段 2.2.1 中修正的錯誤數量(針對舒曼公式)n221 = 0 個。
2.2.2 階段所花費的總時間 t222 = 4 小時。
在階段 2.2.2 發現的錯誤數量(對於舒曼公式)n222 = 583 個。

2.2 階段所花費的總時間 t22 = 8 + 4 = 12 小時。
在階段 2.2.2 發現的錯誤數量(對於舒曼公式)n222 = 583 個。

4.在階段 4 上花費的總時間(對於舒曼公式)t4 = 2,5 小時。
在階段 4 發現的錯誤數量(對於舒曼公式)n4 = 222 個。

由於舒曼模型的第一階段應包含零個階段,而另一方面,階段 2.2 和 4 本質上是獨立的,那麼考慮到舒曼模型假設隨著測試持續時間的增加,檢測到錯誤的概率會降低,即故障流量會減少,然後通過研究該流量,我們將確定將哪個階段放在第一位,根據規則,故障密度越先,該階段就越先出現。

像石頭剪刀布遊戲一樣清理資料。 這是一個有結局還是沒有結局的遊戲? 第 2 部分. 實用
圖。15。

從圖 15 的公式可以看出,在計算中最好將第四階段放在第 2.2 階段之前。

利用舒曼公式,我們確定估計的初始錯誤數:

像石頭剪刀布遊戲一樣清理資料。 這是一個有結局還是沒有結局的遊戲? 第 2 部分. 實用
圖。16。

從圖16的結果可以看出,預測的錯誤數量N2 = 3167,大於最小標準1459。

修正的結果是我們修正了805個錯誤,預測的數量為3167-805=2362,仍然超過了我們採用的最低閾值。

我們定義參數C、lambda和可靠度函數:

像石頭剪刀布遊戲一樣清理資料。 這是一個有結局還是沒有結局的遊戲? 第 2 部分. 實用
圖。17。

本質上,lambda 是每個階段檢測到的錯誤強度的實際指標。如果你看上面,該指標之前的估計是每小時 42,4 個錯誤,這與舒曼指標相當。參考該資料的第一部分,確定開發人員發現錯誤的強度應為每分鐘檢查1筆記錄時,每250,4筆記錄發現不少於1個錯誤。因此舒曼模型的 lambda 的臨界值為:
60/250,4 = 0,239617。

也就是說,需要進行錯誤偵測程序,直到 lambda 從現有的 38,964 減少到 0,239617。

或直到指標 N(潛在錯誤數)減 n(已修正的錯誤數)降至我們(在第一部分)採用的閾值以下 - 1459 件。

第 1 部分。理論。

來源: www.habr.com

添加評論