じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践

В パヌトXNUMX この出版物は、ハンティ・マンシ自治管区の䞍動産の地籍評䟡結果のデヌタセットに基づいお䜜成されたず説明されおいたす。

実践的な郚分はステップの圢で瀺されおいたす。 最も䞀般的なツヌルず説明されおいる操䜜は Excel を理解しおいるほずんどの専門家が繰り返すこずができるため、すべおのクリヌニングは Excel で実行されたした。 そしお手䜜業に非垞に適しおいたす。

れロ段階はファむルの起動ず保存の䜜業になりたす。ファむルのサむズは 100 MB であるため、これらの操䜜の数は数十、数癟にもなり、かなりの時間がかかりたす。
オヌプニングは平均しお 30 秒です。
保存 – 22秒

最初の段階は、デヌタセットの統蚈指暙を決定するこずから始たりたす。

è¡š 1. デヌタセットの統蚈指暙
じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践

テクノロゞヌ 2.1.

補助フィヌルドを䜜成したす。AY ずいう番号の䞋にありたす。 各゚ントリに察しお、匏「=LENGTH(F365502)+LENGTH(G365502)+
+LENGTH(AW365502)」を圢成したす。

ステヌゞ 2.1 に費やした合蚈時間 (シュヌマン匏の堎合) t21 = 1 時間。
ステヌゞ 2.1 で芋぀かった゚ラヌの数 (シュヌマン公匏の堎合) n21 = 0 個。

第二段階。
デヌタセットのコンポヌネントを確認しおいたす。
2.2. レコヌド内のすべおの倀は、暙準の蚘号を䜿甚しお圢成されたす。 そこで、統蚈をシンボルで远跡しおみたしょう。

è¡š 2. デヌタセット内の文字の統蚈的指暙ず結果の予備分析。じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践

テクノロゞヌ 2.2.1.

補助フィヌルド「alpha1」を䜜成したす。 各レコヌドに察しお、数匏「=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)」を䜜成したす。
固定されたオメガ 1 现胞を䜜成したす。 このセルにWindows-1251に準拠した文字コヌドを32から255たで亀互に入力しおいきたす。
補助フィヌルド「alpha2」を䜜成したす。 匏「=FIND(SYMBOL(Omega,1); “alpha1”,N)」を䜿甚したす。
補助フィヌルド「alpha3」を䜜成したす。 匏「=IF(ISNUMBER(“alpha2”,N),1)」の堎合
数匏「=SUM(“alpha2”N3: “alpha1”N3)」を䜿甚しお固定セル「Omega-365498」を䜜成したす。

è¡š 3. 結果の予備分析の結果じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践

è¡š 4. この段階で蚘録された゚ラヌじゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践

ステヌゞ 2.2.1 に費やした合蚈時間 (シュヌマン匏の堎合) t221 = 8 時間。
ステヌゞ 2.2.1 で蚂正された゚ラヌの数 (シュヌマン匏の堎合) n221 = 0 個。

3ステップ。
2.2.2 番目のステップは、デヌタセットの状態を蚘録するこずです。 各レコヌドに䞀意の番号 (ID) ず各フィヌルドを割り圓おるこずによっお。 これは、倉換されたデヌタセットを元のデヌタセットず比范するために必芁です。 これは、グルヌプ化機胜ずフィルタリング機胜を最倧限に掻甚するためにも必芁です。 ここで再び衚 10 に戻り、デヌタセットで䜿甚されおいないシンボルを遞択したす。 図 XNUMX に瀺す内容が埗られたす。

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
図10。 識別子の割り圓お。

ステヌゞ 3 に費やした合蚈時間 (シュヌマン匏の堎合) t3 = 0,75 時間。
ステヌゞ 3 で芋぀かった゚ラヌの数 (シュヌマン公匏の堎合) n3 = 0 個。

シュヌマンの公匏では、゚ラヌを修正するこずによっお段階を完了する必芁があるため。 ステヌゞ2に戻りたしょう。

2.2.2ステップ。
このステップでは、二重スペヌスず䞉重スペヌスも修正したす。
じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
図11。 二重スペヌスの数。

è¡š 2.2.4 で特定された誀りを修正。

è¡š 5. ゚ラヌ蚂正ステヌゞじゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践

文字「e」たたは「e」の䜿甚などの偎面が重芁である理由の䟋を図 12 に瀺したす。

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
図12。 文字「e」の矛盟。

ステップ 2.2.2 t222 で費やした合蚈時間 = 4 時間。
ステヌゞ 2.2.2 で芋぀かった゚ラヌの数 (シュヌマン公匏の堎合) n222 = 583 個。

第4ステヌゞ
フィヌルドの冗長性のチェックは、この段階によく圓おはたりたす。 44 フィヌルドのうち、6 フィヌルド:
7 - 構造の目的
16 — 地䞋階数
17 - 芪オブゞェクト
21 - 村議䌚
38 — 構造パラメヌタヌ (説明)
40 – 文化遺産

゚ントリがありたせん。 ぀たり、それらは冗長です。
フィヌルド「22 – City」には 13 ぀の゚ントリがありたす (図 XNUMX)。

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
図13。 「City」フィヌルドの唯䞀の゚ントリは Z_348653 です。

フィヌルド「34 - 建物名」には、明らかにフィヌルドの目的に察応しない゚ントリが含たれおいたす (図 14)。

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
図14。 非準拠゚ントリの䟋。

これらのフィヌルドをデヌタセットから陀倖したす。 そしお、その倉化を 214 件のレコヌドに蚘録したす。

ステヌゞ 4 に費やした合蚈時間 (シュヌマン匏の堎合) t4 = 2,5 時間。
ステヌゞ 4 で芋぀かった゚ラヌの数 (シュヌマン公匏の堎合) n4 = 222 個。

è¡š 6. 第 4 段階以降のデヌタセット指暙の分析

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践

䞀般に、指暙の倉化 (è¡š 6) を分析するず、次のこずが蚀えたす。
1) 暙準偏差レバヌに察する平均シンボル数の比は 3 に近い、぀たり正芏分垃 (シックス シグマ ルヌル) の兆候がありたす。
2) 平均レバヌからの最小レバヌず最倧レバヌの倧幅な偏差は、゚ラヌを探す際にテヌルの研究が有望な方向であるこずを瀺唆しおいたす。

シュヌマンの方法論を䜿甚しお゚ラヌを芋぀けた結果を調べおみたしょう。

アむドルステヌゞ

2.1. ステヌゞ 2.1 に費やした合蚈時間 (シュヌマン匏の堎合) t21 = 1 時間。
ステヌゞ 2.1 で芋぀かった゚ラヌの数 (シュヌマン公匏の堎合) n21 = 0 個。

3. ステヌゞ 3 に費やした合蚈時間 (シュヌマン匏の堎合) t3 = 0,75 時間。
ステヌゞ 3 で芋぀かった゚ラヌの数 (シュヌマン公匏の堎合) n3 = 0 個。

効果的なステヌゞ
2.2. ステヌゞ 2.2.1 に費やした合蚈時間 (シュヌマン匏の堎合) t221 = 8 時間。
ステヌゞ 2.2.1 で蚂正された゚ラヌの数 (シュヌマン匏の堎合) n221 = 0 個。
ステップ 2.2.2 t222 で費やした合蚈時間 = 4 時間。
ステヌゞ 2.2.2 で芋぀かった゚ラヌの数 (シュヌマン公匏の堎合) n222 = 583 個。

ステップ 2.2 で費やした合蚈時間は、t22 = 8 + 4 = 12 時間です。
ステヌゞ 2.2.2 で芋぀かった゚ラヌの数 (シュヌマン公匏の堎合) n222 = 583 個。

4. ステヌゞ 4 に費やした合蚈時間 (シュヌマン匏の堎合) t4 = 2,5 時間。
ステヌゞ 4 で芋぀かった゚ラヌの数 (シュヌマン公匏の堎合) n4 = 222 個。

シュヌマン モデルの最初のステヌゞに含める必芁があるステヌゞはれロであり、䞀方で、ステヌゞ 2.2 ず 4 は本質的に独立しおいるため、シュヌマン モデルはチェックの期間を長くするこずで確率が゚ラヌの怜出率が枛少する、぀たりフロヌによっお障害が枛少する堎合、このフロヌを調べるこずでどのステヌゞを最初に配眮するかを決定したす。ルヌルに埓っお、障害密床がより頻繁に発生する堎合は、そのステヌゞを最初に配眮したす。

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
Ris.15。

図 15 の匏から、蚈算では第 2.2 ステヌゞをステヌゞ XNUMX の前に配眮するこずが奜たしいこずがわかりたす。

シュヌマンの公匏を䜿甚しお、掚定される初期゚ラヌ数を決定したす。

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
Ris.16。

図 16 の結果から、予枬゚ラヌ数は N2 = 3167 であり、最小基準の 1459 を超えおいるこずがわかりたす。

修正の結果、805 件の゚ラヌが修正され、予枬数は 3167 – 805 = 2362 ずなり、これは䟝然ずしお蚱容された最小しきい倀を超えおいたす。

パラメヌタヌ C、ラムダ、信頌性関数を定矩したす。

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
Ris.17。

基本的に、ラムダは各段階で怜出される゚ラヌの匷床を瀺す実際の指暙です。 䞊を芋るず、このむンゞケヌタヌの以前の掚定倀は 42,4 時間あたり 1 ゚ラヌであり、これはシュヌマン むンゞケヌタヌず非垞に匹敵したす。 この資料の最初の郚分に戻るず、開発者が゚ラヌを発芋する割合は、250,4 分あたり 1 レコヌドをチェックする堎合、XNUMX レコヌドあたり XNUMX ゚ラヌ以䞊である必芁があるこずが刀明したした。 したがっお、シュヌマン モデルのラムダの臚界倀は次のようになりたす。
60 / 250,4 = 0,239617。

぀たり、ラムダが既存の 38,964 から 0,239617 に枛少するたで、゚ラヌ怜出手順を実行する必芁がありたす。

たたは、指暙 N (朜圚的な゚ラヌ数) から n (修正された゚ラヌ数) を匕いた倀が、(最初の郚分で) 受け入れたしきい倀 - 1459 個を䞋回るたで枛少したす。

パヌト 1. 理論的。

出所 habr.com

コメントを远加したす