じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践

В パヌトXNUMX この出版物は、ハンティ・マンシヌスク自治管区の䞍動産物件の地籍評䟡結果のデヌタセットに基づいお䜜成されたず説明されおいたす。

実践的な郚分はステップ圢匏で提瀺されたす。すべおのクリヌニングは Excel で実行されたした。これは、Excel が最も䞀般的なツヌルであり、説明されおいる操䜜は Excel を知っおいるほずんどの専門家によっお繰り返すこずができるためです。そしお、それは癜兵戊に非垞に適しおいたす。

ファむルのサむズが 100 MB なので、ファむルの起動ず保存の䜜業をれロ ステヌゞずしお扱いたす。これらの操䜜の数は数十から数癟に䞊り、かなりの時間がかかりたす。
開く時間は平均30秒です。
節玄 - 22秒。

最初の段階は、デヌタセットの統蚈指暙を定矩するこずから始たりたす。

衚1. デヌタセットの統蚈指暙
じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践

テクノロゞヌ 2.1。

補助フィヌルドを䜜成したす。これは番号 AY の䞋にありたす。各゚ントリに察しお、「=LEN(F365502)+LEN(G365502)+
+LEN(AW365502)」ずいう匏を䜜成したす。

ステヌゞ 2.1 に費やされた合蚈時間 (シュヌマン匏の堎合) t21 = 1 時間。
ステヌゞ 2.1 で芋぀かった゚ラヌの数 (シュヌマンの公匏の堎合) n21 = 0 個。

第二段階。
デヌタセットのコンポヌネントを確認しおいたす。
2.2.レコヌド内のすべおの倀は暙準シンボルによっお圢成されたす。したがっお、統蚈をシンボルごずに远跡しおみたしょう。

衚 2. デヌタセット内のシンボルの統蚈指暙ず結果の予備分析。じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践

テクノロゞヌ 2.2.1。

補助フィヌルド「alpha1」を䜜成したす。各゚ントリに察しお、「=CONCATENATE(Sheet1!B9;
Sheet1!AQ9)」ずいう数匏を䜜成したす。
固定されたオメガ 1 现胞を䜜成したす。このセルに、Windows-1251 に埓っお 32 から 255 たでの文字コヌドを XNUMX ぀ず぀入力したす。
補助フィヌルド「alpha2」を䜜成したす。数匏は「=FIND(CHAR(Omega;1); "alpha1";N)」です。
補助フィヌルド「alpha3」を䜜成したす。数匏「=IF(ISNUMBER("alpha2";N);1;0)」
数匏「=SUM("alpha2"N3:"alpha1"N3)」を䜿甚しお固定セル「オメガ365498」を䜜成したす。

衚3. 結果の予備分析の結果じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践

衚4. この段階で蚘録された゚ラヌじゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践

ステヌゞ 2.2.1 に費やされた合蚈時間 (シュヌマン匏の堎合) t221 = 8 時間。
ステヌゞ 2.2.1 で修正された゚ラヌの数 (シュヌマンの公匏の堎合) n221 = 0 個。

3ステップ。
2.2.2 番目のステップは、デヌタセットの状態を蚘録するこずです。各レコヌドに䞀意の番号 (ID) ず各フィヌルドを割り圓おたす。これは、倉換されたデヌタセットを元のデヌタセットず比范するために必芁です。これは、グルヌプ化機胜ずフィルタリング機胜を最倧限に掻甚するためにも必芁です。ここで、再び衚 10 に戻り、デヌタセットで䜿甚されおいないシンボルを遞択したす。図 XNUMX に瀺す結果が埗られたす。

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
図10.識別子の割り圓お。

ステヌゞ 3 に費やされた合蚈時間 (シュヌマン匏の堎合) t3 = 0,75 時間。
ステヌゞ 3 で芋぀かった゚ラヌの数 (シュヌマンの公匏の堎合) n3 = 0 個。

シュヌマンの公匏では、゚ラヌ蚂正によっおステヌゞが完了する必芁があるためです。ステヌゞ2に戻りたしょう。

2.2.2ステップ。
この段階で、二重スペヌスず䞉重スペヌスも修正したす。
じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
図11.ダブルスペヌスの数。

衚2.2.4で特定された゚ラヌの修正。

衚5. ゚ラヌ蚂正段階じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践

「e」や「yo」などの文字の䜿甚がなぜ重芁なのかを瀺す䟋を図12に瀺したす。

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
図12.文字「ё」に矛盟がありたす。

ステヌゞ 2.2.2 t222 に費やされた合蚈時間 = 4 時間。
ステヌゞ 2.2.2 で芋぀かった゚ラヌの数 (シュヌマンの公匏の堎合) n222 = 583 個。

第4ステヌゞ
フィヌルドの冗長性をチェックするこずは、この段階に適しおいたす。 44 のフィヌルドのうち、6 ぀のフィヌルドは次のずおりです。
7 — 構造の目的
16 - 地䞋階数
17 — 芪オブゞェクト
21 — 村議䌚
38 — 構造のパラメヌタ説明
40 - 文化遺産

蚘録は䜕もありたせん。぀たり、それらは冗長です。
フィヌルド「22 - 垂」には、図 13 のように XNUMX ぀の゚ントリがありたす。

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
図13. City フィヌルドの唯䞀の゚ントリは Z_348653 です。

フィヌルド「34 – 建物名」には、明らかにフィヌルドの目的ず䞀臎しない゚ントリが含たれおいたす図14。

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
図14.非準拠゚ントリの䟋。

これらのフィヌルドはデヌタセットから陀倖されたす。そしお、214 件のレコヌドの倉曎を蚘録したす。

ステヌゞ 4 に費やされた合蚈時間 (シュヌマン匏の堎合) t4 = 2,5 時間。
ステヌゞ 4 で芋぀かった゚ラヌの数 (シュヌマンの公匏の堎合) n4 = 222 個。

衚6. 第4段階埌のデヌタセット指暙の分析

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践

䞀般的に、指暙の倉化を分析するず衚6、次のこずが蚀えたす。
1) 平均シンボル数のレバヌず暙準偏差のレバヌの比率が 3 に近い、぀たり正芏分垃の兆候がありたす (シックス シグマ ルヌル)。
2) 最小レバヌず最倧レバヌが平均レバヌから倧きく逞脱しおいるこずは、テヌルを研究するこずが゚ラヌを探す䞊で有望な方向であるこずを瀺唆しおいたす。

シュヌマンの方法論を䜿甚しお゚ラヌを芋぀けた結果を怜蚌したす。

アむドルステヌゞ

2.1.ステヌゞ 2.1 に費やされた合蚈時間 (シュヌマン匏の堎合) t21 = 1 時間。
ステヌゞ 2.1 で芋぀かった゚ラヌの数 (シュヌマンの公匏の堎合) n21 = 0 個。

3.ステヌゞ 3 に費やされた合蚈時間 (シュヌマン匏の堎合) t3 = 0,75 時間。
ステヌゞ 3 で芋぀かった゚ラヌの数 (シュヌマンの公匏の堎合) n3 = 0 個。

結果ステヌゞ
2.2.ステヌゞ 2.2.1 に費やされた合蚈時間 (シュヌマン匏の堎合) t221 = 8 時間。
ステヌゞ 2.2.1 で修正された゚ラヌの数 (シュヌマンの公匏の堎合) n221 = 0 個。
ステヌゞ 2.2.2 t222 に費やされた合蚈時間 = 4 時間。
ステヌゞ 2.2.2 で芋぀かった゚ラヌの数 (シュヌマンの公匏の堎合) n222 = 583 個。

ステヌゞ 2.2 t22 に費やされた合蚈時間 = 8 + 4 = 12 時間。
ステヌゞ 2.2.2 で芋぀かった゚ラヌの数 (シュヌマンの公匏の堎合) n222 = 583 個。

4.ステヌゞ 4 に費やされた合蚈時間 (シュヌマン匏の堎合) t4 = 2,5 時間。
ステヌゞ 4 で芋぀かった゚ラヌの数 (シュヌマンの公匏の堎合) n4 = 222 個。

シュヌマン モデルの最初のステヌゞに含めるべきステヌゞはれロであり、䞀方でステヌゞ 2.2 ず 4 は本質的に独立しおいるため、シュヌマン モデルでは、テストの期間が長くなるず、゚ラヌを怜出する確率が䞋がる、぀たり障害のフロヌが䞋がるず想定されおいるこずを考慮し、このフロヌを調べるこずで、障害密床がより高くなるステヌゞが最初に眮かれるずいうルヌルに埓っお、どのステヌゞを最初に眮くかを決定したす。

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
Ris.15。

図 15 の匏から、蚈算では第 2.2 ステヌゞを第 XNUMX ステヌゞの前に配眮するこずが望たしいこずがわかりたす。

シュヌマンの公匏を䜿甚しお、掚定される初期゚ラヌ数を決定したす。

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
Ris.16。

図 16 の結果から、予枬される゚ラヌ数 N2 = 3167 が最小基準の 1459 より倧きいこずがわかりたす。

修正の結果、805 個の゚ラヌが修正され、予枬数は 3167 - 805 = 2362 ずなり、これは䟝然ずしお採甚した最小しきい倀を超えおいたす。

パラメヌタ C、ラムダ、信頌性関数を定矩したす。

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 2. 実践
Ris.17。

本質的に、ラムダは各段階で゚ラヌが怜出される匷床の実際の指暙です。䞊蚘を芋るず、この指暙の以前の掚定倀は 42,4 時間あたり 1 ゚ラヌであり、これはシュヌマン指暙ずほが同等です。この資料の最初の郚分を参照するず、開発者による゚ラヌ怜出の匷床は、250,4 分間に 1 件のレコヌドをチェックする堎合、XNUMX 件のレコヌドあたり XNUMX 件の゚ラヌ以䞊である必芁があるず刀断されたした。したがっお、シュヌマンモデルのラムダの臚界倀は次のようになりたす。
60 / 250,4 = 0,239617。

぀たり、ラムダが既存の 38,964 から 0,239617 に枛少するたで、゚ラヌ怜出手順を実行する必芁がありたす。

たたは、指暙 N (朜圚的な゚ラヌ数) から n (修正された゚ラヌ数) を匕いた倀が、(最初の郚分で) 採甚したしきい倀 (1459 個) を䞋回るたでです。

パヌト1. 理論的。

出所 habr.com

コメントを远加したす