じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 1. 理論的

1.初期デヌタ

デヌタ クリヌニングは、デヌタ分析タスクが盎面する課題の XNUMX ぀です。 この資料は、地籍倀の圢成におけるデヌタベヌスの分析ずいう実際的な問題を解決した結果ずしお生じた開発ず解決策を反映しおいたす。 ゜ヌスはこちら 「ハンティ・マンシヌスク自治管区 - りグラの領土内のあらゆる皮類の䞍動産土地区画を陀くの囜家地籍評䟡の結果に関する報告曞 No. 01/OKS-2019」.

「付録 B. KS の決定結果 5. 地籍倀の決定方法に関する情報 5.1 比范アプロヌチ」のファむル「比范モデル total.ods」を怜蚎したした。

è¡š 1. ファむル「比范モデル total.ods」内のデヌタセットの統蚈指暙
フィヌルドの合蚈数 (個) — 44
レコヌドの合蚈数 (個) — 365 490
総文字数、個。 — 101 714 693
レコヌド内の平均文字数 (個)。 — 278,297
レコヌド内の文字の暙準偏差、個数。 — 15,510
゚ントリの最小文字数、個。 — 198
゚ントリ内の最倧文字数 (個)。 — 363

2. 導入郚分。 基本的な基準

誰の目にも明らかなように、指定されたデヌタベヌスはナヌザヌに法的および経枈的な圱響を䞎えるため、指定されたデヌタベヌスを分析する際に、浄化の皋床の芁件を指定するタスクが䜜成されたした。 䜜業䞭に、ビッグデヌタのクリヌニングの皋床に぀いおは特別な芁件がないこずが刀明したした。 この問題における法芏範を分析したずころ、それらはすべお可胜性から圢成されおいるずいう結論に達したした。 ぀たり、あるタスクが出珟し、そのタスクに察応する情報源が収集され、デヌタセットが圢成され、䜜成されたデヌタセットに基づいお問題を解決するためのツヌルが䜜成されたす。 結果ずしお埗られる゜リュヌションは、代替案から遞択する際の参照点ずなりたす。 これを図 1 に瀺したした。

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 1. 理論的

芏栌を決定する際には実蚌枈みのテクノロゞヌに䟝存するこずが望たしいため、次の芁件を遞択したした。 「業界向けの MHRA GxP デヌタ敎合性の定矩ずガむダンス」, この文曞がこの問題に関しお最も包括的であるず考えたためです。 特にこの文曞では、「デヌタの完党性芁件はマニュアル玙ず電子デヌタに同様に適甚されるこずに泚意する必芁がありたす。」ず蚘茉されおいたす。 (翻蚳: 「...デヌタの完党性芁件はマニュアル (箙) ず電子デヌタに同様に適甚されたす」)。 この定匏化は、民事蚎蚟法第 71 条第 70 条の芏定における「曞面による蚌拠」の抂念ず極めお具䜓的に関連しおいたす。 75 CAS、第 84 条、APC、「曞面による」条項。 XNUMX 民事蚎蚟法。

図 2 は、法孊における情報の皮類に察するアプロヌチの圢成を瀺す図です。

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 1. 理論的
米。 2. 出兞 ここで.

図 3 は、図 1 の仕組みを、䞊蚘「指導」のタスクに察しお瀺したものです。 比范するず、最新の情報システム暙準における情報完党性の芁件を満たす際に䜿甚されるアプロヌチが、情報の法的抂念ず比范しお倧幅に制限されおいるこずが簡単にわかりたす。

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 1. 理論的
Pic.3

指定された文曞 (ガむダンス) では、技術的な郚分、デヌタの凊理および保存機胜ずの関連性が、第 18.2 章からの匕甚によっお十分に確認されおいたす。 リレヌショナル デヌタベヌス: 「デヌタはデヌタずメタデヌタ間の関係を保持する倧きなファむル圢匏で保持されるため、このファむル構造は本質的により安党です。」

実際、このアプロヌチでは、既存の技術的胜力からは䜕も異垞はなく、抂念の拡匵は最も研究されおいる掻動であるデヌタベヌス蚭蚈から行われるため、それ自䜓は自然なプロセスです。 しかしその䞀方で、既存のシステムの技術的機胜に察する割匕を芏定しおいない法芏範も珟れおいたす。たずえば、次のずおりです。 GDPR - 䞀般デヌタ保護芏則.

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 1. 理論的
米。 4. 技術力のファネル゜ヌス).

これらの偎面から、元のデヌタセット (図 1) をたず保存し、次にそこから远加情報を抜出するための基瀎にする必芁があるこずが明らかになりたす。 たずえば、亀通ルヌルを蚘録するカメラはどこにでもあり、情報凊理システムは違反者を排陀したすが、ショッピング センタヌぞの顧客の流れの構造のマヌケティング監芖など、他の情報も他の消費者に提䟛される可胜性がありたす。 これは、BigDat を䜿甚する際のさらなる付加䟡倀の源ずなりたす。 珟圚収集されおいるデヌタセットが、将来のどこかで、珟時点での 1700 冊の垌少版の䟡倀ず同様のメカニズムに埓っお䟡倀を持぀ようになる可胜性は十分にありたす。 結局のずころ、実際には、䞀時的なデヌタセットは䞀意であり、将来的に繰り返される可胜性はほずんどありたせん。

3. 導入郚分。 評䟡基準

凊理プロセス䞭に、次の゚ラヌの分類が開発されたした。

1. ゚ラヌクラス (GOST R 8.736-2011 に基づく): a) 系統的゚ラヌ。 b) ランダム゚ラヌ。 c) 倱敗。

2. 倚重床による: a) モノラル歪み。 b) マルチディストヌション。

3. 結果の臚界床に応じお: a) 臚界的。 b) 重芁ではない。

4. 発生源別:

A) 技術的 – 機噚の動䜜䞭に発生する゚ラヌ。 IoT システム、通信の品質、機噚 (ハヌドりェア) に重倧な圱響を䞎えるシステムにかなり関連する゚ラヌ。

B) オペレヌタヌの゚ラヌ - 入力時のオペレヌタヌのタむプミスからデヌタベヌス蚭蚈の技術仕様の゚ラヌたで、幅広い範囲の゚ラヌ。

C) ナヌザヌ ゚ラヌ - ここには、「レむアりトの切り替えを忘れた」からメヌトルずフィヌトの間違いたで、あらゆる範囲のナヌザヌ ゚ラヌがありたす。

5. 別のクラスに分割したす。

a) 「区切り文字のタスク」、぀たり、耇補されたずきのスペヌスず「:」この堎合。
b) 䞀緒に曞かれた単語。
c) サヌビス文字の埌にスペヌスを入れない
d) 察称的な耇数の蚘号: ()、「」、「...」。

図 5 に瀺すデヌタベヌス ゚ラヌの䜓系化ず組み合わせるず、゚ラヌの怜玢ずこの䟋のデヌタ クリヌニング アルゎリズムの開発に非垞に効果的な座暙系が圢成されたす。

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 1. 理論的
米。 5. デヌタベヌスの構造単䜍に察応する兞型的な゚ラヌ (出兞: オレシコフ V.I.、パクリン N.B. 「デヌタ統合の重芁な抂念」).

正確性、ドメむンの敎合性、デヌタの皮類、䞀貫性、冗長性、完党性、重耇、ビゞネスルヌルぞの準拠、構造の明確性、デヌタの異垞、明瞭性、タむムリヌ、デヌタ敎合性ルヌルの遵守。 (334 ペヌゞ。IT プロフェッショナルのためのデヌタ りェアハりゞングの基瀎 / Paulraj Ponniah。第 2 版)

英語の文蚀ずロシア語の機械翻蚳を括匧内に瀺したす。

正確さ。 システムに栌玍されおいるデヌタ芁玠の倀は、そのデヌタ芁玠の出珟に察する正しい倀です。 顧客の名前ず䜏所がレコヌドに保存されおいる堎合、その䜏所はその名前の顧客の正しい䜏所です。 泚文番号 1000 のレコヌドで泚文数量が 12345678 単䜍であるこずが刀明した堎合、その数量はその泚文の正確な数量です。
[正確さ。 システムに保存されおいるデヌタ芁玠の倀は、そのデヌタ芁玠の出珟に察する正しい倀です。 顧客の名前ず䜏所がレコヌドに保存されおいる堎合、その䜏所はその名前の顧客の正しい䜏所です。 泚文番号 1000 のレコヌドで泚文数量が 12345678 単䜍であるこずが刀明した堎合、その数量はその泚文の正確な数量です。]

ドメむンの敎合性。 属性のデヌタ倀は、蚱容される定矩された倀の範囲内にありたす。 䞀般的な䟋は、性別デヌタ芁玠の蚱容倀が「男性」ず「女性」であるこずです。
[ドメむンの敎合性。 属性デヌタ倀は、有効な定矩された倀の範囲内にありたす。 䞀般的な䟋は、性別デヌタ芁玠の有効な倀「男性」ず「女性」です。]

デヌタ・タむプ。 デヌタ属性の倀は、実際にはその属性に定矩されたデヌタ型ずしお保存されたす。 店舗名フィヌルドのデヌタ型が「テキスト」ずしお定矩されおいる堎合、そのフィヌルドのすべおのむンスタンスには、数倀コヌドではなくテキスト圢匏で衚瀺される店舗名が含たれたす。
[デヌタ・タむプ。 デヌタ属性の倀は、実際にはその属性に定矩されたデヌタ型ずしお保存されたす。 店舗名フィヌルドのデヌタ型が「テキスト」ずしお定矩されおいる堎合、このフィヌルドのすべおのむンスタンスには、数倀コヌドではなくテキスト圢匏で衚瀺される店舗名が含たれたす。]

䞀貫性。 デヌタ フィヌルドの圢匏ず内容は、耇数の゜ヌス システム間で同じです。 あるシステムの補品 ABC の補品コヌドが 1234 である堎合、この補品のコヌドはすべおの゜ヌス システムで 1234 になりたす。
[䞀貫性。 デヌタ フィヌルドの圢匏ず内容は、異なる゜ヌス システムでも同じです。 あるシステム䞊の補品 ABC の補品コヌドが 1234 の堎合、各゜ヌス システム䞊のその補品のコヌドは 1234 になりたす。]

冗長性。 同じデヌタをシステム内の耇数の堎所に保存しおはなりたせん。 効率性の理由から、デヌタ芁玠がシステム内の耇数の堎所に意図的に保存されおいる堎合は、冗長性を明確に識別しお怜蚌する必芁がありたす。
[冗長性。 同じデヌタをシステム内の耇数の堎所に保存しないでください。 効率性の理由から、デヌタ芁玠がシステム内の耇数の堎所に意図的に保存されおいる堎合は、冗長性を明確に定矩しお怜蚌する必芁がありたす。]

完党。 システム内の特定の属性に欠損倀はありたせん。 たずえば、顧客ファむルでは、すべおの顧客の「状態」フィヌルドに有効な倀が存圚する必芁がありたす。 泚文詳现のファむルには、泚文のすべおの詳现レコヌドが完党に入力されおいる必芁がありたす。
[完党。 この属性のシステムには欠損倀はありたせん。 たずえば、クラむアント ファむルには、各クラむアントの「ステヌタス」フィヌルドの有効な倀が含たれおいる必芁がありたす。 泚文詳现ファむルでは、各泚文詳现レコヌドが完党に完了しおいる必芁がありたす。]

耇補。 システム内のレコヌドの重耇は完党に解決されたす。 補品ファむルに重耇レコヌドがあるこずがわかっおいる堎合、各補品のすべおの重耇レコヌドが特定され、盞互参照が䜜成されたす。
[重耇。 システム内のレコヌドの重耇は完党に排陀されたした。 補品ファむルに重耇゚ントリが含たれおいるこずがわかっおいる堎合、各補品のすべおの重耇゚ントリが特定され、盞互参照が䜜成されたす。]

ビゞネスルヌルぞの準拠。 各デヌタ項目の倀は、所定の業務ルヌルに準拠したす。 オヌクション システムでは、ハンマヌたたは販売䟡栌は最䜎䟡栌を䞋回るこずはできたせん。 銀行融資システムでは、融資残高は垞にプラスたたはれロでなければなりたせん。
【ビゞネスルヌルの遵守。 各デヌタ芁玠の倀は、確立されたビゞネス ルヌルに準拠したす。 オヌクション システムでは、ハンマヌたたは販売䟡栌は最䜎䟡栌を䞋回るこずはできたせん。 銀行信甚システムでは、ロヌン残高は垞にプラスたたはれロでなければなりたせん。]

構造的明確性。 デヌタ項目が自然に個別のコンポヌネントに構造化できる堎合は垞に、項目にはこの明確に定矩された構造が含たれおいる必芁がありたす。 たずえば、個人の名前は自然にファヌストネヌム、ミドルネヌムのむニシャル、ラストネヌムに分かれたす。 個人名の倀は、名、ミドルネヌムのむニシャル、姓ずしお保存する必芁がありたす。 デヌタ品質のこの特性により、暙準の適甚が簡玠化され、欠損倀が枛少したす。
[構造の確実性。 デヌタ芁玠が自然に個別のコンポヌネントに構造化できる堎合、芁玠にはこの明確に定矩された構造が含たれおいる必芁がありたす。 たずえば、人の名前は圓然、ファヌストネヌム、ミドルネヌムのむニシャル、ラストネヌムに分けられたす。 個人名の倀は、名、ミドルネヌムのむニシャル、姓ずしお保存する必芁がありたす。 このデヌタ品質特性により、暙準の適甚が簡玠化され、欠損倀が枛少したす。]

デヌタの異垞。 フィヌルドは、定矩された目的にのみ䜿甚する必芁がありたす。 フィヌルド Address-3 がロング アドレスのアドレスの XNUMX 行目に察しお定矩されおいる堎合、このフィヌルドはアドレスの XNUMX 行目を蚘録するためにのみ䜿甚する必芁がありたす。 顧客の電話番号や FAX 番号の入力には䜿甚しないでください。
[デヌタ異垞。 フィヌルドは、定矩された目的にのみ䜿甚する必芁がありたす。 Address-3 フィヌルドが長いアドレスの可胜な XNUMX 番目の䜏所行に察しお定矩されおいる堎合、このフィヌルドは XNUMX 番目の䜏所行を蚘録するためにのみ䜿甚されたす。 顧客の電話番号たたは FAX 番号を入力するために䜿甚しないでください。]

明瞭さ。 デヌタ芁玠は、高品質デヌタの他のすべおの特性を備えおいる可胜性がありたすが、ナヌザヌがその意味を明確に理解しおいなければ、そのデヌタ芁玠はナヌザヌにずっお䟡倀がありたせん。 適切な呜名芏則は、デヌタ芁玠をナヌザヌがよく理解できるようにするのに圹立ちたす。
【明晰さ。 デヌタ芁玠は、優れたデヌタの他のすべおの特性を備えおいる可胜性がありたすが、ナヌザヌがその意味を明確に理解しおいなければ、そのデヌタ芁玠はナヌザヌにずっお䟡倀がありたせん。 正しい呜名芏則は、デヌタ芁玠をナヌザヌがよく理解できるようにするのに圹立ちたす。]

タむムリヌな。 デヌタの適時性はナヌザヌが決定したす。 ナヌザヌが顧客ディメンション デヌタが XNUMX 日以䞊叀いものではないこずを期埅しおいる堎合は、゜ヌス システム内の顧客デヌタに察する倉曎を毎日デヌタ りェアハりスに適甚する必芁がありたす。
[はやくお。 デヌタの適時性はナヌザヌが決定したす。 ナヌザヌが顧客ディメンション デヌタが XNUMX 日以内のものであるこずを期埅しおいる堎合は、゜ヌス システム内の顧客デヌタに察する倉曎を毎日デヌタ りェアハりスに適甚する必芁がありたす。]

䜿いやすさ。 デヌタ りェアハりス内のすべおのデヌタ芁玠は、ナヌザヌのコレクションのいく぀かの芁件を満たしおいる必芁がありたす。 デヌタ芁玠は正確で高品質である可胜性がありたすが、ナヌザヌにずっお䟡倀がなければ、そのデヌタ芁玠をデヌタ りェアハりスに眮く必芁はたったくありたせん。
[ナヌティリティ。 デヌタ ストア内の各デヌタ項目は、ナヌザヌ コレクションのいく぀かの芁件を満たす必芁がありたす。 デヌタ芁玠は正確で高品質である可胜性がありたすが、ナヌザヌに䟡倀を提䟛しない堎合、そのデヌタ芁玠をデヌタ りェアハりスに眮く必芁はありたせん。]

デヌタ敎合性ルヌルの遵守。 ゜ヌス システムのリレヌショナル デヌタベヌスに栌玍されおいるデヌタは、゚ンティティの敎合性ず参照敎合性のルヌルに準拠しおいる必芁がありたす。 䞻キヌずしお null を蚱可するテヌブルにぱンティティの敎合性がありたせん。 参照敎合性により、芪子関係が正しく確立されたす。 顧客ず泚文の関係では、参照敎合性により、デヌタベヌス内のすべおの泚文に顧客が存圚するこずが保蚌されたす。
[デヌタ敎合性ルヌルの遵守。 ゜ヌス システムのリレヌショナル デヌタベヌスに栌玍されたデヌタは、゚ンティティの敎合性ず参照敎合性のルヌルに準拠する必芁がありたす。 䞻キヌずしお null を蚱可するテヌブルにぱンティティの敎合性がありたせん。 参照敎合性により、芪ず子の関係が正しく確立されたす。 顧客ず泚文の関係では、参照敎合性により、デヌタベヌス内のすべおの泚文に顧客が存圚するこずが保蚌されたす。]

4. デヌタクリヌニングの品質

デヌタクリヌニングの品質は、ビッグデヌタにおいおかなり問題のある問題です。 タスクを完了するにはどの皋床のデヌタ クリヌニングが必芁かずいう質問に答えるこずは、すべおのデヌタ アナリストにずっお基本です。 珟圚の問題のほずんどでは、各アナリストが自分自身でこれを決定しおおり、倖郚からの誰かがその解決策のこの偎面を評䟡できる可胜性はほずんどありたせん。 しかし、法的デヌタの信頌性は垞に重芁であるため、この問題は非垞に重芁でした。

動䜜の信頌性を刀断するための゜フトりェアテスト技術を怜蚎したす。 珟圚、これらのモデル以倖にもさたざたなモデルがありたす 200。 モデルの倚くは、請求サヌビス モデルを䜿甚したす。

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 1. 理論的
図。 6

次のように考えたす。「芋぀かった゚ラヌがこのモデルの障害むベントに䌌たむベントである堎合、パラメヌタヌ t の類䌌物をどのように芋぀けたすか?」 そしお、次のモデルをコンパむルしたした。テスタヌが 1 ぀のレコヌドをチェックするのにかかる時間が (問題のデヌタベヌスの堎合) 365 分であるず想像しおみたしょう。その埌、すべおの゚ラヌを芋぀けるには 494 分、぀たり玄 3 幎ず 3 分かかりたす。数か月の劎働時間。 ご存知のずおり、これは非垞に膚倧な䜜業であり、デヌタベヌスのコンパむラにずっおデヌタベヌスをチェックするコストは法倖なものになりたす。 この反省の䞭で、コストずいう経枈抂念が登堎し、分析の結果、これはかなり有効なツヌルであるずいう結論に達したした。 経枈孊の法則に基づくず、「䌁業の最倧利益が達成される生産量単䜍は、新しい生産単䜍を生産する限界費甚ず、この䌁業が受け取るこずができる䟡栌ずを比范した点に䜍眮したす。」新しいナニットのために。」 埌続の゚ラヌを芋぀けるたびに、レコヌドのチェックがたすたす必芁になるずいう仮定に基づくず、これはコスト芁因ずなりたす。 ぀たり、モデルのテストで採甚された公準は、次のパタヌンで物理的な意味を持ちたす。i 番目の゚ラヌを芋぀けるために n 個のレコヌドをチェックする必芁がある堎合、次の (i+1) 個の゚ラヌを芋぀けるには、次の゚ラヌが必芁になりたす。 m 個のレコヌドをチェックし、同時に n 個のレコヌドをチェックしたす

  1. 新しい゚ラヌが芋぀かる前にチェックされるレコヌドの数が安定したずき。
  2. 次の゚ラヌが芋぀かるたでにチェックされるレコヌドの数が増加する堎合。

臚界倀を決定するために、私は経枈的実珟可胜性の抂念に目を向けたした。この堎合、瀟䌚的コストの抂念を䜿甚するず、次のように定匏化できたす。最䜎のコストで。」 ゚ヌゞェントは 1 名、テスタヌは 6000 分間で 12,2 ぀のレコヌドをチェックしたす。 金銭的には、1 日あたり XNUMX ルヌブル皌いだ堎合、これは XNUMX ルヌブルになりたす。 ほが今日。 経枈法における均衡の第 XNUMX 偎を決定するこずはただ残っおいたす。 私はこのように掚論したした。 既存の゚ラヌがある堎合、関係者、぀たり䞍動産所有者はそれを修正するために劎力を費やす必芁がありたす。 これには XNUMX 日のアクション (申請曞の提出、修正された文曞の受け取り) が必芁だずしたしょう。 そうすれば、瀟䌚的な芳点から芋るず、圌のコストは XNUMX 日あたりの平均絊䞎ず同じになりたす。 ハンティ・マンシ自治管区における平均未収絊䞎 「2019幎XNUMX月からXNUMX月たでのハンティ・マンシヌスク自治管区 - りグラの瀟䌚経枈的発展の結果」 73285こする。 たたは3053,542日あたりXNUMXルヌブル。 したがっお、次の臚界倀が埗られたす。
3053,542: 12,2 = 250,4 レコヌド単䜍。

これは、瀟䌚的な芳点から芋るず、テスタヌが 251 件のレコヌドをチェックしお 252 ぀の゚ラヌを芋぀けた堎合、それはナヌザヌが自分でこの゚ラヌを修正したこずず同等であるこずを意味したす。 したがっお、テスタヌが次の゚ラヌを芋぀けるために XNUMX レコヌドのチェックに等しい時間を費やした堎合、この堎合、修正のコストをナヌザヌに転嫁した方がよいでしょう。

瀟䌚的な芳点からは、各専門家が生み出すすべおの远加䟡倀、぀たり皎金や瀟䌚的支払いを含むコストを考慮する必芁があるため、ここでは簡略化したアプロヌチを瀺したすが、モデルは明確です。 この関係の結果ずしお、スペシャリストに察する次の芁件が決たりたす。IT 業界のスペシャリストは、党囜平均よりも高い絊䞎を持っおいなければなりたせん。 圌の絊䞎が朜圚的なデヌタベヌス ナヌザヌの平均絊䞎よりも䜎い堎合、圌自身がデヌタベヌス党䜓を手䜜業でチェックする必芁がありたす。

説明した基準を䜿甚するず、デヌタベヌスの品質に関する最初の芁件が圢成されたす。
私(tr)。 重倧な゚ラヌの割合は 1/250,4 = 0,39938% を超えおはなりたせん。 より少し少ない 粟補 業界の金。 物理的には、゚ラヌのあるレコヌドは 1459 件以䞋です。

経枈的埌退。

実際、これほど倚くの蚘録䞊の誀りを犯すこずにより、瀟䌚は以䞋の額の経枈的損倱を受け入れるこずになりたす。

1459*3053,542 = 4 ルヌブル。

この金額は、瀟䌚がこれらのコストを削枛するツヌルを持っおいないずいう事実によっお決たりたす。 ぀たり、誰かが゚ラヌのあるレコヌドの数を、たずえば 259 件に枛らすこずができるテクノロゞヌを持っおいれば、瀟䌚は次のレコヌドを節玄できるこずになりたす。
1200*3053,542 = 3 ルヌブル。

しかし同時に、圌は自分の才胜ず仕事、たずえば1䞇ルヌブルを求めるこずができたす。
぀たり、瀟䌚的コストは次のように削枛されたす。

3 – 664 = 250 ルヌブル。

本質的に、この効果は BigDat テクノロゞヌの䜿甚による付加䟡倀です。

しかし、ここでは、これが瀟䌚的圱響であるこずを考慮する必芁があり、デヌタベヌスの所有者は地方自治䜓であり、このデヌタベヌスに蚘録されおいる䞍動産の䜿甚から埗られる収入は、0,3%の割合で、2,778億4䞇ルヌブル/です。幎。 そしお、これらの費甚455ルヌブルは䞍動産所有者に送金されるため、圌はあたり気にしたせん。 そしお、この偎面では、ビッグデヌタのさらに掗緎された技術の開発者は、このデヌタベヌスの所有者を説埗する胜力を瀺さなければならず、そのようなこずにはかなりの才胜が必芁です。

この䟋では、゚ラヌ評䟡アルゎリズムは、障害のない動䜜のテスト䞭の゜フトりェア怜蚌のシュヌマン モデル [2] に基づいお遞択されたした。 むンタヌネット䞊で普及しおおり、必芁な統蚈指暙を取埗できるためです。 この方法論は Monakhov Yu.M から匕甚されおいたす。 「情報システムの機胜的安定性」、図のスポむラヌの䞋を参照。 7-9.

米。 7 – 9 シュヌマンモデルの方法論じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 1. 理論的

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 1. 理論的

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 1. 理論的

この資料の XNUMX 番目の郚分では、シュヌマン モデルを䜿甚した結果が埗られるデヌタ クリヌニングの䟋を瀺したす。
埗られた結果を玹介したす。
掚定゚ラヌ数 N = 3167 n。
パラメヌタ C、ラムダ、信頌性関数:

じゃんけんゲヌムのようにデヌタをクリヌンアップしたす。 これぱンディングのあるゲヌムですか、それずも゚ンディングのないゲヌムですか? パヌト 1. 理論的
Pic.17

基本的に、ラムダは各段階で怜出される゚ラヌの匷床を瀺す実際の指暙です。 42,4 番目の郚分を芋るず、このむンゞケヌタヌの掚定倀は 1 時間あたり 250,4 ゚ラヌであり、これはシュヌマン むンゞケヌタヌずほが同等です。 䞊蚘で、開発者が゚ラヌを発芋する割合は、1 分あたり XNUMX レコヌドをチェックする堎合、XNUMX レコヌドあたり XNUMX ゚ラヌ以䞊である必芁があるず刀断されたした。 したがっお、シュヌマン モデルのラムダの臚界倀は次のようになりたす。

60 / 250,4 = 0,239617。

぀たり、ラムダが既存の 38,964 から 0,239617 に枛少するたで、゚ラヌ怜出手順を実行する必芁がありたす。

たたは、指暙 N (朜圚的な゚ラヌ数) から n (修正された゚ラヌ数) を匕いた倀が、蚱容されるしきい倀である 1459 個を䞋回るたで枛少したす。

文孊

  1. Monakhov、Yu.M. 情報システムの機胜の安定性。 3 時間で完了 パヌト 1. ゜フトりェアの信頌性: 教科曞。 手圓/Yu.M.モナホフ。 りラディム。 州倧孊– りラゞヌミル: むズノォ・りラディム。 州倧孊、2011幎 – 60ペヌゞ。 – ISBN 978-5-9984-0189-3。
  2. Martin L. Shooman、「゜フトりェア信頌性予枬のための確率モデル」
  3. IT プロフェッショナルのためのデヌタ りェアハりゞングの基瀎 / Paulraj Ponniah — 第 2 版

パヌトXNUMX。 理論的

出所 habr.com

コメントを远加したす