Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 1. Lý thuyết

1. Dữ liệu ban đầu

Làm sạch dữ liệu là một trong những thách thức mà nhiệm vụ phân tích dữ liệu phải đối mặt. Tài liệu này phản ánh những phát triển và giải pháp nảy sinh từ việc giải quyết một vấn đề thực tiễn về phân tích cơ sở dữ liệu trong quá trình hình thành giá trị địa chính. Nguồn ở đây “BÁO CÁO số 01/OKS-2019 về kết quả định giá địa chính nhà nước đối với tất cả các loại bất động sản (trừ thửa đất) trên lãnh thổ Khu tự trị Khanty-Mansiysk - Ugra”.

Hồ sơ “Mô hình so sánh Total.ods” tại “Phụ lục B. Kết quả xác định KS 5. Thông tin về phương pháp xác định giá trị địa chính 5.1 Phương pháp so sánh” được xem xét.

Bảng 1. Các chỉ tiêu thống kê của tập dữ liệu trong file “So sánh mô hình Total.ods”
Tổng số trường, chiếc. — 44
Tổng số bản ghi, chiếc. — 365 490
Tổng số ký tự, chiếc. — 101 714 693
Số ký tự trung bình trong một bản ghi, chiếc. — 278,297
Độ lệch chuẩn của các ký tự trong một bản ghi, chiếc. — 15,510
Số ký tự tối thiểu trong một mục, chiếc. — 198
Số lượng ký tự tối đa trong một mục, chiếc. — 363

2. Phần giới thiệu. Tiêu chuẩn cơ bản

Trong khi phân tích cơ sở dữ liệu được chỉ định, một nhiệm vụ đã được hình thành để xác định các yêu cầu về mức độ thanh lọc, vì mọi người đều rõ ràng rằng cơ sở dữ liệu được chỉ định sẽ tạo ra hậu quả pháp lý và kinh tế cho người dùng. Trong quá trình làm việc, hóa ra không có yêu cầu cụ thể nào về mức độ làm sạch dữ liệu lớn. Phân tích các quy phạm pháp luật trong vấn đề này, tôi đi đến kết luận rằng chúng đều được hình thành từ những khả năng. Nghĩa là, một nhiệm vụ nhất định đã xuất hiện, các nguồn thông tin được biên soạn cho nhiệm vụ đó, sau đó một tập dữ liệu được hình thành và dựa trên tập dữ liệu đã tạo, các công cụ để giải quyết vấn đề. Các giải pháp thu được là điểm tham chiếu trong việc lựa chọn các giải pháp thay thế. Tôi đã trình bày điều này trong Hình 1.

Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 1. Lý thuyết

Vì trong vấn đề xác định bất kỳ tiêu chuẩn nào, tốt nhất nên dựa vào các công nghệ đã được chứng minh nên tôi đã chọn các yêu cầu đặt ra trong "Định nghĩa và hướng dẫn về tính toàn vẹn dữ liệu MHRA GxP cho ngành", vì tôi coi tài liệu này là toàn diện nhất về vấn đề này. Đặc biệt, trong tài liệu này có phần nói “Cần lưu ý rằng các yêu cầu về tính toàn vẹn dữ liệu áp dụng như nhau cho dữ liệu thủ công (giấy) và dữ liệu điện tử”. (dịch: “...các yêu cầu về tính toàn vẹn dữ liệu áp dụng như nhau cho dữ liệu thủ công (giấy) và dữ liệu điện tử”). Cách diễn đạt này gắn khá cụ thể với khái niệm “chứng cứ bằng văn bản”, trong quy định tại Điều 71 Bộ luật Tố tụng dân sự, Điều 70. 75 CAS, Điều 84 APC, “bằng văn bản” Điều. XNUMX Bộ luật tố tụng dân sự.

Hình 2 trình bày sơ đồ hình thành các cách tiếp cận các loại thông tin trong luật học.

Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 1. Lý thuyết
Cơm. 2. Nguồn đây.

Hình 3 thể hiện cơ chế của Hình 1 đối với các nhiệm vụ của “Hướng dẫn” ở trên. Bằng cách so sánh, có thể dễ dàng nhận thấy rằng các cách tiếp cận được sử dụng khi đáp ứng yêu cầu về tính toàn vẹn thông tin trong các tiêu chuẩn hiện đại cho hệ thống thông tin bị hạn chế đáng kể so với khái niệm pháp lý về thông tin.

Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 1. Lý thuyết
Hình 3

Trong tài liệu cụ thể (Hướng dẫn), mối liên hệ với phần kỹ thuật, khả năng xử lý và lưu trữ dữ liệu, được xác nhận rõ ràng bằng trích dẫn từ Chương 18.2. Cơ sở dữ liệu quan hệ: "Cấu trúc tệp này vốn đã an toàn hơn vì dữ liệu được lưu giữ ở định dạng tệp lớn giúp duy trì mối quan hệ giữa dữ liệu và siêu dữ liệu."

Trên thực tế, theo cách tiếp cận này - từ khả năng kỹ thuật hiện có, không có gì bất thường và bản thân nó là một quá trình tự nhiên, vì việc mở rộng các khái niệm xuất phát từ hoạt động được nghiên cứu nhiều nhất - thiết kế cơ sở dữ liệu. Tuy nhiên, mặt khác, có vẻ như các quy phạm pháp luật không quy định giảm giá về khả năng kỹ thuật của các hệ thống hiện có, ví dụ: GDPR - Quy định chung về bảo vệ dữ liệu.

Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 1. Lý thuyết
Cơm. 4. Kênh năng lực kỹ thuật (Nguồn).

Trong các khía cạnh này, rõ ràng là tập dữ liệu gốc (Hình 1) trước hết sẽ phải được lưu và thứ hai là làm cơ sở để trích xuất thông tin bổ sung từ nó. Ví dụ: camera ghi lại luật lệ giao thông có ở khắp nơi, hệ thống xử lý thông tin loại bỏ những người vi phạm, nhưng những thông tin khác cũng có thể được cung cấp cho những người tiêu dùng khác, chẳng hạn như giám sát tiếp thị về cấu trúc luồng khách hàng đến trung tâm mua sắm. Và đây chính là nguồn giá trị gia tăng bổ sung khi sử dụng BigDat. Rất có thể những bộ dữ liệu đang được thu thập bây giờ, ở đâu đó trong tương lai sẽ có giá trị theo cơ chế tương tự như giá trị của những ấn bản hiếm năm 1700 ở thời điểm hiện tại. Trên thực tế, trên thực tế, các bộ dữ liệu tạm thời là duy nhất và khó có thể lặp lại trong tương lai.

3. Phần giới thiệu. Tiêu chí đánh giá

Trong quá trình xử lý, việc phân loại lỗi sau đây đã được phát triển.

1. Loại lỗi (dựa trên GOST R 8.736-2011): a) lỗi hệ thống; b) sai số ngẫu nhiên; c) một sai lầm.

2. Bằng bội số: a) biến dạng đơn sắc; b) đa biến dạng.

3. Theo mức độ nghiêm trọng của hậu quả: a) nghiêm trọng; b) không quan trọng.

4. Theo nguồn phát sinh:

A) Kỹ thuật – lỗi xảy ra trong quá trình vận hành thiết bị. Một lỗi khá liên quan đến hệ thống IoT, hệ thống có mức độ ảnh hưởng đáng kể đến chất lượng truyền thông, thiết bị (phần cứng).

B) Lỗi của người vận hành - lỗi trong phạm vi rộng từ lỗi chính tả của người vận hành trong quá trình nhập dữ liệu đến lỗi trong thông số kỹ thuật cho thiết kế cơ sở dữ liệu.

C) Lỗi người dùng - đây là lỗi người dùng trong toàn bộ phạm vi từ “quên chuyển bố cục” đến nhầm mét với feet.

5. Tách thành lớp riêng:

a) “nhiệm vụ của dấu phân cách”, nghĩa là khoảng trắng và “:” (trong trường hợp của chúng tôi) khi nó được sao chép;
b) các từ được viết cùng nhau;
c) không có khoảng trắng sau các ký tự dịch vụ
d) nhiều ký hiệu đối xứng: (), "", "...".

Kết hợp lại với nhau, với việc hệ thống hóa các lỗi cơ sở dữ liệu được trình bày trong Hình 5, một hệ tọa độ khá hiệu quả được hình thành để tìm kiếm lỗi và phát triển thuật toán làm sạch dữ liệu cho ví dụ này.

Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 1. Lý thuyết
Cơm. 5. Các lỗi điển hình tương ứng với các đơn vị cấu trúc của cơ sở dữ liệu (Nguồn: Oreshkov V.I., Paklin N.B. "Các khái niệm chính về hợp nhất dữ liệu").

Độ chính xác, Tính toàn vẹn của miền, Loại dữ liệu, Tính nhất quán, Tính dự phòng, Tính đầy đủ, Sự trùng lặp, Tuân thủ các quy tắc kinh doanh, Tính xác định về cấu trúc, Tính bất thường của dữ liệu, Tính rõ ràng, kịp thời, Tuân thủ các quy tắc toàn vẹn dữ liệu. (Trang 334. Nguyên tắc cơ bản về lưu trữ dữ liệu dành cho chuyên gia CNTT / Paulraj Ponniah.—Ấn bản thứ 2.)

Trình bày từ ngữ tiếng Anh và bản dịch máy tiếng Nga trong ngoặc.

Sự chính xác. Giá trị được lưu trữ trong hệ thống của một phần tử dữ liệu là giá trị phù hợp cho lần xuất hiện của phần tử dữ liệu đó. Nếu bạn có tên khách hàng và địa chỉ được lưu trong bản ghi thì địa chỉ đó là địa chỉ chính xác của khách hàng có tên đó. Nếu bạn tìm thấy số lượng đặt hàng là 1000 đơn vị trong bản ghi cho số đơn hàng 12345678 thì số lượng đó là số lượng chính xác cho đơn hàng đó.
[Sự chính xác. Giá trị được lưu trữ trong hệ thống cho một phần tử dữ liệu là giá trị chính xác cho lần xuất hiện của phần tử dữ liệu đó. Nếu bạn có tên và địa chỉ khách hàng được lưu trong bản ghi thì địa chỉ đó là địa chỉ chính xác của khách hàng có tên đó. Nếu bạn tìm thấy số lượng đặt hàng là 1000 đơn vị trong bản ghi cho số đơn hàng 12345678 thì số lượng đó là số lượng chính xác cho đơn hàng đó.]

Tính toàn vẹn của tên miền. Giá trị dữ liệu của một thuộc tính nằm trong phạm vi giá trị được xác định, cho phép. Ví dụ phổ biến là các giá trị cho phép là “nam” và “nữ” cho thành phần dữ liệu giới tính.
[Tính toàn vẹn của tên miền. Giá trị dữ liệu thuộc tính nằm trong phạm vi giá trị hợp lệ, được xác định. Ví dụ chung là các giá trị hợp lệ "nam" và "nữ" cho phần tử dữ liệu giới tính.]

Loại dữ liệu. Giá trị cho thuộc tính dữ liệu thực sự được lưu trữ dưới dạng kiểu dữ liệu được xác định cho thuộc tính đó. Khi loại dữ liệu của trường tên cửa hàng được xác định là "văn bản", tất cả các phiên bản của trường đó đều chứa tên cửa hàng được hiển thị ở định dạng văn bản chứ không phải mã số.
[Loại dữ liệu. Giá trị của thuộc tính dữ liệu thực sự được lưu trữ dưới dạng kiểu dữ liệu được xác định cho thuộc tính đó. Nếu kiểu dữ liệu trường tên cửa hàng được xác định là "văn bản", tất cả các trường hợp của trường này chứa tên cửa hàng được hiển thị ở định dạng văn bản thay vì mã số.]

Tính nhất quán. Hình thức và nội dung của trường dữ liệu giống nhau trên nhiều hệ thống nguồn. Nếu mã sản phẩm cho sản phẩm ABC trong một hệ thống là 1234 thì mã cho sản phẩm này là 1234 trong mọi hệ thống nguồn.
[Tính nhất quán. Hình thức và nội dung của trường dữ liệu giống nhau trong các hệ thống nguồn khác nhau. Nếu mã sản phẩm cho sản phẩm ABC trên một hệ thống là 1234 thì mã cho sản phẩm đó là 1234 trên mỗi hệ thống nguồn.]

Dư. Dữ liệu giống nhau không được lưu trữ ở nhiều nơi trong hệ thống. Nếu vì lý do hiệu quả, một phần tử dữ liệu được cố ý lưu trữ ở nhiều nơi trong hệ thống thì phần dư thừa phải được xác định và xác minh rõ ràng.
[Dư. Dữ liệu giống nhau không nên được lưu trữ ở nhiều nơi trong hệ thống. Nếu vì lý do hiệu quả, một phần tử dữ liệu được cố ý lưu trữ ở nhiều vị trí trong hệ thống thì sự dư thừa phải được xác định và xác minh rõ ràng.]

Sự hoàn thiện. Không có giá trị nào bị thiếu cho một thuộc tính nhất định trong hệ thống. Ví dụ: trong tệp khách hàng, phải có giá trị hợp lệ cho trường “trạng thái” cho mọi khách hàng. Trong file chi tiết đơn hàng, mọi bản ghi chi tiết của một đơn hàng phải được điền đầy đủ.
[Sự hoàn chỉnh. Không có giá trị nào bị thiếu trong hệ thống cho thuộc tính này. Ví dụ: tệp khách hàng phải có giá trị hợp lệ cho trường "trạng thái" cho mỗi khách hàng. Trong tệp chi tiết đơn hàng, mỗi bản ghi chi tiết đơn hàng phải được điền đầy đủ.]

Nhân bản. Việc trùng lặp hồ sơ trong hệ thống được giải quyết hoàn toàn. Nếu tệp sản phẩm được biết là có bản ghi trùng lặp thì tất cả bản ghi trùng lặp cho từng sản phẩm sẽ được xác định và tạo tham chiếu chéo.
[Nhân bản. Việc sao chép hồ sơ trong hệ thống đã được loại bỏ hoàn toàn. Nếu một tệp sản phẩm được biết là có chứa các mục trùng lặp thì tất cả các mục nhập trùng lặp cho mỗi sản phẩm sẽ được xác định và một tham chiếu chéo sẽ được tạo.]

Tuân thủ các quy tắc kinh doanh. Các giá trị của từng mục dữ liệu tuân theo các quy tắc kinh doanh được quy định. Trong hệ thống đấu giá, giá búa hoặc giá bán không thể thấp hơn giá khởi điểm. Trong hệ thống cho vay ngân hàng, số dư nợ phải luôn dương hoặc bằng XNUMX.
[Tuân thủ các quy tắc kinh doanh. Giá trị của từng thành phần dữ liệu tuân thủ các quy tắc kinh doanh đã được thiết lập. Trong hệ thống đấu giá, giá búa hoặc giá bán không thể thấp hơn giá khởi điểm. Trong hệ thống tín dụng ngân hàng, số dư nợ phải luôn dương hoặc bằng XNUMX.]

Tính xác định về mặt cấu trúc. Bất cứ khi nào một mục dữ liệu có thể được cấu trúc thành các thành phần riêng lẻ một cách tự nhiên thì mục đó phải chứa cấu trúc được xác định rõ ràng này. Ví dụ: tên của một cá nhân tự nhiên được chia thành tên, chữ đệm và họ. Giá trị tên của các cá nhân phải được lưu trữ dưới dạng tên, chữ đệm và họ. Đặc tính chất lượng dữ liệu này giúp đơn giản hóa việc thực thi các tiêu chuẩn và giảm các giá trị bị thiếu.
[Kết cấu chắc chắn. Trong trường hợp phần tử dữ liệu có thể được cấu trúc tự nhiên thành các thành phần riêng lẻ thì phần tử đó phải chứa cấu trúc được xác định rõ ràng này. Ví dụ: tên của một người đương nhiên được chia thành tên, chữ đệm và họ. Các giá trị cho tên riêng lẻ phải được lưu trữ dưới dạng tên, chữ đệm và họ. Đặc tính chất lượng dữ liệu này giúp đơn giản hóa việc áp dụng các tiêu chuẩn và giảm các giá trị bị thiếu.]

Dữ liệu bất thường. Một trường chỉ được sử dụng cho mục đích mà nó được xác định. Nếu trường Địa chỉ-3 được xác định cho bất kỳ dòng địa chỉ thứ ba nào có thể có cho các địa chỉ dài thì trường này chỉ được sử dụng để ghi dòng địa chỉ thứ ba. Không được sử dụng nó để nhập số điện thoại hoặc số fax cho khách hàng.
[Dữ liệu bất thường. Một trường chỉ được sử dụng cho mục đích đã được xác định. Nếu trường Địa chỉ-3 được xác định cho bất kỳ dòng địa chỉ thứ ba nào có thể có cho các địa chỉ dài thì trường này sẽ chỉ được sử dụng để ghi dòng địa chỉ thứ ba. Không nên sử dụng nó để nhập số điện thoại hoặc số fax của khách hàng.]

Trong trẻo. Một phần tử dữ liệu có thể sở hữu tất cả các đặc điểm khác của dữ liệu có chất lượng nhưng nếu người dùng không hiểu rõ ý nghĩa của nó thì phần tử dữ liệu đó sẽ không có giá trị đối với người dùng. Quy ước đặt tên phù hợp giúp người dùng hiểu rõ các thành phần dữ liệu.
[Trong trẻo. Một phần tử dữ liệu có thể có tất cả các đặc điểm khác của dữ liệu tốt, nhưng nếu người dùng không hiểu rõ ý nghĩa của nó thì phần tử dữ liệu đó không có giá trị gì đối với người dùng. Quy ước đặt tên đúng giúp người dùng hiểu rõ các thành phần dữ liệu.]

Hợp thời. Người dùng xác định tính kịp thời của dữ liệu. Nếu người dùng mong muốn dữ liệu thứ nguyên khách hàng không cũ hơn một ngày thì những thay đổi đối với dữ liệu khách hàng trong hệ thống nguồn phải được áp dụng cho kho dữ liệu hàng ngày.
[Kịp thời. Người dùng xác định tính kịp thời của dữ liệu. Nếu người dùng mong đợi dữ liệu thứ nguyên khách hàng cách đây không quá một ngày, thì những thay đổi đối với dữ liệu khách hàng trong hệ thống nguồn sẽ được áp dụng cho kho dữ liệu hàng ngày.]

Sự hữu ích. Mọi thành phần dữ liệu trong kho dữ liệu phải đáp ứng một số yêu cầu thu thập của người dùng. Một phần tử dữ liệu có thể chính xác và có chất lượng cao, nhưng nếu nó không có giá trị đối với người dùng thì phần tử dữ liệu đó hoàn toàn không cần thiết phải có trong kho dữ liệu.
[Tính thiết thực. Mỗi mục dữ liệu trong kho dữ liệu phải đáp ứng một số yêu cầu thu thập của người dùng. Một phần tử dữ liệu có thể chính xác và có chất lượng cao, nhưng nếu nó không cung cấp giá trị cho người dùng thì phần tử dữ liệu đó không cần thiết phải có trong kho dữ liệu.]

Tuân thủ các quy tắc toàn vẹn dữ liệu. Dữ liệu được lưu trữ trong cơ sở dữ liệu quan hệ của hệ thống nguồn phải tuân thủ các quy tắc toàn vẹn thực thể và toàn vẹn tham chiếu. Bất kỳ bảng nào cho phép null làm khóa chính đều không có tính toàn vẹn của thực thể. Tính toàn vẹn tham chiếu buộc việc thiết lập mối quan hệ cha-con một cách chính xác. Trong mối quan hệ giữa khách hàng với đơn hàng, tính toàn vẹn tham chiếu đảm bảo sự tồn tại của khách hàng đối với mọi đơn hàng trong cơ sở dữ liệu.
[Tuân thủ các quy tắc toàn vẹn dữ liệu. Dữ liệu được lưu trữ trong cơ sở dữ liệu quan hệ của hệ thống nguồn phải tuân thủ các quy tắc về tính toàn vẹn của thực thể và tính toàn vẹn tham chiếu. Bất kỳ bảng nào cho phép null làm khóa chính đều không có tính toàn vẹn của thực thể. Tính toàn vẹn tham chiếu buộc mối quan hệ giữa cha mẹ và con cái phải được thiết lập một cách chính xác. Trong mối quan hệ khách hàng-đơn hàng, tính toàn vẹn tham chiếu đảm bảo rằng khách hàng tồn tại đối với mọi đơn hàng trong cơ sở dữ liệu.]

4. Chất lượng làm sạch dữ liệu

Chất lượng làm sạch dữ liệu là một vấn đề khá khó khăn trong bigdata. Trả lời câu hỏi mức độ làm sạch dữ liệu là cần thiết để hoàn thành nhiệm vụ là điều cơ bản đối với mọi nhà phân tích dữ liệu. Trong hầu hết các vấn đề hiện nay, mỗi nhà phân tích đều tự mình xác định điều này và khó có ai từ bên ngoài có thể đánh giá được khía cạnh này trong giải pháp của mình. Nhưng đối với nhiệm vụ hiện tại trong trường hợp này, vấn đề này cực kỳ quan trọng, vì độ tin cậy của dữ liệu pháp lý sẽ hướng tới một.

Xem xét các công nghệ kiểm thử phần mềm để xác định độ tin cậy vận hành. Ngày nay có nhiều hơn những mô hình này 200. Nhiều mô hình sử dụng mô hình phục vụ yêu cầu bồi thường:

Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 1. Lý thuyết
Hình 6

Suy nghĩ như sau: “Nếu lỗi được tìm thấy là một sự kiện tương tự với sự kiện lỗi trong mô hình này, thì làm cách nào để tìm ra lỗi tương tự của tham số t?” Và tôi đã biên soạn mô hình sau: Hãy tưởng tượng rằng thời gian mà một người kiểm tra cần để kiểm tra một bản ghi là 1 phút (đối với cơ sở dữ liệu đang được đề cập), sau đó để tìm ra tất cả các lỗi anh ta sẽ cần 365 phút, tức là khoảng 494 năm 3 tháng thời gian làm việc. Theo chúng tôi hiểu, đây là một khối lượng công việc rất lớn và chi phí kiểm tra cơ sở dữ liệu sẽ rất cao đối với người biên dịch cơ sở dữ liệu này. Trong suy nghĩ này, khái niệm kinh tế về chi phí xuất hiện và sau khi phân tích, tôi đi đến kết luận rằng đây là một công cụ khá hiệu quả. Dựa trên quy luật kinh tế: “Khối lượng sản xuất (tính bằng đơn vị) mà tại đó doanh nghiệp đạt được lợi nhuận tối đa nằm ở điểm mà chi phí cận biên để sản xuất một đơn vị sản phẩm mới được so sánh với mức giá mà doanh nghiệp này có thể nhận được. cho một đơn vị mới.” Dựa trên định đề rằng việc tìm ra từng lỗi tiếp theo đòi hỏi phải kiểm tra hồ sơ ngày càng nhiều, đây là một yếu tố chi phí. Nghĩa là, định đề được áp dụng trong các mô hình thử nghiệm mang ý nghĩa vật lý theo mẫu sau: nếu muốn tìm lỗi thứ i thì cần phải kiểm tra n bản ghi, thì cần phải tìm lỗi (i+3) tiếp theo để kiểm tra m hồ sơ và đồng thời n

  1. Khi số lượng bản ghi được kiểm tra trước khi tìm thấy lỗi mới ổn định;
  2. Khi số lượng bản ghi được kiểm tra trước khi tìm ra lỗi tiếp theo sẽ tăng lên.

Để xác định giá trị tới hạn, tôi chuyển sang khái niệm tính khả thi về mặt kinh tế, mà trong trường hợp này, sử dụng khái niệm chi phí xã hội, có thể được hình thành như sau: “Chi phí sửa chữa sai sót sẽ do tác nhân kinh tế có khả năng thực hiện phải chịu. nó với chi phí thấp nhất.” Chúng tôi có một nhân viên - một người kiểm tra dành 1 phút để kiểm tra một bản ghi. Về mặt tiền tệ, nếu bạn kiếm được 6000 rúp/ngày thì số tiền này sẽ là 12,2 rúp. (khoảng hôm nay). Việc còn lại là xác định mặt thứ hai của trạng thái cân bằng trong quy luật kinh tế. Tôi đã lý luận như thế này. Một sai sót hiện có sẽ đòi hỏi người có liên quan phải tốn công sức để sửa chữa, đó chính là chủ sở hữu tài sản. Giả sử việc này cần 1 ngày hành động (gửi đơn đăng ký, nhận tài liệu đã chỉnh sửa). Khi đó, theo quan điểm xã hội, chi phí của anh ta sẽ bằng mức lương trung bình mỗi ngày. Mức lương tích lũy trung bình ở Khu tự trị Khanty-Mansi “Kết quả phát triển kinh tế xã hội của Khu tự trị Khanty-Mansiysk - Ugra từ tháng 2019 đến tháng XNUMX năm XNUMX” 73285 chà. hoặc 3053,542 rúp/ngày. Theo đó, chúng ta thu được giá trị tới hạn bằng:
3053,542: 12,2 = 250,4 đơn vị hồ sơ.

Điều này có nghĩa là, từ quan điểm xã hội, nếu người kiểm tra kiểm tra 251 bản ghi và tìm thấy một lỗi thì điều đó tương đương với việc người dùng tự sửa lỗi này. Theo đó, nếu người kiểm tra dành thời gian bằng việc kiểm tra 252 bản ghi để tìm ra lỗi tiếp theo, thì trong trường hợp này tốt hơn là chuyển chi phí sửa lỗi sang người dùng.

Ở đây trình bày một cách tiếp cận đơn giản hóa, vì từ quan điểm xã hội, cần phải tính đến tất cả giá trị bổ sung do mỗi chuyên gia tạo ra, tức là các chi phí bao gồm thuế và các khoản chi trả xã hội, nhưng mô hình rất rõ ràng. Hệ quả của mối quan hệ này là yêu cầu sau đây đối với các chuyên gia: một chuyên gia trong ngành CNTT phải có mức lương cao hơn mức trung bình toàn quốc. Nếu mức lương của anh ta thấp hơn mức lương trung bình của những người sử dụng cơ sở dữ liệu tiềm năng, thì bản thân anh ta phải kiểm tra trực tiếp toàn bộ cơ sở dữ liệu.

Khi sử dụng tiêu chí được mô tả, yêu cầu đầu tiên về chất lượng của cơ sở dữ liệu được hình thành:
Tôi(tr). Tỷ lệ lỗi nghiêm trọng không được vượt quá 1/250,4 = 0,39938%. Ít hơn một chút tinh chế vàng trong công nghiệp. Và về mặt vật lý, không có quá 1459 bản ghi có lỗi.

Rút lui kinh tế.

Trên thực tế, bằng cách mắc một số sai sót như vậy trong hồ sơ, xã hội phải chịu thiệt hại kinh tế với số lượng:

1459*3053,542 = 4 rúp.

Số tiền này được xác định bởi thực tế là xã hội không có công cụ để giảm những chi phí này. Theo đó, nếu ai đó có công nghệ cho phép họ giảm số lượng hồ sơ có lỗi xuống, chẳng hạn như 259, thì điều này sẽ cho phép xã hội tiết kiệm:
1200*3053,542 = 3 rúp.

Nhưng đồng thời, anh ta có thể yêu cầu tài năng và công việc của mình, giả sử - 1 triệu rúp.
Nghĩa là, chi phí xã hội giảm đi bằng cách:

3 – 664 = 250 rúp.

Về bản chất, hiệu ứng này là giá trị gia tăng từ việc sử dụng các công nghệ BigDat.

Nhưng ở đây cần lưu ý rằng đây là một hiệu ứng xã hội và chủ sở hữu cơ sở dữ liệu là chính quyền thành phố, thu nhập của họ từ việc sử dụng tài sản được ghi trong cơ sở dữ liệu này, với tỷ lệ 0,3%, là: 2,778 tỷ rúp/ năm. Và những chi phí này (4 rúp) không khiến anh bận tâm nhiều vì chúng được chuyển cho chủ sở hữu tài sản. Và, ở khía cạnh này, nhà phát triển nhiều công nghệ tinh chỉnh hơn trong Bigdata sẽ phải thể hiện khả năng thuyết phục chủ sở hữu cơ sở dữ liệu này và những điều như vậy đòi hỏi tài năng đáng kể.

Trong ví dụ này, thuật toán đánh giá lỗi được chọn dựa trên mô hình Schumann [2] về xác minh phần mềm trong quá trình kiểm tra độ tin cậy. Do sự phổ biến của nó trên Internet và khả năng thu được các chỉ số thống kê cần thiết. Phương pháp được lấy từ Monakhov Yu.M. “Sự ổn định về mặt chức năng của hệ thống thông tin”, xem phần spoiler trong Hình. 7-9.

Cơm. 7 – 9 Phương pháp luận của mô hình SchumannDọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 1. Lý thuyết

Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 1. Lý thuyết

Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 1. Lý thuyết

Phần thứ hai của tài liệu này trình bày một ví dụ về làm sạch dữ liệu, trong đó thu được kết quả khi sử dụng mô hình Schumann.
Tôi xin trình bày kết quả thu được:
Số lỗi ước tính N = 3167 n.
Tham số C, lambda và hàm tin cậy:

Dọn dẹp dữ liệu giống như trò chơi Rock, Paper, Scissors. Đây có phải là một trò chơi có hoặc không có kết thúc? Phần 1. Lý thuyết
Hình 17

Về cơ bản, lambda là một chỉ báo thực tế về cường độ phát hiện lỗi ở mỗi giai đoạn. Nếu bạn nhìn vào phần thứ hai, ước tính cho chỉ báo này là 42,4 lỗi mỗi giờ, khá tương đương với chỉ báo Schumann. Ở trên, người ta đã xác định rằng tốc độ mà các nhà phát triển tìm thấy lỗi không được thấp hơn 1 lỗi trên 250,4 bản ghi, khi kiểm tra 1 bản ghi mỗi phút. Do đó, giá trị tới hạn của lambda đối với mô hình Schumann:

60 / 250,4 = 0,239617.

Nghĩa là, nhu cầu thực hiện các thủ tục phát hiện lỗi phải được thực hiện cho đến khi lambda, từ 38,964 hiện có, giảm xuống 0,239617.

Hoặc cho đến khi chỉ báo N (số lỗi tiềm ẩn) trừ n (số lỗi đã sửa) giảm xuống dưới ngưỡng chấp nhận của chúng tôi - 1459 chiếc.

Văn chương

  1. Monakhov, Yu. M. Tính ổn định chức năng của hệ thống thông tin. Trong 3 giờ Phần 1. Độ tin cậy của phần mềm: sách giáo khoa. trợ cấp / Yu M. Monakhov; Vladim. tình trạng đại học. – Vladimir: Izvo Vladim. tình trạng Đại học, 2011. – 60 tr. – ISBN 978-5-9984-0189-3.
  2. Martin L. Shooman, “Các mô hình xác suất để dự đoán độ tin cậy của phần mềm.”
  3. Nguyên tắc cơ bản về lưu trữ dữ liệu dành cho chuyên gia CNTT / Paulraj Ponniah.—Ấn bản thứ 2.

Phần hai. lý thuyết

Nguồn: www.habr.com

Thêm một lời nhận xét