像石头剪刀布游戏一样清理数据。 这是一个有结局还是没有结局的游戏? 第 2 部分. 实用

В 第一部分 据介绍,本出版物是根据汉特-曼西自治区房地产地籍评估结果数据集编写的。

实践部分以步骤的形式呈现。 所有清理工作均在 Excel 中完成,因为大多数了解 Excel 的专家都可以重复最常用的工具和所描述的操作。 并且非常适合手工作业。

零阶段将是启动和保存文件的工作,因为它的大小为 100 MB,然后这些操作的数量达到数十甚至数百,它们需要大量时间。
平均开场时间为 30 秒。
节省 – 22 秒

第一阶段从确定数据集的统计指标开始。

表1 数据集统计指标
像石头剪刀布游戏一样清理数据。 这是一个有结局还是没有结局的游戏? 第 2 部分. 实用

技术 2.1。

我们创建一个辅助字段,我将其放在数字 - AY 下。 对于每个条目,我们形成公式“=LENGTH(F365502)+LENGTH(G365502)+…+LENGTH(AW365502)”

第 2.1 阶段花费的总时间(对于舒曼公式)t21 = 1 小时。
在第 2.1 阶段发现的错误数量(对于舒曼公式)n21 = 0 个。

第二个阶段。
检查数据集的组成部分。
2.2. 记录中的所有值均使用标准符号形成。 因此,让我们通过符号来跟踪统计数据。

表2 数据集中性状统计指标及结果初步分析像石头剪刀布游戏一样清理数据。 这是一个有结局还是没有结局的游戏? 第 2 部分. 实用
像石头剪刀布游戏一样清理数据。 这是一个有结局还是没有结局的游戏? 第 2 部分. 实用
像石头剪刀布游戏一样清理数据。 这是一个有结局还是没有结局的游戏? 第 2 部分. 实用
像石头剪刀布游戏一样清理数据。 这是一个有结局还是没有结局的游戏? 第 2 部分. 实用
像石头剪刀布游戏一样清理数据。 这是一个有结局还是没有结局的游戏? 第 2 部分. 实用

技术 2.2.1。

我们创建一个辅助字段 - “alpha1”。 对于每条记录,我们形成公式“=CONCATENATE(Sheet1!B9;...Sheet1!AQ9)”
我们创建了一个固定的 Omega-1 细胞。 我们将根据 Windows-1251 从 32 到 255 交替输入字符代码到此单元格中。
我们创建一个辅助字段 - “alpha2”。 使用公式“=FIND(SYMBOL(Omega,1);“alpha1”,N)”。
我们创建一个辅助字段 - “alpha3”。 公式为“=IF(ISNUMBER(“alpha2”,N),1)”
创建一个固定单元格“Omega-2”,公式为“=SUM(“alpha3”N1:“alpha3”N365498)”

表3 结果初步分析结果像石头剪刀布游戏一样清理数据。 这是一个有结局还是没有结局的游戏? 第 2 部分. 实用

表 4. 此阶段记录的错误像石头剪刀布游戏一样清理数据。 这是一个有结局还是没有结局的游戏? 第 2 部分. 实用

第 2.2.1 阶段花费的总时间(对于舒曼公式)t221 = 8 小时。
第 2.2.1 阶段纠正错误的数量(针对舒曼公式)n221 = 0 个。

步骤3。
第三步是记录数据集的状态。 通过为每条记录分配一个唯一的编号 (ID) 和每个字段。 这是将转换后的数据集与原始数据集进行比较所必需的。 这对于充分利用分组和过滤功能也是必要的。 这里我们再次转向表 2.2.2 并选择数据集中未使用的符号。 我们得到如图 10 所示的结果。

像石头剪刀布游戏一样清理数据。 这是一个有结局还是没有结局的游戏? 第 2 部分. 实用
图 10. 分配标识符。

第 3 阶段花费的总时间(对于舒曼公式)t3 = 0,75 小时。
在第 3 阶段发现的错误数量(对于舒曼公式)n3 = 0 个。

由于舒曼公式要求该阶段通过纠正错误来完成。 让我们回到第二阶段。

步骤2.2.2。
在此步骤中,我们还将纠正双倍和三倍空格。
像石头剪刀布游戏一样清理数据。 这是一个有结局还是没有结局的游戏? 第 2 部分. 实用
图 11. 双空格的数量。

更正表 2.2.4 中指出的错误。

表 5. 纠错阶段像石头剪刀布游戏一样清理数据。 这是一个有结局还是没有结局的游戏? 第 2 部分. 实用
像石头剪刀布游戏一样清理数据。 这是一个有结局还是没有结局的游戏? 第 2 部分. 实用

图 12 显示了为什么使用字母“e”或“e”这样的方面很重要的示例。

像石头剪刀布游戏一样清理数据。 这是一个有结局还是没有结局的游戏? 第 2 部分. 实用
图 12. 字母“e”的差异。

步骤 2.2.2 t222 花费的总时间 = 4 小时。
在第 2.2.2 阶段发现的错误数量(对于舒曼公式)n222 = 583 个。

第四阶段。
检查现场冗余非常适合此阶段。 44 个字段中,6 个字段:
7 - 结构的目的
16——地下层数
17 - 父对象
21 - 村委会
38——结构参数(描述)
40 – 文化遗产

他们没有任何条目。 也就是说,它们是多余的。
“22 – 城市”字段只有一个条目,如图 13 所示。

像石头剪刀布游戏一样清理数据。 这是一个有结局还是没有结局的游戏? 第 2 部分. 实用
图13。 “城市”字段中的唯一条目是 Z_348653。

字段“34 - 建筑物名称”包含明显不符合该字段用途的条目,如图 14 所示。

像石头剪刀布游戏一样清理数据。 这是一个有结局还是没有结局的游戏? 第 2 部分. 实用
图14。 不合规条目的示例。

我们从数据集中排除这些字段。 我们将这一变化记录在214条记录中。

第 4 阶段花费的总时间(对于舒曼公式)t4 = 2,5 小时。
在第 4 阶段发现的错误数量(对于舒曼公式)n4 = 222 个。

表6 第4阶段后数据集指标分析

像石头剪刀布游戏一样清理数据。 这是一个有结局还是没有结局的游戏? 第 2 部分. 实用

总的来说,分析指标变化(表6)我们可以说:
1)平均符号数与标准差杠杆之比接近3,即有正态分布的迹象(XNUMX西格玛规则)。
2)最小和最大杠杆与平均杠杆的显着偏差表明尾部研究在寻找错误时是一个有前途的方向。

让我们检查一下使用舒曼方法发现错误的结果。

空闲阶段

2.1. 第 2.1 阶段花费的总时间(对于舒曼公式)t21 = 1 小时。
在第 2.1 阶段发现的错误数量(对于舒曼公式)n21 = 0 个。

3. 第 3 阶段花费的总时间(对于舒曼公式)t3 = 0,75 小时。
在第 3 阶段发现的错误数量(对于舒曼公式)n3 = 0 个。

有效阶段
2.2. 第 2.2.1 阶段花费的总时间(对于舒曼公式)t221 = 8 小时。
第 2.2.1 阶段纠正错误的数量(针对舒曼公式)n221 = 0 个。
步骤 2.2.2 t222 花费的总时间 = 4 小时。
在第 2.2.2 阶段发现的错误数量(对于舒曼公式)n222 = 583 个。

步骤 2.2 花费的总时间 t22 = 8 + 4 = 12 小时。
在第 2.2.2 阶段发现的错误数量(对于舒曼公式)n222 = 583 个。

4. 第 4 阶段花费的总时间(对于舒曼公式)t4 = 2,5 小时。
在第 4 阶段发现的错误数量(对于舒曼公式)n4 = 222 个。

由于舒曼模型的第一阶段必须包含零个阶段,而另一方面,阶段 2.2 和阶段 4 本质上是独立的,因此考虑到舒曼模型假设通过增加检查的持续时间,概率检测到错误的次数减少,即流程减少了故障,那么通过检查这个流程我们就会决定把哪个阶段放在第一位,根据规则,哪里的故障密度更频繁,我们就把那个阶段放在第一位。

像石头剪刀布游戏一样清理数据。 这是一个有结局还是没有结局的游戏? 第 2 部分. 实用
图15。

从图 15 中的公式可以看出,在计算中最好将第四阶段放在阶段 2.2 之前。

使用舒曼公式,我们确定估计的初始错误数:

像石头剪刀布游戏一样清理数据。 这是一个有结局还是没有结局的游戏? 第 2 部分. 实用
图16。

从图 16 的结果可以看出,预测错误数为 N2 = 3167,超过了最小标准 1459。

修正的结果是,我们修正了 805 个错误,预测的数量是 3167 – 805 = 2362,这仍然超过了我们接受的最小阈值。

我们定义参数 C、lambda 和可靠性函数:

像石头剪刀布游戏一样清理数据。 这是一个有结局还是没有结局的游戏? 第 2 部分. 实用
图17。

本质上,lambda 是每个阶段检测到错误的强度的实际指标。 如果你看上面,这个指标之前的估计是每小时 42,4 个错误,这与舒曼指标相当。 转向本材料的第一部分,确定开发人员在每分钟检查 1 条记录时发现错误的比率应不低于每 250,4 条记录 1 个错误。 因此舒曼模型的 lambda 临界值:
60 / 250,4 = 0,239617。

也就是说,必须执行错误检测程序,直到 lambda 从现有的 38,964 减小到 0,239617。

或者直到指标 N(潜在错误数)减去 n(已纠正错误数)低于我们接受的阈值(在第一部分中) - 1459 件。

第 1 部分:理论。

来源: habr.com

添加评论