数据部。 2013 年。 回顾性

在今年2013 肠易激综合征,然后似乎正在创造 数据部,要求我针对大数据和一般数据的问题领域进行这样的脑力转储(完全基于与石油和天然气企业客户互动的经验)。 所以七年后我看到了它,觉得很有趣。 有些事情是显而易见的。 有些事实证明并不完全正确,但是……7年过去了。

我用英语写的,现在我想把它翻译成俄语。 如果某些事情现在仍然相关怎么办? (我会翻译公告,但出于懒惰而保留英文标志。绿色是好的,红色是危险的,蓝色是梦想)。

我将正式确定“今天”的最低限度评论 意大利语使其清晰可辨。

所以,数据! 给我们的数据...

数据部门就是血液部门,因为数据可以与流经企业体静脉和动脉的血液进行比较。 然而,尽管血液相同,但生物体不同,因此 产品化 非常困难,但同时也是一个发展机遇。

对于有些人来说,数据直接跳入他们的眼帘——这些人是 我们.
不幸的是,有些人并没有看到空白的数据。 唉,这又是我们的 客户!

数据部。 2013 年。 回顾性

因此, 经营原则...

  1. 商业而且不 IT (愿所有 IT 专家立即原谅我)因为我们正在解决世界上的问题,而且,还有更多的钱。
  2. 所有业务问题都集中在主题行业垂直领域,并且需要足够的 专业化.
  3. 尝试证明 “数据”的价值 或者,更困难的是,“数据管理”对企业的价值是永恒的痛苦。 基本上,这就像对一个感觉良好的人说:“伙计,我们现在要治疗你的血液,而且,伙计,这很贵!”
  4. 我的“梦想”是在 SaaS 模式中出售“数据提取”和“分析” 中小企业他们使用了 123 种具有炫酷界面的云服务:项目管理、服务台、会计、CRM、薪资、时间报告、营销……凡是你能想到的,并埋头于数据之中。 Youcalc 和 Successfactors (可能已经没有了)这很好!
  5. 寻找喜欢修补的人 “紧缩” 与数据。 它们稀有且奇怪(如茶叶),但却是商业的关键。 例如,一位诗人可能非常擅长关联。
  6. 工程师 需要! 需要将 Crunchers 从数据中提取的问题转化为解决方案。 而决策的成败完全取决于他们。
  7. 发育 开源 项目具有巨大的价值,使得从头开始“组装”复杂的解决方案成为可能。
  8. 但是……我们千万不要忘记Hadoop是一个库,Lucene也是一个库,两者之间的距离 图书馆和工业产品 很多!
  9. 构建的解决方案必须进行重大调整,因为 模块化 и 可积性 - 关键点。
  10. 敏捷(原谅我主)是与客户互动和验证的关键技术 假设,其中会有很多。
  11. 将所有编码和 UI 外包出去是特别可能和必要的。 所有业务分析和规范 后端 需要离开 并被视为核心能力。
  12. 业务决策者必须不断“了解” 正确处理数据的需要 并不断寻找新的方法来分析它们。 我们员工的技术和业务能力的结合将有助于提高整个组织的整体地位。
  13. 网际网路 – 有无穷无尽的灵感源泉(那时没有那么多猫)与企业数据管理方法相关,尽管目标和范围差异很大。

数据部。 2013 年。 回顾性

技术假设...

  1. 有着巨大的发展潜力 简化 数据如何向人们展示。 您可以将其称为“iPhonization”。
  2. 尽管 BI 供应商声称他们直接 为最终用户带来分析,(他们肯定正在朝这个方向前进)——突破还没有发生。 人们只是不太理解 多维的 数据。
  3. 表示或多或少复杂、结构松散的数据的用户界面 多面的 形式 - 也带来了无数的问题。 结论:越平坦越好。
  4. 基于从源自动提取数据(并不总是为这种提取而设计)的基础上构建的平台在很大程度上依赖于源、连接器的稳定性和基础设施。 平台(使者)总是会因未能交付结果而受到指责。 信任 – 此类平台的资本。 资本很难获得,却很容易失去。
  5. 从商业角度来看,大数据分析和数据分析没有区别。 只是数据。 像 2x2 这样简单的数字背后往往蕴藏着价值数百万美元的机会。 一个很好的例子是挪威大陆架基础设施元件寿命终止的数据。 未来上限的所有日期是什么时候。 所有设备的修理都集中在一条轴上,他们发现N年后架子世界末日即将到来——一位非常富有的人从椅子上站起来,匆匆鞠躬走出房间,说道:“对不起,我不时间还多,我需要准备舰队……”
  6. Excel 本质上是一种清晰简洁的数据表格呈现方式,拥有巨大的力量和美好的未来。 我相信美丽的桌子 (还是)就是这样!
  7. 所有这些“分析”的主要内容是 决策自动化。 有最大的机会,但也有最高的风险,这就是为什么机会丰富,这就是为什么有风险,这就是为什么有机会,这就是为什么它们太妃糖...... 🙂 钻井管理,例如......
  8. 如果“可集成性”是一个关键特征,那么数据实际上应该作为服务呈现。 REST的 规则,但我们不能忘记优化 生产率,随着计算能力的不断增长,现在常常为了可集成性而牺牲它。
  9. 主要的数据 - 这是在解决任何业务问题之前需要本地化、提取和标准化的内容。 主数据虽小,但问题却很大! 正如语义学兄弟所说,世界上50%的问题是因为人们对相同的事物用不同的名字命名,另外50%是因为人们对不同的事物用相同的名字命名。
  10. 任何 封装 在存储层面,它限制了解决方案的开放性并导致SILO化。 如果你是大供应商就好了,否则就一般般了。 (当然,这里我们谈论的不是块级别,也不是当时已经有 3 年历史的 AWS S6,而是文件).
  11. 关系建模 数据不再是我们的朋友。 RDF 和键值——酷! 我们看到了关系型数据库从2000张表的模型神奇地变成了15张表,而且没有一个用户丢失任何东西。
  12. 互联网之所以有效,是因为它存在 网址 作为统一的寻址方法。 URL 的重要性或更确切地说 的URI 对于企业的信息资源来说是难以高估的。
  13. 文本挖掘和NLP很受欢迎。 互联网上。 但即使在企业部门,通过从非结构化企业数据中提取结构化数据也可以取得巨大成功。
  14. 协同 结构化数据和从非结构化数据中提取的信息之间,即文件 – 分析克朗代克。
  15. 提取数据时,不要忘记权利和 版权.
  16. 数据提取公司必须组建一个黑客部门,从这个词的良好意义上来说。 受到与黄页爬虫机器人保护系统的艰苦战斗的启发。
  17. 在处理数据之前,有必要 “看” 完整地。 这很难解释。 我想到了表格形式。 对于某些人来说,图形表示,但任何图形都已经是一种解释。 无论如何……“看”!
  18. 在前端重复用户“信任”的问题。 信任连接器/数据生成过程,信任数据, 相信所做的决定.

来源: habr.com

添加评论