Divisão de dados. ano 2013. Retrospectivo

Em 2013 ano IBS, que então parecia estar criando Divisão de Dados, me pediu para fazer tal braindump (baseado exclusivamente na experiência de interação com clientes corporativos de petróleo e gás) sobre a área problemática de Big Data e Dados em geral. Então me deparei com isso 7 anos depois e achei engraçado. Algumas coisas são óbvias. Alguns acabaram por não ser inteiramente verdade, mas... 7 anos se passaram.

Escrevi em inglês e agora pensei em traduzi-lo para o russo. E se algo ainda for relevante agora? (Vou traduzir os boletins, mas deixo as placas em inglês por preguiça. Verde é bom, vermelho é perigoso, azul é sonho).

Vou formalizar os comentários mínimos de “hoje” italianopara que seja claro e distinguível.

Então, DADOS! Dados para nós...

A Divisão de Dados é a Divisão de Sangue, porque os dados podem ser comparados, por exemplo, ao sangue que corre nas veias e artérias de uma empresa. No entanto, embora o sangue seja o mesmo, os organismos são diferentes e, portanto, produtização muito difícil, mas representa também uma oportunidade de desenvolvimento.

Há pessoas para quem os dados saltam aos olhos - estas são Nós.
E tem gente que, infelizmente, não vê os dados à queima-roupa. Isso, novamente, infelizmente, é nosso Clientes!

Divisão de dados. ano 2013. Retrospectivo

Assim, princípios de negócios...

  1. Vender o negócioE não IT (que todos os especialistas em TI me perdoem imediatamente) porque estamos resolvendo os problemas do mundo e, bem, mais dinheiro.
  2. Todos os problemas de negócios estão concentrados em setores verticais temáticos da indústria e exigirão especializações.
  3. Tentativas de provar valor de "dados" ou, ainda mais difícil, o valor da “gestão de dados” para uma empresa é o sofrimento e a dor eternos. Basicamente, é como chegar em uma pessoa que está se sentindo bem e dizer: “Cara, vamos tratar o seu sangue agora e, cara, é caro!”
  4. Meu “sonho molhado” é vender “extração de dados” e “análises” dentro do modelo SaaS pequena e média empresaque escalaram 123 serviços em nuvem com interfaces interessantes: gerenciamento de projetos, helpdesk, contabilidade, CRM, folha de pagamento, relatórios de horas, marketing,... você escolhe, e se enterraram nos dados. Youcalc e fatores de sucesso (provavelmente não existem mais) Isso é bom!
  5. Procure pessoas que gostam de mexer “crocante” com dados. Eles são raros e estranhos (como as folhas de chá), mas essenciais para os negócios. Um poeta, por exemplo, pode ser muito bom em correlação.
  6. Engenheiros necessário! Precisava transformar problemas que os Crunchers extraíam dos dados em soluções. E o sucesso ou o fracasso da decisão depende inteiramente deles.
  7. Desenvolvimento opensource projetos é de grande valor e permite “montar” soluções complexas praticamente do zero.
  8. Mas... não devemos esquecer que o Hadoop é uma biblioteca, e o Lucene também é uma biblioteca, e a distância entre biblioteca e produto industrial muito!
  9. As soluções construídas terão que ser significativamente adaptadas, porque modularidade и integrabilidade - pontos chave.
  10. Ágil (me perdoe senhor) é uma técnica chave na interação com o cliente e na verificação hipóteses, dos quais haverá muitos.
  11. É especialmente possível e necessário terceirizar toda a codificação e UI. Todas as análises e especificações de negócios Processo interno preciso sair dentro e considerada como uma competência essencial.
  12. Os tomadores de decisões empresariais devem estar constantemente “informados” sobre a necessidade de trabalhar adequadamente com dados e constantemente buscando novas maneiras de analisá-los. A combinação das competências técnicas e empresariais dos nossos colaboradores ajudará a elevar o status de toda a organização como um todo.
  13. Internet – existe uma fonte inesgotável de inspiração (não havia muitos gatos naquela época) em relação às abordagens à gestão de dados empresariais, embora os objetivos e o âmbito variem significativamente.

Divisão de dados. ano 2013. Retrospectivo

Postulados tecnológicos...

  1. Existe um enorme potencial de desenvolvimento em simplificação como os dados são mostrados às pessoas. Você pode chamar isso de palavra “iPhonização”.
  2. Apesar de os fornecedores de BI afirmarem que são diretamente leve análises aos usuários finais, (e eles certamente estão caminhando nessa direção) - o avanço ainda não ocorreu. As pessoas simplesmente não entendem bem multidimensional dados.
  3. Uma interface de usuário que representa dados mais ou menos complexos e pouco estruturados em lapidado forma - também apresenta uma infinidade de problemas. Conclusão: quanto mais plano, melhor.
  4. Uma plataforma construída com base na extração automática de dados de fontes (que nem sempre são projetadas para tal extração) depende significativamente das fontes, da estabilidade dos conectores e da infraestrutura. A plataforma (mensageiro) sempre será responsabilizada pela falha na entrega de resultados. Confiança – capital deste tipo de plataformas. Capital difícil de ganhar e fácil de perder.
  5. Do ponto de vista empresarial, não há diferença entre análise de Big Data e Apenas dados. Muitas vezes, por trás de números tão simples como 2x2 estão milhões de dólares em oportunidades. Um bom exemplo são os dados sobre o fim da vida útil dos elementos de infraestrutura na plataforma norueguesa. Quando são todas as datas dos limites futuros. os reparos de todos os equipamentos foram colocados em um eixo e eles descobriram que em N anos a prateleira do Armagedom estava chegando - um homem muito rico levantou-se de sua cadeira e saiu apressadamente da sala com as palavras: “Desculpe, eu não tenho muito tempo, preciso preparar a frota...”
  6. O Excel, e essencialmente uma apresentação tabular de dados clara e concisa, tem um enorme poder e um grande futuro. Eu acredito em mesas bonitas (e ainda) e é isso!
  7. O arco principal de toda essa “análise” é automação de decisão. Existem as maiores oportunidades, mas também os maiores riscos, é por isso que as oportunidades são ricas, é por isso que existem riscos, é por isso que existem oportunidades, é por isso que são caramelos... 🙂 Gestão de perfuração de poços, por exemplo...
  8. Se a “integrabilidade” for uma característica fundamental, então os dados deveriam de facto ser apresentados como um serviço. DESCANSO regras, mas não devemos esquecer a otimização desempenho, que agora é frequentemente sacrificado pela integrabilidade à medida que o poder da computação continua a crescer.
  9. Dados mestre - é isso que precisa ser localizado, extraído e padronizado antes de abordar qualquer problema de negócios. Os dados mestre são pequenos, mas os problemas com eles são grandes! Como dizem os irmãos da semântica, 50% de todos os problemas do mundo são porque as pessoas chamam as mesmas coisas por nomes diferentes, e os outros 50% são porque chamam coisas diferentes pelo mesmo nome.
  10. Qualquer encapsulamento no nível do armazenamento, limita a abertura da solução e leva à ficção do SILO. É bom se você for um grande fornecedor, caso contrário, é mais ou menos. (Aqui estamos falando, claro, não do nível de bloco e nem do AWS S3, que já tinha 6 anos, mas de arquivos).
  11. Modelagem relacional os dados não são mais nossos amigos. RDF e valor-chave – legal! Vimos transformações mágicas de bancos de dados relacionais com modelos de 2000 tabelas em 15 tabelas, e nenhum dos usuários perdeu nada.
  12. A Internet funciona porque existe URL como um método unificado de endereçamento. A importância do URL ou melhor URI para os recursos de informação empresarial é difícil superestimar.
  13. Mineração de texto e PNL são populares. Na internet. Mas mesmo no sector empresarial, é possível alcançar grande sucesso extraindo dados estruturados de dados empresariais não estruturados.
  14. Sinergia entre dados estruturados e informações extraídas de dados não estruturados, ou seja, arquivos – Klondike analítico.
  15. Ao extrair dados, não se esqueça dos direitos e direitos autorais.
  16. A empresa de extração de dados deve formar umadepartamento de hackers, no bom sentido da palavra. Inspirado na difícil batalha contra os sistemas de proteção de bots rastreadores das Páginas Amarelas.
  17. Antes de trabalhar com dados, é necessário "ver" na sua totalidade. É difícil de explicar. Formas tabulares vêm à mente. Para alguns, representações gráficas, mas qualquer gráfico já é uma interpretação. De uma forma ou de outra... “vê”!
  18. Repetindo a questão da “confiança” do usuário no frontend. Confiança em conectores/processos de geração de dados, confiança em dados, confiança nas decisões tomadas.

Fonte: habr.com

Adicionar um comentário