Comprender a diferenza entre a minería de datos e a extracción de datos

Comprender a diferenza entre a minería de datos e a extracción de datos
Estas dúas palabras de moda de Data Science confunden a moita xente. A minería de datos adoita entenderse mal como extraer e recuperar datos, pero a realidade é moito máis complexa. Nesta publicación, imos facer minería de puntos e descubrir a diferenza entre a minería de datos e a extracción de datos.

Que é a minería de datos?

Minería de datos, tamén chamada Descubrimento do coñecemento da base de datos (KDD), é unha técnica que se usa a miúdo para analizar grandes conxuntos de datos mediante métodos estatísticos e matemáticos para atopar patróns ou tendencias ocultos e extraer valor deles.

Que se pode facer coa minería de datos?

Ao automatizar o proceso, ferramentas de minería de datos pode explorar bases de datos e descubrir de forma efectiva patróns ocultos. Para as empresas, a minería de datos adoita utilizarse para descubrir patróns e relacións nos datos para axudar a tomar mellores decisións comerciais.

Exemplos de aplicación

Despois de que a minería de datos se xeneralizase na década de 1990, as empresas dunha ampla gama de industrias, incluíndo venda polo miúdo, finanzas, saúde, transporte, telecomunicacións, comercio electrónico, etc., comezaron a utilizar métodos de minería de datos para obter información baseada en datos. A minería de datos pode axudar a segmentar os clientes, identificar fraudes, prever vendas e moito máis.

  • Segmentación de clientes
    Ao analizar os datos dos clientes e identificar os trazos dos clientes obxectivo, as empresas poden agrupalos nun grupo separado e ofrecer ofertas especiais que satisfagan as súas necesidades.
  • Análise da cesta de mercado
    Esta técnica baséase na teoría de que se compra un determinado grupo de produtos, é máis probable que compre un grupo diferente de produtos. Un exemplo famoso: cando os pais compran cueiros para os seus bebés, adoitan comprar cervexa xunto cos cueiros.
  • Previsión de vendas
    Pode parecer semellante á análise da cesta do mercado, pero esta vez utilízase a análise de datos para prever cando un cliente volverá comprar un produto no futuro. Por exemplo, un adestrador compra unha lata de proteína que debería durar 9 meses. A tenda que vende esta proteína ten previsto lanzar unha nova en 9 meses para que o adestrador volva mercala.
  • Detección de fraude
    A minería de datos axuda a crear modelos para a detección de fraudes. Ao recoller mostras de informes fraudulentos e veraces, as empresas están facultadas para determinar que transaccións son sospeitosas.
  • Detección de patróns en produción
    Na industria manufacturera, a minería de datos úsase para axudar a deseñar sistemas identificando a relación entre a arquitectura do produto, o perfil e as necesidades dos clientes. A minería de datos tamén pode predecir os tempos e os custos de desenvolvemento de produtos.

E estes son só algúns casos de uso para a minería de datos.

Etapas da minería de datos

A minería de datos é un proceso holístico de recompilación, selección, limpeza, transformación e extracción de datos para avaliar patróns e, en definitiva, extraer valor.

Comprender a diferenza entre a minería de datos e a extracción de datos

Xeralmente, todo o proceso de extracción de datos pódese resumir en 7 pasos:

  1. Limpeza de datos
    No mundo real, os datos non sempre están limpos e estruturados. Moitas veces son ruidosos, incompletos e poden conter erros. Para asegurarse de que o resultado da extracción de datos é preciso, primeiro cómpre limpar os datos. Algúns métodos de limpeza inclúen cubrir os valores que faltan, controis automáticos e manuais, etc.
  2. Integración de datos
    Esta é a etapa na que se extraen, combinan e integran datos de diferentes fontes. As fontes poden ser bases de datos, ficheiros de texto, follas de cálculo, documentos, conxuntos de datos multidimensionais, Internet, etc.
  3. Mostraxe de datos
    Normalmente, non todos os datos integrados son necesarios na minería de datos. A mostraxe de datos é a etapa na que só se seleccionan e extraen datos útiles dunha gran base de datos.
  4. Conversión de datos
    Unha vez seleccionados os datos, convértese en formas adecuadas para a minería. Este proceso inclúe normalización, agregación, xeneralización, etc.
  5. Minería de datos
    Aquí vén a parte máis importante da minería de datos: usar métodos intelixentes para atopar patróns neles. O proceso inclúe regresión, clasificación, predición, agrupación, aprendizaxe de asociación e moito máis.
  6. Avaliación do modelo
    Este paso ten como obxectivo identificar patróns potencialmente útiles e fáciles de entender, así como patróns que apoian hipóteses.
  7. Representación do coñecemento
    Na fase final, a información obtida preséntase dun xeito atractivo utilizando métodos de representación e visualización do coñecemento.

Desvantaxes da minería de datos

  • Gran investimento de tempo e man de obra
    Dado que a minería de datos é un proceso longo e complexo, require moito traballo de persoas produtivas e cualificadas. Os científicos de datos poden usar poderosas ferramentas de minería de datos, pero necesitan expertos para preparar os datos e comprender os resultados. Como resultado, pode levar algún tempo procesar toda a información.
  • Privacidade e seguridade dos datos
    Dado que a minería de datos recolle información dos clientes mediante métodos de mercado, pode violar a privacidade dos usuarios. Ademais, os hackers poden obter datos almacenados en sistemas de minería de datos. Isto supón unha ameaza para a seguridade dos datos dos clientes. Se se fai un mal uso dos datos roubados, pode prexudicar facilmente a outros.

O anterior é unha breve introdución á minería de datos. Como xa mencionei, a minería de datos contén o proceso de recollida e integración de datos, que inclúe o proceso de extracción de datos (extracción de datos). Neste caso, é seguro dicir que a extracción de datos pode formar parte dun longo proceso de extracción de datos.

Que é a extracción de datos?

Tamén coñecido como "minería de datos web" e "scraping web", este proceso é o acto de extraer datos de fontes de datos (xeralmente non estruturadas ou mal estruturadas) en localizacións centralizadas e a centralización nun lugar para o seu almacenamento ou procesamento posterior. En concreto, as fontes de datos non estruturadas inclúen páxinas web, correo electrónico, documentos, ficheiros PDF, texto dixitalizado, informes de mainframe, ficheiros de bobina, anuncios, etc. O almacenamento centralizado pode ser local, na nube ou híbrido. É importante lembrar que a extracción de datos non inclúe o procesamento nin outras análises que poidan producirse posteriormente.

Que se pode facer coa extracción de datos?

Basicamente, os propósitos de extracción de datos divídense en 3 categorías.

  • Arquivado
    A extracción de datos pode converter datos de formatos físicos como libros, xornais, facturas a formatos dixitais como bases de datos para almacenamento ou copia de seguridade.
  • Cambiando o formato de datos
    Cando queres migrar datos do teu sitio actual a un novo en desenvolvemento, podes recompilar datos do teu propio sitio extraéndoos.
  • Análise de datos
    É común analizar máis a fondo os datos extraídos para coñecer os mesmos. Isto pode parecer semellante á minería de datos, pero ten en conta que a minería de datos é o obxectivo da minería de datos, non parte dela. Ademais, os datos analízanse de forma diferente. Un exemplo é que os propietarios de tendas en liña extraen información do produto de sitios de comercio electrónico como Amazon para supervisar as estratexias da competencia en tempo real. Do mesmo xeito que a minería de datos, a extracción de datos é un proceso automatizado con moitos beneficios. No pasado, a xente copiaba e pegaba datos manualmente dun lugar a outro, o que levaba moito tempo. A extracción de datos acelera a recollida e mellora moito a precisión dos datos extraídos.

Algúns exemplos de uso da extracción de datos

Do mesmo xeito que a minería de datos, a minería de datos úsase amplamente en varias industrias. Ademais do seguimento dos prezos do comercio electrónico, a minería de datos pode axudarche coa túa propia investigación, agregación de noticias, mercadotecnia, inmobles, viaxes e turismo, consultoría, finanzas e moito máis.

  • Xeración de leads
    As empresas poden extraer datos de directorios: Yelp, Crunchbase, Yellowpages e xerar clientes potenciales para o desenvolvemento empresarial. Podes ver o seguinte vídeo para aprender a extraer datos de Yellowpages Modelo de rascado web.

  • Agregación de contidos e noticias
    Os sitios web de agregación de contido poden recibir fontes de datos regulares de varias fontes e manter os seus sitios actualizados.
  • Análise de sentimentos
    Despois de extraer críticas, comentarios e testemuños de redes sociais como Instagram e Twitter, os profesionais poden analizar as actitudes subxacentes e obter información sobre como se percibe unha marca, produto ou fenómeno.

Pasos de extracción de datos

A extracción de datos é a primeira etapa de ETL (Extract, Transform, Load: Extract, Transform, Load) e ELT (Extract, Load, and Transform). ETL e ELT forman parte dunha estratexia completa de integración de datos. Noutras palabras, a extracción de datos pode ser parte da súa extracción.

Comprender a diferenza entre a minería de datos e a extracción de datos
Extraer, transformar, cargar

Aínda que a minería de datos consiste en extraer información de grandes cantidades de datos, a extracción de datos é un proceso moito máis curto e sinxelo. Pódese reducir a tres fases:

  1. Selección dunha fonte de datos
    Seleccione a fonte da que desexa extraer datos, como un sitio web.
  2. Recollida de datos
    Envía unha solicitude "GET" ao sitio e analiza o documento HTML resultante usando linguaxes de programación como Python, PHP, R, Ruby, etc.
  3. Almacenamento de datos
    Garda os datos na túa base de datos local ou almacenamento na nube para usos futuros. Se es un programador experimentado que quere extraer datos, os pasos anteriores poden parecerche sinxelos. Non obstante, se non es un programador, hai un atallo: usa ferramentas de minería de datos como Octoparse. As ferramentas de extracción de datos, do mesmo xeito que as ferramentas de extracción de datos, están deseñadas para aforrar enerxía e facilitar o procesamento de datos para todos. Estas ferramentas non só son económicas, senón tamén amigables para principiantes. Permiten aos usuarios recoller datos en cuestión de minutos, almacenalos na nube e exportalos a moitos formatos: Excel, CSV, HTML, JSON ou a bases de datos do sitio mediante unha API.

Desvantaxes da extracción de datos

  • Fallo do servidor
    Ao extraer datos a gran escala, o servidor web do sitio de destino pode estar sobrecargado, o que pode provocar un fallo do servidor. Isto prexudicará os intereses do propietario do sitio.
  • Prohibición por IP
    Cando unha persoa recompila datos con demasiada frecuencia, os sitios web poden bloquear o seu enderezo IP. Un recurso pode prohibir completamente un enderezo IP ou restrinxir o acceso facendo que os datos sexan incompletos. Para recuperar datos e evitar o bloqueo, cómpre facelo a unha velocidade moderada e aplicar algunhas técnicas antibloqueo.
  • Problemas coa lei
    A extracción de datos da web cae nunha zona gris cando se trata de legalidade. Principais sitios como Linkedin e Facebook indican claramente nos seus termos de uso que está prohibida calquera extracción automática de datos. Houbo moitas demandas entre empresas debido a actividades de bot.

Diferenzas clave entre a minería de datos e a extracción de datos

  1. A minería de datos tamén se denomina descubrimento de coñecemento en bases de datos, extracción de coñecemento, análise de datos/patróns, recollida de información. A extracción de datos úsase indistintamente coa extracción de datos web, a dixitalización de páxinas web, a recollida de datos, etc.
  2. A investigación de minería de datos baséase principalmente en datos estruturados, mentres que a minería de datos adoita utilizar fontes non estruturadas ou mal estruturadas.
  3. O obxectivo da minería de datos é facer que os datos sexan máis útiles para a análise. A extracción de datos é a recollida de datos nun lugar onde se poden almacenar ou procesar.
  4. A análise na minería de datos baséase en métodos matemáticos para identificar patróns ou tendencias. A extracción de datos baséase en linguaxes de programación ou ferramentas de extracción de datos para evitar fontes.
  5. O propósito da minería de datos é atopar feitos que non eran coñecidos ou ignorados anteriormente, mentres que a extracción de datos trata sobre a información existente.
  6. A minería de datos é máis complexa e require un gran investimento en formación de persoas. A extracción de datos coa ferramenta adecuada pode ser extremadamente sinxela e rendible.

Axudamos aos principiantes a non confundirse en Data. Especialmente para os habravchans, fixemos un código promocional HABR, dando un desconto adicional do 10% ao desconto indicado no banner.

Comprender a diferenza entre a minería de datos e a extracción de datos

Máis cursos

Artigos destacados

Fonte: www.habr.com