Comprender la diferencia entre minería de datos y extracción de datos

Comprender la diferencia entre minería de datos y extracción de datos
Estas dos palabras de moda de la ciencia de datos confunden a mucha gente. La minería de datos a menudo se malinterpreta como la extracción y recuperación de datos, pero la realidad es mucho más compleja. En esta publicación, analicemos la minería de puntos y descubramos la diferencia entre la minería de datos y la extracción de datos.

¿Qué es la minería de datos?

Minería de datos, también llamada Descubrimiento del conocimiento de la base de datos (KDD), es una técnica que se utiliza a menudo para analizar grandes conjuntos de datos utilizando métodos estadísticos y matemáticos para encontrar patrones o tendencias ocultos y extraer valor de ellos.

¿Qué se puede hacer con la Minería de Datos?

Al automatizar el proceso, herramientas de minería de datos puede navegar por las bases de datos y descubrir efectivamente patrones ocultos. Para las empresas, la minería de datos se usa a menudo para descubrir patrones y relaciones en los datos para ayudar a tomar mejores decisiones comerciales.

Ejemplos de aplicación

Después de que la minería de datos se generalizara en la década de 1990, las empresas de una amplia gama de industrias, incluidas la venta minorista, las finanzas, la atención médica, el transporte, las telecomunicaciones, el comercio electrónico, etc., comenzaron a utilizar métodos de minería de datos para obtener información sobre la base de datos. La minería de datos puede ayudar a segmentar clientes, identificar fraudes, predecir ventas y más.

  • Segmentación de clientes
    Al analizar los datos de los clientes e identificar las características de los clientes objetivo, las empresas pueden agruparlos en un grupo separado y ofrecer ofertas especiales que satisfagan sus necesidades.
  • Análisis de la cesta de la compra
    Esta técnica se basa en la teoría de que si compra un determinado grupo de productos, es más probable que compre un grupo diferente de productos. Un ejemplo famoso: cuando los padres compran pañales para sus bebés, tienden a comprar cerveza junto con los pañales.
  • Pronóstico de ventas
    Puede parecer similar al análisis de la cesta de la compra, pero esta vez el análisis de datos se utiliza para predecir cuándo un cliente volverá a comprar un producto en el futuro. Por ejemplo, un entrenador compra una lata de proteína que debería durar 9 meses. La tienda que vende esta proteína tiene previsto sacar una nueva en 9 meses para que el entrenador la vuelva a comprar.
  • Detección de fraude
    La minería de datos ayuda a construir modelos para la detección de fraudes. Al recopilar muestras de informes fraudulentos y veraces, las empresas pueden determinar qué transacciones son sospechosas.
  • Detección de patrones en producción
    En la industria manufacturera, la minería de datos se utiliza para ayudar a diseñar sistemas mediante la identificación de la relación entre la arquitectura del producto, el perfil y las necesidades del cliente. La minería de datos también puede predecir los tiempos y costos de desarrollo de productos.

Y estos son solo algunos casos de uso para la minería de datos.

Etapas de la minería de datos

La minería de datos es un proceso holístico de recopilación, selección, limpieza, transformación y extracción de datos para evaluar patrones y, en última instancia, extraer valor.

Comprender la diferencia entre minería de datos y extracción de datos

En general, todo el proceso de minería de datos se puede resumir en 7 pasos:

  1. Limpieza de datos
    En el mundo real, los datos no siempre se limpian y estructuran. Suelen ser ruidosos, incompletos y pueden contener errores. Para asegurarse de que el resultado de la extracción de datos sea preciso, primero debe limpiar los datos. Algunos métodos de limpieza incluyen el llenado de valores faltantes, controles automáticos y manuales, etc.
  2. Integración de datos
    Esta es la etapa donde se extraen, combinan e integran datos de diferentes fuentes. Las fuentes pueden ser bases de datos, archivos de texto, hojas de cálculo, documentos, conjuntos de datos multidimensionales, Internet, etc.
  3. Muestreo de datos
    Por lo general, no todos los datos integrados son necesarios en la minería de datos. El muestreo de datos es la etapa en la que solo se seleccionan y extraen datos útiles de una gran base de datos.
  4. Conversión de datos
    Una vez que se seleccionan los datos, se convierten en formularios adecuados para la minería. Este proceso incluye normalización, agregación, generalización, etc.
  5. Procesamiento de datos
    Aquí viene la parte más importante de la minería de datos: usar métodos inteligentes para encontrar patrones en ellos. El proceso incluye regresión, clasificación, predicción, agrupación, aprendizaje de asociación y más.
  6. Evaluación del modelo
    Este paso tiene como objetivo identificar patrones potencialmente útiles y fáciles de entender, así como patrones que respalden hipótesis.
  7. Representación del conocimiento
    En la etapa final, la información obtenida se presenta de forma atractiva utilizando métodos de representación y visualización del conocimiento.

Desventajas de la minería de datos

  • Gran inversión de tiempo y mano de obra
    Dado que la minería de datos es un proceso largo y complejo, requiere mucho trabajo por parte de personas productivas y capacitadas. Los científicos de datos pueden usar poderosas herramientas de minería de datos, pero necesitan expertos para preparar los datos y comprender los resultados. Como resultado, puede tomar algún tiempo procesar toda la información.
  • Privacidad y seguridad de datos
    Debido a que la minería de datos recopila información del cliente a través de métodos de mercado, puede violar la privacidad del usuario. Además, los piratas informáticos pueden obtener datos almacenados en sistemas de minería de datos. Esto representa una amenaza para la seguridad de los datos de los clientes. Si los datos robados se usan indebidamente, pueden dañar fácilmente a otros.

Lo anterior es una breve introducción a la minería de datos. Como ya mencioné, la minería de datos contiene el proceso de recopilación e integración de datos, que incluye el proceso de extracción de datos (extracción de datos). En este caso, es seguro decir que la extracción de datos puede ser parte de un largo proceso de extracción de datos.

¿Qué es la extracción de datos?

También conocido como "minería de datos web" y "raspado web", este proceso es el acto de extraer datos de fuentes de datos (generalmente no estructuradas o mal estructuradas) en ubicaciones centralizadas y la centralización en una ubicación para su almacenamiento o procesamiento posterior. Específicamente, las fuentes de datos no estructurados incluyen páginas web, correo electrónico, documentos, archivos PDF, texto escaneado, informes de mainframe, archivos de carrete, anuncios, etc. El almacenamiento centralizado puede ser local, en la nube o híbrido. Es importante recordar que la extracción de datos no incluye el procesamiento u otro análisis que pueda ocurrir más adelante.

¿Qué se puede hacer con la extracción de datos?

Básicamente, los propósitos de extracción de datos se dividen en 3 categorías.

  • Archivando
    La extracción de datos puede convertir datos de formatos físicos como libros, periódicos, facturas a formatos digitales como bases de datos para almacenamiento o respaldo.
  • Cambiar el formato de datos
    Cuando desee migrar datos de su sitio actual a uno nuevo en desarrollo, puede recopilar datos de su propio sitio extrayéndolos.
  • Анализ данных
    Es común analizar más a fondo los datos extraídos para obtener información sobre ellos. Esto puede sonar similar a la minería de datos, pero tenga en cuenta que la minería de datos es el objetivo de la minería de datos, no parte de ella. Además, los datos se analizan de manera diferente. Un ejemplo es que los propietarios de tiendas en línea extraen información de productos de sitios de comercio electrónico como Amazon para monitorear las estrategias de la competencia en tiempo real. Al igual que la minería de datos, la extracción de datos es un proceso automatizado con muchos beneficios. En el pasado, las personas copiaban y pegaban datos manualmente de un lugar a otro, lo que requería mucho tiempo. La extracción de datos acelera la recopilación y mejora en gran medida la precisión de los datos extraídos.

Algunos ejemplos del uso de la extracción de datos

Al igual que la minería de datos, la minería de datos se usa ampliamente en varias industrias. Además del monitoreo de precios de comercio electrónico, la minería de datos puede ayudarlo con su propia investigación, agregación de noticias, marketing, bienes raíces, viajes y turismo, consultoría, finanzas y más.

  • Generación líder
    Las empresas pueden extraer datos de directorios: Yelp, Crunchbase, Yellowpages y generar clientes potenciales para el desarrollo comercial. Puede ver el video a continuación para aprender cómo extraer datos de Yellowpages con plantilla de raspado web.

  • Agregación de contenidos y noticias.
    Los sitios web de agregación de contenido pueden recibir fuentes de datos regulares de múltiples fuentes y mantener sus sitios actualizados.
  • Análisis de los sentimientos
    Después de extraer reseñas, comentarios y testimonios de redes sociales como Instagram y Twitter, los profesionales pueden analizar las actitudes subyacentes y obtener información sobre cómo se percibe una marca, un producto o un fenómeno.

Pasos de extracción de datos

La extracción de datos es la primera etapa de ETL (Extraer, Transformar, Cargar: Extraer, Transformar, Cargar) y ELT (Extraer, Cargar y Transformar). ETL y ELT son en sí mismos parte de una estrategia completa de integración de datos. En otras palabras, la extracción de datos puede ser parte de su extracción.

Comprender la diferencia entre minería de datos y extracción de datos
Extraer, transformar, cargar

Si bien la minería de datos se trata de extraer información de grandes cantidades de datos, la extracción de datos es un proceso mucho más corto y simple. Se puede reducir a tres etapas:

  1. Selección de una fuente de datos
    Seleccione la fuente de la que desea extraer datos, como un sitio web.
  2. Сбор данных
    Envíe una solicitud "GET" al sitio y analice el documento HTML resultante utilizando lenguajes de programación como Python, PHP, R, Ruby, etc.
  3. Almacenamiento de datos
    Guarde los datos en su base de datos local o almacenamiento en la nube para uso futuro. Si es un programador experimentado que desea extraer datos, los pasos anteriores pueden parecerle simples. Sin embargo, si no es programador, hay un atajo: use herramientas de minería de datos como octoparse. Las herramientas de extracción de datos, al igual que las herramientas de minería de datos, están diseñadas para ahorrar energía y facilitar el procesamiento de datos para todos. Estas herramientas no solo son económicas, sino también fáciles de usar para principiantes. Permiten a los usuarios recopilar datos en cuestión de minutos, almacenarlos en la nube y exportarlos a muchos formatos: Excel, CSV, HTML, JSON o bases de datos en el sitio a través de una API.

Desventajas de la extracción de datos

  • Caída del servidor
    Al extraer datos a gran escala, el servidor web del sitio de destino puede sobrecargarse, lo que puede provocar un bloqueo del servidor. Esto perjudicará los intereses del propietario del sitio.
  • Prohibición por IP
    Cuando una persona recopila datos con demasiada frecuencia, los sitios web pueden bloquear su dirección IP. Un recurso puede prohibir por completo una dirección IP o restringir el acceso haciendo que los datos estén incompletos. Para recuperar datos y evitar el bloqueo, debe hacerlo a una velocidad moderada y aplicar algunas técnicas antibloqueo.
  • Problemas con la ley
    La extracción de datos de la web cae en un área gris cuando se trata de legalidad. Los principales sitios como Linkedin y Facebook establecen claramente en sus términos de uso que está prohibida cualquier extracción automática de datos. Ha habido muchas demandas entre empresas debido a las actividades de los bots.

Diferencias clave entre la minería de datos y la extracción de datos

  1. La minería de datos también se denomina descubrimiento de conocimiento en bases de datos, extracción de conocimiento, análisis de datos/patrones, recopilación de información. La extracción de datos se usa indistintamente con la extracción de datos web, el escaneo de páginas web, la recopilación de datos, etc.
  2. La investigación de minería de datos se basa principalmente en datos estructurados, mientras que la minería de datos generalmente se basa en fuentes no estructuradas o mal estructuradas.
  3. El objetivo de la minería de datos es hacer que los datos sean más útiles para el análisis. La extracción de datos es la recopilación de datos en un lugar donde se pueden almacenar o procesar.
  4. El análisis en la minería de datos se basa en métodos matemáticos para identificar patrones o tendencias. La extracción de datos se basa en lenguajes de programación o herramientas de extracción de datos para eludir las fuentes.
  5. El propósito de la minería de datos es encontrar hechos que antes no se conocían o ignoraban, mientras que la extracción de datos se ocupa de la información existente.
  6. La minería de datos es más compleja y requiere una gran inversión en capacitación de personas. La extracción de datos con la herramienta adecuada puede ser extremadamente fácil y rentable.

Ayudamos a los principiantes a no confundirse con los datos. Especialmente para habravchans, hicimos un código promocional. HABR, otorgando un 10% de descuento adicional al descuento indicado en el banner.

Comprender la diferencia entre minería de datos y extracción de datos

Más cursos

Artículos recomendados

Fuente: habr.com