Comprendre la diferència entre la mineria de dades i l'extracció de dades

Comprendre la diferència entre la mineria de dades i l'extracció de dades
Aquestes dues paraules de moda de ciència de dades confonen molta gent. Sovint s'entén malament la mineria de dades com a extreure i recuperar dades, però en realitat és molt més complexa. En aquesta publicació, donem els últims retocs a la mineria i descobrirem la diferència entre la mineria de dades i l'extracció de dades.

Què és la mineria de dades?

Mineria de dades, també anomenada Descobriment de coneixements a la base de dades (KDD), és una tècnica que s'utilitza sovint per analitzar grans quantitats de dades mitjançant tècniques estadístiques i matemàtiques per trobar patrons o tendències ocults i extreure'n valor.

Què pots fer amb la mineria de dades?

En automatitzar el procés, eines de mineria de dades pot escanejar bases de dades i identificar eficaçment patrons ocults. Per a les empreses, la mineria de dades s'utilitza sovint per identificar patrons i relacions a les dades per ajudar a prendre millors decisions empresarials.

Exemples d'aplicació

Després que la mineria de dades es va generalitzar a la dècada de 1990, les empreses d'una àmplia gamma d'indústries, com ara comerç minorista, finances, sanitat, transport, telecomunicacions, comerç electrònic, etc., van començar a utilitzar tècniques de mineria de dades per obtenir informació basada en dades. La mineria de dades pot ajudar a segmentar els clients, detectar fraus, preveure vendes i molt més.

  • Segmentació de clients
    Mitjançant l'anàlisi de les dades dels clients i la identificació de les característiques dels clients objectiu, les empreses poden orientar-los a un grup diferent i oferir ofertes especials que satisfan les seves necessitats.
  • Anàlisi de cistella de mercat
    Aquesta tècnica es basa en la teoria que si compreu un determinat grup de productes, és més probable que compreu un altre grup de productes. Un exemple famós: quan els pares compren bolquers per als seus nadons, solen comprar cervesa juntament amb els bolquers.
  • Previsió de vendes
    Això pot semblar similar a l'anàlisi de la cistella del mercat, però aquesta vegada l'anàlisi de dades s'utilitza per predir quan un client tornarà a comprar un producte en el futur. Per exemple, un entrenador compra una llauna de proteïnes, que hauria de durar 9 mesos. La botiga que ven aquesta proteïna té previst llançar-ne una de nova en 9 mesos, de manera que l'entrenador la tornarà a comprar.
  • Detecció de frau
    La mineria de dades ajuda a crear models per detectar fraus. En recollir mostres d'informes fraudulents i legítims, les empreses tenen el poder de determinar quines transaccions són sospitoses.
  • Detecció de patrons en producció
    A la indústria manufacturera, la mineria de dades s'utilitza per ajudar en el disseny del sistema identificant la relació entre l'arquitectura del producte, el perfil i les necessitats del client. La mineria de dades també pot predir els terminis i els costos del desenvolupament del producte.

I aquests són només alguns escenaris per utilitzar la mineria de dades.

Etapes de mineria de dades

La mineria de dades és el procés holístic de recopilar, seleccionar, netejar, transformar i extreure dades per avaluar patrons i, finalment, extreure valor.

Comprendre la diferència entre la mineria de dades i l'extracció de dades

Per regla general, tot el procés de mineria de dades es pot resumir en 7 etapes:

  1. Neteja de dades
    Al món real, les dades no sempre es netegen i s'estructuren. Sovint són sorollosos, incomplets i poden contenir errors. Per assegurar-vos que el resultat de la mineria de dades sigui precís, primer heu de netejar les dades. Alguns mètodes de neteja inclouen l'ompliment dels valors que falten, la comprovació automàtica i manual, etc.
  2. Integració de dades
    Aquesta és l'etapa on s'extreuen, es combinen i s'integren dades de diferents fonts. Les fonts poden ser bases de dades, fitxers de text, fulls de càlcul, documents, conjunts de dades multidimensionals, Internet, etc.
  3. Mostreig de dades
    Normalment, no totes les dades integrades són necessàries per a la mineria de dades. El mostreig de dades és l'etapa en què només es seleccionen i s'extreuen dades útils d'una gran base de dades.
  4. Conversió de dades
    Un cop seleccionades les dades, es converteixen en formes adequades per a la mineria. Aquest procés inclou la normalització, l'agregació, la generalització, etc.
  5. Mineria de dades
    Aquí ve la part més important de la mineria de dades: utilitzar mètodes intel·ligents per trobar-hi patrons. El procés inclou regressió, classificació, predicció, agrupació, aprenentatge d'associació i molt més.
  6. Avaluació del model
    Aquest pas pretén identificar patrons potencialment útils, fàcils d'entendre i que donen suport a les hipòtesis.
  7. Representació del coneixement
    En l'etapa final, la informació obtinguda es presenta de forma atractiva mitjançant mètodes de representació i visualització del coneixement.

Inconvenients de la mineria de dades

  • Gran inversió de temps i mà d'obra
    Com que la mineria de dades és un procés llarg i complex, requereix molta feina de persones productives i qualificades. Els miners de dades poden aprofitar les potents eines de mineria de dades, però requereixen experts que preparin les dades i entenguin els resultats. Com a resultat, pot trigar un temps a processar tota la informació.
  • Privadesa i seguretat de les dades
    Com que la mineria de dades recopila informació dels clients mitjançant mètodes de mercat, pot violar la privadesa de l'usuari. A més, els pirates informàtics poden obtenir dades emmagatzemades en sistemes de mineria de dades. Això suposa una amenaça per a la seguretat de les dades dels clients. Si les dades robades s'utilitzen malament, pot danyar fàcilment a altres persones.

L'anterior és una breu introducció a la mineria de dades. Com ja he comentat, la mineria de dades implica el procés de recollida i integració de dades, que inclou el procés d'extracció de dades. En aquest cas, és segur dir que l'extracció de dades pot formar part d'un procés de mineria de dades a llarg termini.

Què és l'extracció de dades?

També conegut com a "mineria de dades web" i "scraping web", aquest procés és l'acte d'extreure dades de fonts de dades (generalment no estructurades o mal estructurades) a ubicacions centralitzades i centralitzar-les en un sol lloc per a l'emmagatzematge o el processament posterior. Concretament, les fonts de dades no estructurades inclouen pàgines web, correu electrònic, documents, fitxers PDF, text escanejat, informes de mainframe, fitxers de bobina a bobina, anuncis, etc. L'emmagatzematge centralitzat pot ser local, al núvol o híbrid. És important recordar que l'extracció de dades no inclou el processament ni altres anàlisis que es puguin produir posteriorment.

Què pots fer amb l'extracció de dades?

Bàsicament, els propòsits de l'extracció de dades es divideixen en 3 categories.

  • Arxivar
    L'extracció de dades pot transformar dades de formats físics: llibres, diaris, factures en formats digitals, com bases de dades per a l'emmagatzematge o còpia de seguretat.
  • Canviar el format de les dades
    Quan vulgueu migrar dades del vostre lloc actual a un de nou en desenvolupament, podeu recollir dades del vostre lloc extraient-les.
  • Anàlisi de dades
    L'anàlisi addicional de les dades extretes per obtenir informació és habitual. Això pot semblar similar a la mineria de dades, però tingueu en compte que la mineria de dades és el propòsit de la mineria de dades, no en forma part. A més, les dades s'analitzen de manera diferent. Un exemple: els propietaris de botigues en línia extreuen informació del producte de llocs de comerç electrònic com Amazon per supervisar les estratègies dels competidors en temps real. Igual que la mineria de dades, l'extracció de dades és un procés automatitzat que té molts avantatges. Antigament, la gent solia copiar i enganxar dades manualment d'un lloc a un altre, cosa que requeria molt de temps. L'extracció de dades accelera la recollida i millora considerablement la precisió de les dades extretes.

Alguns exemples d'ús de l'extracció de dades

Similar a la mineria de dades, la mineria de dades s'utilitza àmpliament en diverses indústries. A més de controlar els preus en el comerç electrònic, la mineria de dades us pot ajudar en la vostra pròpia recerca, agregació de notícies, màrqueting, béns arrels, viatges i turisme, consultoria, finances i molt més.

  • Generació de plom
    Les empreses poden extreure dades dels directoris: Yelp, Crunchbase, Yellowpages i generar contactes per al desenvolupament empresarial. Podeu veure el vídeo següent per saber com extreure dades de les pàgines grogues utilitzant plantilla de raspat web.

  • Agregació de continguts i notícies
    Els llocs web d'agregació de contingut poden rebre fluxos regulars de dades de diverses fonts i mantenir els seus llocs actualitzats.
  • Anàlisi de sentiments
    En extreure ressenyes, comentaris i comentaris de llocs de xarxes socials com Instagram i Twitter, els experts poden analitzar els sentiments subjacents i obtenir informació sobre com es percep una marca, un producte o un fenomen.

Passos d'extracció de dades

L'extracció de dades és la primera etapa d'ETL (abreviatura Extract, Transform, Load) i ELT (extract, load and transform). ETL i ELT formen part d'una estratègia completa d'integració de dades. En altres paraules, l'extracció de dades pot formar part de la mineria de dades.

Comprendre la diferència entre la mineria de dades i l'extracció de dades
Extraure, convertir, carregar

Tot i que la mineria de dades consisteix a extreure informació de grans quantitats de dades, l'extracció de dades és un procés molt més curt i senzill. Es pot reduir a tres etapes:

  1. Selecció d'una font de dades
    Seleccioneu la font de la qual voleu extreure dades, com ara un lloc web.
  2. Recopilació de dades
    Envieu una sol·licitud "GET" al lloc i analitzeu el document HTML resultant mitjançant llenguatges de programació com Python, PHP, R, Ruby, etc.
  3. Emmagatzematge de dades
    Deseu dades a la vostra base de dades local o emmagatzematge al núvol per a un ús futur. Si sou un programador experimentat que vol extreure dades, els passos anteriors us poden semblar senzills. Tanmateix, si no codifiqueu, una drecera és utilitzar eines d'extracció de dades, p. Octopars. Les eines d'extracció de dades, com les eines de mineria de dades, estan dissenyades per estalviar energia i facilitar el processament de dades per a tothom. Aquestes eines no només són econòmiques sinó també aptes per a principiants. Permeten als usuaris recopilar dades en qüestió de minuts, emmagatzemar-les al núvol i exportar-les a molts formats: Excel, CSV, HTML, JSON o a bases de dades de llocs web mitjançant API.

Inconvenients de l'extracció de dades

  • Error del servidor
    Quan es recuperen dades a gran escala, el servidor web del lloc de destinació pot estar sobrecarregat, cosa que pot provocar que el servidor es bloquegi. Això perjudicarà els interessos del propietari del lloc.
  • Prohibició per IP
    Quan una persona recull dades amb massa freqüència, els llocs web poden bloquejar la seva adreça IP. El recurs pot negar completament una adreça IP o limitar l'accés, fent que les dades siguin incompletes. Per recuperar dades i evitar el bloqueig, cal fer-ho a una velocitat moderada i utilitzar algunes tècniques antibloqueig.
  • Problemes de dret
    L'extracció de dades del web cau en una zona grisa quan es tracta de legalitat. Els grans llocs com Linkedin i Facebook indiquen clarament a les seves condicions d'ús que està prohibida qualsevol extracció automatitzada de dades. Hi ha hagut moltes demandes entre empreses per l'activitat dels bots.

Diferències clau entre la mineria de dades i l'extracció de dades

  1. La mineria de dades també s'anomena descobriment de coneixement en bases de dades, extracció de coneixement, anàlisi de dades/patró, recopilació d'informació. L'extracció de dades s'utilitza de manera intercanviable amb l'extracció de dades web, el rastreig web, la mineria de dades, etc.
  2. La recerca de mineria de dades es basa principalment en dades estructurades, mentre que en la mineria de dades sol extreure's de fonts no estructurades o poc estructurades.
  3. L'objectiu de la mineria de dades és fer que les dades siguin més útils per a l'anàlisi. L'extracció de dades és la recollida de dades en un lloc on es poden emmagatzemar o processar.
  4. L'anàlisi en mineria de dades es basa en mètodes matemàtics per identificar patrons o tendències. L'extracció de dades es basa en llenguatges de programació o eines d'extracció de dades per rastrejar fonts.
  5. L'objectiu de la mineria de dades és trobar fets que abans eren desconeguts o ignorats, mentre que l'extracció de dades tracta la informació existent.
  6. La mineria de dades és més complexa i requereix grans inversions en formació de persones. L'extracció de dades, quan s'utilitza amb l'eina adequada, pot ser extremadament senzilla i rendible.

Ajudem els principiants a no confondre's amb les dades. Hem creat un codi promocional especialment per als residents de Khabra HABR, donant un 10% de descompte addicional al descompte indicat al banner.

Comprendre la diferència entre la mineria de dades i l'extracció de dades

Més cursos

Articles destacats

Font: www.habr.com