Datu-meatzaritza eta datu-erauzketaren arteko aldea ulertzea

Datu-meatzaritza eta datu-erauzketaren arteko aldea ulertzea
Datu-zientziaren bi hitz hauek jende asko nahasten dute. Data Mining sarritan gaizki ulertzen da datuak ateratzea eta berreskuratzea, baina errealitatea askoz konplexuagoa da. Argitalpen honetan, egin dezagun Meatzaritza puntua eta jakin dezagun datuen meatzaritza eta datuen erauzketa arteko aldea.

Zer da Data Mining?

Datu meatzaritza ere deitua Datu-basearen ezagutzaren aurkikuntza (KDD), metodo estatistiko eta matematikoak erabiliz datu multzo handiak aztertzeko sarritan erabiltzen den teknika da, ezkutuko ereduak edo joerak aurkitzeko eta horietatik balioa ateratzeko.

Zer egin daiteke Data Mining-ekin?

Prozesua automatizatuz, datuak meatzaritza tresnak datu-baseak arakatu eta ezkutuko ereduak modu eraginkorrean aurki ditzake. Enpresentzat, datuen meatzaritza sarritan erabiltzen da datuetan ereduak eta harremanak aurkitzeko, negozio-erabaki hobeak hartzen laguntzeko.

Aplikazio-adibideak

1990eko hamarkadan datu-meatzaritza hedatu ondoren, hainbat sektoretako enpresek, txikizkako merkataritza, finantzak, osasun-laguntza, garraioa, telekomunikazioak, merkataritza elektronikoa, etab., datu-meatzaritza metodoak erabiltzen hasi ziren datuen gaineko informazioa lortzeko. Datu-meatzaritzak bezeroak segmentatzen lagun dezake, iruzurra identifikatzen, salmentak aurreikusten eta abar.

  • Bezeroen segmentazioa
    Bezeroen datuak aztertuz eta xede-bezeroen ezaugarriak identifikatuz, enpresek talde bereizi batean taldeka ditzakete eta beren beharrak asetzen dituzten eskaintza bereziak eskaini.
  • Merkatu Saskiaren Azterketa
    Teknika hau produktu-talde jakin bat erosten baduzu, produktu-talde ezberdin bat erosteko aukera gehiago izango duzula dioen teorian oinarritzen da. Adibide ospetsu bat: aitak umeentzako pixoihalak erosten dituztenean, pixoihalekin batera garagardoa erosteko joera dute.
  • Salmenten aurreikuspena
    Merkatu-saskiaren analisiaren antzekoa dirudi, baina oraingoan datuen analisia bezero batek produktu bat noiz erosiko duen etorkizunean iragartzeko erabiltzen da. Adibidez, entrenatzaile batek 9 hilabete iraun beharko lukeen proteina lata bat erosten du. Proteina hau saltzen duen dendak 9 hilabete barru berri bat kaleratzeko asmoa du, entrenatzaileak berriro erosi dezan.
  • Iruzurra hautematea
    Datu-meatzaritzak iruzurra detektatzeko ereduak eraikitzen laguntzen du. Iruzurrezko eta egiazko txostenen laginak bilduz, enpresei ahalmena ematen zaie zein transakzio susmagarriak diren zehazteko.
  • Ereduen detekzioa ekoizpenean
    Fabrikazio-industrian, datuen meatzaritza erabiltzen da sistemak diseinatzen laguntzeko, produktuen arkitekturaren, profilaren eta bezeroen beharren arteko erlazioa identifikatuz. Datu meatzaritzak produktuak garatzeko denborak eta kostuak ere aurreikus ditzake.

Eta hauek datu-meatzaritzako erabilera kasu batzuk besterik ez dira.

Datu-meatzaritzaren faseak

Datu-meatzaritza datuak biltzeko, hautatzeko, garbitzeko, eraldatzeko eta ateratzeko prozesu holistiko bat da, ereduak ebaluatzeko eta, azken finean, balioa ateratzeko.

Datu-meatzaritza eta datu-erauzketaren arteko aldea ulertzea

Orokorrean, datuen meatzaritza prozesu osoa 7 urratsetan labur daiteke:

  1. Datuen garbiketa
    Mundu errealean, datuak ez dira beti garbitzen eta egituratzen. Askotan zaratatsuak dira, osatu gabeak eta akatsak izan ditzakete. Datu-meatzaritzaren emaitza zehatza dela ziurtatzeko, lehenik datuak garbitu behar dituzu. Garbiketa metodo batzuk falta diren balioak betetzea, kontrol automatikoak eta eskuzkoak, etab.
  2. Datuen integrazioa
    Iturri ezberdinetako datuak atera, konbinatu eta integratzen diren etapa da. Iturburuak datu-baseak, testu-fitxategiak, kalkulu-orriak, dokumentuak, dimentsio anitzeko datu multzoak, Internet eta abar izan daitezke.
  3. Datuen laginketa
    Normalean, ez dira datu integratu guztiak behar datu meatzaritzan. Datu-laginketa datu-base handi batetik datu erabilgarriak bakarrik hautatzen eta ateratzen diren etapa da.
  4. Datuen bihurketa
    Datuak hautatu ondoren, meatzaritzarako egokiak diren inprimakietan bihurtzen dira. Prozesu honek normalizazioa, agregazioa, orokortzea, etab.
  5. Datu-meatzaritza
    Hona hemen datu-meatzaritzaren zatirik garrantzitsuena: metodo adimentsuak erabiltzea haietan ereduak aurkitzeko. Prozesuak erregresioa, sailkapena, iragarpena, multzokatzea, elkartze ikaskuntza eta abar barne hartzen ditu.
  6. Ereduaren ebaluazioa
    Urrats honek baliagarriak izan daitezkeen ereduak eta ulerterrazak identifikatzea du helburu, baita hipotesiak onartzen dituzten ereduak ere.
  7. Ezagutzaren irudikapena
    Azken fasean, lortutako informazioa modu erakargarrian aurkezten da ezagutzaren irudikapen eta bistaratzeko metodoak erabiliz.

Datu-meatzaritzaren desabantailak

  • Denbora eta lan inbertsio handia
    Datuen meatzaritza prozesu luze eta konplexua denez, jende produktibo eta trebeen lan handia eskatzen du. Datu-zientzialariek datu-meatzaritzako tresna indartsuak erabil ditzakete, baina adituak behar dituzte datuak prestatzeko eta emaitzak ulertzeko. Ondorioz, baliteke denbora pixka bat behar izatea informazio guztia prozesatzeko.
  • Datuen pribatutasuna eta segurtasuna
    Datu-meatzaritzak bezeroen informazioa merkatuko metodoen bidez biltzen duenez, erabiltzailearen pribatutasuna urratu dezake. Gainera, hacker-ek datu-meatzaritza sistemetan gordetako datuak lor ditzakete. Horrek bezeroen datuen segurtasunerako mehatxua dakar. Lapurtutako datuak gaizki erabiltzen badira, besteei erraz kaltetu diezaieke.

Aurrekoa datu-meatzaritzari buruzko sarrera labur bat da. Esan bezala, datu-meatzaritzak datuak biltzeko eta integratzeko prozesua biltzen du, eta horrek datuak erauzteko prozesua barne hartzen du (datuen erauzketa). Kasu honetan, segurua da datuen erauzketa datuen meatzaritza prozesu luze baten parte izan daitekeela.

Zer da Datuen Erauzketa?

"Web datuen meatzaritza" eta "web scraping" izenez ere ezagutzen dena, prozesu hau datu-iturrietatik (normalean egituratu gabekoak edo gaizki egituratuta) datuak ateratzeko ekintza da eta kokapen zentralizatuetara zentralizatzea eta biltegiratzeko edo prozesatzeko gehiago prozesatzeko. Zehazki, egituratu gabeko datu-iturriak web orriak, posta elektronikoa, dokumentuak, PDF fitxategiak, testu eskaneatua, mainframe txostenak, bobina fitxategiak, iragarkiak eta abar dira. Biltegiratze zentralizatua lokala, hodeia edo hibridoa izan daiteke. Garrantzitsua da gogoratzea datuen erauzketa ez dela barne hartzen geroago gerta daitezkeen prozesamenduak edo bestelako analisiak.

Zer egin daiteke Datuen Erauzketarekin?

Funtsean, datuak ateratzeko helburuak 3 kategoriatan sartzen dira.

  • Artxibatzea
    Datuak erauzteak formatu fisikoetatik, hala nola liburuak, egunkariak, fakturak, formatu digitaletara bihur ditzake datu-baseak, gordetzeko edo babeskopiak egiteko.
  • Datuen formatua aldatzea
    Zure uneko gunetik datuak garatzen ari den beste batera migratu nahi dituzunean, zure guneko datuak bildu ditzakezu ateraz.
  • Datuen analisia
    Ohikoa da ateratako datuak gehiago aztertzea berau ezagutzeko. Datu-meatzaritzaren antzekoa izan daiteke, baina kontuan izan datu-meatzaritza datu-meatzaritzaren helburua dela, ez horren parte. Gainera, datuak modu ezberdinean aztertzen dira. Adibide bat da lineako dendaren jabeek Amazon bezalako merkataritza elektronikoko guneetatik produktuen informazioa ateratzen dutela lehiakideen estrategiak denbora errealean kontrolatzeko. Datuen meatzaritza bezala, datuen erauzketa prozesu automatizatu bat da, onura asko dituena. Iraganean, jendeak eskuz kopiatzen eta itsatsi zituen datuak leku batetik bestera, eta horrek denbora asko ematen zuen. Datuak erauzteak bilketa bizkortzen du eta ateratako datuen zehaztasuna asko hobetzen du.

Datu-erauzketa erabiltzearen adibide batzuk

Datu meatzaritzaren antzera, datuen meatzaritza asko erabiltzen da hainbat industriatan. Merkataritza elektronikoko prezioen jarraipenaz gain, datu-meatzaritzak zure ikerketa, albisteen agregazioa, marketina, higiezinak, bidaiak eta turismoa, aholkularitza, finantzak eta abarrekin lagun dezake.

  • Berun-sorkuntza
    Enpresek direktorioetatik datuak atera ditzakete: Yelp, Crunchbase, Yellowpages eta negozioaren garapenerako lead-ak sor ditzakete. Beheko bideoa ikusi dezakezu Yellowpages-en datuak nola atera ikasteko web scraping txantiloia.

  • Edukien eta albisteen batuketa
    Edukia batzen duten webguneek iturri anitzetako datu-jario erregularrak jaso ditzakete eta webguneak eguneratuta eduki ditzakete.
  • Sentimenduen analisia
    Instagram eta Twitter bezalako sare sozialetatik iruzkinak, iruzkinak eta testigantzak atera ondoren, profesionalek azpiko jarrerak azter ditzakete eta marka, produktu edo fenomeno bat nola hautematen den jakiteko.

Datuak erauzteko urratsak

Datuen erauzketa ETL (Extract, Transform, Load: Extract, Transform, Load) eta ELT (Extract, Load, and Transform)-en lehen fasea da. ETL eta ELT datuak integratzeko estrategia oso baten parte dira. Beste era batera esanda, datuak ateratzea haien erauzketaren parte izan daiteke.

Datu-meatzaritza eta datu-erauzketaren arteko aldea ulertzea
Atera, eraldatu, kargatu

Datuen meatzaritza datu kopuru handietatik informazioa ateratzea den arren, datuen erauzketa prozesu askoz laburragoa eta sinpleagoa da. Hiru fasetara murriztu daiteke:

  1. Datu-iturri bat hautatzea
    Hautatu datuak atera nahi dituzun iturria, adibidez, webgune batetik.
  2. Datu bilketa
    Bidali "GET" eskaera gunera eta analizatu ondoriozko HTML dokumentua Python, PHP, R, Ruby, etab. programazio lengoaiak erabiliz.
  3. Datuak biltegiratzea
    Gorde datuak tokiko datu-basean edo hodeiko biltegian, etorkizunean erabiltzeko. Datuak atera nahi dituen programatzaile esperientziaduna bazara, goiko urratsak errazak irudituko zaizkizu. Hala ere, programatzailea ez bazara, lasterbide bat dago: erabili datu-meatzaritzako tresnak bezalakoak Olagarroa. Datuak erauzteko tresnak, datu-meatzaritzako tresnak bezalaxe, energia aurrezteko eta datuen prozesamendua denontzat erraza izateko diseinatuta daude. Tresna hauek ez dira soilik ekonomikoak, baita hasiberrientzat ere. Erabiltzaileek minutu gutxitan datuak biltzeko, hodeian gordetzeko eta formatu askotara esportatzeko aukera ematen diete: Excel, CSV, HTML, JSON edo guneko datu-baseetara API baten bidez.

Datuak erauztearen desabantailak

  • Zerbitzariaren hutsegitea
    Datuak eskala handian ateratzen direnean, xede guneko web zerbitzaria gainkargatuta egon daiteke, eta horrek zerbitzariaren hutsegite bat ekar dezake. Horrek gunearen jabearen interesei kalte egingo die.
  • Debekatu IP bidez
    Pertsona batek datuak maizegi biltzen dituenean, webguneek bere IP helbidea blokeatu dezakete. Baliabide batek IP helbide bat guztiz debekatu edo sarbidea mugatu dezake datuak osatu gabe eginez. Datuak berreskuratzeko eta blokeoak saihesteko, abiadura moderatuan egin eta blokeoaren aurkako teknika batzuk aplikatu behar dituzu.
  • Zuzenbidearekin arazoak
    Webetik datuak ateratzea eremu gris batean erortzen da legezkotasunari dagokionez. Linkedin eta Facebook bezalako gune nagusiek beren erabilera-baldintzetan argi eta garbi adierazten dute debekatuta dagoela edozein datu automatikoki erauztea. Enpresen artean auzi asko egon dira bot jardueren ondorioz.

Datu-meatzaritza eta datu-erauzketaren arteko gakoak

  1. Datu-meatzaritza datu-baseetan ezagutza aurkikuntza, ezagutza erauzketa, datu/ereduen azterketa, informazio bilketa ere deitzen zaio. Datu-erauzketa web-datuen erauzketarekin, web-orrialdeen eskaneatzearekin, datu-bilketarekin eta abarrekin batera erabiltzen da.
  2. Datu-meatzaritzaren ikerketa gehienbat datu egituratuetan oinarritzen da, eta datu-meatzaritza normalean egituratu gabeko edo gaizki egituratutako iturrietatik ateratzen da.
  3. Datu-meatzaritzaren helburua datuak aztertzeko baliagarriagoak izatea da. Datuak ateratzea datuak leku bakarrean biltzea da, non gorde edo prozesatu ahal izateko.
  4. Datu meatzaritzan analisia ereduak edo joerak identifikatzeko metodo matematikoetan oinarritzen da. Datuen erauzketa programazio lengoaietan edo datuak erauzteko tresnetan oinarritzen da iturriak saihesteko.
  5. Datu-meatzaritzaren helburua lehen ezagutzen edo baztertzen ez ziren gertakariak aurkitzea da, datuen erauzketa lehendik dagoen informazioa lantzen duen bitartean.
  6. Datuen meatzaritza konplexuagoa da eta inbertsio handia eskatzen du pertsonak prestatzeko. Tresna egokiarekin datuak ateratzea oso erraza eta errentagarria izan daiteke.

Hasiberriei Datuetan nahasten ez daitezen laguntzen diegu. Batez ere habravchanentzat, promozio-kode bat egin dugu HABR, pankartan adierazitako deskontuari %10eko deskontu gehigarria emanez.

Datu-meatzaritza eta datu-erauzketaren arteko aldea ulertzea

Ikastaro gehiago

Artikulu aipagarriak

Iturria: www.habr.com