Pochopenie rozdielu medzi dolovaním údajov a extrakciou údajov

Pochopenie rozdielu medzi dolovaním údajov a extrakciou údajov
Tieto dve módne slová Data Science mätú veľa ľudí. Data Mining je často mylne chápaný ako extrahovanie a získavanie údajov, ale realita je oveľa zložitejšia. V tomto príspevku sa pozrime na ťažbu a zistime rozdiel medzi dolovaním údajov a extrakciou údajov.

Čo je dolovanie údajov?

Data mining, tiež tzv Zisťovanie znalostí databázy (KDD), je technika často používaná na analýzu veľkých súborov údajov pomocou štatistických a matematických metód na nájdenie skrytých vzorcov alebo trendov a extrahovanie hodnoty z nich.

Čo sa dá robiť pomocou dolovania údajov?

Automatizáciou procesu, nástroje na dolovanie údajov dokáže prehľadávať databázy a efektívne odhaľovať skryté vzory. V podnikoch sa dolovanie údajov často používa na objavovanie vzorcov a vzťahov v údajoch, ktoré pomáhajú prijímať lepšie obchodné rozhodnutia.

Príklady aplikácií

Po rozšírení dolovania údajov v 1990. rokoch XNUMX. storočia začali spoločnosti v širokej škále odvetví vrátane maloobchodu, financií, zdravotníctva, dopravy, telekomunikácií, elektronického obchodu atď. využívať metódy dolovania údajov na získavanie informácií na základe údajov. Data mining môže pomôcť segmentovať zákazníkov, identifikovať podvody, predpovedať predaj a ďalšie.

  • Segmentácia zákazníkov
    Analýzou údajov o zákazníkoch a identifikáciou vlastností cieľových zákazníkov ich môžu spoločnosti zoskupiť do samostatnej skupiny a poskytnúť im špeciálne ponuky, ktoré vyhovujú ich potrebám.
  • Analýza trhového koša
    Táto technika je založená na teórii, že ak si kúpite určitú skupinu produktov, je pravdepodobnejšie, že si kúpite inú skupinu produktov. Jeden slávny príklad: keď otcovia kupujú plienky pre svoje deti, majú tendenciu kupovať spolu s plienkami aj pivo.
  • Predpovedanie predaja
    Môže sa to zdať podobné analýze trhového koša, ale tentoraz sa analýza údajov používa na predpovedanie, kedy si zákazník v budúcnosti opäť kúpi produkt. Napríklad tréner si kúpi plechovku proteínu, ktorá by mala vydržať 9 mesiacov. Obchod, ktorý tento proteín predáva, plánuje vydať nový o 9 mesiacov, aby si ho tréner kúpil znova.
  • Odhaľovanie podvodov
    Data mining pomáha pri vytváraní modelov na odhaľovanie podvodov. Zhromažďovaním vzoriek podvodných a pravdivých správ môžu podniky určiť, ktoré transakcie sú podozrivé.
  • Detekcia vzorov vo výrobe
    Vo výrobnom priemysle sa dolovanie údajov používa na pomoc pri navrhovaní systémov identifikáciou vzťahu medzi architektúrou produktu, profilom a potrebami zákazníkov. Data mining môže tiež predpovedať časy a náklady na vývoj produktu.

A to je len niekoľko prípadov použitia pre dolovanie údajov.

Etapy dolovania údajov

Data mining je holistický proces zhromažďovania, výberu, čistenia, transformácie a extrakcie údajov s cieľom vyhodnotiť vzory a v konečnom dôsledku extrahovať hodnotu.

Pochopenie rozdielu medzi dolovaním údajov a extrakciou údajov

Vo všeobecnosti možno celý proces dolovania údajov zhrnúť do 7 krokov:

  1. Čistenie dát
    V reálnom svete nie sú údaje vždy vyčistené a štruktúrované. Často sú hlučné, neúplné a môžu obsahovať chyby. Aby ste sa uistili, že výsledok dolovania údajov je presný, musíte údaje najskôr vyčistiť. Niektoré spôsoby čistenia zahŕňajú doplnenie chýbajúcich hodnôt, automatické a manuálne ovládanie atď.
  2. Integrácia údajov
    Toto je fáza, v ktorej sa získavajú, kombinujú a integrujú údaje z rôznych zdrojov. Zdrojmi môžu byť databázy, textové súbory, tabuľky, dokumenty, multidimenzionálne súbory údajov, internet atď.
  3. Vzorkovanie údajov
    Pri dolovaní údajov zvyčajne nie sú potrebné všetky integrované údaje. Vzorkovanie údajov je fáza, v ktorej sa z veľkej databázy vyberajú a extrahujú iba užitočné údaje.
  4. Konverzia údajov
    Po výbere údajov sa údaje skonvertujú do foriem vhodných na ťažbu. Tento proces zahŕňa normalizáciu, agregáciu, zovšeobecnenie atď.
  5. Dolovanie dát
    Tu prichádza najdôležitejšia časť data miningu – používanie inteligentných metód na hľadanie vzorcov v nich. Proces zahŕňa regresiu, klasifikáciu, predikciu, zhlukovanie, učenie asociácií a ďalšie.
  6. Hodnotenie modelu
    Tento krok má za cieľ identifikovať potenciálne užitočné, ľahko pochopiteľné vzory, ako aj vzory, ktoré podporujú hypotézy.
  7. Reprezentácia znalostí
    V záverečnej fáze sú získané informácie prezentované atraktívnym spôsobom pomocou metód reprezentácie znalostí a vizualizácie.

Nevýhody dolovania údajov

  • Veľká investícia času a práce
    Keďže dolovanie dát je dlhý a zložitý proces, vyžaduje si veľa práce od produktívnych a zručných ľudí. Vedci údajov môžu používať výkonné nástroje na dolovanie údajov, ale na prípravu údajov a pochopenie výsledkov potrebujú odborníkov. V dôsledku toho môže spracovanie všetkých informácií chvíľu trvať.
  • Ochrana osobných údajov a bezpečnosť
    Keďže dolovanie údajov zhromažďuje informácie o zákazníkoch prostredníctvom trhových metód, môže narušiť súkromie používateľov. Okrem toho môžu hackeri získať dáta uložené v data miningových systémoch. To predstavuje hrozbu pre bezpečnosť údajov zákazníkov. Ak sa ukradnuté údaje zneužijú, môžu ľahko poškodiť iných.

Vyššie uvedené je krátky úvod do dolovania údajov. Ako som už spomenul, data mining obsahuje proces zbierania a integrácie dát, ktorý zahŕňa proces extrakcie dát (extrakcia dát). V tomto prípade možno s istotou povedať, že extrakcia údajov môže byť súčasťou dlhého procesu získavania údajov.

Čo je extrakcia údajov?

Tento proces, známy aj ako „web data mining“ a „web scraping“, je akt extrahovania údajov z (zvyčajne neštruktúrovaných alebo slabo štruktúrovaných) zdrojov údajov do centralizovaných miest a centralizácia na jednom mieste na uloženie alebo ďalšie spracovanie. Konkrétne neštruktúrované zdroje údajov zahŕňajú webové stránky, e-maily, dokumenty, súbory PDF, naskenovaný text, správy o sálovom počítači, súbory navijakov, oznámenia atď. Centralizované úložisko môže byť lokálne, cloudové alebo hybridné. Je dôležité si uvedomiť, že extrakcia údajov nezahŕňa spracovanie alebo inú analýzu, ktorá môže nastať neskôr.

Čo sa dá robiť s extrakciou dát?

V zásade spadajú účely extrakcie údajov do 3 kategórií.

  • Archivácia
    Extrakcia údajov môže previesť údaje z fyzických formátov, ako sú knihy, noviny, faktúry, do digitálnych formátov, ako sú databázy na ukladanie alebo zálohovanie.
  • Zmena formátu údajov
    Ak chcete migrovať údaje zo svojej aktuálnej lokality na novú, ktorá sa vyvíja, môžete zhromažďovať údaje zo svojej vlastnej lokality ich extrahovaním.
  • Analýza dát
    Je bežné ďalej analyzovať extrahované údaje, aby ste do nich získali prehľad. Môže to znieť podobne ako dolovanie údajov, ale majte na pamäti, že dolovanie údajov je cieľom dolovania údajov, nie jeho súčasťou. Okrem toho sa údaje analyzujú odlišne. Jedným z príkladov je, že majitelia internetových obchodov získavajú informácie o produktoch zo stránok elektronického obchodu, ako je Amazon, aby mohli v reálnom čase monitorovať stratégie konkurentov. Rovnako ako dolovanie údajov, aj extrakcia údajov je automatizovaný proces s mnohými výhodami. V minulosti ľudia kopírovali a vkladali dáta ručne z jedného miesta na druhé, čo bolo časovo veľmi náročné. Extrakcia dát urýchľuje zber a výrazne zlepšuje presnosť extrahovaných dát.

Niekoľko príkladov použitia extrakcie údajov

Podobne ako dolovanie údajov, dolovanie údajov je široko používané v rôznych odvetviach. Okrem sledovania cien v elektronickom obchode vám môže data mining pomôcť s vlastným prieskumom, agregáciou správ, marketingom, nehnuteľnosťami, cestovaním a cestovným ruchom, poradenstvom, financiami a podobne.

  • Vedúca generácia
    Spoločnosti môžu extrahovať údaje z adresárov: Yelp, Crunchbase, Yellowpages a generovať potenciálnych zákazníkov pre rozvoj podnikania. Vo videu nižšie sa dozviete, ako extrahovať údaje zo Yellowpages pomocou šablóna na zoškrabovanie webu.

  • Agregácia obsahu a správ
    Webové stránky zhromažďujúce obsah môžu prijímať pravidelné informačné kanály z viacerých zdrojov a udržiavať svoje stránky aktuálne.
  • Analýza sentimentu
    Po získaní recenzií, komentárov a posudkov zo sociálnych sietí, ako sú Instagram a Twitter, môžu odborníci analyzovať základné postoje a získať prehľad o tom, ako je značka, produkt alebo fenomén vnímaný.

Kroky extrakcie údajov

Extrakcia dát je prvou fázou ETL (Extract, Transform, Load: Extrahujte, Transformujte, Načítajte) a ELT (Extract, Load, and Transform). ETL a ELT sú samy osebe súčasťou kompletnej stratégie integrácie údajov. Inými slovami, extrakcia údajov môže byť súčasťou ich extrakcie.

Pochopenie rozdielu medzi dolovaním údajov a extrakciou údajov
Extrahovať, transformovať, načítať

Zatiaľ čo dolovanie údajov je o extrakcii informácií z veľkého množstva údajov, extrakcia údajov je oveľa kratší a jednoduchší proces. Dá sa zredukovať na tri stupne:

  1. Výber zdroja údajov
    Vyberte zdroj, z ktorého chcete extrahovať údaje, napríklad web.
  2. Zber dát
    Pošlite na stránku požiadavku „GET“ a analyzujte výsledný HTML dokument pomocou programovacích jazykov ako Python, PHP, R, Ruby atď.
  3. Ukladanie údajov
    Uložte údaje do lokálnej databázy alebo cloudového úložiska pre budúce použitie. Ak ste skúsený programátor, ktorý chce extrahovať dáta, vyššie uvedené kroky sa vám môžu zdať jednoduché. Ak však nie ste programátor, existuje skratka – použite nástroje na dolovanie údajov ako napr Chobotnica. Nástroje na extrakciu údajov, rovnako ako nástroje na dolovanie údajov, sú navrhnuté tak, aby šetrili energiu a zjednodušili spracovanie údajov pre každého. Tieto nástroje sú nielen ekonomické, ale aj vhodné pre začiatočníkov. Umožňujú používateľom zbierať dáta v priebehu niekoľkých minút, ukladať ich do cloudu a exportovať do mnohých formátov: Excel, CSV, HTML, JSON alebo do databáz na webe cez API.

Nevýhody extrakcie dát

  • Zlyhanie servera
    Pri extrakcii údajov vo veľkom rozsahu môže byť webový server cieľovej stránky preťažený, čo môže viesť k zlyhaniu servera. Poškodí to záujmy vlastníka stránky.
  • Zákaz podľa IP
    Keď osoba zhromažďuje údaje príliš často, webové stránky môžu zablokovať jej IP adresu. Zdroj môže úplne zakázať IP adresu alebo obmedziť prístup tým, že údaje budú neúplné. Ak chcete načítať údaje a vyhnúť sa blokovaniu, musíte to urobiť miernou rýchlosťou a použiť niektoré techniky proti blokovaniu.
  • Problémy so zákonom
    Extrahovanie údajov z webu spadá do šedej zóny, pokiaľ ide o zákonnosť. Veľké stránky ako Linkedin a Facebook jasne uvádzajú vo svojich podmienkach používania, že akákoľvek automatická extrakcia údajov je zakázaná. Medzi spoločnosťami došlo k mnohým súdnym sporom kvôli aktivitám botov.

Kľúčové rozdiely medzi dolovaním údajov a extrakciou údajov

  1. Dolovanie údajov sa tiež nazýva objavovanie znalostí v databázach, extrakcia znalostí, analýza údajov/vzorov, zhromažďovanie informácií. Extrakcia údajov sa používa zameniteľne s extrakciou webových údajov, skenovaním webových stránok, zberom údajov atď.
  2. Výskum dolovania údajov je väčšinou založený na štruktúrovaných údajoch, zatiaľ čo dolovanie údajov zvyčajne čerpá z neštruktúrovaných alebo slabo štruktúrovaných zdrojov.
  3. Cieľom dolovania údajov je zvýšiť užitočnosť údajov na analýzu. Extrakcia údajov je zhromažďovanie údajov na jednom mieste, kde ich možno uložiť alebo spracovať.
  4. Analýza v data miningu je založená na matematických metódach na identifikáciu vzorcov alebo trendov. Extrakcia údajov je založená na programovacích jazykoch alebo nástrojoch na extrakciu údajov na obídenie zdrojov.
  5. Účelom dolovania údajov je nájsť skutočnosti, ktoré predtým neboli známe alebo ignorované, zatiaľ čo extrakcia údajov sa zaoberá existujúcimi informáciami.
  6. Data mining je zložitejší a vyžaduje si veľké investície do školenia ľudí. Extrakcia údajov pomocou správneho nástroja môže byť mimoriadne jednoduchá a nákladovo efektívna.

Pomáhame začiatočníkom nezmiasť sa v Data. Špeciálne pre habravchanov sme urobili propagačný kód HABR, čím získate dodatočnú zľavu 10 % k zľave uvedenej na banneri.

Pochopenie rozdielu medzi dolovaním údajov a extrakciou údajov

Viac kurzov

Odporúčané články

Zdroj: hab.com