Razumevanje razlike med rudarjenjem podatkov in ekstrakcijo podatkov

Razumevanje razlike med rudarjenjem podatkov in ekstrakcijo podatkov
Ti dve modni besedi Data Science zmedeta veliko ljudi. Podatkovno rudarjenje se pogosto napačno razume kot pridobivanje in pridobivanje podatkov, vendar je resničnost veliko bolj zapletena. V tej objavi poglejmo piko na rudarjenje in ugotovimo razliko med rudarjenjem podatkov in ekstrakcijo podatkov.

Kaj je podatkovno rudarjenje?

Podatkovno rudarjenje, imenovano tudi Database Knowledge Discovery (KDD), je tehnika, ki se pogosto uporablja za analizo velikih naborov podatkov s statističnimi in matematičnimi metodami za iskanje skritih vzorcev ali trendov in iz njih pridobivanje vrednosti.

Kaj je mogoče narediti s podatkovnim rudarjenjem?

Z avtomatizacijo procesa, orodja za rudarjenje podatkov lahko brska po bazah podatkov in učinkovito odkriva skrite vzorce. V podjetjih se podatkovno rudarjenje pogosto uporablja za odkrivanje vzorcev in odnosov v podatkih za pomoč pri sprejemanju boljših poslovnih odločitev.

Primeri uporabe

Ko je podatkovno rudarjenje postalo razširjeno v devetdesetih letih prejšnjega stoletja, so podjetja v številnih panogah, vključno s prodajo na drobno, financami, zdravstvom, transportom, telekomunikacijami, e-trgovino itd., začela uporabljati metode podatkovnega rudarjenja za pridobivanje informacij na podlagi podatkov. Podatkovno rudarjenje lahko pomaga pri segmentiranju strank, prepoznavanju goljufij, napovedovanju prodaje itd.

  • Segmentacija strank
    Z analizo podatkov o strankah in prepoznavanjem lastnosti ciljnih strank jih lahko podjetja združijo v ločeno skupino in zagotovijo posebne ponudbe, ki ustrezajo njihovim potrebam.
  • Analiza tržne košarice
    Ta tehnika temelji na teoriji, da je večja verjetnost, da boste kupili drugo skupino izdelkov, če kupite določeno skupino izdelkov. Eden od znanih primerov: ko očetje kupujejo plenice za svoje dojenčke, ponavadi kupijo pivo skupaj s plenicami.
  • Napovedovanje prodaje
    Morda se zdi podobna analizi tržne košarice, vendar se tokratna analiza podatkov uporablja za napovedovanje, kdaj bo kupec v prihodnosti ponovno kupil izdelek. Na primer, trener kupi pločevinko beljakovin, ki naj bi trajala 9 mesecev. Trgovina, ki prodaja te proteine, namerava čez 9 mesecev izdati novega, tako da ga bo trener spet kupil.
  • Odkrivanje goljufij
    Podatkovno rudarjenje pomaga pri gradnji modelov za odkrivanje goljufij. Z zbiranjem vzorcev goljufivih in resničnih poročil lahko podjetja ugotovijo, katere transakcije so sumljive.
  • Odkrivanje vzorcev v proizvodnji
    V predelovalni industriji se podatkovno rudarjenje uporablja za pomoč pri načrtovanju sistemov z ugotavljanjem razmerja med arhitekturo izdelka, profilom in potrebami strank. Podatkovno rudarjenje lahko tudi predvidi čas in stroške razvoja izdelka.

In to je le nekaj primerov uporabe podatkovnega rudarjenja.

Faze podatkovnega rudarjenja

Podatkovno rudarjenje je celosten proces zbiranja, izbiranja, čiščenja, preoblikovanja in ekstrahiranja podatkov, da bi ovrednotili vzorce in na koncu izluščili vrednost.

Razumevanje razlike med rudarjenjem podatkov in ekstrakcijo podatkov

Na splošno lahko celoten proces podatkovnega rudarjenja povzamemo v 7 korakov:

  1. Čiščenje podatkov
    V realnem svetu podatki niso vedno očiščeni in strukturirani. Pogosto so hrupni, nepopolni in lahko vsebujejo napake. Če želite zagotoviti, da je rezultat podatkovnega rudarjenja točen, morate najprej počistiti podatke. Nekatere metode čiščenja vključujejo izpolnjevanje manjkajočih vrednosti, samodejne in ročne kontrole itd.
  2. Integracija podatkov
    To je stopnja, kjer se podatki iz različnih virov ekstrahirajo, združijo in integrirajo. Viri so lahko zbirke podatkov, besedilne datoteke, preglednice, dokumenti, večdimenzionalni nizi podatkov, internet itd.
  3. Vzorčenje podatkov
    Običajno pri rudarjenju podatkov niso potrebni vsi integrirani podatki. Vzorčenje podatkov je stopnja, v kateri se iz velike baze podatkov izberejo in izvlečejo samo uporabni podatki.
  4. Pretvorba podatkov
    Ko so podatki izbrani, se pretvorijo v oblike, primerne za rudarjenje. Ta proces vključuje normalizacijo, agregacijo, generalizacijo itd.
  5. Podatkovno rudarjenje
    Prihaja najpomembnejši del podatkovnega rudarjenja – uporaba inteligentnih metod za iskanje vzorcev v njih. Proces vključuje regresijo, klasifikacijo, napovedovanje, združevanje v gruče, asociacijsko učenje in drugo.
  6. Ocena modela
    Namen tega koraka je identificirati potencialno uporabne vzorce, ki jih je lahko razumeti, pa tudi vzorce, ki podpirajo hipoteze.
  7. Zastopanje znanja
    V končni fazi so pridobljene informacije predstavljene na privlačen način z uporabo metod predstavitve znanja in vizualizacije.

Slabosti podatkovnega rudarjenja

  • Velika naložba časa in dela
    Ker je podatkovno rudarjenje dolgotrajen in kompleksen proces, zahteva veliko dela produktivnih in usposobljenih ljudi. Podatkovni znanstveniki lahko uporabljajo zmogljiva orodja za rudarjenje podatkov, vendar potrebujejo strokovnjake za pripravo podatkov in razumevanje rezultatov. Posledično lahko traja nekaj časa, da obdelava vseh informacij.
  • Zasebnost in varnost podatkov
    Ker podatkovno rudarjenje zbira podatke o strankah s tržnimi metodami, lahko krši zasebnost uporabnikov. Poleg tega lahko hekerji pridobijo podatke, shranjene v sistemih za rudarjenje podatkov. To predstavlja grožnjo varnosti podatkov strank. Če so ukradeni podatki zlorabljeni, lahko zlahka škodujejo drugim.

Zgoraj je kratek uvod v podatkovno rudarjenje. Kot sem že omenil, podatkovno rudarjenje vsebuje proces zbiranja in povezovanja podatkov, ki vključuje postopek pridobivanja podatkov (data extraction). V tem primeru je varno reči, da je ekstrakcija podatkov lahko del dolgega procesa rudarjenja podatkov.

Kaj je ekstrakcija podatkov?

Znan tudi kot »spletno rudarjenje podatkov« in »spletno strganje«, je ta postopek pridobivanje podatkov iz (običajno nestrukturiranih ali slabo strukturiranih) podatkovnih virov na centralizirane lokacije in centralizacija na eni lokaciji za shranjevanje ali nadaljnjo obdelavo. Natančneje, viri nestrukturiranih podatkov vključujejo spletne strani, e-pošto, dokumente, datoteke PDF, optično prebrano besedilo, poročila o velikih računalnikih, datoteke kolutov, objave itd. Centralizirano shranjevanje je lahko lokalno, v oblaku ali hibridno. Pomembno si je zapomniti, da pridobivanje podatkov ne vključuje obdelave ali druge analize, do katere lahko pride pozneje.

Kaj je mogoče storiti z ekstrakcijo podatkov?

V bistvu nameni pridobivanja podatkov spadajo v 3 kategorije.

  • Arhiviranje
    Ekstrakcija podatkov lahko pretvori podatke iz fizičnih formatov, kot so knjige, časopisi, računi, v digitalne formate, kot so baze podatkov za shranjevanje ali varnostno kopiranje.
  • Spreminjanje formata podatkov
    Ko želite preseliti podatke s svojega trenutnega spletnega mesta na novo, ki je v razvoju, lahko zbirate podatke s svojega spletnega mesta tako, da jih ekstrahirate.
  • Analiza podatkov
    Običajno je, da ekstrahirane podatke dodatno analiziramo, da pridobimo vpogled vanje. To se morda sliši podobno rudarjenju podatkov, vendar ne pozabite, da je rudarjenje podatkov cilj rudarjenja podatkov in ne njegov del. Poleg tega se podatki analizirajo drugače. Eden od primerov je, da lastniki spletnih trgovin črpajo informacije o izdelkih s spletnih mest za e-trgovino, kot je Amazon, da bi spremljali strategije konkurentov v realnem času. Tako kot podatkovno rudarjenje je tudi pridobivanje podatkov avtomatiziran proces s številnimi prednostmi. V preteklosti so ljudje ročno kopirali in lepili podatke z enega mesta na drugega, kar je bilo zelo zamudno. Ekstrakcija podatkov pospeši zbiranje in močno izboljša natančnost ekstrahiranih podatkov.

Nekaj ​​primerov uporabe ekstrakcije podatkov

Podobno kot podatkovno rudarjenje se tudi podatkovno rudarjenje pogosto uporablja v različnih panogah. Poleg spremljanja cen e-trgovine lahko podatkovno rudarjenje pomaga pri lastnih raziskavah, zbiranju novic, trženju, nepremičninah, potovanjih in turizmu, svetovanju, financah itd.

  • Vodilna generacija
    Podjetja lahko črpajo podatke iz imenikov: Yelp, Crunchbase, Yellowpages in ustvarjajo potencialne stranke za poslovni razvoj. Ogledate si lahko spodnji videoposnetek, če želite izvedeti, kako pridobiti podatke iz Yellowpages z predloga za spletno strganje.

  • Združevanje vsebin in novic
    Spletna mesta za zbiranje vsebine lahko prejemajo redne vire podatkov iz več virov in posodabljajo svoja spletna mesta.
  • Analiza razpoloženja
    Po pridobivanju ocen, komentarjev in pričevanj iz družbenih omrežij, kot sta Instagram in Twitter, lahko strokovnjaki analizirajo osnovna stališča in pridobijo vpogled v to, kako se dojema blagovna znamka, izdelek ali pojav.

Koraki ekstrakcije podatkov

Ekstrakcija podatkov je prva stopnja ETL (Extract, Transform, Load: Extract, Transform, Load) in ELT (Extract, Load, and Transform). ETL in ELT sta sama del celovite strategije integracije podatkov. Z drugimi besedami, pridobivanje podatkov je lahko del njihovega pridobivanja.

Razumevanje razlike med rudarjenjem podatkov in ekstrakcijo podatkov
Ekstrahiraj, transformiraj, naloži

Medtem ko gre pri podatkovnem rudarjenju za pridobivanje informacij iz velikih količin podatkov, je pridobivanje podatkov veliko krajši in preprostejši postopek. Lahko se zmanjša na tri stopnje:

  1. Izbira vira podatkov
    Izberite vir, iz katerega želite pridobiti podatke, na primer spletno mesto.
  2. Zbiranje podatkov
    Spletnemu mestu pošljite zahtevo »GET« in razčlenite nastali dokument HTML z uporabo programskih jezikov, kot so Python, PHP, R, Ruby itd.
  3. Shranjevanje podatkov
    Shranite podatke v lokalno bazo podatkov ali shrambo v oblaku za prihodnjo uporabo. Če ste izkušen programer, ki želi ekstrahirati podatke, se vam zgornji koraki morda zdijo preprosti. Če pa niste programer, obstaja bližnjica - uporabite orodja za rudarjenje podatkov, kot je Hobotnica. Orodja za ekstrakcijo podatkov so tako kot orodja za rudarjenje podatkov zasnovana tako, da varčujejo z energijo in olajšajo obdelavo podatkov za vse. Ta orodja niso le ekonomična, ampak tudi začetnikom prijazna. Uporabnikom omogočajo zbiranje podatkov v nekaj minutah, shranjevanje v oblaku in izvoz v številne formate: Excel, CSV, HTML, JSON ali v baze podatkov na spletnem mestu prek API-ja.

Slabosti ekstrakcije podatkov

  • Zrušitev strežnika
    Pri pridobivanju podatkov v velikem obsegu je lahko spletni strežnik ciljnega mesta preobremenjen, kar lahko povzroči zrušitev strežnika. To bo škodovalo interesom lastnika spletnega mesta.
  • Prepoved prek IP-ja
    Ko oseba prepogosto zbira podatke, lahko spletna mesta blokirajo njen naslov IP. Vir lahko popolnoma prepove naslov IP ali omeji dostop tako, da naredi podatke nepopolne. Če želite pridobiti podatke in se izogniti blokiranju, morate to storiti z zmerno hitrostjo in uporabiti nekaj tehnik proti blokiranju.
  • Težave z zakonom
    Pridobivanje podatkov s spleta sodi v sivo območje, ko gre za zakonitost. Večja spletna mesta, kot sta Linkedin in Facebook, v svojih pogojih uporabe jasno navajajo, da je kakršno koli samodejno pridobivanje podatkov prepovedano. Med podjetji je bilo veliko tožb zaradi dejavnosti botov.

Ključne razlike med rudarjenjem podatkov in ekstrakcijo podatkov

  1. Podatkovno rudarjenje imenujemo tudi odkrivanje znanja v bazah podatkov, pridobivanje znanja, analiza podatkov/vzorcev, zbiranje informacij. Ekstrakcija podatkov se uporablja izmenično z ekstrakcijo spletnih podatkov, skeniranjem spletnih strani, zbiranjem podatkov itd.
  2. Raziskave podatkovnega rudarjenja večinoma temeljijo na strukturiranih podatkih, medtem ko podatkovno rudarjenje običajno črpa iz nestrukturiranih ali slabo strukturiranih virov.
  3. Cilj podatkovnega rudarjenja je narediti podatke bolj uporabne za analizo. Pridobivanje podatkov je zbiranje podatkov na enem mestu, kjer jih je mogoče shraniti ali obdelati.
  4. Analiza pri rudarjenju podatkov temelji na matematičnih metodah za prepoznavanje vzorcev ali trendov. Pridobivanje podatkov temelji na programskih jezikih ali orodjih za pridobivanje podatkov, ki obidejo vire.
  5. Namen podatkovnega rudarjenja je najti dejstva, ki prej niso bila znana ali prezrta, medtem ko se pridobivanje podatkov ukvarja z obstoječimi informacijami.
  6. Podatkovno rudarjenje je bolj zapleteno in zahteva velike naložbe v usposabljanje ljudi. Pridobivanje podatkov s pravim orodjem je lahko izjemno enostavno in stroškovno učinkovito.

Začetnikom pomagamo, da se ne zmedejo pri podatkih. Posebej za habravčane smo naredili promocijsko kodo HABR, kar daje dodatnih 10% popusta na popust, naveden na pasici.

Razumevanje razlike med rudarjenjem podatkov in ekstrakcijo podatkov

Več tečajev

Predstavljeni članki

Vir: www.habr.com