Supraskime, kuo skiriasi duomenų gavyba ir duomenų išgavimas

Supraskime, kuo skiriasi duomenų gavyba ir duomenų išgavimas
Šie du duomenų mokslo madingi žodžiai klaidina daugybę žmonių. Duomenų gavyba dažnai klaidingai suprantama kaip duomenų išgavimas ir gavimas, tačiau realybė yra daug sudėtingesnė. Šiame įraše pabrėžkime kasybą ir išsiaiškinkime skirtumą tarp duomenų gavybos ir duomenų išgavimo.

Kas yra duomenų gavyba?

Duomenų gavyba, taip pat vadinama Duomenų bazės žinių atradimas (KDD), yra metodas, dažnai naudojamas analizuoti didelius duomenų kiekius naudojant statistinius ir matematinius metodus, siekiant rasti paslėptus modelius ar tendencijas ir išgauti iš jų vertę.

Ką galima padaryti naudojant duomenų gavybą?

Automatizuojant procesą, duomenų gavybos įrankiai gali naršyti duomenų bazėse ir efektyviai atskleisti paslėptus šablonus. Įmonėms duomenų gavyba dažnai naudojama norint atrasti duomenų šablonus ir ryšius, kad būtų lengviau priimti geresnius verslo sprendimus.

Taikymo pavyzdžiai

Dešimtajame dešimtmetyje plačiai paplitus duomenų gavybai, įmonės įvairiose pramonės šakose, įskaitant mažmeninę prekybą, finansus, sveikatos priežiūrą, transportą, telekomunikacijas, elektroninę prekybą ir kt., pradėjo naudoti duomenų gavybos metodus, kad gautų informaciją iš duomenų bazės. Duomenų gavyba gali padėti segmentuoti klientus, nustatyti sukčiavimą, numatyti pardavimus ir kt.

  • Klientų segmentavimas
    Analizuodamos klientų duomenis ir identifikuodamos tikslinių klientų bruožus, įmonės gali juos sugrupuoti į atskirą grupę ir pateikti specialius jų poreikius atitinkančius pasiūlymus.
  • Rinkos krepšelio analizė
    Ši technika paremta teorija, kad jei perkate tam tikrą produktų grupę, didesnė tikimybė, kad įsigysite kitos grupės gaminius. Vienas garsus pavyzdys: kai tėčiai perka savo kūdikiams sauskelnes, jie kartu su vystyklais perka ir alų.
  • Pardavimų prognozavimas
    Gali atrodyti, kad tai panašu į rinkos krepšelio analizę, tačiau šį kartą duomenų analizė naudojama nuspėti, kada klientas vėl pirks prekę ateityje. Pavyzdžiui, treneris perka skardinę baltymų, kurių turėtų užtekti 9 mėnesiams. Šiuo baltymu prekiaujanti parduotuvė planuoja po 9 mėnesių išleisti naują, kad treneris vėl pirktų.
  • Sukčiavimo aptikimas
    Duomenų gavyba padeda kurti sukčiavimo aptikimo modelius. Rinkdamos nesąžiningų ir teisingų ataskaitų pavyzdžius, įmonės turi teisę nustatyti, kurios operacijos yra įtartinos.
  • Modelių aptikimas gamyboje
    Gamybos pramonėje duomenų gavyba naudojama siekiant padėti projektuoti sistemas, nustatant ryšį tarp produkto architektūros, profilio ir klientų poreikių. Duomenų gavyba taip pat gali numatyti produkto kūrimo laiką ir išlaidas.

Ir tai tik keli duomenų gavybos naudojimo atvejai.

Duomenų gavybos etapai

Duomenų gavyba yra holistinis duomenų rinkimo, atrankos, valymo, transformavimo ir išgavimo procesas, siekiant įvertinti modelius ir galiausiai išgauti vertę.

Supraskime, kuo skiriasi duomenų gavyba ir duomenų išgavimas

Apskritai visą duomenų gavybos procesą galima apibendrinti į 7 etapus:

  1. Duomenų valymas
    Realiame pasaulyje duomenys ne visada išvalomi ir susisteminami. Jie dažnai yra triukšmingi, neišsamūs ir gali turėti klaidų. Norėdami užtikrinti, kad duomenų gavybos rezultatas būtų tikslus, pirmiausia turite išvalyti duomenis. Kai kurie valymo būdai apima trūkstamų verčių užpildymą, automatinį ir rankinį patikrinimą ir kt.
  2. Duomenų integravimas
    Tai etapas, kai duomenys iš skirtingų šaltinių išgaunami, sujungiami ir integruojami. Šaltiniai gali būti duomenų bazės, tekstiniai failai, skaičiuoklės, dokumentai, daugiamačiai duomenų rinkiniai, internetas ir pan.
  3. Duomenų atranka
    Paprastai ne visi integruoti duomenys reikalingi duomenų gavybai. Duomenų atranka – tai etapas, kai iš didelės duomenų bazės atrenkami ir išgaunami tik naudingi duomenys.
  4. Duomenų konvertavimas
    Pasirinkus duomenis, jie konvertuojami į formas, tinkamas kasybai. Šis procesas apima normalizavimą, agregavimą, apibendrinimą ir kt.
  5. Duomenų gavyba
    Čia ateina pati svarbiausia duomenų gavybos dalis – intelektualių metodų naudojimas ieškant juose šablonų. Procesas apima regresiją, klasifikavimą, numatymą, grupavimą, mokymąsi asociacijomis ir kt.
  6. Modelio įvertinimas
    Šiuo žingsniu siekiama nustatyti potencialiai naudingus, lengvai suprantamus modelius, taip pat modelius, kurie patvirtina hipotezes.
  7. Žinių atstovavimas
    Baigiamajame etape gauta informacija pateikiama patraukliai, naudojant žinių vaizdavimo ir vizualizavimo metodus.

Duomenų gavybos trūkumai

  • Didelės laiko ir darbo investicijos
    Kadangi duomenų gavyba yra ilgas ir sudėtingas procesas, jis reikalauja daug darbo iš produktyvių ir kvalifikuotų žmonių. Duomenų mokslininkai gali naudoti galingus duomenų gavybos įrankius, tačiau jiems reikia ekspertų, kurie paruoštų duomenis ir suprastų rezultatus. Todėl visos informacijos apdorojimas gali užtrukti.
  • Duomenų privatumas ir saugumas
    Kadangi duomenų gavyba renka informaciją apie klientus rinkos metodais, tai gali pažeisti vartotojų privatumą. Be to, įsilaužėliai gali gauti duomenis, saugomus duomenų gavybos sistemose. Tai kelia grėsmę klientų duomenų saugumui. Jei pavogtais duomenimis piktnaudžiaujama, tai gali lengvai pakenkti kitiems.

Aukščiau pateiktas trumpas duomenų gavybos įvadas. Kaip jau minėjau, duomenų gavyba apima duomenų rinkimo ir integravimo procesą, kuris apima duomenų išgavimo (duomenų išgavimo) procesą. Šiuo atveju galima drąsiai teigti, kad duomenų išgavimas gali būti ilgo duomenų gavybos proceso dalis.

Kas yra duomenų ištraukimas?

Taip pat žinomas kaip „žiniatinklio duomenų gavyba“ ir „žiniatinklio nuskaitymas“, šis procesas yra duomenų ištraukimas iš (dažniausiai nestruktūruotų arba prastos struktūros) duomenų šaltinių į centralizuotas vietas ir centralizavimas vienoje vietoje saugojimui ar tolesniam apdorojimui. Konkrečiai, nestruktūrizuoti duomenų šaltiniai apima tinklalapius, el. paštą, dokumentus, PDF failus, nuskaitytą tekstą, pagrindinio kompiuterio ataskaitas, ritinio failus, pranešimus ir pan. Centralizuota saugykla gali būti vietinė, debesų arba hibridinė. Svarbu atsiminti, kad duomenų išgavimas neapima apdorojimo ar kitos analizės, kuri gali įvykti vėliau.

Ką galima padaryti naudojant duomenų ištraukimą?

Iš esmės duomenų išgavimo tikslai skirstomi į 3 kategorijas.

  • Archyvavimas
    Duomenų išgavimas gali konvertuoti duomenis iš fizinių formatų, pvz., knygų, laikraščių, sąskaitų faktūrų, į skaitmeninius formatus, pvz., duomenų bazes saugojimui ar atsarginėms kopijoms.
  • Duomenų formato keitimas
    Jei norite perkelti duomenis iš dabartinės svetainės į naują kuriamą, galite rinkti duomenis iš savo svetainės juos išskleidę.
  • Duomenų analizė
    Įprasta toliau analizuoti išgautus duomenis, kad būtų galima juos suprasti. Tai gali atrodyti panašiai kaip duomenų gavyba, tačiau atminkite, kad duomenų gavyba yra duomenų gavybos tikslas, o ne jo dalis. Be to, duomenys analizuojami skirtingai. Vienas iš pavyzdžių yra tai, kad internetinių parduotuvių savininkai renka informaciją apie produktą iš elektroninės prekybos svetainių, tokių kaip „Amazon“, kad galėtų stebėti konkurentų strategijas realiuoju laiku. Kaip ir duomenų gavyba, duomenų išgavimas yra automatizuotas procesas, turintis daug privalumų. Anksčiau žmonės duomenis kopijuodavo ir įklijuodavo rankiniu būdu iš vienos vietos į kitą, o tai užtrukdavo labai daug laiko. Duomenų išgavimas pagreitina rinkimą ir labai pagerina išgaunamų duomenų tikslumą.

Kai kurie duomenų ištraukimo naudojimo pavyzdžiai

Panašiai kaip duomenų gavyba, duomenų gavyba yra plačiai naudojama įvairiose pramonės šakose. Be elektroninės prekybos kainų stebėjimo, duomenų gavyba gali padėti atlikti tyrimus, kaupti naujienas, rinkodarą, nekilnojamąjį turtą, keliones ir turizmą, konsultuoti, finansuoti ir kt.

  • Švino karta
    Įmonės gali išgauti duomenis iš katalogų: Yelp, Crunchbase, Yellowpages ir generuoti potencialius klientus verslo plėtrai. Galite žiūrėti toliau pateiktą vaizdo įrašą, kad sužinotumėte, kaip išgauti duomenis iš Yellowpages naudojant žiniatinklio grandymo šablonas.

  • Turinio ir naujienų agregavimas
    Turinį kaupiančios svetainės gali gauti reguliarius duomenų sklaidos kanalus iš kelių šaltinių ir nuolat atnaujinti savo svetaines.
  • Sentimentų analizė
    Ištraukę atsiliepimus, komentarus ir atsiliepimus iš socialinių tinklų, tokių kaip „Instagram“ ir „Twitter“, specialistai gali išanalizuoti pagrindines nuostatas ir gauti įžvalgų, kaip prekės ženklas, produktas ar reiškinys yra suvokiamas.

Duomenų ištraukimo žingsniai

Duomenų išgavimas yra pirmasis ETL (Extract, Transform, Load: Extract, Transform, Load) ir ELT (Extract, Load ir Transform) etapas. ETL ir ELT yra visos duomenų integravimo strategijos dalis. Kitaip tariant, duomenų išgavimas gali būti duomenų gavybos dalis.

Supraskime, kuo skiriasi duomenų gavyba ir duomenų išgavimas
Išskleisti, transformuoti, įkelti

Nors duomenų gavybos tikslas yra išgauti informaciją iš didelių duomenų kiekių, duomenų išgavimas yra daug trumpesnis ir paprastesnis procesas. Jis gali būti sumažintas iki trijų etapų:

  1. Duomenų šaltinio pasirinkimas
    Pasirinkite šaltinį, iš kurio norite gauti duomenis, pvz., svetainę.
  2. Duomenų rinkimas
    Išsiųskite „GET“ užklausą į svetainę ir išanalizuoti gautą HTML dokumentą naudodami programavimo kalbas, tokias kaip Python, PHP, R, Ruby ir kt.
  3. Duomenų saugykla
    Išsaugokite duomenis vietinėje duomenų bazėje arba debesies saugykloje, kad galėtumėte naudoti ateityje. Jei esate patyręs programuotojas, norintis išgauti duomenis, aukščiau pateikti veiksmai jums gali atrodyti paprasti. Tačiau, jei nesate programuotojas, yra nuoroda - naudokite duomenų gavybos įrankius, pvz Aštuonkojis. Duomenų išgavimo įrankiai, kaip ir duomenų gavybos įrankiai, skirti taupyti energiją ir palengvinti duomenų apdorojimą kiekvienam. Šios priemonės ne tik ekonomiškos, bet ir patogios pradedantiesiems. Jie leidžia vartotojams per kelias minutes rinkti duomenis, saugoti juos debesyje ir eksportuoti į daugelį formatų: Excel, CSV, HTML, JSON arba į svetainės duomenų bazes per API.

Duomenų ištraukimo trūkumai

  • Serverio gedimas
    Išgaunant duomenis dideliu mastu, tikslinės svetainės žiniatinklio serveris gali būti perkrautas, o tai gali sukelti serverio gedimą. Tai pakenks svetainės savininko interesams.
  • Draudimas pagal IP
    Kai asmuo per dažnai renka duomenis, svetainės gali užblokuoti jo IP adresą. Išteklius gali visiškai uždrausti IP adresą arba apriboti prieigą, todėl duomenys bus neišsamūs. Norėdami gauti duomenis ir išvengti blokavimo, turite tai daryti vidutiniu greičiu ir naudoti kai kuriuos blokavimo blokavimo būdus.
  • Problemos su teise
    Duomenų ištraukimas iš žiniatinklio patenka į pilką sritį, kai kalbama apie teisėtumą. Pagrindinės svetainės, tokios kaip Linkedin ir Facebook, savo naudojimo sąlygose aiškiai nurodo, kad bet koks automatinis duomenų išgavimas yra draudžiamas. Dėl botų veiklos tarp įmonių kilo daug ieškinių.

Pagrindiniai duomenų gavybos ir duomenų išgavimo skirtumai

  1. Duomenų gavyba dar vadinama žinių atradimu duomenų bazėse, žinių išgavimu, duomenų/modelių analize, informacijos rinkimu. Duomenų išgavimas naudojamas pakaitomis su žiniatinklio duomenų ištraukimu, tinklalapių nuskaitymu, duomenų rinkimu ir pan.
  2. Duomenų gavybos tyrimai dažniausiai yra pagrįsti struktūriniais duomenimis, o duomenų gavyba dažniausiai gaunama iš nestruktūrizuotų arba prastai struktūrizuotų šaltinių.
  3. Duomenų gavybos tikslas – padaryti duomenis naudingesnius analizei. Duomenų išgavimas – tai duomenų surinkimas į vieną vietą, kur jie gali būti saugomi arba tvarkomi.
  4. Duomenų gavybos analizė grindžiama matematiniais modelių ar tendencijų nustatymo metodais. Duomenų išgavimas yra pagrįstas programavimo kalbomis arba duomenų ištraukimo įrankiais šaltiniams tikrinti.
  5. Duomenų gavybos tikslas yra rasti faktus, kurie anksčiau nebuvo žinomi arba ignoruojami, o duomenų išgavimas susijęs su esama informacija.
  6. Duomenų gavyba yra sudėtingesnė ir reikalauja didelių investicijų į žmonių mokymą. Duomenų išgavimas naudojant tinkamą įrankį gali būti labai paprastas ir ekonomiškas.

Padedame pradedantiesiems nesusipainioti su duomenimis. Specialiai habravchanams sukūrėme reklamos kredito kodą RAGAŠAS, suteikiant papildomą 10% nuolaidą reklamjuoste nurodytai nuolaidai.

Supraskime, kuo skiriasi duomenų gavyba ir duomenų išgavimas

Daugiau kursų

Teminiai straipsniai

Šaltinis: www.habr.com