Að skilja muninn á gagnavinnslu og gagnavinnslu

Að skilja muninn á gagnavinnslu og gagnavinnslu
Þessi tvö tískuorð gagnavísinda rugla marga. Gagnanám er oft misskilið sem útdrátt og endurheimt gagna, en í raun er hún miklu flóknari. Í þessari færslu skulum við leggja lokahönd á námuvinnslu og komast að muninum á gagnavinnslu og gagnavinnslu.

Hvað er Data Mining?

Gagnanám, einnig kallað Þekkingaruppgötvun í gagnagrunni (KDD), er tækni sem oft er notuð til að greina mikið magn af gögnum með því að nota tölfræðilegar og stærðfræðilegar aðferðir til að finna falin mynstur eða stefnur og draga gildi úr þeim.

Hvað getur þú gert með Data Mining?

Með því að gera ferlið sjálfvirkt, gagnavinnsluverkfæri getur skannað gagnagrunna og á áhrifaríkan hátt greint falin mynstur. Fyrir fyrirtæki er gagnanám oft notað til að bera kennsl á mynstur og tengsl í gögnum til að hjálpa til við að taka betri viðskiptaákvarðanir.

Dæmi um notkun

Eftir að gagnavinnsla varð útbreidd á tíunda áratug síðustu aldar fóru fyrirtæki í fjölmörgum atvinnugreinum, þar á meðal smásölu, fjármálum, heilbrigðisþjónustu, flutningum, fjarskiptum, rafrænum viðskiptum o.s.frv., að nota gagnavinnslutækni til að fá upplýsingar um byggðar á gögnum. Gagnanám getur hjálpað til við að flokka viðskiptavini, uppgötva svik, spá fyrir um sölu og margt fleira.

  • Skipting viðskiptavina
    Með því að greina gögn viðskiptavina og bera kennsl á einkenni markviðskiptavina geta fyrirtæki miðað þá inn í sérstakan hóp og veitt sértilboð sem uppfylla þarfir þeirra.
  • Markaðskörfugreining
    Þessi tækni byggir á þeirri kenningu að ef þú kaupir ákveðinn vöruflokk sé líklegra að þú kaupir annan vöruflokk. Eitt frægt dæmi: þegar feður kaupa bleiur fyrir börn sín, kaupa þeir gjarnan bjór ásamt bleyjunum.
  • Söluspá
    Þetta kann að virðast svipað og markaðskörfugreining, en að þessu sinni er gagnagreining notuð til að spá fyrir um hvenær viðskiptavinur mun kaupa vöru aftur í framtíðinni. Til dæmis kaupir þjálfari dós af próteini sem ætti að endast í 9 mánuði. Verslunin sem selur þetta prótein ætlar að gefa út nýtt eftir 9 mánuði svo þjálfarinn mun kaupa það aftur.
  • Uppgötvun svika
    Gagnanám hjálpar við að byggja upp líkön til að greina svik. Með því að safna sýnum af sviksamlegum og lögmætum skýrslum er fyrirtækjum heimilt að ákvarða hvaða viðskipti eru grunsamleg.
  • Greining á mynstrum í framleiðslu
    Í framleiðsluiðnaði er gagnavinnsla notuð til að aðstoða við kerfishönnun með því að bera kennsl á sambandið milli vöruarkitektúrs, prófíls og þarfa viðskiptavina. Gagnanám getur einnig spáð fyrir um tímalínur vöruþróunar og kostnað.

Og þetta eru aðeins nokkrar aðstæður til að nota gagnavinnslu.

Gagnanámustig

Gagnanám er heildrænt ferli að safna, velja, þrífa, umbreyta og draga út gögn til að meta mynstur og að lokum draga út verðmæti.

Að skilja muninn á gagnavinnslu og gagnavinnslu

Að jafnaði er hægt að draga saman allt gagnavinnsluferlið í 7 stig:

  1. Gagnahreinsun
    Í hinum raunverulega heimi eru gögn ekki alltaf hreinsuð og skipulögð. Þau eru oft hávær, ófullnægjandi og geta innihaldið villur. Til að tryggja að niðurstaða gagnavinnslu sé nákvæm þarftu fyrst að þrífa gögnin. Sumar hreinsunaraðferðir fela í sér að fylla út gildi sem vantar, sjálfvirkt og handvirkt eftirlit osfrv.
  2. Samþætting gagna
    Þetta er stigið þar sem gögn frá mismunandi aðilum eru dregin út, sameinuð og samþætt. Heimildir geta verið gagnagrunnar, textaskrár, töflureiknar, skjöl, fjölvíð gagnasöfn, internetið og svo framvegis.
  3. Sýnataka úr gögnum
    Venjulega er ekki þörf á öllum samþættum gögnum í gagnavinnslu. Gagnasýnataka er stigið þar sem aðeins gagnleg gögn eru valin og dregin út úr stórum gagnagrunni.
  4. Gagnaumbreyting
    Þegar gögnin eru valin er þeim breytt í viðeigandi form til námuvinnslu. Þetta ferli felur í sér eðlilega, samsöfnun, alhæfingu osfrv.
  5. Gagnanám
    Hér kemur mikilvægasti hluti gagnavinnslu - með því að nota skynsamlegar aðferðir til að finna mynstur í henni. Ferlið felur í sér aðhvarf, flokkun, spá, þyrping, tengslanám og fleira.
  6. Líkanmat
    Þetta skref miðar að því að bera kennsl á hugsanlega gagnleg, auðskiljanleg og tilgátustyðjandi mynstur.
  7. Þekkingarframsetning
    Á lokastigi eru fengnar upplýsingar settar fram á aðlaðandi formi með því að nota þekkingarframsetningu og sjónrænar aðferðir.

Ókostir við Data Mining

  • Mikil fjárfesting í tíma og vinnu
    Þar sem gagnavinnsla er langt og flókið ferli krefst það mikillar vinnu frá afkastamiklu og hæfu fólki. Gagnanámamenn geta nýtt sér öflug gagnavinnsluverkfæri, en þeir þurfa sérfræðinga til að undirbúa gögnin og skilja niðurstöðurnar. Þar af leiðandi getur tekið nokkurn tíma að vinna úr öllum upplýsingum.
  • Persónuvernd og gagnaöryggi
    Þar sem gagnavinnsla safnar upplýsingum um viðskiptavini með markaðsaðferðum getur það brotið gegn friðhelgi einkalífs notenda. Að auki geta tölvuþrjótar fengið gögn sem eru geymd í gagnavinnslukerfum. Þetta skapar ógn við öryggi viðskiptavinagagna. Ef stolin gögn eru misnotuð getur það auðveldlega skaðað aðra.

Ofangreint er stutt kynning á gagnavinnslu. Eins og ég hef áður nefnt, felur gagnavinnsla í sér ferlið við að safna og samþætta gögn, sem felur í sér ferli gagnaútdráttar. Í þessu tilviki er óhætt að segja að gagnavinnsla geti verið hluti af langtíma gagnavinnsluferli.

Hvað er gagnaútdráttur?

Einnig þekkt sem „vefgagnanám“ og „vefskrap“, þetta ferli er sú athöfn að draga gögn úr (venjulega ómótuðum eða illa uppbyggðum) gagnaveitum á miðlægar staðsetningar og miðstýra þeim á einn stað til geymslu eða frekari vinnslu. Nánar tiltekið eru óskipulagðar gagnaheimildir vefsíður, tölvupóstur, skjöl, PDF skrár, skannnaður texti, skýrslur um stórtölvur, skrár milli spóla, auglýsingar osfrv. Miðstýrð geymsla getur verið staðbundin, ský eða blendingur. Mikilvægt er að muna að gagnaútdráttur felur ekki í sér vinnslu eða aðra greiningu sem gæti átt sér stað síðar.

Hvað getur þú gert með Data Extract?

Í grundvallaratriðum falla tilgangur gagnaútdráttar í 3 flokka.

  • Geymslu
    Gagnaútdráttur getur umbreytt gögnum úr líkamlegum sniðum: bókum, dagblöðum, reikningum í stafrænt snið, svo sem gagnagrunna til geymslu eða öryggisafrits.
  • Breyting á gagnasniði
    Þegar þú vilt flytja gögn frá núverandi síðu þinni yfir á nýja síðu sem er í þróun geturðu safnað gögnum af þinni eigin síðu með því að draga þau út.
  • Gagnagreining
    Viðbótargreining á útdregnum gögnum til að fá innsýn er algeng. Þetta kann að virðast svipað og gagnanám, en hafðu í huga að gagnanám er tilgangur gagnavinnslu, ekki hluti af því. Þar að auki eru gögnin greind á annan hátt. Eitt dæmi: Eigendur netverslana draga vöruupplýsingar af rafrænum viðskiptasíðum eins og Amazon til að fylgjast með stefnu samkeppnisaðila í rauntíma. Eins og gagnavinnsla er gagnaútdráttur sjálfvirkt ferli sem hefur marga kosti. Áður fyrr notaði fólk til að afrita og líma gögn handvirkt frá einum stað til annars, sem var mjög tímafrekt. Gagnaútdráttur flýtir fyrir söfnun og bætir til muna nákvæmni útdreginna gagna.

Nokkur dæmi um notkun gagnaútdráttar

Svipað og gagnanám er gagnanám mikið notað í ýmsum atvinnugreinum. Auk þess að fylgjast með verði í rafrænum viðskiptum getur gagnavinnsla hjálpað til við eigin rannsóknir, fréttasöfnun, markaðssetningu, fasteignir, ferða- og ferðaþjónustu, ráðgjöf, fjármál og margt fleira.

  • Leiðandi kynslóð
    Fyrirtæki geta dregið út gögn úr möppum: Yelp, Crunchbase, Yellowpages og búið til leiðir fyrir viðskiptaþróun. Þú getur horft á myndbandið hér að neðan til að læra hvernig á að vinna gögn úr Yellowpages með því að nota vefskrapunarsniðmát.

  • Söfnun efnis og frétta
    Efnissöfnunarvefsíður geta fengið reglulega strauma af gögnum frá mörgum aðilum og haldið vefsvæðum sínum uppfærðum.
  • Viðhorfsgreining
    Með því að draga út umsagnir, athugasemdir og endurgjöf frá samfélagsmiðlum eins og Instagram og Twitter geta sérfræðingar greint undirliggjandi viðhorf og fengið innsýn í hvernig vörumerki, vara eða fyrirbæri er litið á.

Gögnaútdráttarskref

Gagnaútdráttur er fyrsta stig ETL (skammstöfun Extract, Transform, Load) og ELT (útdráttur, hleðsla og umbreyting). ETL og ELT eru sjálfir hluti af fullkominni gagnasamþættingarstefnu. Með öðrum orðum, gagnaútdráttur getur verið hluti af gagnavinnslu.

Að skilja muninn á gagnavinnslu og gagnavinnslu
Draga út, umbreyta, hlaða

Þó að gagnavinnsla snýst um að vinna upplýsingar úr miklu magni gagna, þá er gagnavinnsla miklu styttra og einfaldara ferli. Það er hægt að minnka það í þrjú stig:

  1. Að velja gagnagjafa
    Veldu upprunann sem þú vilt vinna úr gögnum, svo sem vefsíðu.
  2. Gagnasafn
    Sendu „GET“ beiðni á síðuna og greindu HTML skjalið sem myndast með því að nota forritunarmál eins og Python, PHP, R, Ruby osfrv.
  3. Gagnageymsla
    Vistaðu gögn í staðbundnum gagnagrunni eða skýgeymslu til notkunar í framtíðinni. Ef þú ert reyndur forritari sem vill vinna út gögn gætu skrefin hér að ofan virst einföld fyrir þig. Hins vegar, ef þú kóðar ekki, er flýtileið að nota gagnaútdráttarverkfæri, t.d. Kolkrabbi. Gagnaútdráttartæki, eins og gagnavinnsluverkfæri, eru hönnuð til að spara orku og gera gagnavinnslu auðvelda fyrir alla. Þessi verkfæri eru ekki aðeins hagkvæm heldur einnig byrjendavæn. Þeir gera notendum kleift að safna gögnum innan nokkurra mínútna, geyma þau í skýinu og flytja þau út á mörg snið: Excel, CSV, HTML, JSON eða í vefsíðugagnagrunna í gegnum API.

Ókostir gagnaútdráttar

  • Netþjóni hrun
    Þegar gögn eru sótt í stórum stíl getur vefþjónn marksíðunnar verið ofhlaðinn, sem getur valdið því að þjónninn hrynji. Þetta mun skaða hagsmuni eiganda vefsvæðisins.
  • Bannað eftir IP
    Þegar einstaklingur safnar gögnum of oft geta vefsíður lokað á IP tölu þeirra. Tilfangið getur algjörlega neitað IP tölu eða takmarkað aðgang, sem gerir gögnin ófullnægjandi. Til að sækja gögn og forðast lokun þarftu að gera það á hóflegum hraða og nota nokkrar aðferðir gegn blokkun.
  • Vandamál með lögfræði
    Útdráttur gagna af vefnum fellur á grátt svæði þegar kemur að lögmæti. Stórar síður eins og Linkedin og Facebook taka skýrt fram í notkunarskilmálum sínum að öll sjálfvirk gagnaútdráttur sé bönnuð. Mikið hefur verið um málaferli á milli fyrirtækja vegna botnavirkni.

Lykilmunur á gagnavinnslu og gagnavinnslu

  1. Gagnanám er einnig kallað þekkingaruppgötvun í gagnagrunnum, þekkingarvinnsla, gagna-/mynsturgreining, upplýsingaöflun. Gagnaútdráttur er notaður til skiptis við vefgagnaútdrátt, vefskrið, gagnavinnslu og svo framvegis.
  2. Rannsóknir á gagnavinnslu byggjast aðallega á skipulögðum gögnum, en í gagnavinnslu eru þau venjulega dregin út úr ómótuðum eða illa uppbyggðum heimildum.
  3. Markmið gagnavinnslu er að gera gögn gagnlegri til greiningar. Gagnaútdráttur er söfnun gagna á einn stað þar sem hægt er að geyma þau eða vinna þau.
  4. Greining í gagnavinnslu byggir á stærðfræðilegum aðferðum til að greina mynstur eða stefnur. Gagnaútdráttur er byggður á forritunarmálum eða gagnaútdráttarverkfærum til að skríða heimildir.
  5. Markmið gagnavinnslu er að finna staðreyndir sem áður voru óþekktar eða hunsaðar, en gagnavinnsla fjallar um núverandi upplýsingar.
  6. Gagnanám er flóknara og krefst mikilla fjárfestinga í þjálfun fólks. Gagnaútdráttur, þegar hún er notuð með réttu tólinu, getur verið einstaklega einföld og hagkvæm.

Við hjálpum byrjendum að ruglast ekki í Data. Við höfum búið til kynningarkóða sérstaklega fyrir íbúa Khabra HABR, sem gefur 10% aukaafslátt af afsláttinum sem tilgreindur er á borðanum.

Að skilja muninn á gagnavinnslu og gagnavinnslu

Fleiri námskeið

Valdar greinar

Heimild: www.habr.com