Nifhmu d-differenza bejn Data Mining u Data Estrazzjoni

Nifhmu d-differenza bejn Data Mining u Data Estrazzjoni
Dawn iż-żewġ buzzwords tax-xjenza tad-dejta jħawdu ħafna nies. It-Tħaffir tad-Data spiss jinftiehem ħażin bħala estrazzjoni u rkupru tad-dejta, iżda fir-realtà hija ħafna aktar kumplessa. F'din il-kariga, ejja nagħtu l-aħħar irtokki fuq il-Minjieri u nsib id-differenza bejn il-Minjieri tad-Data u l-Estrazzjoni tad-Data.

X'inhu Data Mining?

Data mining, imsejħa wkoll Skoperta ta' Għarfien fid-Database (KDD), hija teknika spiss użata biex tanalizza ammonti kbar ta 'dejta bl-użu ta' tekniki statistiċi u matematiċi biex issib mudelli jew xejriet moħbija u estratt valur minnhom.

X'tista 'tagħmel bid-Data Mining?

Bl-awtomatizzazzjoni tal-proċess, għodod għat-tħaffir tad-data jista' jiskenja databases u jidentifika b'mod effettiv mudelli moħbija. Għan-negozji, it-tħaffir tad-dejta spiss jintuża biex jidentifika mudelli u relazzjonijiet fid-dejta biex jgħin biex jittieħdu deċiżjonijiet kummerċjali aħjar.

Eżempji ta' applikazzjoni

Wara li t-tħaffir tad-dejta nfirex fid-disgħinijiet, kumpaniji f'firxa wiesgħa ta 'industriji, inklużi l-bejgħ bl-imnut, il-finanzi, il-kura tas-saħħa, it-trasport, it-telekomunikazzjonijiet, il-kummerċ elettroniku, eċċ., bdew jużaw tekniki ta' tħaffir tad-dejta biex jiksbu informazzjoni bbażata fuq id-dejta. It-tħaffir tad-dejta jista 'jgħin biex jissegmenta l-klijenti, jiskopri frodi, ibassar il-bejgħ, u ħafna aktar.

  • Segmentazzjoni tal-klijenti
    Billi janalizzaw id-dejta tal-klijenti u jidentifikaw il-karatteristiċi tal-klijenti fil-mira, il-kumpaniji jistgħu jimmirawhom fi grupp distint u jipprovdu offerti speċjali li jissodisfaw il-ħtiġijiet tagħhom.
  • Analiżi tal-Basket tas-Suq
    Din it-teknika hija bbażata fuq it-teorija li jekk tixtri ċertu grupp ta 'prodotti, huwa aktar probabbli li tixtri grupp ieħor ta' prodotti. Eżempju famuż: meta missirijiet jixtru ħrieqi għat-trabi tagħhom, għandhom it-tendenza li jixtru l-birra flimkien mal-ħrieqi.
  • Tbassir tal-Bejgħ
    Dan jista 'jidher simili għall-analiżi tal-basket tas-suq, iżda din id-darba l-analiżi tad-dejta tintuża biex tbassar meta klijent jerġa' jixtri prodott fil-futur. Per eżempju, kowċ jixtri bott ta 'proteina, li għandha ddum għal 9 xhur. Il-maħżen li jbigħ din il-proteina qed jippjana li jirrilaxxa waħda ġdida fi żmien 9 xhur sabiex it-trejner jerġa’ jixtriha.
  • Sejbien ta' Frodi
    It-tħaffir tad-dejta jgħin fil-bini ta 'mudelli biex jinstabu l-frodi. Billi jiġbru kampjuni ta’ rapporti frawdolenti u leġittimi, in-negozji jingħataw is-setgħa li jiddeterminaw liema tranżazzjonijiet huma suspettużi.
  • Sejbien ta 'mudelli fil-produzzjoni
    Fl-industrija tal-manifattura, it-tħaffir tad-dejta jintuża biex jgħin fid-disinn tas-sistema billi jidentifika r-relazzjoni bejn l-arkitettura tal-prodott, il-profil u l-ħtiġijiet tal-klijenti. It-tħaffir tad-dejta jista 'wkoll ibassar l-iskedi ta' żmien u l-ispejjeż tal-iżvilupp tal-prodott.

U dawn huma biss ftit xenarji għall-użu tal-minjieri tad-dejta.

Stadji tal-Minjieri tad-Data

It-tħaffir tad-dejta huwa l-proċess olistiku tal-ġbir, l-għażla, it-tindif, it-trasformazzjoni u l-estrazzjoni tad-dejta biex jiġu evalwati l-mudelli u fl-aħħar mill-aħħar jiġi estratt il-valur.

Nifhmu d-differenza bejn Data Mining u Data Estrazzjoni

Bħala regola, il-proċess kollu tat-tħaffir tad-dejta jista 'jinġabar fil-qosor f'7 stadji:

  1. Tindif tad-data
    Fid-dinja reali, id-data mhux dejjem hija mnaddfa u strutturata. Ħafna drabi huma storbjużi, mhux kompluti, u jista 'jkun fihom żbalji. Biex tiżgura li r-riżultat tat-tħaffir tad-dejta huwa preċiż, l-ewwel trid tnaddaf id-dejta. Xi metodi ta 'tindif jinkludu mili ta' valuri neqsin, verifika awtomatika u manwali, eċċ.
  2. Integrazzjoni tad-data
    Dan huwa l-istadju fejn id-dejta minn sorsi differenti tiġi estratta, magħquda u integrata. Is-sorsi jistgħu jkunu databases, fajls ta 'test, spreadsheets, dokumenti, settijiet ta' data multidimensjonali, l-Internet, eċċ.
  3. Teħid ta' kampjuni tad-dejta
    Tipikament, mhux id-dejta integrata kollha hija meħtieġa fil-minjieri tad-dejta. It-teħid ta' kampjuni tad-dejta huwa l-istadju li fih tintgħażel biss dejta utli u tiġi estratta minn database kbira.
  4. Konverżjoni tad-Data
    Ladarba d-dejta tintgħażel, tiġi kkonvertita f'forom adattati għall-minjieri. Dan il-proċess jinkludi normalizzazzjoni, aggregazzjoni, ġeneralizzazzjoni, eċċ.
  5. Minjieri tad-Data
    Hawnhekk tidħol l-aktar parti importanti tal-minjieri tad-dejta - bl-użu ta 'metodi intelliġenti biex issib mudelli fiha. Il-proċess jinkludi rigressjoni, klassifikazzjoni, tbassir, raggruppament, tagħlim ta 'assoċjazzjoni, u aktar.
  6. Evalwazzjoni tal-mudell
    Dan il-pass għandu l-għan li jidentifika mudelli potenzjalment utli, faċli biex jinftiehmu u li jsostnu l-ipoteżi.
  7. Rappreżentazzjoni tal-għarfien
    Fl-istadju finali, l-informazzjoni miksuba hija ppreżentata f'forma attraenti bl-użu ta 'rappreżentazzjoni tal-għarfien u metodi ta' viżwalizzazzjoni.

Żvantaġġi ta 'Data Mining

  • Investiment kbir ta 'ħin u xogħol
    Peress li t-tħaffir tad-dejta huwa proċess twil u kumpless, jeħtieġ ħafna xogħol minn nies produttivi u tas-sengħa. Minaturi tad-dejta jistgħu jieħdu vantaġġ minn għodod qawwija ta 'tħaffir tad-dejta, iżda jeħtieġu esperti biex jippreparaw id-dejta u jifhmu r-riżultati. Bħala riżultat, jista 'jieħu xi żmien biex tipproċessa l-informazzjoni kollha.
  • Privatezza u sigurtà tad-data
    Peress li t-tħaffir tad-dejta jiġbor informazzjoni tal-klijenti permezz ta’ metodi tas-suq, jista’ jikser il-privatezza tal-utent. Barra minn hekk, il-hackers jistgħu jiksbu data maħżuna f'sistemi ta' data mining. Dan joħloq theddida għas-sigurtà tad-dejta tal-klijenti. Jekk id-dejta misruqa tintuża ħażin, tista' faċilment tagħmel ħsara lil oħrajn.

Hawn fuq hemm introduzzjoni qasira għat-tħaffir tad-dejta. Kif diġà semmejt, it-tħaffir tad-dejta jinvolvi l-proċess tal-ġbir u l-integrazzjoni tad-dejta, li jinkludi l-proċess tal-estrazzjoni tad-dejta. F'dan il-każ, huwa tajjeb li wieħed jgħid li l-estrazzjoni tad-dejta tista 'tkun parti minn proċess ta' tħaffir tad-dejta fit-tul.

X'inhi l-Estrazzjoni tad-Dejta?

Magħruf ukoll bħala "web data mining" u "web scraping", dan il-proċess huwa l-att ta 'estrazzjoni ta' data minn sorsi ta 'data (ġeneralment mhux strutturat jew strutturat ħażin) f'postijiet ċentralizzati u ċentralizzarhom f'post wieħed għall-ħażna jew aktar ipproċessar. Speċifikament, sorsi tad-dejta mhux strutturati jinkludu paġni tal-web, email, dokumenti, fajls PDF, test skannjat, rapporti mainframe, fajls minn rukkell għal rukkell, reklami, eċċ. Il-ħażna ċentralizzata tista 'tkun lokali, sħaba, jew ibrida. Huwa importanti li wieħed jiftakar li l-estrazzjoni tad-dejta ma tinkludix l-ipproċessar jew analiżi oħra li jistgħu jseħħu aktar tard.

X'tista' tagħmel bl-Estrazzjoni tad-Data?

Bażikament, l-għanijiet tal-estrazzjoni tad-dejta jaqgħu fi 3 kategoriji.

  • Arkivjar
    L-estrazzjoni tad-dejta tista' tittrasforma d-dejta minn formati fiżiċi: kotba, gazzetti, fatturi f'formati diġitali, bħal databases għall-ħażna jew backup.
  • Nibdlu l-format tad-data
    Meta trid temigra dejta mis-sit attwali tiegħek għal waħda ġdida li qed tiżviluppa, tista 'tiġbor dejta mis-sit tiegħek billi testratha.
  • Analiżi tad-dejta
    Analiżi addizzjonali tad-dejta estratta biex tinkiseb għarfien hija komuni. Dan jista 'jidher simili għal data mining, iżda żomm f'moħħok li data mining huwa l-iskop ta' data mining, mhux parti minnu. Barra minn hekk, id-dejta hija analizzata b'mod differenti. Eżempju wieħed: Is-sidien tal-ħwienet onlajn jiġbdu informazzjoni dwar il-prodott minn siti tal-kummerċ elettroniku bħal Amazon biex jimmonitorjaw l-istrateġiji tal-kompetituri f'ħin reali. Bħall-minjieri tad-dejta, l-estrazzjoni tad-dejta hija proċess awtomatizzat li għandu ħafna benefiċċji. Fil-passat, in-nies kienu jikkupjaw u paste data manwalment minn post għall-ieħor, li kien jieħu ħafna ħin. L-estrazzjoni tad-dejta tħaffef il-ġbir u ttejjeb ħafna l-eżattezza tad-dejta estratta.

Xi eżempji ta 'użu ta' Estrazzjoni tad-Data

Simili għall-minjieri tad-dejta, it-tħaffir tad-dejta huwa użat ħafna f'diversi industriji. Minbarra l-monitoraġġ tal-prezzijiet fil-kummerċ elettroniku, it-tħaffir tad-dejta jista 'jgħin fir-riċerka tiegħek stess, l-aggregazzjoni tal-aħbarijiet, il-kummerċjalizzazzjoni, il-proprjetà immobbli, l-ivvjaġġar u t-turiżmu, il-konsultazzjoni, il-finanzi u ħafna aktar.

  • Ġenerazzjoni taċ-ċomb
    Kumpaniji jistgħu jiġbdu data minn direttorji: Yelp, Crunchbase, Yellowpages u jiġġeneraw leads għall-iżvilupp tan-negozju. Tista 'tara l-video hawn taħt biex titgħallem kif estratt data minn Yellowpages bl-użu mudell tal-brix tal-web.

  • Aggregazzjoni ta' kontenut u aħbarijiet
    Il-websajts tal-aggregazzjoni tal-kontenut jistgħu jirċievu flussi regolari ta 'dejta minn sorsi multipli u jżommu s-siti tagħhom aġġornati.
  • Analiżi tas-Sentiment
    Billi jiġu estratti reviżjonijiet, kummenti, u feedback minn siti tal-midja soċjali bħal Instagram u Twitter, l-esperti jistgħu janalizzaw is-sentimenti sottostanti u jiksbu għarfien dwar kif marka, prodott, jew fenomenu tiġi pperċepita.

Passi ta' Estrazzjoni tad-Data

L-estrazzjoni tad-dejta hija l-ewwel stadju ta 'ETL (abbrevjazzjoni Extract, Transform, Load) u ELT (estrazzjoni, tagħbija u trasformazzjoni). L-ETL u l-ELT huma stess huma parti minn strateġija kompleta ta' integrazzjoni tad-dejta. Fi kliem ieħor, l-estrazzjoni tad-dejta tista 'tkun parti mill-minjieri tad-dejta.

Nifhmu d-differenza bejn Data Mining u Data Estrazzjoni
Estratt, jikkonverti, tagħbija

Filwaqt li t-tħaffir tad-dejta huwa dwar l-estrazzjoni ta 'informazzjoni minn ammonti kbar ta' dejta, l-estrazzjoni tad-dejta hija proċess ħafna iqsar u sempliċi. Jista' jitnaqqas għal tliet stadji:

  1. Għażla ta' sors tad-dejta
    Agħżel is-sors li trid estratt id-data minn, bħal websajt.
  2. Ġbir tad-dejta
    Ibgħat talba "GET" lis-sit u analizza d-dokument HTML li jirriżulta billi tuża lingwi ta 'programmar bħal Python, PHP, R, Ruby, eċċ.
  3. Ħażna tad-dejta
    Issejvja d-dejta fid-database lokali tiegħek jew fil-ħażna tal-cloud għal użu futur. Jekk inti programmatur b'esperjenza li trid tiġbed id-dejta, il-passi ta 'hawn fuq jistgħu jidhru sempliċi għalik. Madankollu, jekk ma tikkodifikax, shortcut huwa li tuża għodod ta 'estrazzjoni tad-dejta, eż. Octoparse. Għodod tal-estrazzjoni tad-dejta, bħall-għodod tal-minjieri tad-dejta, huma mfassla biex jiffrankaw l-enerġija u jagħmlu l-ipproċessar tad-dejta faċli għal kulħadd. Dawn l-għodod mhumiex biss ekonomiċi iżda wkoll faċli għall-Bidu. Jippermettu lill-utenti jiġbru d-dejta fi ftit minuti, jaħżnuha fis-sħab u jesportawha f'ħafna formati: Excel, CSV, HTML, JSON jew għal databases tal-websajts permezz tal-API.

Żvantaġġi tal-Estrazzjoni tad-Data

  • Ħbit tas-server
    Meta tiġi rkuprata data fuq skala kbira, is-server tal-web tas-sit fil-mira jista 'jkun mgħobbi żżejjed, li jista' jikkawża li s-server jikkraxxja. Dan se jagħmel ħsara lill-interessi tas-sid tas-sit.
  • Projbizzjoni mill-IP
    Meta persuna tiġbor dejta spiss wisq, il-websajts jistgħu jimblokkaw l-indirizz IP tagħhom. Ir-riżorsa tista' tiċħad kompletament indirizz IP jew tillimita l-aċċess, u b'hekk id-dejta ma tkunx kompluta. Biex tirkupra d-dejta u tevita l-imblukkar, trid tagħmel dan b'veloċità moderata u tuża xi tekniki kontra l-imblukkar.
  • Problemi bil-liġi
    L-estrazzjoni tad-dejta mill-web jaqa' f'żona griża fejn tidħol il-legalità. Siti kbar bħal Linkedin u Facebook jiddikjaraw b'mod ċar fit-termini ta 'użu tagħhom li kwalunkwe estrazzjoni ta' data awtomatizzata hija pprojbita. Kien hemm ħafna kawżi bejn kumpaniji minħabba attività tal-bot.

Differenzi Ewlenin Bejn it-Tħaffir tad-Data u l-Estrazzjoni tad-Data

  1. It-tħaffir tad-dejta jissejjaħ ukoll skoperta tal-għarfien f'databases, estrazzjoni tal-għarfien, analiżi tad-dejta/mudell, ġbir ta 'informazzjoni. L-estrazzjoni tad-dejta tintuża minflok l-estrazzjoni tad-dejta tal-web, it-tkaxkir tal-web, it-tħaffir tad-dejta, eċċ.
  2. Ir-riċerka dwar it-tħaffir tad-dejta hija bbażata prinċipalment fuq dejta strutturata, filwaqt li fil-minjieri tad-dejta ġeneralment tiġi estratta minn sorsi mhux strutturati jew strutturati ħażin.
  3. L-għan tat-tħaffir tad-dejta huwa li d-dejta tkun aktar utli għall-analiżi. L-estrazzjoni tad-dejta hija l-ġbir tad-dejta f'post wieħed fejn tista' tiġi maħżuna jew ipproċessata.
  4. L-analiżi fit-tħaffir tad-dejta hija bbażata fuq metodi matematiċi għall-identifikazzjoni ta 'xejriet jew xejriet. L-estrazzjoni tad-dejta hija bbażata fuq lingwi ta’ programmar jew għodod ta’ estrazzjoni tad-dejta biex jitkaxkru s-sorsi.
  5. L-għan tal-minjieri tad-dejta huwa li jinstabu fatti li qabel ma kinux magħrufa jew injorati, filwaqt li l-estrazzjoni tad-dejta tittratta informazzjoni eżistenti.
  6. It-tħaffir tad-dejta huwa aktar kumpless u jeħtieġ investimenti kbar fit-taħriġ tan-nies. L-estrazzjoni tad-dejta, meta tintuża bl-għodda t-tajba, tista 'tkun estremament sempliċi u kost-effettiva.

Aħna ngħinu lil dawk li jibdew ma jitħawdux fid-Data. Ħloqna kodiċi promozzjonali speċjalment għar-residenti ta’ Khabra HABR, billi tagħti skont addizzjonali ta' 10% għar-roħs indikat fuq il-banner.

Nifhmu d-differenza bejn Data Mining u Data Estrazzjoni

Aktar korsijiet

Artikoli Dehru

Sors: www.habr.com