Kompreni la diferencon inter Datuma Minado kaj Datuma Eltiro

Kompreni la diferencon inter Datuma Minado kaj Datuma Eltiro
Ĉi tiuj du datumsciencaj vortvortoj konfuzas multajn homojn. Datuma Minado ofte estas miskomprenita kiel ĉerpi kaj retrovi datumojn, sed la realo estas multe pli kompleksa. En ĉi tiu afiŝo, ni punktu Minadon kaj eksciu la diferencon inter Datuma Minado kaj Datuma Eltiro.

Kio estas Datuma Minado?

Datumminado, ankaŭ nomita Database Knowledge Discovery (KDD), estas tekniko ofte uzita por analizi grandajn datumarojn uzante statistikajn kaj matematikajn metodojn por trovi kaŝitajn ŝablonojn aŭ tendencojn kaj eltiri valoron de ili.

Kion oni povas fari kun Data Mining?

Aŭtomatigante la procezon, datumminado iloj povas foliumi datumbazojn kaj efike malkovri kaŝitajn ŝablonojn. Por entreprenoj, datumminado ofte estas uzata por malkovri ŝablonojn kaj rilatojn en datumoj por helpi fari pli bonajn komercajn decidojn.

Ekzemploj de aplikaĵo

Post kiam datumminado iĝis ĝeneraligita en la 1990-aj jaroj, firmaoj en larĝa gamo de industrioj, inkluzive de podetala komerco, financo, sanservo, transportado, telekomunikado, elektronika komerco, ktp., komencis uzi datumminadmetodojn por akiri informojn sur datuma bazo. Datumminado povas helpi segmenti klientojn, identigi fraŭdon, antaŭdiri vendojn kaj pli.

  • Segmentado de klientoj
    Analizante klientajn datumojn kaj identigante la trajtojn de celklientoj, kompanioj povas grupigi ilin en apartan grupon kaj provizi specialajn ofertojn, kiuj kontentigas iliajn bezonojn.
  • Merkata Korbo-Analizo
    Ĉi tiu tekniko baziĝas sur la teorio, ke se vi aĉetas certan grupon de produktoj, vi pli verŝajne aĉetos malsaman grupon de produktoj. Unu fama ekzemplo: kiam patroj aĉetas vindotukojn por siaj beboj, ili emas aĉeti bieron kune kun la vindotukoj.
  • Venda prognozo
    Ĝi povas ŝajni simila al merkatkorba analizo, sed ĉi-foja datuma analizo estas uzata por antaŭdiri kiam kliento aĉetos produkton denove en la estonteco. Ekzemple, trejnisto aĉetas ladskatolon da proteino, kiu devus daŭri 9 monatojn. La vendejo, kiu vendas ĉi tiun proteinon, planas liberigi novan post 9 monatoj, por ke la trejnisto aĉetos ĝin denove.
  • Detekto de fraŭdo
    Datumminado helpas konstrui modelojn por detekti fraŭdon. Kolektante specimenojn de fraŭdaj kaj legitimaj raportoj, entreprenoj rajtas determini kiuj transakcioj estas suspektindaj.
  • Detekto de ŝablonoj en produktado
    En la industrio, datuma minado estas uzata por helpi dizajni sistemojn identigante la rilaton inter produkta arkitekturo, profilo kaj klientbezonoj. Datumminado ankaŭ povas antaŭdiri tempojn kaj kostojn de produkt-disvolvado.

Kaj ĉi tiuj estas nur kelkaj uzkazoj por datumminado.

Etapoj de datumminado

Datumminado estas holisma procezo kolekti, elekti, purigi, transformi kaj ĉerpi datumojn por taksi ŝablonojn kaj, finfine, eltiri valoron.

Kompreni la diferencon inter Datuma Minado kaj Datuma Eltiro

Ĝenerale, la tuta datumminadprocezo povas esti resumita en 7 paŝojn:

  1. Purigado de datumoj
    En la reala mondo, datumoj ne ĉiam estas purigitaj kaj strukturitaj. Ili ofte estas bruaj, nekompletaj, kaj povas enhavi erarojn. Por certigi, ke la datuma minado rezulto estas preciza, vi unue devas purigi la datumojn. Iuj purigaj metodoj inkluzivas plenigi mankantajn valorojn, aŭtomatajn kaj manajn kontrolojn ktp.
  2. Integriĝo de datumoj
    Ĉi tiu estas la stadio kie datumoj de malsamaj fontoj estas ĉerpitaj, kombinitaj kaj integritaj. Fontoj povas esti datumbazoj, tekstaj dosieroj, kalkultabeloj, dokumentoj, plurdimensiaj datumaroj, Interreto ktp.
  3. Specimeno de datumoj
    Kutime, ne ĉiuj integritaj datumoj necesas en datumminado. Datenspecimenigo estas la stadio en kiu nur utilaj datenoj estas elektitaj kaj ĉerpitaj el granda datumbazo.
  4. Konverto de datumoj
    Post kiam la datumoj estas elektitaj, ĝi estas konvertita en formojn taŭgajn por minado. Ĉi tiu procezo inkluzivas normaligon, agregadon, ĝeneraligo ktp.
  5. Minado de datumoj
    Jen venas la plej grava parto de datumminado - uzante inteligentajn metodojn por trovi ŝablonojn en ili. La procezo inkluzivas regreson, klasifikon, antaŭdiron, grupigon, asocian lernadon kaj pli.
  6. Modela taksado
    Ĉi tiu paŝo celas identigi eble utilajn, facile kompreneblajn ŝablonojn, same kiel ŝablonojn, kiuj subtenas hipotezojn.
  7. Scio-Reprezentado
    En la fina etapo, la informoj akiritaj estas prezentitaj en alloga maniero uzante scion reprezentado kaj bildigo metodoj.

Malavantaĝoj de Datuma Minado

  • Granda investo de tempo kaj laboro
    Ĉar datuma minado estas longa kaj kompleksa procezo, ĝi postulas multan laboron de produktivaj kaj lertaj homoj. Datumsciencistoj povas uzi potencajn datumminajn ilojn, sed ili bezonas spertulojn por prepari la datumojn kaj kompreni la rezultojn. Kiel rezulto, povas daŭri iom da tempo por prilabori ĉiujn informojn.
  • Privateco kaj sekureco de datumoj
    Ĉar datuma minado kolektas klientajn informojn per merkatmetodoj, ĝi povas malobservi uzantan privatecon. Krome, piratoj povas akiri datumojn konservitajn en datumminadaj sistemoj. Ĉi tio prezentas minacon al la sekureco de klientdatenoj. Se la ŝtelitaj datumoj estas misuzataj, ĝi povas facile damaĝi aliajn.

Supre estas mallonga enkonduko al datumminado. Kiel mi jam menciis, datuma minado implikas la procezon kolekti kaj integri datumojn, kiu inkluzivas la procezon de eltiro de datumoj. En ĉi tiu kazo, estas sekure diri, ke datuma eltiro povas esti parto de longtempa datumminadprocezo.

Kio estas Datuma Eltiro?

Ankaŭ konata kiel "ret-datumminado" kaj "ret-skrapado", ĉi tiu procezo estas la ago ĉerpi datumojn de (kutime nestrukturitaj aŭ nebone strukturitaj) datumfontoj en centralizitajn lokojn kaj centralizon en unu loko por stokado aŭ plua prilaborado. Specife, nestrukturitaj datumfontoj inkluzivas retpaĝojn, retpoŝton, dokumentojn, PDF-dosierojn, skanitan tekston, komputilajn raportojn, bobenajn dosierojn, anoncojn ktp. Alcentrigita stokado povas esti loka, nuba aŭ hibrida. Gravas memori, ke datuma eltiro ne inkluzivas prilaboradon aŭ alian analizon, kiu povas okazi poste.

Kion oni povas fari kun Datuma Eltiro?

Esence, datumoj eltiraj celoj falas en 3 kategorioj.

  • Arkivado
    Eltiro de datumoj povas konverti datumojn de fizikaj formatoj kiel libroj, gazetoj, fakturoj al ciferecaj formatoj kiel datumbazoj por stokado aŭ sekurkopio.
  • Ŝanĝi la datumformaton
    Kiam vi volas migri datumojn de via nuna retejo al nova evoluanta, vi povas kolekti datumojn de via propra retejo ĉerpante ĝin.
  • Analizo de datumoj
    Plia analizo de la ĉerpitaj datumoj por akiri komprenon estas ofta. Ĉi tio povas ŝajni simila al datumminado, sed memoru, ke datumminado estas la celo de datumminado, ne parto de ĝi. Krome, la datumoj estas analizitaj malsame. Unu ekzemplo: Retaj vendejposedantoj ĉerpas produktajn informojn de retkomercaj retejoj kiel Amazon por kontroli la strategiojn de konkurantoj en reala tempo. Kiel datuma minado, datuma eltiro estas aŭtomata procezo, kiu havas multajn avantaĝojn. En la pasinteco, homoj kutimis kopii kaj alglui datumojn permane de unu loko al alia, kio estis tre tempopostula. Eltiro de datumoj plirapidigas kolekton kaj multe plibonigas la precizecon de la ĉerpitaj datumoj.

Kelkaj ekzemploj de uzado de Datuma Eltiro

Simile al datumminado, datumminado estas vaste uzata en diversaj industrioj. Krom kontrolado de prezoj de elektronika komerco, datumminado povas helpi kun via propra esplorado, novaĵagregado, merkatado, nemoveblaĵoj, vojaĝoj kaj turismo, konsultado, financo kaj pli.

  • Plumbogeneracio
    Firmaoj povas ĉerpi datumojn el dosierujoj: Yelp, Crunchbase, Yellowpages kaj generi kondukojn por komerca disvolviĝo. Vi povas spekti la suban videon por lerni kiel ĉerpi datumojn el Flavpaĝoj per TTT-skrapanta ŝablono.

  • Agregado de enhavo kaj novaĵoj
    Enhavaj agregaj retejoj povas ricevi regulajn fluojn de datumoj de pluraj fontoj kaj konservi siajn retejojn ĝisdatigitaj.
  • Analizo de Sentoj
    Post eltiro de recenzoj, komentoj kaj atestoj de sociaj retoj kiel Instagram kaj Twitter, profesiuloj povas analizi la subestajn sintenojn kaj akiri sciojn pri kiel marko, produkto aŭ fenomeno estas perceptita.

Paŝoj de Eltiro de Datumoj

Eltiro de datumoj estas la unua etapo de ETL (Eltiraĵo, Transformo, Ŝarĝo: Ekstrakto, Transformo, Ŝarĝo) kaj ELT (Ekstrakto, Ŝarĝo kaj Transformo). ETL kaj ELT estas mem parto de kompleta datuma integriga strategio. Alivorte, ĉerpi datumojn povas esti parto de ilia eltiro.

Kompreni la diferencon inter Datuma Minado kaj Datuma Eltiro
Eltiri, transformi, ŝarĝi

Dum datumminado temas pri ĉerpi informojn de grandaj kvantoj da datumoj, datuma eltiro estas multe pli mallonga kaj simpla procezo. Ĝi povas esti reduktita al tri etapoj:

  1. Elektante datumfonton
    Elektu la fonton, el kiu vi volas ĉerpi datumojn, kiel retejo.
  2. Kolekto de datumoj
    Sendu "GET" peton al la retejo kaj analizu la rezultan HTML-dokumenton uzante programlingvojn kiel Python, PHP, R, Ruby, ktp.
  3. Stokado de datumoj
    Konservu la datumojn en via loka datumbazo aŭ nuba stokado por estonta uzo. Se vi estas sperta programisto, kiu volas ĉerpi datumojn, la supraj paŝoj eble ŝajnos simplaj al vi. Tamen, se vi ne estas programisto, ekzistas ŝparvojo - uzu datumminajn ilojn kiel Octoparse. Iloj por eltiro de datumoj, kiel iloj por minado de datumoj, estas dezajnitaj por ŝpari energion kaj faciligi la datumtraktadon por ĉiuj. Ĉi tiuj iloj estas ne nur ekonomiaj, sed ankaŭ por komencantoj. Ili permesas al uzantoj kolekti datumojn en minutoj, stoki ĝin en la nubo kaj eksporti ĝin al multaj formatoj: Excel, CSV, HTML, JSON aŭ al retejaj datumbazoj per API.

Malavantaĝoj de Datuma Eltiro

  • Servila kraŝo
    Kiam ĉerpas datumojn grandskale, la retservilo de la cela retejo povas esti troŝarĝita, kio povas konduki al servila kraŝo. Ĉi tio damaĝos la interesojn de la posedanto de la retejo.
  • Malpermeso per IP
    Kiam persono tro ofte kolektas datumojn, retejoj povas bloki sian IP-adreson. Rimedo povas tute malpermesi IP-adreson aŭ limigi aliron igante la datumojn nekompletaj. Por preni datumojn kaj eviti blokadon, vi devas fari ĝin je modera rapideco kaj apliki iujn kontraŭ-blokajn teknikojn.
  • Problemoj kun leĝo
    Ĉerpi datumojn de la reto falas en grizan areon kiam temas pri laŭleĝeco. Gravaj retejoj kiel Linkedin kaj Facebook klare deklaras en siaj uzkondiĉoj, ke ajna aŭtomata eltiro de datumoj estas malpermesita. Okazis multaj procesoj inter kompanioj pro bot-agadoj.

Ŝlosilaj Diferencoj Inter Datuma Minado kaj Datuma Eltiro

  1. Datumminado ankaŭ estas nomita scio-malkovro en datumbazoj, scio-ekstraktado, datumoj/ŝablonanalizo, informkolektado. Eltiro de datumoj estas uzata interŝanĝe kun eltiro de datumoj, skanado de retpaĝoj, kolekto de datumoj ktp.
  2. Esplorado pri datumoj-minado estas plejparte bazita sur strukturitaj datumoj dum datumminado kutime tiras el nestrukturitaj aŭ malbone strukturitaj fontoj.
  3. La celo de datumminado estas fari datumojn pli utilaj por analizo. Eltiro de datumoj estas la kolekto de datumoj en unu lokon, kie ĝi povas esti konservita aŭ prilaborita.
  4. Analizo en datumminado baziĝas sur matematikaj metodoj por identigi ŝablonojn aŭ tendencojn. Eltiro de datumoj baziĝas sur programlingvoj aŭ eltiraj iloj por preteriri fontojn.
  5. La celo de datumminado estas trovi faktojn, kiuj antaŭe estis nekonataj aŭ ignoritaj, dum datuma eltiro traktas ekzistantajn informojn.
  6. Datuma minado estas pli kompleksa kaj postulas grandan investon en trejnado de homoj. Eltiro de datumoj per la ĝusta ilo povas esti ekstreme facila kaj kostefika.

Ni helpas komencantojn ne konfuziĝi en Datumoj. Precipe por habravchans, ni faris reklaman kodon HABR, donante plian 10% rabaton al la rabato indikita sur la standardo.

Kompreni la diferencon inter Datuma Minado kaj Datuma Eltiro

Pli da kursoj

Elstaraj Artikoloj

fonto: www.habr.com