Verstaan ​​​​die verskil tussen data-ontginning en data-ontginning

Verstaan ​​​​die verskil tussen data-ontginning en data-ontginning
Hierdie twee Data Science-gonswoorde verwar baie mense. Data-ontginning word dikwels misverstaan ​​as die onttrekking en herwinning van data, maar die werklikheid is baie meer kompleks. In hierdie pos, kom ons stip Mynbou en vind die verskil tussen data-ontginning en data-ontginning uit.

Wat is data-ontginning?

Data-ontginning, ook genoem Databasis Knowledge Discovery (KDD), is 'n tegniek wat dikwels gebruik word om groot datastelle te ontleed deur statistiese en wiskundige metodes te gebruik om verborge patrone of tendense te vind en waarde daaruit te onttrek.

Wat kan met Data Mining gedoen word?

Deur die proses te outomatiseer, data-ontginning gereedskap kan deur databasisse blaai en verborge patrone effektief ontbloot. Vir besighede word data-ontginning dikwels gebruik om patrone en verwantskappe in data te ontdek om beter besigheidsbesluite te help neem.

Toepassingsvoorbeelde

Nadat data-ontginning in die 1990's wydverspreid geraak het, het maatskappye in 'n wye reeks industrieë, insluitend kleinhandel, finansies, gesondheidsorg, vervoer, telekommunikasie, e-handel, ens., data-ontginningsmetodes begin gebruik om inligting op databasis te bekom. Data-ontginning kan help om kliënte te segmenteer, bedrog te identifiseer, verkope te voorspel, en meer.

  • Kliëntsegmentering
    Deur klantdata te ontleed en die eienskappe van teikenkliënte te identifiseer, kan maatskappye hulle in 'n aparte groep groepeer en spesiale aanbiedinge verskaf wat aan hul behoeftes voldoen.
  • Markmandjie-analise
    Hierdie tegniek is gebaseer op die teorie dat as jy 'n sekere groep produkte koop, jy meer geneig is om 'n ander groep produkte te koop. Een bekende voorbeeld: wanneer pa's doeke vir hul babas koop, is hulle geneig om bier saam met die doeke te koop.
  • Verkope vooruitskatting
    Dit lyk dalk soortgelyk aan markmandjie-analise, maar hierdie keer word data-analise gebruik om te voorspel wanneer 'n kliënt in die toekoms weer 'n produk gaan koop. Byvoorbeeld, 'n afrigter koop 'n blikkie proteïen wat vir 9 maande moet hou. Die winkel wat hierdie proteïen verkoop, beplan om 'n nuwe een oor 9 maande vry te stel sodat die afrigter dit weer sal koop.
  • Bedrog opsporing
    Data-ontginning help met die bou van modelle vir bedrogopsporing. Deur monsters van bedrieglike en waarheidsgetroue verslae in te samel, word besighede bemagtig om te bepaal watter transaksies verdag is.
  • Patroonopsporing in produksie
    In die vervaardigingsbedryf word data-ontginning gebruik om stelsels te help ontwerp deur die verband tussen produkargitektuur, profiel en klantbehoeftes te identifiseer. Data-ontginning kan ook produkontwikkelingstye en -koste voorspel.

En dit is net 'n paar gebruiksgevalle vir data-ontginning.

Stadiums van data-ontginning

Data-ontginning is 'n holistiese proses van versameling, selektering, skoonmaak, transformasie en onttrekking van data om patrone te evalueer en uiteindelik waarde te onttrek.

Verstaan ​​​​die verskil tussen data-ontginning en data-ontginning

Oor die algemeen kan die hele data-ontginningsproses in 7 stappe opgesom word:

  1. Data skoonmaak
    In die regte wêreld word data nie altyd skoongemaak en gestruktureer nie. Hulle is dikwels raserig, onvolledig en kan foute bevat. Om seker te maak dat die data-ontginningsresultaat akkuraat is, moet jy eers die data skoonmaak. Sommige skoonmaakmetodes sluit in die invul van ontbrekende waardes, outomatiese en handmatige kontroles, ensovoorts.
  2. Data-integrasie
    Dit is die stadium waar data uit verskillende bronne onttrek, gekombineer en geïntegreer word. Bronne kan databasisse, tekslêers, sigblaaie, dokumente, multidimensionele datastelle, die internet, ensovoorts wees.
  3. Datasteekproefneming
    Gewoonlik word nie alle geïntegreerde data in data-ontginning benodig nie. Datasteekproefneming is die stadium waarin slegs nuttige data gekies en uit 'n groot databasis onttrek word.
  4. Data-omskakeling
    Sodra die data gekies is, word dit omgeskakel in vorms wat geskik is vir mynbou. Hierdie proses sluit normalisering, samevoeging, veralgemening, ens.
  5. Data-ontginning
    Hier kom die belangrikste deel van data-ontginning – die gebruik van intelligente metodes om patrone daarin te vind. Die proses sluit regressie, klassifikasie, voorspelling, groepering, assosiasieleer en meer in.
  6. Model evaluering
    Hierdie stap het ten doel om potensieel bruikbare, maklik verstaanbare patrone te identifiseer, asook patrone wat hipoteses ondersteun.
  7. Kennis verteenwoordiging
    Op die finale stadium word die inligting wat verkry word op 'n aantreklike manier aangebied deur gebruik te maak van kennisvoorstelling en visualiseringsmetodes.

Nadele van Data Mining

  • Groot belegging van tyd en arbeid
    Aangesien data-ontginning 'n lang en komplekse proses is, verg dit baie werk van produktiewe en vaardige mense. Datawetenskaplikes kan kragtige data-ontginningsinstrumente gebruik, maar hulle benodig kundiges om die data voor te berei en die resultate te verstaan. Gevolglik kan dit 'n rukkie neem om al die inligting te verwerk.
  • Data privaatheid en sekuriteit
    Omdat data-ontginning klantinligting deur middel van markmetodes insamel, kan dit gebruikersprivaatheid skend. Boonop kan kuberkrakers data bekom wat in data-ontginningstelsels gestoor is. Dit hou 'n bedreiging in vir die sekuriteit van klantdata. As die gesteelde data misbruik word, kan dit maklik ander benadeel.

Bogenoemde is 'n kort inleiding tot data-ontginning. Soos ek reeds genoem het, bevat data-ontginning die proses om data te versamel en te integreer, wat die proses van onttrekking van data (data-ekstraksie) insluit. In hierdie geval is dit veilig om te sê dat data-ontginning deel kan wees van 'n lang data-ontginningsproses.

Wat is data-onttrekking?

Ook bekend as "webdata-ontginning" en "webskraping", is hierdie proses die handeling om data uit (gewoonlik ongestruktureerde of swak gestruktureerde) databronne na gesentraliseerde liggings te onttrek en sentralisering op een plek vir berging of verdere verwerking. Spesifiek, ongestruktureerde databronne sluit webblaaie, e-pos, dokumente, PDF-lêers, geskandeerde teks, hoofraamverslae, spoellêers, aankondigings, ensovoorts in. Gesentraliseerde berging kan plaaslik, wolk of baster wees. Dit is belangrik om te onthou dat data-onttrekking nie verwerking of ander ontleding insluit wat later kan plaasvind nie.

Wat kan met data-onttrekking gedoen word?

Basies val data-onttrekkingsdoeleindes in 3 kategorieë.

  • Argiveer
    Data-onttrekking kan data van fisiese formate soos boeke, koerante, fakture omskakel na digitale formate soos databasisse vir berging of rugsteun.
  • Verander die dataformaat
    Wanneer jy data van jou huidige werf wil migreer na 'n nuwe een wat ontwikkel word, kan jy data van jou eie werf insamel deur dit te onttrek.
  • Data-analise
    Dit is algemeen om die onttrekde data verder te ontleed om insig daaroor te kry. Dit klink dalk soortgelyk aan data-ontginning, maar hou in gedagte dat data-ontginning die doel van data-ontginning is, nie deel daarvan nie. Boonop word die data anders ontleed. Een voorbeeld is dat aanlynwinkeleienaars produkinligting van e-handelwebwerwe soos Amazon trek om mededingerstrategieë intyds te monitor. Soos data-ontginning, is data-onttrekking 'n outomatiese proses met baie voordele. In die verlede het mense data handmatig van een plek na 'n ander gekopieer en geplak, wat baie tydrowend was. Data-onttrekking versnel die versameling en verbeter die akkuraatheid van die onttrekde data aansienlik.

Enkele voorbeelde van die gebruik van data-onttrekking

Soortgelyk aan data-ontginning, word data-ontginning wyd gebruik in verskeie industrieë. Benewens monitering van e-handelpryse, kan data-ontginning help met jou eie navorsing, nuussamevoeging, bemarking, eiendom, reis en toerisme, konsultasie, finansies, en meer.

  • Loodgenerering
    Maatskappye kan data uit dopgehou onttrek: Yelp, Crunchbase, Yellowpages en leidrade genereer vir besigheidsontwikkeling. Jy kan die video hieronder kyk om te leer hoe om data uit Yellowpages te onttrek met web skraap sjabloon.

  • Samevoeging van inhoud en nuus
    Webwerwe wat inhoud versamel, kan gereelde datastrome van verskeie bronne ontvang en hul werwe op datum hou.
  • Sentiment Analise
    Nadat resensies, opmerkings en getuigskrifte van sosiale netwerke soos Instagram en Twitter onttrek is, kan professionele persone die onderliggende houdings ontleed en insigte kry in hoe 'n handelsmerk, produk of verskynsel waargeneem word.

Data-onttrekkingstappe

Data-onttrekking is die eerste fase van ETL (Extract, Transform, Load: Extract, Transform, Load) en ELT (Extract, Load, and Transform). ETL en ELT is self deel van 'n volledige data-integrasiestrategie. Met ander woorde, die onttrekking van data kan deel van hul onttrekking wees.

Verstaan ​​​​die verskil tussen data-ontginning en data-ontginning
Onttrek, transformeer, laai

Terwyl data-ontginning alles gaan oor die onttrekking van inligting uit groot hoeveelhede data, is data-ontginning 'n baie korter en eenvoudiger proses. Dit kan tot drie fases verminder word:

  1. Kies 'n databron
    Kies die bron waaruit jy data wil onttrek, soos 'n webwerf.
  2. Data-insameling
    Stuur 'n "GET"-versoek na die webwerf en ontleed die resulterende HTML-dokument met behulp van programmeertale soos Python, PHP, R, Ruby, ens.
  3. Datastoor
    Stoor die data in jou plaaslike databasis of wolkberging vir toekomstige gebruik. As jy 'n ervare programmeerder is wat data wil onttrek, kan die bogenoemde stappe vir jou eenvoudig lyk. As jy egter nie 'n programmeerder is nie, is daar 'n kortpad - gebruik data-ontginningsinstrumente soos Octoparse. Data-onttrekkingsnutsgoed, net soos data-ontginningnutsmiddels, is ontwerp om energie te bespaar en dataverwerking vir almal maklik te maak. Hierdie gereedskap is nie net ekonomies nie, maar ook beginnersvriendelik. Dit laat gebruikers toe om data binne minute in te samel, dit in die wolk te stoor en dit uit te voer na baie formate: Excel, CSV, HTML, JSON, of na databasisse op die webwerf via 'n API.

Nadele van data-onttrekking

  • Bedienerongeluk
    Wanneer data op groot skaal onttrek word, kan die webbediener van die teikenwerf oorlaai word, wat kan lei tot 'n bedienerongeluk. Dit sal die belange van die werfeienaar benadeel.
  • Verban deur IP
    Wanneer 'n persoon te gereeld data insamel, kan webwerwe hul IP-adres blokkeer. 'n Hulpbron kan 'n IP-adres heeltemal verbied of toegang beperk deur die data onvolledig te maak. Om data te herwin en blokkering te vermy, moet jy dit teen 'n matige spoed doen en 'n paar anti-blokkeringstegnieke toepas.
  • Probleme met die reg
    Die onttrekking van data van die web val in 'n grys area wanneer dit kom by wettigheid. Groot werwe soos Linkedin en Facebook stel dit duidelik in hul gebruiksvoorwaardes dat enige outomatiese onttrekking van data verbied word. Daar was baie regsgedinge tussen maatskappye as gevolg van botaktiwiteite.

Sleutelverskille tussen data-ontginning en data-ontginning

  1. Data-ontginning word ook kennisontdekking in databasisse, kennisonttrekking, data/patroonanalise, inligtinginsameling genoem. Data-onttrekking word uitruilbaar gebruik met webdata-onttrekking, webbladskandering, data-insameling, ensovoorts.
  2. Data-ontginningsnavorsing is meestal gebaseer op gestruktureerde data, terwyl data-ontginning gewoonlik uit ongestruktureerde of swak gestruktureerde bronne put.
  3. Die doel van data-ontginning is om data meer bruikbaar vir ontleding te maak. Data-onttrekking is die versameling van data op een plek waar dit gestoor of verwerk kan word.
  4. Ontleding in data-ontginning is gebaseer op wiskundige metodes om patrone of neigings te identifiseer. Data-onttrekking is gebaseer op programmeertale of data-onttrekkingsinstrumente om bronne te omseil.
  5. Die doel van data-ontginning is om feite te vind wat nie voorheen bekend of geïgnoreer was nie, terwyl data-ontginning met bestaande inligting handel.
  6. Data-ontginning is meer kompleks en vereis 'n groot belegging in die opleiding van mense. Data-onttrekking met die regte hulpmiddel kan uiters maklik en koste-effektief wees.

Ons help beginners om nie in Data verward te raak nie. Ons het veral vir habravchans 'n promosiekode gemaak HABR, wat 'n bykomende 10% afslag gee op die afslag wat op die banier aangedui word.

Verstaan ​​​​die verskil tussen data-ontginning en data-ontginning

Meer kursusse

Uitgestalde artikels

Bron: will.com