Litte wy begripe wat it ferskil is tusken Data Mining en Data Extraction

Litte wy begripe wat it ferskil is tusken Data Mining en Data Extraction
Dizze twa buzzwords foar gegevenswittenskip ferwarje in protte minsken. Data Mining wurdt faak ferkeard begrepen as it ekstrahearjen en opheljen fan gegevens, mar yn werklikheid is it folle komplekser. Litte wy yn dizze post de finish sette op Mining en it ferskil fine tusken Data Mining en Data Extraction.

Wat is Data Mining?

Data mining, ek wol neamd Knowledge Discovery in Database (KDD), is in technyk dy't faak brûkt wurdt om grutte hoemannichten gegevens te analysearjen mei statistyske en wiskundige techniken om ferburgen patroanen of trends te finen en wearde út te heljen.

Wat kinne jo dwaan mei Data Mining?

Troch it automatisearjen fan it proses, data mining ark kin databases scannen en ferburgen patroanen effektyf identifisearje. Foar bedriuwen wurdt data mining faak brûkt om patroanen en relaasjes yn gegevens te identifisearjen om te helpen bettere saaklike besluten te meitsjen.

Applikaasje foarbylden

Neidat data mining waard wiidferspraat yn de jierren 1990, bedriuwen yn in breed skala oan yndustry, ynklusyf detailhannel, finânsjes, sûnenssoarch, ferfier, telekommunikaasje, e-commerce, ensfh, begûn te brûken data mining techniken te krijen ynformaasje oer basearre op gegevens. Data mining kin klanten helpe segmentearje, fraude opspoare, ferkeap foarsizze, en folle mear.

  • Klant segmentaasje
    Troch klantgegevens te analysearjen en de skaaimerken fan doelklanten te identifisearjen, kinne bedriuwen har rjochtsje yn in ûnderskate groep en spesjale oanbiedingen leverje dy't oan har behoeften foldwaan.
  • Market Basket Analysis
    Dizze technyk is basearre op de teory dat as jo in bepaalde groep produkten keapje, jo wierskynliker in oare groep produkten keapje. Ien ferneamd foarbyld: as heiten luiers keapje foar har poppen, keapje se neigeraden bier tegearre mei de luiers.
  • Sales Forecasting
    Dit kin lykje te ferlykjen mei merk basket analyze, mar dizze kear gegevens analyze wurdt brûkt om foarsizze wannear't in klant sil keapje in produkt wer yn 'e takomst. Bygelyks, in coach keapet in blikje aaiwyt, dat moat duorje foar 9 moannen. De winkel dy't dit proteïne ferkeapet, is fan plan in nije frij te jaan yn 9 moannen, sadat de trainer it opnij sil keapje.
  • Fraude Detection
    Data mining helpt by it bouwen fan modellen om fraude te detektearjen. Troch samples fan frauduleuze en legitime rapporten te sammeljen, wurde bedriuwen foech om te bepalen hokker transaksjes fertocht binne.
  • Deteksje fan patroanen yn produksje
    Yn 'e produksjesektor wurdt data mining brûkt om te helpen by systeemûntwerp troch de relaasje te identifisearjen tusken produktarsjitektuer, profyl en klantbehoeften. Data mining kin ek produktûntwikkeling tiidlinen en kosten foarsizze.

En dit binne mar in pear senario's foar it brûken fan data mining.

Data Mining Stappen

Data mining is it holistyske proses fan it sammeljen, selektearjen, skjinmeitsjen, transformearjen en ekstrahearje fan gegevens om patroanen te evaluearjen en úteinlik wearde te ekstrahearjen.

Litte wy begripe wat it ferskil is tusken Data Mining en Data Extraction

As regel kin it hiele proses fan data mining wurde gearfette yn 7 stadia:

  1. Data cleaning
    Yn 'e echte wrâld wurde gegevens net altyd skjinmakke en struktureare. Se binne faak lawaaierich, ûnfolslein en kinne flaters befetsje. Om derfoar te soargjen dat it resultaat fan it mining fan gegevens krekt is, moatte jo earst de gegevens skjinmeitsje. Guon skjinmakmetoaden omfetsje it ynfoljen fan ûntbrekkende wearden, automatyske en hânmjittige kontrôle, ensfh.
  2. Data Yntegraasje
    Dit is it poadium wêryn gegevens út ferskate boarnen ekstrahearre, kombineare en yntegreare wurde. Boarnen kinne databases, tekstbestannen, spreadsheets, dokuminten, multydimensionale datasets, ynternet, ensfh.
  3. Data sampling
    Typysk binne net alle yntegreare gegevens nedich yn data mining. Gegevens sampling is it poadium wêryn allinich nuttige gegevens wurde selektearre en ekstrahearre út in grutte databank.
  4. Data konverzje
    Sadree't de gegevens is selektearre, it wurdt omsetten yn geskikte foarmen foar mynbou. Dit proses omfettet normalisaasje, aggregaasje, generalisaasje, ensfh.
  5. Data Mining
    Hjir komt it wichtichste diel fan data mining - it brûken fan yntelliginte metoaden om patroanen yn te finen. It proses omfettet regression, klassifikaasje, foarsizzing, klustering, assosjaasjelearen, en mear.
  6. Model evaluaasje
    Dizze stap hat as doel om potinsjeel brûkbere, maklik te begripen en hypoteze-stypjende patroanen te identifisearjen.
  7. Kennisfertsjintwurdiging
    Yn it lêste stadium wurdt de krigen ynformaasje presintearre yn in oantreklike foarm mei help fan kennisfertsjintwurdiging en fisualisaasjemetoaden.

Neidielen fan Data Mining

  • Grutte ynvestearring fan tiid en arbeid
    Sûnt data mining in lang en kompleks proses is, fereasket it in protte wurk fan produktive en betûfte minsken. Data miners kinne profitearje fan krêftige data mining-ark, mar se hawwe saakkundigen nedich om de gegevens te meitsjen en de resultaten te begripen. As gefolch kin it wat tiid duorje om alle ynformaasje te ferwurkjen.
  • Privacy en gegevensfeiligens
    Om't data mining klantynformaasje sammelt fia merkmetoaden, kin it de privacy fan brûkers skeine. Derneist kinne hackers gegevens krije opslein yn data miningsystemen. Dit soarget foar in bedriging foar de feiligens fan klantgegevens. As stellen gegevens wurde misbrûkt, kin it maklik skea oan oaren.

Hjirboppe is in koarte ynlieding oer data mining. Lykas ik al neamde, omfettet data mining it proses fan it sammeljen en yntegrearjen fan gegevens, wêrby't it proses fan data-ekstraksje omfettet. Yn dit gefal is it feilich te sizzen dat data-ekstraksje diel útmeitsje kin fan in lange-termyn data mining-proses.

Wat is gegevensekstraksje?

Ek bekend as "web data mining" en "web scraping", dit proses is de aksje fan it ekstrahearjen fan gegevens út (meast net strukturearre of min strukturearre) gegevensboarnen yn sintralisearre lokaasjes en sintralisearje se op ien plak foar opslach of fierdere ferwurking. Spesifyk omfetsje net-strukturearre gegevensboarnen websiden, e-post, dokuminten, PDF-bestannen, skande tekst, mainframe-rapporten, reel-to-reel-bestannen, advertinsjes, ensfh. Sintrale opslach kin lokaal, wolk, as hybride wêze. It is wichtich om te betinken dat gegevensekstraksje gjin ferwurking of oare analyze omfettet dy't letter kinne foarkomme.

Wat kinne jo dwaan mei gegevensekstraksje?

Yn prinsipe falle de doelen fan gegevensekstraksje yn 3 kategoryen.

  • Argivearjen
    Data-ekstraksje kin gegevens transformearje fan fysike formaten: boeken, kranten, faktueren yn digitale formaten, lykas databases foar opslach of reservekopy.
  • It feroarjen fan it gegevensformaat
    As jo ​​​​gegevens wolle migrearje fan jo hjoeddeistige side nei in nije dy't ûnder ûntwikkeling is, kinne jo gegevens sammelje fan jo eigen side troch dizze te ekstrahearjen.
  • Data analyze
    Oanfoljende analyze fan 'e ekstrahearre gegevens om ynsjoch te krijen is gewoan. Dit kin lykje te fergelykjen mei data mining, mar hâld der rekken mei dat data mining is it doel fan data mining, gjin diel fan it. Boppedat wurde de gegevens oars analysearre. Ien foarbyld: Eigners fan online winkels ekstrahearje produktynformaasje fan e-commerce siden lykas Amazon om de strategyen fan konkurrinten yn realtime te kontrolearjen. Lykas data mining is data ekstraksje in automatisearre proses dat in protte foardielen hat. Yn it ferline brûkten minsken gegevens manuell fan it iene plak nei it oare te kopiearjen en te plakjen, wat heul tiidslinend wie. Gegevenswinning fersnelt de kolleksje en ferbetteret de krektens fan 'e ekstrahearre gegevens gâns.

Guon foarbylden fan it brûken fan Data Extraction

Fergelykber mei data mining, wurdt data mining in soad brûkt yn ferskate yndustry. Neist it kontrolearjen fan prizen yn e-commerce, kin datamining helpe by jo eigen ûndersyk, nijsaggregaasje, marketing, ûnreplik guod, reizen en toerisme, konsultaasje, finânsjes en folle mear.

  • Lead generaasje
    Bedriuwen kinne gegevens ekstrahearje út mappen: Yelp, Crunchbase, Yellowpages en leads generearje foar saaklike ûntwikkeling. Jo kinne de fideo hjirûnder besjen om te learen hoe't jo gegevens út Yellowpages kinne ekstrahearje mei web scraping sjabloan.

  • Aggregaasje fan ynhâld en nijs
    Websiden foar ynhâldaggregaasje kinne regelmjittige streamen fan gegevens ûntfange fan meardere boarnen en har siden bywurke hâlde.
  • Sentimint analyze
    Troch beoardielingen, opmerkings en feedback te ekstrahearjen fan sosjale mediasites lykas Instagram en Twitter, kinne saakkundigen de ûnderlizzende sentiminten analysearje en ynsjoch krije yn hoe't in merk, produkt of ferskynsel wurdt waarnommen.

Stappen foar gegevensekstraksje

Gegevenswinning is de earste etappe fan ETL (ôfkoarting Extract, Transform, Load) en ELT (extract, load and transform). ETL en ELT binne sels diel fan in folsleine gegevensyntegraasjestrategy. Mei oare wurden, data-ekstraksje kin diel útmeitsje fan data mining.

Litte wy begripe wat it ferskil is tusken Data Mining en Data Extraction
Útpakke, konvertearje, laden

Wylst data mining giet oer it ekstrahearjen fan ynformaasje út grutte hoemannichten gegevens, data-ekstraksje is in folle koarter en ienfâldiger proses. It kin wurde fermindere nei trije stadia:

  1. Selektearje in gegevensboarne
    Selektearje de boarne wêrfan jo gegevens ekstrahearje wolle, lykas in webside.
  2. Data kolleksje
    Stjoer in "GET"-fersyk nei de side en parse it resultearjende HTML-dokumint mei programmeartalen lykas Python, PHP, R, Ruby, ensfh.
  3. Data opslach
    Bewarje gegevens yn jo lokale databank of wolk opslach foar takomstich gebrûk. As jo ​​​​in betûfte programmeur binne dy't gegevens wolle ekstrahearje, kinne de boppesteande stappen foar jo ienfâldich lykje. As jo ​​​​lykwols net koade, is in fluchtoets om ark foar gegevensekstraksje te brûken, bgl. Octoparse. Tools foar data-ekstraksje, lykas ark foar data mining, binne ûntworpen om enerzjy te besparjen en gegevensferwurking maklik foar elkenien te meitsjen. Dizze ark binne net allinich ekonomysk, mar ek begjinnersfreonlik. Se tastean brûkers te sammeljen gegevens binnen minuten, bewarje it yn 'e wolk en eksportearje it nei in protte formaten: Excel, CSV, HTML, JSON of nei webside databases fia API.

Neidielen fan Data Extraction

  • Tsjinner crash
    By it opheljen fan gegevens op in grutte skaal kin de webserver fan 'e doelside oerladen wurde, wêrtroch't de server crasht. Dit sil skea oan 'e belangen fan' e side-eigner.
  • Ban by IP
    As in persoan te faak gegevens sammelt, kinne websiden har IP-adres blokkearje. De boarne kin in IP-adres folslein wegerje of tagong beheine, wêrtroch de gegevens net kompleet binne. Om gegevens op te heljen en blokkearjen te foarkommen, moatte jo it dwaan mei in matige snelheid en wat anty-blokkearjende techniken brûke.
  • Wet problemen
    It útheljen fan gegevens fan it web falt yn in griis gebiet as it giet om wettichheid. Grutte siden lykas Linkedin en Facebook jouwe dúdlik yn har gebrûksbetingsten dat elke automatyske gegevenswinning ferbean is. Der binne in protte rjochtsaken west tusken bedriuwen troch botaktiviteit.

Wichtige ferskillen tusken data mining en data ekstraksje

  1. Data mining wurdt ek wol kennisûntdekking neamd yn databases, kenniswinning, gegevens / patroananalyse, ynformaasje sammeljen. Data-ekstraksje wurdt wikseljend brûkt mei webdata-ekstraksje, webcrawling, data mining, ensfh.
  2. Data mining-ûndersyk is benammen basearre op strukturearre gegevens, wylst it yn data mining meastentiids wurdt ekstrahearre út net-strukturearre of min strukturearre boarnen.
  3. It doel fan data mining is om gegevens brûkber te meitsjen foar analyse. Data-ekstraksje is it sammeljen fan gegevens op ien plak dêr't se kinne wurde opslein of ferwurke.
  4. Analyse yn data mining is basearre op wiskundige metoaden foar it identifisearjen fan patroanen as trends. Gegevenswinning is basearre op programmeartalen as ark foar gegevensekstraksje om boarnen te crawlen.
  5. It doel fan data mining is om feiten te finen dy't earder ûnbekend of negearre wiene, wylst data-ekstraksje omgiet mei besteande ynformaasje.
  6. Data mining is komplekser en fereasket grutte ynvestearrings yn training fan minsken. Gegevenswinning, as brûkt mei it juste ark, kin ekstreem ienfâldich en kosten-effektyf wêze.

Wy helpe begjinners net betize te wurden yn Data. Wy hawwe spesjaal in promoasjekoade makke foar Khabra-bewenners HABR, it jaan fan in ekstra 10% koarting oan de koarting oanjûn op de banner.

Litte wy begripe wat it ferskil is tusken Data Mining en Data Extraction

Mear kursussen

Featured Articles

Boarne: www.habr.com