Andmekaevandamise ja andmete ekstraheerimise erinevuse mõistmine

Andmekaevandamise ja andmete ekstraheerimise erinevuse mõistmine
Need kaks andmeteaduse moesõna ajavad paljud inimesed segadusse. Andmekaevet mõistetakse sageli valesti kui andmete väljavõtmist ja toomist, kuid tegelikkus on palju keerulisem. Selles postituses kirjeldame kaevandamist ja selgitame välja andmete kaevandamise ja andmete ekstraheerimise erinevuse.

Mis on andmekaeve?

Andmekaeve, mida nimetatakse ka Database Knowledge Discovery (KDD), on meetod, mida sageli kasutatakse suurte andmekogumite analüüsimiseks, kasutades statistilisi ja matemaatilisi meetodeid, et leida peidetud mustreid või suundumusi ja saada neist väärtust.

Mida saab andmekaevandusega teha?

Protsessi automatiseerimisega andmekaeve tööriistad saab sirvida andmebaase ja tõhusalt paljastada peidetud mustreid. Ettevõtete jaoks kasutatakse andmekaevet sageli andmete mustrite ja suhete avastamiseks, et aidata teha paremaid äriotsuseid.

Rakenduse näited

Pärast andmekaeve laialdast levikut 1990. aastatel hakkasid paljudes tööstusharudes tegutsevad ettevõtted, sealhulgas jaekaubandus, rahandus, tervishoid, transport, telekommunikatsioon, e-kaubandus jne, kasutama andmekaeve meetodeid, et saada teavet andmebaasil. Andmekaevandamine võib aidata kliente segmenteerida, tuvastada pettusi, ennustada müüki ja palju muud.

  • Klientide segmenteerimine
    Analüüsides kliendiandmeid ja tuvastades sihtklientide tunnuseid, saavad ettevõtted koondada nad eraldi gruppi ja pakkuda nende vajadustele vastavaid eripakkumisi.
  • Turukorvi analüüs
    See tehnika põhineb teoorial, et kui ostate teatud tooterühma, siis on tõenäolisem, et ostate teise rühma tooteid. Üks kuulus näide: kui isad ostavad oma beebidele mähkmeid, ostavad nad tavaliselt koos mähkmetega õlut.
  • Müügiprognoos
    See võib tunduda sarnane turukorvi analüüsiga, kuid seekord kasutatakse andmeanalüüsi selleks, et ennustada, millal klient tulevikus uuesti toote ostab. Näiteks ostab treener valgupurgi, millest peaks jätkuma 9 kuuks. Seda valku müüv pood plaanib 9 kuu pärast uue välja anda, et treener uuesti ostaks.
  • Pettuste avastamine
    Andmekaevandamine aitab luua mudeleid pettuste tuvastamiseks. Petturlike ja tõepõhiste aruannete näidiseid kogudes on ettevõtetel õigus kindlaks teha, millised tehingud on kahtlased.
  • Mustri tuvastamine tootmises
    Töötlevas tööstuses kasutatakse andmekaevet, et aidata süsteeme kavandada, tuvastades seose toote arhitektuuri, profiili ja kliendi vajaduste vahel. Andmekaeve abil saab ennustada ka tootearenduse aegu ja kulusid.

Ja need on vaid mõned andmekaevandamise kasutusjuhtumid.

Andmekaeve etapid

Andmekaeve on terviklik protsess andmete kogumiseks, valimiseks, puhastamiseks, teisendamiseks ja eraldamiseks, et hinnata mustreid ja lõpuks ka väärtust eraldada.

Andmekaevandamise ja andmete ekstraheerimise erinevuse mõistmine

Üldiselt võib kogu andmekaeveprotsessi kokku võtta seitsmeks etapiks:

  1. Andmete puhastamine
    Reaalses maailmas ei ole andmed alati puhastatud ja struktureeritud. Need on sageli mürarikkad, mittetäielikud ja võivad sisaldada vigu. Andmekaevandamise tulemuste täpsuse tagamiseks peate esmalt andmed puhastama. Mõned puhastusmeetodid hõlmavad puuduvate väärtuste täitmist, automaatseid ja käsitsi juhtnuppe jne.
  2. Andmete integreerimine
    See on etapp, kus erinevatest allikatest pärit andmed ekstraheeritakse, kombineeritakse ja integreeritakse. Allikateks võivad olla andmebaasid, tekstifailid, arvutustabelid, dokumendid, mitmemõõtmelised andmekogumid, Internet jne.
  3. Andmete valim
    Tavaliselt pole andmekaevanduses vaja kõiki integreeritud andmeid. Andmete valim on etapp, mille käigus valitakse ja eraldatakse suurest andmebaasist ainult kasulikud andmed.
  4. Andmete teisendamine
    Kui andmed on valitud, teisendatakse need kaevandamiseks sobivateks vormideks. See protsess hõlmab normaliseerimist, liitmist, üldistamist jne.
  5. Andmete kaevandamine
    Siit tuleb andmete kaevandamise kõige olulisem osa – intelligentsete meetodite kasutamine nendes mustrite leidmiseks. Protsess hõlmab regressiooni, klassifitseerimist, ennustamist, rühmitamist, assotsiatsiooni õppimist ja palju muud.
  6. Mudeli hindamine
    Selle sammu eesmärk on tuvastada potentsiaalselt kasulikud, hõlpsasti mõistetavad mustrid, samuti mustrid, mis toetavad hüpoteese.
  7. Teadmiste esitus
    Viimases etapis esitatakse saadud teave atraktiivsel viisil, kasutades teadmiste esitus- ja visualiseerimismeetodeid.

Andmekaevandamise puudused

  • Suured aja- ja tööinvesteeringud
    Kuna andmekaeve on pikk ja keeruline protsess, nõuab see produktiivsetelt ja osavatelt inimestelt palju tööd. Andmeteadlased saavad kasutada võimsaid andmekaevetööriistu, kuid andmete ettevalmistamiseks ja tulemuste mõistmiseks vajavad nad eksperte. Seetõttu võib kogu teabe töötlemine veidi aega võtta.
  • Andmete privaatsus ja turvalisus
    Kuna andmekaevandamine kogub klienditeavet turumeetodite kaudu, võib see rikkuda kasutajate privaatsust. Lisaks saavad häkkerid hankida andmekaevesüsteemidesse salvestatud andmeid. See kujutab endast ohtu klientide andmete turvalisusele. Kui varastatud andmeid väärkasutatakse, võib see teistele kergesti kahjustada.

Ülaltoodud on lühike sissejuhatus andmekaevesse. Nagu ma juba mainisin, sisaldab andmekaeve andmete kogumise ja integreerimise protsessi, mis hõlmab ka andmete väljavõtmist (andmete väljavõtmist). Sel juhul võib kindlalt öelda, et andmete väljavõtmine võib olla osa pikast andmekaeveprotsessist.

Mis on andmete ekstraheerimine?

See protsess, mida tuntakse ka kui "veebi andmekaevet" ja "veebi kraapimist", on andmete eraldamine (tavaliselt struktureerimata või halvasti struktureeritud) andmeallikatest tsentraliseeritud asukohtadesse ja tsentraliseerimine ühte kohta salvestamiseks või edasiseks töötlemiseks. Täpsemalt, struktureerimata andmeallikad hõlmavad veebilehti, e-kirju, dokumente, PDF-faile, skannitud teksti, suurarvuti aruandeid, rullifaile, teadaandeid jne. Tsentraliseeritud salvestusruum võib olla kohalik, pilve või hübriidmälu. Oluline on meeles pidada, et andmete väljavõtmine ei hõlma hiljem toimuda võivat töötlemist ega muud analüüsi.

Mida saab andmete ekstraheerimisega teha?

Põhimõtteliselt jagunevad andmete väljavõtmise eesmärgid kolme kategooriasse.

  • Arhiveerimine
    Andmete ekstraheerimine võib teisendada andmeid füüsilistest vormingutest, nagu raamatud, ajalehed, arved, digitaalsesse vormingusse, näiteks andmebaasidesse salvestamiseks või varundamiseks.
  • Andmevormingu muutmine
    Kui soovite oma praeguselt saidilt andmeid üle viia uuele arendamisel olevale saidile, saate oma saidilt andmeid koguda, eraldades need.
  • Andmete analüüs
    Tavaliselt analüüsitakse eraldatud andmeid täiendavalt, et neist ülevaadet saada. See võib kõlada sarnaselt andmekaevega, kuid pidage meeles, et andmekaeve on andmekaeve eesmärk, mitte selle osa. Lisaks analüüsitakse andmeid erinevalt. Üks näide on see, et veebipoodide omanikud tõmbavad tooteteavet e-kaubanduse saitidelt, nagu Amazon, et jälgida konkurentide strateegiaid reaalajas. Nagu andmekaevandamine, on andmete väljavõtmine automatiseeritud protsess, millel on palju eeliseid. Varem kopeerisid ja kleepisid inimesed andmeid käsitsi ühest kohast teise, mis oli väga aeganõudev. Andmete ekstraheerimine kiirendab kogumist ja parandab oluliselt ekstraheeritud andmete täpsust.

Mõned näited andmete ekstraheerimise kasutamisest

Sarnaselt andmekaevega kasutatakse andmekaevet laialdaselt erinevates tööstusharudes. Lisaks e-kaubanduse hindade jälgimisele võib andmekaevandamine aidata teie enda uurimistöö, uudiste koondamise, turunduse, kinnisvara, reisimise ja turismi, nõustamise, finantseerimise ja muuga.

  • Juhtide genereerimine
    Ettevõtted saavad andmeid eraldada kataloogidest: Yelp, Crunchbase, Yellowpages ja genereerida müügivihjeid ettevõtte arendamiseks. Allolevast videost saate teada, kuidas Yellowpages'ist andmeid ekstraheerida veebikraapimise mall.

  • Sisu ja uudiste koondamine
    Sisu koondavad veebisaidid võivad saada regulaarseid andmevooge mitmest allikast ja hoida oma saite ajakohasena.
  • Tunnete analüüs
    Pärast arvustuste, kommentaaride ja iseloomustuste väljavõtmist sotsiaalvõrgustikest, nagu Instagram ja Twitter, saavad spetsialistid analüüsida nende aluseks olevaid hoiakuid ja saada ülevaate sellest, kuidas brändi, toodet või nähtust tajutakse.

Andmete ekstraheerimise etapid

Andmete ekstraheerimine on ETL (Extract, Transform, Load: Extract, Transform, Load) ja ELT (Extract, Load ja Transform) esimene etapp. ETL ja ELT on ise osa täielikust andmete integreerimise strateegiast. Teisisõnu võib andmete väljavõtmine olla osa nende kaevandamisest.

Andmekaevandamise ja andmete ekstraheerimise erinevuse mõistmine
Ekstraheerida, teisendada, laadida

Kuigi andmekaeve eesmärk on suurest andmemahust teabe hankimine, on andmete eraldamine palju lühem ja lihtsam protsess. Seda saab vähendada kolmeks etapiks:

  1. Andmeallika valimine
    Valige allikas, kust soovite andmeid ekstraktida, näiteks veebisait.
  2. Andmete kogumine
    Saatke saidile taotlus "GET" ja sõeluge saadud HTML-dokument, kasutades programmeerimiskeeli, nagu Python, PHP, R, Ruby jne.
  3. Andmekogu
    Salvestage andmed edaspidiseks kasutamiseks kohalikku andmebaasi või pilvesalvestusse. Kui olete kogenud programmeerija, kes soovib andmeid ekstraheerida, võivad ülaltoodud sammud tunduda lihtsad. Kui te pole aga programmeerija, on olemas otsetee - kasutage andmekaevetööriistu nagu Kaheksajalg. Andmete ekstraheerimise tööriistad, nagu ka andmekaevandamise tööriistad, on loodud energia säästmiseks ja andmetöötluse hõlbustamiseks kõigile. Need tööriistad pole mitte ainult ökonoomsed, vaid ka algajasõbralikud. Need võimaldavad kasutajatel koguda andmeid mõne minutiga, salvestada need pilve ja eksportida need paljudesse vormingutesse: Excel, CSV, HTML, JSON või API kaudu saidi andmebaasidesse.

Andmete ekstraheerimise puudused

  • Serveri tõrge
    Suuremahulise andmete ekstraheerimisel võib sihtsaidi veebiserver olla ülekoormatud, mis võib põhjustada serveri krahhi. See kahjustab saidi omaniku huve.
  • Keelatud IP järgi
    Kui inimene kogub andmeid liiga sageli, võivad veebisaidid blokeerida tema IP-aadressi. Ressurss võib IP-aadressi täielikult keelata või piirata juurdepääsu, muutes andmed mittetäielikuks. Andmete toomiseks ja blokeerimise vältimiseks peate seda tegema mõõduka kiirusega ja rakendama mõningaid blokeerimisvastaseid võtteid.
  • Seadusprobleemid
    Veebist andmete hankimine jääb seaduslikkuse osas halli alale. Suuremate saitide, nagu Linkedin ja Facebook, kasutustingimustes on selgelt kirjas, et igasugune andmete automaatne väljavõtmine on keelatud. Ettevõtete vahel on olnud palju kohtuvaidlusi robotite tegevuse tõttu.

Peamised erinevused andmekaevandamise ja andmete ekstraheerimise vahel

  1. Andmekaeve nimetatakse ka teadmiste avastamiseks andmebaasides, teadmiste ammutamiseks, andmete/mustrite analüüsiks, teabe kogumiseks. Andmete ekstraheerimist kasutatakse vaheldumisi veebiandmete ekstraheerimise, veebilehtede skannimise, andmete kogumise ja muuga.
  2. Andmekaeveuuringud põhinevad enamasti struktureeritud andmetel, samas kui andmekaeve põhineb tavaliselt struktureerimata või halvasti struktureeritud allikatest.
  3. Andmekaeve eesmärk on muuta andmed analüüsi jaoks kasulikumaks. Andmete ekstraheerimine on andmete kogumine ühte kohta, kus neid saab salvestada või töödelda.
  4. Andmekaeve analüüs põhineb mustrite või suundumuste tuvastamise matemaatilistel meetoditel. Andmete ekstraheerimine põhineb programmeerimiskeeltel või andmete ekstraheerimise tööriistadel, et allikatest mööda minna.
  5. Andmekaeve eesmärk on leida fakte, mida varem ei teatud või mida eirati, samas kui andmete väljavõtmisel tegeletakse olemasoleva teabega.
  6. Andmekaevandamine on keerulisem ja nõuab suuri investeeringuid inimeste koolitamisse. Andmete ekstraheerimine õige tööriistaga võib olla väga lihtne ja kulutõhus.

Aitame algajatel andmetes mitte segadusse sattuda. Eriti habravchanide jaoks tegime sooduskoodi HABR, andes bänneril märgitud allahindlusele lisaks 10% allahindlust.

Andmekaevandamise ja andmete ekstraheerimise erinevuse mõistmine

Rohkem kursusi

Esiletõstetud artiklid

Allikas: www.habr.com