Need kaks andmeteaduse moesÔna ajavad paljud inimesed segadusse. Andmekaevet mÔistetakse sageli valesti kui andmete vÀljavÔtmist ja toomist, kuid tegelikkus on palju keerulisem. Selles postituses kirjeldame kaevandamist ja selgitame vÀlja andmete kaevandamise ja andmete ekstraheerimise erinevuse.
Mis on andmekaeve?
Andmekaeve, mida nimetatakse ka Database Knowledge Discovery (KDD), on meetod, mida sageli kasutatakse suurte andmekogumite analĂŒĂŒsimiseks, kasutades statistilisi ja matemaatilisi meetodeid, et leida peidetud mustreid vĂ”i suundumusi ja saada neist vÀÀrtust.
Mida saab andmekaevandusega teha?
Protsessi automatiseerimisega saab sirvida andmebaase ja tÔhusalt paljastada peidetud mustreid. EttevÔtete jaoks kasutatakse andmekaevet sageli andmete mustrite ja suhete avastamiseks, et aidata teha paremaid Àriotsuseid.
Rakenduse nÀited
PĂ€rast andmekaeve laialdast levikut 1990. aastatel hakkasid paljudes tööstusharudes tegutsevad ettevĂ”tted, sealhulgas jaekaubandus, rahandus, tervishoid, transport, telekommunikatsioon, e-kaubandus jne, kasutama andmekaeve meetodeid, et saada teavet andmebaasil. Andmekaevandamine vĂ”ib aidata kliente segmenteerida, tuvastada pettusi, ennustada mĂŒĂŒki ja palju muud.
- Klientide segmenteerimine
AnalĂŒĂŒsides kliendiandmeid ja tuvastades sihtklientide tunnuseid, saavad ettevĂ”tted koondada nad eraldi gruppi ja pakkuda nende vajadustele vastavaid eripakkumisi. - Turukorvi analĂŒĂŒs
See tehnika pĂ”hineb teoorial, et kui ostate teatud tooterĂŒhma, siis on tĂ”enĂ€olisem, et ostate teise rĂŒhma tooteid. Ăks kuulus nĂ€ide: kui isad ostavad oma beebidele mĂ€hkmeid, ostavad nad tavaliselt koos mĂ€hkmetega Ă”lut. - MĂŒĂŒgiprognoos
See vĂ”ib tunduda sarnane turukorvi analĂŒĂŒsiga, kuid seekord kasutatakse andmeanalĂŒĂŒsi selleks, et ennustada, millal klient tulevikus uuesti toote ostab. NĂ€iteks ostab treener valgupurgi, millest peaks jĂ€tkuma 9 kuuks. Seda valku mĂŒĂŒv pood plaanib 9 kuu pĂ€rast uue vĂ€lja anda, et treener uuesti ostaks. - Pettuste avastamine
Andmekaevandamine aitab luua mudeleid pettuste tuvastamiseks. Petturlike ja tÔepÔhiste aruannete nÀidiseid kogudes on ettevÔtetel Ôigus kindlaks teha, millised tehingud on kahtlased. - Mustri tuvastamine tootmises
Töötlevas tööstuses kasutatakse andmekaevet, et aidata sĂŒsteeme kavandada, tuvastades seose toote arhitektuuri, profiili ja kliendi vajaduste vahel. Andmekaeve abil saab ennustada ka tootearenduse aegu ja kulusid.
Ja need on vaid mÔned andmekaevandamise kasutusjuhtumid.
Andmekaeve etapid
Andmekaeve on terviklik protsess andmete kogumiseks, valimiseks, puhastamiseks, teisendamiseks ja eraldamiseks, et hinnata mustreid ja lÔpuks ka vÀÀrtust eraldada.

Ăldiselt vĂ”ib kogu andmekaeveprotsessi kokku vĂ”tta seitsmeks etapiks:
- Andmete puhastamine
Reaalses maailmas ei ole andmed alati puhastatud ja struktureeritud. Need on sageli mĂŒrarikkad, mittetĂ€ielikud ja vĂ”ivad sisaldada vigu. Andmekaevandamise tulemuste tĂ€psuse tagamiseks peate esmalt andmed puhastama. MĂ”ned puhastusmeetodid hĂ”lmavad puuduvate vÀÀrtuste tĂ€itmist, automaatseid ja kĂ€sitsi juhtnuppe jne. - Andmete integreerimine
See on etapp, kus erinevatest allikatest pÀrit andmed ekstraheeritakse, kombineeritakse ja integreeritakse. Allikateks vÔivad olla andmebaasid, tekstifailid, arvutustabelid, dokumendid, mitmemÔÔtmelised andmekogumid, Internet jne. - Andmete valim
Tavaliselt pole andmekaevanduses vaja kÔiki integreeritud andmeid. Andmete valim on etapp, mille kÀigus valitakse ja eraldatakse suurest andmebaasist ainult kasulikud andmed. - Andmete teisendamine
Kui andmed on valitud, teisendatakse need kaevandamiseks sobivateks vormideks. See protsess hĂ”lmab normaliseerimist, liitmist, ĂŒldistamist jne. - Andmete kaevandamine
Siit tuleb andmete kaevandamise kĂ”ige olulisem osa â intelligentsete meetodite kasutamine nendes mustrite leidmiseks. Protsess hĂ”lmab regressiooni, klassifitseerimist, ennustamist, rĂŒhmitamist, assotsiatsiooni Ă”ppimist ja palju muud. - Mudeli hindamine
Selle sammu eesmĂ€rk on tuvastada potentsiaalselt kasulikud, hĂ”lpsasti mĂ”istetavad mustrid, samuti mustrid, mis toetavad hĂŒpoteese. - Teadmiste esitus
Viimases etapis esitatakse saadud teave atraktiivsel viisil, kasutades teadmiste esitus- ja visualiseerimismeetodeid.
Andmekaevandamise puudused
- Suured aja- ja tööinvesteeringud
Kuna andmekaeve on pikk ja keeruline protsess, nÔuab see produktiivsetelt ja osavatelt inimestelt palju tööd. Andmeteadlased saavad kasutada vÔimsaid andmekaevetööriistu, kuid andmete ettevalmistamiseks ja tulemuste mÔistmiseks vajavad nad eksperte. SeetÔttu vÔib kogu teabe töötlemine veidi aega vÔtta. - Andmete privaatsus ja turvalisus
Kuna andmekaevandamine kogub klienditeavet turumeetodite kaudu, vĂ”ib see rikkuda kasutajate privaatsust. Lisaks saavad hĂ€kkerid hankida andmekaevesĂŒsteemidesse salvestatud andmeid. See kujutab endast ohtu klientide andmete turvalisusele. Kui varastatud andmeid vÀÀrkasutatakse, vĂ”ib see teistele kergesti kahjustada.
Ălaltoodud on lĂŒhike sissejuhatus andmekaevesse. Nagu ma juba mainisin, sisaldab andmekaeve andmete kogumise ja integreerimise protsessi, mis hĂ”lmab ka andmete vĂ€ljavĂ”tmist (andmete vĂ€ljavĂ”tmist). Sel juhul vĂ”ib kindlalt öelda, et andmete vĂ€ljavĂ”tmine vĂ”ib olla osa pikast andmekaeveprotsessist.
Mis on andmete ekstraheerimine?
See protsess, mida tuntakse ka kui "veebi andmekaevet" ja "veebi kraapimist", on andmete eraldamine (tavaliselt struktureerimata vĂ”i halvasti struktureeritud) andmeallikatest tsentraliseeritud asukohtadesse ja tsentraliseerimine ĂŒhte kohta salvestamiseks vĂ”i edasiseks töötlemiseks. TĂ€psemalt, struktureerimata andmeallikad hĂ”lmavad veebilehti, e-kirju, dokumente, PDF-faile, skannitud teksti, suurarvuti aruandeid, rullifaile, teadaandeid jne. Tsentraliseeritud salvestusruum vĂ”ib olla kohalik, pilve vĂ”i hĂŒbriidmĂ€lu. Oluline on meeles pidada, et andmete vĂ€ljavĂ”tmine ei hĂ”lma hiljem toimuda vĂ”ivat töötlemist ega muud analĂŒĂŒsi.
Mida saab andmete ekstraheerimisega teha?
PÔhimÔtteliselt jagunevad andmete vÀljavÔtmise eesmÀrgid kolme kategooriasse.
- Arhiveerimine
Andmete ekstraheerimine vĂ”ib teisendada andmeid fĂŒĂŒsilistest vormingutest, nagu raamatud, ajalehed, arved, digitaalsesse vormingusse, nĂ€iteks andmebaasidesse salvestamiseks vĂ”i varundamiseks. - Andmevormingu muutmine
Kui soovite oma praeguselt saidilt andmeid ĂŒle viia uuele arendamisel olevale saidile, saate oma saidilt andmeid koguda, eraldades need. - Andmete analĂŒĂŒs
Tavaliselt analĂŒĂŒsitakse eraldatud andmeid tĂ€iendavalt, et neist ĂŒlevaadet saada. See vĂ”ib kĂ”lada sarnaselt andmekaevega, kuid pidage meeles, et andmekaeve on andmekaeve eesmĂ€rk, mitte selle osa. Lisaks analĂŒĂŒsitakse andmeid erinevalt. Ăks nĂ€ide on see, et veebipoodide omanikud tĂ”mbavad tooteteavet e-kaubanduse saitidelt, nagu Amazon, et jĂ€lgida konkurentide strateegiaid reaalajas. Nagu andmekaevandamine, on andmete vĂ€ljavĂ”tmine automatiseeritud protsess, millel on palju eeliseid. Varem kopeerisid ja kleepisid inimesed andmeid kĂ€sitsi ĂŒhest kohast teise, mis oli vĂ€ga aeganĂ”udev. Andmete ekstraheerimine kiirendab kogumist ja parandab oluliselt ekstraheeritud andmete tĂ€psust.
MÔned nÀited andmete ekstraheerimise kasutamisest
Sarnaselt andmekaevega kasutatakse andmekaevet laialdaselt erinevates tööstusharudes. Lisaks e-kaubanduse hindade jÀlgimisele vÔib andmekaevandamine aidata teie enda uurimistöö, uudiste koondamise, turunduse, kinnisvara, reisimise ja turismi, nÔustamise, finantseerimise ja muuga.
- Juhtide genereerimine
EttevĂ”tted saavad andmeid eraldada kataloogidest: Yelp, Crunchbase, Yellowpages ja genereerida mĂŒĂŒgivihjeid ettevĂ”tte arendamiseks. Allolevast videost saate teada, kuidas Yellowpages'ist andmeid ekstraheerida . - Sisu ja uudiste koondamine
Sisu koondavad veebisaidid vĂ”ivad saada regulaarseid andmevooge mitmest allikast ja hoida oma saite ajakohasena. - Tunnete analĂŒĂŒs
PĂ€rast arvustuste, kommentaaride ja iseloomustuste vĂ€ljavĂ”tmist sotsiaalvĂ”rgustikest, nagu Instagram ja Twitter, saavad spetsialistid analĂŒĂŒsida nende aluseks olevaid hoiakuid ja saada ĂŒlevaate sellest, kuidas brĂ€ndi, toodet vĂ”i nĂ€htust tajutakse.
Andmete ekstraheerimise etapid
Andmete ekstraheerimine on ETL (Extract, Transform, Load: Extract, Transform, Load) ja ELT (Extract, Load ja Transform) esimene etapp. ETL ja ELT on ise osa tÀielikust andmete integreerimise strateegiast. TeisisÔnu vÔib andmete vÀljavÔtmine olla osa nende kaevandamisest.

Ekstraheerida, teisendada, laadida
Kuigi andmekaeve eesmĂ€rk on suurest andmemahust teabe hankimine, on andmete eraldamine palju lĂŒhem ja lihtsam protsess. Seda saab vĂ€hendada kolmeks etapiks:
- Andmeallika valimine
Valige allikas, kust soovite andmeid ekstraktida, nÀiteks veebisait. - Andmete kogumine
Saatke saidile taotlus "GET" ja sÔeluge saadud HTML-dokument, kasutades programmeerimiskeeli, nagu Python, PHP, R, Ruby jne. - Andmekogu
Salvestage andmed edaspidiseks kasutamiseks kohalikku andmebaasi vĂ”i pilvesalvestusse. Kui olete kogenud programmeerija, kes soovib andmeid ekstraheerida, vĂ”ivad ĂŒlaltoodud sammud tunduda lihtsad. Kui te pole aga programmeerija, on olemas otsetee - kasutage andmekaevetööriistu nagu . Andmete ekstraheerimise tööriistad, nagu ka andmekaevandamise tööriistad, on loodud energia sÀÀstmiseks ja andmetöötluse hĂ”lbustamiseks kĂ”igile. Need tööriistad pole mitte ainult ökonoomsed, vaid ka algajasĂ”bralikud. Need vĂ”imaldavad kasutajatel koguda andmeid mĂ”ne minutiga, salvestada need pilve ja eksportida need paljudesse vormingutesse: Excel, CSV, HTML, JSON vĂ”i API kaudu saidi andmebaasidesse.
Andmete ekstraheerimise puudused
- Serveri tÔrge
Suuremahulise andmete ekstraheerimisel vĂ”ib sihtsaidi veebiserver olla ĂŒlekoormatud, mis vĂ”ib pĂ”hjustada serveri krahhi. See kahjustab saidi omaniku huve. - Keelatud IP jĂ€rgi
Kui inimene kogub andmeid liiga sageli, vÔivad veebisaidid blokeerida tema IP-aadressi. Ressurss vÔib IP-aadressi tÀielikult keelata vÔi piirata juurdepÀÀsu, muutes andmed mittetÀielikuks. Andmete toomiseks ja blokeerimise vÀltimiseks peate seda tegema mÔÔduka kiirusega ja rakendama mÔningaid blokeerimisvastaseid vÔtteid. - Seadusprobleemid
Veebist andmete hankimine jÀÀb seaduslikkuse osas halli alale. Suuremate saitide, nagu Linkedin ja Facebook, kasutustingimustes on selgelt kirjas, et igasugune andmete automaatne vÀljavÔtmine on keelatud. EttevÔtete vahel on olnud palju kohtuvaidlusi robotite tegevuse tÔttu.
Peamised erinevused andmekaevandamise ja andmete ekstraheerimise vahel
- Andmekaeve nimetatakse ka teadmiste avastamiseks andmebaasides, teadmiste ammutamiseks, andmete/mustrite analĂŒĂŒsiks, teabe kogumiseks. Andmete ekstraheerimist kasutatakse vaheldumisi veebiandmete ekstraheerimise, veebilehtede skannimise, andmete kogumise ja muuga.
- Andmekaeveuuringud pÔhinevad enamasti struktureeritud andmetel, samas kui andmekaeve pÔhineb tavaliselt struktureerimata vÔi halvasti struktureeritud allikatest.
- Andmekaeve eesmĂ€rk on muuta andmed analĂŒĂŒsi jaoks kasulikumaks. Andmete ekstraheerimine on andmete kogumine ĂŒhte kohta, kus neid saab salvestada vĂ”i töödelda.
- Andmekaeve analĂŒĂŒs pĂ”hineb mustrite vĂ”i suundumuste tuvastamise matemaatilistel meetoditel. Andmete ekstraheerimine pĂ”hineb programmeerimiskeeltel vĂ”i andmete ekstraheerimise tööriistadel, et allikatest mööda minna.
- Andmekaeve eesmÀrk on leida fakte, mida varem ei teatud vÔi mida eirati, samas kui andmete vÀljavÔtmisel tegeletakse olemasoleva teabega.
- Andmekaevandamine on keerulisem ja nÔuab suuri investeeringuid inimeste koolitamisse. Andmete ekstraheerimine Ôige tööriistaga vÔib olla vÀga lihtne ja kulutÔhus.
Aitame algajatel andmetes mitte segadusse sattuda. Eriti habravchanide jaoks tegime sooduskoodi HABR, andes bÀnneril mÀrgitud allahindlusele lisaks 10% allahindlust.
Rohkem kursusi
EsiletÔstetud artiklid
Allikas: www.habr.com
