Iki loro buzzwords ilmu data mbingungake akeh wong. Data Mining asring disalahake minangka ngekstrak lan njupuk data, nanging nyatane luwih rumit. Ing kirim iki, ayo nggawe sentuhan pungkasan babagan Mining lan temokake bedane Data Mining lan Ekstraksi Data.
Apa itu Data Mining?
Data mining, uga disebut Penemuan Pengetahuan ing Database (KDD), minangka teknik sing asring digunakake kanggo nganalisa data sing akeh nggunakake teknik statistik lan matematika kanggo nemokake pola utawa tren sing didhelikake lan ngekstrak nilai kasebut.
Apa sampeyan bisa nindakake karo Data Mining?
Kanthi ngotomatisasi proses kasebut, alat data mining bisa mindhai database lan kanthi efektif ngenali pola sing didhelikake. Kanggo bisnis, data mining asring digunakake kanggo ngenali pola lan hubungan ing data kanggo mbantu nggawe keputusan bisnis sing luwih apik.
Tuladha aplikasi
Sawise data mining nyebar ing taun 1990-an, perusahaan ing macem-macem industri, kalebu ritel, keuangan, kesehatan, transportasi, telekomunikasi, e-commerce, lan sapiturute, wiwit nggunakake teknik data mining kanggo njupuk informasi adhedhasar data. Data mining bisa mbantu segmen pelanggan, ndeteksi penipuan, ramalan dodolan, lan liya-liyane.
Analisis Keranjang Pasar
Teknik iki adhedhasar teori yen sampeyan tuku klompok produk tartamtu, sampeyan luwih seneng tuku klompok produk liyane. Conto sing misuwur: nalika bapak tuku popok kanggo bayi, dheweke cenderung tuku bir bebarengan karo popok.
Deteksi Penipuan
Data mining mbantu mbangun model kanggo ndeteksi penipuan. Kanthi ngumpulake conto laporan penipuan lan sah, bisnis diwenehi wewenang kanggo nemtokake transaksi sing curiga.
Lan iki mung sawetara skenario kanggo nggunakake data mining.
Tahapan Data Mining
Data mining minangka proses holistik kanggo ngumpulake, milih, ngresiki, ngowahi lan ngekstrak data kanggo ngevaluasi pola lan pungkasane ngekstrak nilai.
Minangka aturan, kabeh proses data mining bisa diringkes dadi 7 tahap:
Reresik data
Ing donya nyata, data ora tansah di resiki lan disusun. Asring rame, ora lengkap, lan bisa uga ana kesalahan. Kanggo mesthekake yen asil data mining akurat, sampeyan kudu ngresiki data dhisik. Sawetara cara reresik kalebu ngisi nilai sing ilang, mriksa otomatis lan manual, lsp.
Integrasi data
Iki minangka tataran ing ngendi data saka macem-macem sumber diekstrak, digabungake lan digabungake. Sumber bisa dadi basis data, file teks, spreadsheet, dokumen, set data multidimensi, Internet, lan liya-liyane.
Sampling data
Biasane, ora kabeh data terintegrasi dibutuhake ing data mining. Sampling data minangka tataran ing ngendi mung data migunani sing dipilih lan diekstrak saka database gedhe.
Konversi Data
Sawise data dipilih, diowahi dadi formulir sing cocog kanggo pertambangan. Proses iki kalebu normalisasi, agregasi, generalisasi, lsp.
Data Mining
Iki minangka bagean paling penting saka data mining - nggunakake metode cerdas kanggo nemokake pola ing njero. Proses kasebut kalebu regresi, klasifikasi, prediksi, clustering, sinau asosiasi, lan liya-liyane.
Evaluasi model
Langkah iki nduweni tujuan kanggo ngenali pola sing bisa migunani, gampang dimangerteni, lan ndhukung hipotesis.
Perwakilan pengetahuan
Ing tahap pungkasan, informasi sing dipikolehi disajikake ing wangun sing menarik nggunakake metode representasi pengetahuan lan visualisasi.
Privasi lan keamanan data
Wiwit data mining ngumpulake informasi pelanggan liwat cara pasar, bisa uga nglanggar privasi pangguna. Kajaba iku, peretas bisa entuk data sing disimpen ing sistem data mining. Iki nyebabake ancaman kanggo keamanan data pelanggan. Yen data sing dicolong disalah gunakake, bisa gampang cilaka wong liya.
Ing ndhuwur minangka introduksi ringkes babagan data mining. Kaya sing wis dakcritakake, data mining kalebu proses ngumpulake lan nggabungake data, kalebu proses ekstraksi data. Ing kasus iki, aman kanggo ngomong yen ekstraksi data bisa dadi bagian saka proses pertambangan data jangka panjang.
Apa Ekstraksi Data?
Uga dikenal minangka "pertambangan data web" lan "pengikisan web," proses iki minangka tumindak ngekstrak data saka (biasane ora kabentuk utawa ora kabentuk) sumber data menyang lokasi terpusat lan sentralisasi ing sak panggonan kanggo panyimpenan utawa proses luwih lanjut. Khusus, sumber data sing ora terstruktur kalebu kaca web, email, dokumen, file PDF, teks sing dipindai, laporan mainframe, file reel-to-reel, iklan, lsp. Panyimpenan terpusat bisa dadi lokal, awan, utawa hibrida. Penting kanggo elinga yen ekstraksi data ora kalebu pangolahan utawa analisis liyane sing bisa kedadeyan mengko.
Apa sampeyan bisa nindakake Ekstraksi Data?
Sejatine, tujuan ekstraksi data dadi 3 kategori.
Pengarsipan
Ekstraksi data bisa ngowahi data saka format fisik: buku, koran, invoice dadi format digital, kayata database kanggo panyimpenan utawa serep.
Ngganti format data
Yen sampeyan pengin migrasi data saka situs sampeyan saiki menyang sing anyar sing lagi dikembangake, sampeyan bisa ngumpulake data saka situs sampeyan dhewe kanthi ngekstrak.
Analisis data
Analisis tambahan saka data sing diekstrak kanggo entuk wawasan umum. Iki bisa uga katon mirip karo data mining, nanging elinga yen data mining minangka tujuan data mining, dudu bagean kasebut. Kajaba iku, data dianalisis kanthi beda. Siji conto: Pamilik toko online ngekstrak informasi produk saka situs e-commerce kayata Amazon kanggo ngawasi strategi pesaing ing wektu nyata. Kaya data mining, ekstraksi data minangka proses otomatis sing nduweni akeh keuntungan. Ing jaman biyen, wong-wong biasa nyalin lan nempel data kanthi manual saka sak panggonan menyang papan liyane, sing akeh wektu. Ekstraksi data nyepetake pangumpulan lan ningkatake akurasi data sing diekstrak.
Sawetara conto nggunakake Ekstraksi Data
Padha karo data mining, data mining akeh digunakake ing macem-macem industri. Saliyane ngawasi rega ing e-commerce, data mining bisa mbantu riset dhewe, agregasi warta, marketing, real estate, lelungan lan pariwisata, konsultasi, keuangan lan liya-liyane.
Generasi timbal
Perusahaan bisa ngekstrak data saka direktori: Yelp, Crunchbase, Yellowpages lan ngasilake timbal kanggo pangembangan bisnis. Sampeyan bisa nonton video ing ngisor iki kanggo mangerteni carane extract data saka Yellowpages nggunakake web scraping cithakan.
Agregasi isi lan warta
Situs web agregasi konten bisa nampa aliran data reguler saka macem-macem sumber lan tetep nganyari situs.
Analisis Sentimen
Kanthi ngekstrak ulasan, komentar, lan umpan balik saka situs media sosial kayata Instagram lan Twitter, para ahli bisa nganalisa sentimen sing ndasari lan entuk wawasan babagan merek, produk, utawa fenomena sing dirasakake.
Langkah Ekstraksi Data
Ekstraksi data minangka tahap pisanan saka ETL (singkatan Extract, Transform, Load) lan ELT (extract, load and transform). ETL lan ELT minangka bagean saka strategi integrasi data sing lengkap. Ing tembung liya, ekstraksi data bisa dadi bagian saka data mining.
Extract, ngowahi, mbukak
Nalika data mining babagan ngekstrak informasi saka jumlah data sing akeh, ekstraksi data minangka proses sing luwih cendhek lan luwih prasaja. Bisa dikurangi dadi telung tahap:
Milih sumber data
Pilih sumber sing pengin diekstrak data, kayata situs web.
Pangumpulan data
Kirim panjalukan "GET" menyang situs kasebut lan parse dokumen HTML sing diasilake nggunakake basa pamrograman kayata Python, PHP, R, Ruby, lsp.
Gagal server
Nalika njupuk data kanthi skala gedhe, server web situs target bisa kakehan beban, sing bisa nyebabake server nabrak. Iki bakal ngrusak kapentingan pemilik situs.
Larangan dening IP
Nalika wong kerep banget ngumpulake data, situs web bisa mblokir alamat IP. Sumber daya bisa nolak alamat IP utawa mbatesi akses, nggawe data ora lengkap. Kanggo njupuk data lan ngindhari pamblokiran, sampeyan kudu nindakake kanthi kacepetan moderat lan nggunakake sawetara teknik anti-blocking.
Masalah karo hukum
Ekstrak data saka web dadi wilayah abu-abu nalika nerangake legalitas. Situs gedhe kayata Linkin lan Facebook kanthi jelas nyatakake ing syarat-syarat panggunaan manawa ekstraksi data otomatis dilarang. Ana akeh tuntutan hukum antarane perusahaan amarga aktivitas bot.
Bentenane Utama Antarane Data Mining lan Ekstraksi Data
Data mining uga diarani knowledge discovery ing basis data, ekstraksi pengetahuan, analisis data/pola, pengumpulan informasi. Ekstraksi data digunakake kanthi ganti karo ekstraksi data web, crawling web, data mining, lan liya-liyane.
Panaliten data mining utamane adhedhasar data terstruktur, dene ing data mining biasane diekstrak saka sumber sing ora terstruktur utawa kurang terstruktur.
Tujuan data mining yaiku supaya data luwih migunani kanggo analisis. Ekstraksi dhata yaiku nglumpukake dhata ing sawijine papan kang bisa disimpen utawa diolah.
Analisis ing data mining adhedhasar metode matematika kanggo ngenali pola utawa tren. Ekstraksi data adhedhasar basa pamrograman utawa alat ekstraksi data kanggo nyusup sumber.
Tujuan data mining yaiku kanggo nemokake fakta sing sadurunge ora dingerteni utawa ora digatekake, dene ekstraksi data ngurusi informasi sing wis ana.
Penggalian data luwih rumit lan mbutuhake investasi gedhe kanggo nglatih wong. Ekstraksi data, yen digunakake kanthi alat sing bener, bisa dadi gampang banget lan larang regane.
Kita mbantu pamula supaya ora bingung ing Data. Kita wis nggawe kode promosi utamane kanggo warga Khabra HABR, menehi tambahan 10% diskon kanggo diskon dituduhake ing banner.