Memahami perbezaan antara Perlombongan Data dan Pengekstrakan Data

Memahami perbezaan antara Perlombongan Data dan Pengekstrakan Data
Kedua-dua kata kunci Sains Data ini mengelirukan ramai orang. Perlombongan Data sering disalah ertikan sebagai mengekstrak dan mendapatkan semula data, tetapi realitinya jauh lebih kompleks. Dalam siaran ini, mari kita dot Mining dan ketahui perbezaan antara Data Mining dan Data Extraction.

Apakah Perlombongan Data?

Perlombongan data, juga dipanggil Penemuan Pengetahuan Pangkalan Data (KDD), ialah teknik yang sering digunakan untuk menganalisis set data yang besar menggunakan kaedah statistik dan matematik untuk mencari corak atau aliran tersembunyi dan mengekstrak nilai daripadanya.

Apakah yang boleh dilakukan dengan Perlombongan Data?

Dengan mengautomasikan proses, alat perlombongan data boleh menyemak imbas pangkalan data dan mendedahkan corak tersembunyi dengan berkesan. Untuk perniagaan, perlombongan data sering digunakan untuk menemui corak dan hubungan dalam data untuk membantu membuat keputusan perniagaan yang lebih baik.

Contoh aplikasi

Selepas perlombongan data berleluasa pada 1990-an, syarikat dalam pelbagai industri, termasuk peruncitan, kewangan, penjagaan kesihatan, pengangkutan, telekomunikasi, e-dagang, dsb., mula menggunakan kaedah perlombongan data untuk mendapatkan maklumat berdasarkan data. Perlombongan data boleh membantu segmen pelanggan, mengenal pasti penipuan, meramalkan jualan dan banyak lagi.

  • Pembahagian pelanggan
    Dengan menganalisis data pelanggan dan mengenal pasti ciri pelanggan sasaran, syarikat boleh mengumpulkan mereka ke dalam kumpulan yang berasingan dan menyediakan tawaran istimewa yang memenuhi keperluan mereka.
  • Analisis Bakul Pasaran
    Teknik ini berdasarkan teori bahawa jika anda membeli kumpulan produk tertentu, anda lebih berkemungkinan untuk membeli kumpulan produk lain. Satu contoh terkenal: apabila bapa membeli lampin untuk bayi mereka, mereka cenderung untuk membeli bir bersama lampin.
  • Ramalan Jualan
    Ia mungkin kelihatan serupa dengan analisis bakul pasaran, tetapi analisis data kali ini digunakan untuk meramalkan bila pelanggan akan membeli produk semula pada masa hadapan. Sebagai contoh, seorang jurulatih membeli satu tin protein yang sepatutnya bertahan selama 9 bulan. Kedai yang jual protein ni plan nak keluarkan yang baru dalam 9 bulan supaya coach beli lagi.
  • Pengesanan penipuan
    Perlombongan data membantu dalam membina model untuk pengesanan penipuan. Dengan mengumpul sampel laporan penipuan dan sah, perniagaan diberi kuasa untuk menentukan transaksi yang mencurigakan.
  • Pengesanan corak dalam pengeluaran
    Dalam industri pembuatan, perlombongan data digunakan untuk membantu mereka bentuk sistem dengan mengenal pasti hubungan antara seni bina produk, profil dan keperluan pelanggan. Perlombongan data juga boleh meramalkan masa dan kos pembangunan produk.

Dan ini hanyalah beberapa kes penggunaan untuk perlombongan data.

Peringkat perlombongan data

Perlombongan data ialah proses holistik mengumpul, memilih, membersihkan, mengubah dan mengekstrak data untuk menilai corak dan, akhirnya, mengekstrak nilai.

Memahami perbezaan antara Perlombongan Data dan Pengekstrakan Data

Secara amnya, keseluruhan proses perlombongan data boleh diringkaskan kepada 7 langkah:

  1. Pembersihan data
    Dalam dunia nyata, data tidak selalu dibersihkan dan berstruktur. Mereka selalunya bising, tidak lengkap dan mungkin mengandungi ralat. Untuk memastikan hasil perlombongan data adalah tepat, anda perlu membersihkan data terlebih dahulu. Beberapa kaedah pembersihan termasuk mengisi nilai yang hilang, pemeriksaan automatik dan manual, dsb.
  2. Penyepaduan data
    Ini adalah peringkat di mana data daripada sumber berbeza diekstrak, digabungkan dan disepadukan. Sumber boleh berupa pangkalan data, fail teks, hamparan, dokumen, set data berbilang dimensi, Internet dan sebagainya.
  3. Persampelan data
    Biasanya, tidak semua data bersepadu diperlukan dalam perlombongan data. Persampelan data ialah peringkat di mana hanya data berguna dipilih dan diekstrak daripada pangkalan data yang besar.
  4. Penukaran data
    Setelah data dipilih, ia ditukar kepada bentuk yang sesuai untuk perlombongan. Proses ini termasuk normalisasi, pengagregatan, generalisasi, dsb.
  5. Perlombongan data
    Inilah bahagian terpenting dalam perlombongan data - menggunakan kaedah pintar untuk mencari corak di dalamnya. Proses ini termasuk regresi, pengelasan, ramalan, pengelompokan, pembelajaran persatuan dan banyak lagi.
  6. Penilaian model
    Langkah ini bertujuan untuk mengenal pasti corak yang berpotensi berguna, mudah difahami, serta corak yang menyokong hipotesis.
  7. Perwakilan Pengetahuan
    Pada peringkat akhir, maklumat yang diperolehi dipersembahkan dengan cara yang menarik menggunakan kaedah representasi pengetahuan dan visualisasi.

Kelemahan Perlombongan Data

  • Pelaburan masa dan buruh yang besar
    Memandangkan perlombongan data adalah proses yang panjang dan kompleks, ia memerlukan banyak kerja daripada orang yang produktif dan mahir. Saintis data boleh menggunakan alat perlombongan data yang berkuasa, tetapi mereka memerlukan pakar untuk menyediakan data dan memahami hasilnya. Akibatnya, ia mungkin mengambil sedikit masa untuk memproses semua maklumat.
  • Privasi dan keselamatan data
    Memandangkan perlombongan data mengumpul maklumat pelanggan melalui kaedah pasaran, ia mungkin melanggar privasi pengguna. Selain itu, penggodam boleh mendapatkan data yang disimpan dalam sistem perlombongan data. Ini menimbulkan ancaman kepada keselamatan data pelanggan. Jika data yang dicuri disalahgunakan, ia boleh membahayakan orang lain dengan mudah.

Di atas adalah pengenalan ringkas kepada perlombongan data. Seperti yang telah saya nyatakan, perlombongan data mengandungi proses mengumpul dan menyepadukan data, yang merangkumi proses mengekstrak data (data extraction). Dalam kes ini, adalah selamat untuk mengatakan bahawa pengekstrakan data boleh menjadi sebahagian daripada proses perlombongan data yang panjang.

Apakah Pengekstrakan Data?

Juga dikenali sebagai "perlombongan data web" dan "mengikis web", proses ini ialah tindakan mengekstrak data daripada (biasanya tidak berstruktur atau berstruktur dengan buruk) sumber data ke lokasi berpusat dan pemusatan di satu lokasi untuk penyimpanan atau pemprosesan selanjutnya. Secara khususnya, sumber data tidak berstruktur termasuk halaman web, e-mel, dokumen, fail PDF, teks imbasan, laporan kerangka utama, fail gelendong, pengumuman dan sebagainya. Storan berpusat boleh menjadi tempatan, awan atau hibrid. Adalah penting untuk diingat bahawa pengekstrakan data tidak termasuk pemprosesan atau analisis lain yang mungkin berlaku kemudian.

Apakah yang boleh dilakukan dengan Pengekstrakan Data?

Pada asasnya, tujuan pengekstrakan data terbahagi kepada 3 kategori.

  • Mengarkib
    Pengekstrakan data boleh menukar data daripada format fizikal seperti buku, surat khabar, invois kepada format digital seperti pangkalan data untuk penyimpanan atau sandaran.
  • Menukar format data
    Apabila anda ingin memindahkan data daripada tapak semasa anda kepada tapak baharu yang sedang dibangunkan, anda boleh mengumpul data daripada tapak anda sendiri dengan mengekstraknya.
  • Analisis data
    Ia adalah perkara biasa untuk menganalisis data yang diekstrak untuk mendapatkan pandangan mengenainya. Ini mungkin terdengar serupa dengan perlombongan data, tetapi perlu diingat bahawa perlombongan data ialah matlamat perlombongan data, bukan sebahagian daripadanya. Selain itu, data dianalisis secara berbeza. Satu contoh ialah pemilik kedai dalam talian menarik maklumat produk daripada tapak e-dagang seperti Amazon untuk memantau strategi pesaing dalam masa nyata. Seperti perlombongan data, pengekstrakan data ialah proses automatik dengan banyak faedah. Pada masa lalu, orang menyalin dan menampal data secara manual dari satu tempat ke tempat lain, yang sangat memakan masa. Pengekstrakan data mempercepatkan pengumpulan dan meningkatkan ketepatan data yang diekstrak.

Beberapa contoh penggunaan Data Extraction

Sama seperti perlombongan data, perlombongan data digunakan secara meluas dalam pelbagai industri. Selain pemantauan harga e-dagang, perlombongan data boleh membantu dengan penyelidikan anda sendiri, pengagregatan berita, pemasaran, hartanah, perjalanan dan pelancongan, perundingan, kewangan dan banyak lagi.

  • Penjanaan utama
    Syarikat boleh mengekstrak data daripada direktori: Yelp, Crunchbase, Yellowpages dan menjana petunjuk untuk pembangunan perniagaan. Anda boleh menonton video di bawah untuk mengetahui cara mengekstrak data daripada Yellowpages dengan templat pengikisan web.

  • Agregasi kandungan dan berita
    Tapak web pengagregatan kandungan boleh menerima aliran data tetap daripada pelbagai sumber dan memastikan tapak mereka dikemas kini.
  • Analisis Sentimen
    Dengan mengekstrak ulasan, komen dan maklum balas daripada tapak media sosial seperti Instagram dan Twitter, pakar boleh menganalisis sentimen asas dan mendapatkan cerapan tentang cara sesuatu jenama, produk atau fenomena itu dilihat.

Langkah Pengekstrakan Data

Pengekstrakan data ialah peringkat pertama ETL (Extract, Transform, Load: Extract, Transform, Load) dan ELT (Extract, Load, dan Transform). ETL dan ELT adalah sebahagian daripada strategi penyepaduan data yang lengkap. Dalam erti kata lain, mengekstrak data boleh menjadi sebahagian daripada pengekstrakan mereka.

Memahami perbezaan antara Perlombongan Data dan Pengekstrakan Data
Ekstrak, ubah, muatkan

Walaupun perlombongan data adalah mengenai mengekstrak maklumat daripada sejumlah besar data, pengekstrakan data adalah proses yang lebih pendek dan lebih mudah. Ia boleh dikurangkan kepada tiga peringkat:

  1. Memilih sumber data
    Pilih sumber yang anda ingin ekstrak data, seperti tapak web.
  2. Pengumpulan data
    Hantar permintaan "GET" ke tapak dan huraikan dokumen HTML yang terhasil menggunakan bahasa pengaturcaraan seperti Python, PHP, R, Ruby, dll.
  3. Simpanan data
    Simpan data ke pangkalan data tempatan anda atau storan awan untuk kegunaan masa hadapan. Jika anda seorang pengaturcara berpengalaman yang ingin mengekstrak data, langkah di atas mungkin kelihatan mudah kepada anda. Walau bagaimanapun, jika anda bukan seorang pengaturcara, terdapat jalan pintas - gunakan alat perlombongan data seperti Octoparse. Alat pengekstrakan data, sama seperti alat perlombongan data, direka bentuk untuk menjimatkan tenaga dan memudahkan pemprosesan data untuk semua orang. Alat ini bukan sahaja menjimatkan tetapi juga mesra pemula. Mereka membenarkan pengguna mengumpul data dalam beberapa minit, menyimpannya dalam awan dan mengeksportnya ke banyak format: Excel, CSV, HTML, JSON atau ke pangkalan data di tapak melalui API.

Kelemahan Pengekstrakan Data

  • Ranap pelayan
    Apabila mengekstrak data secara besar-besaran, pelayan web tapak sasaran mungkin terlebih muatan, yang boleh menyebabkan ranap pelayan. Ini akan membahayakan kepentingan pemilik tapak.
  • Larangan oleh IP
    Apabila seseorang mengumpul data terlalu kerap, tapak web boleh menyekat alamat IP mereka. Sumber boleh melarang sepenuhnya alamat IP atau menyekat akses dengan membuat data tidak lengkap. Untuk mendapatkan semula data dan mengelakkan penyekatan, anda perlu melakukannya pada kelajuan sederhana dan menggunakan beberapa teknik antisekatan.
  • Masalah dengan undang-undang
    Mengekstrak data daripada web jatuh ke dalam kawasan kelabu apabila ia berkaitan dengan kesahihan. Tapak besar seperti Linkedin dan Facebook dengan jelas menyatakan dalam syarat penggunaannya bahawa sebarang pengekstrakan data automatik adalah dilarang. Terdapat banyak tindakan undang-undang antara syarikat disebabkan oleh aktiviti bot.

Perbezaan Utama Antara Perlombongan Data dan Pengekstrakan Data

  1. Perlombongan data juga dipanggil penemuan pengetahuan dalam pangkalan data, pengekstrakan pengetahuan, analisis data/pola, pengumpulan maklumat. Pengekstrakan data digunakan secara bergantian dengan pengekstrakan data web, rangkak web, perlombongan data, dan sebagainya.
  2. Penyelidikan perlombongan data kebanyakannya berdasarkan data berstruktur manakala perlombongan data biasanya menggunakan sumber yang tidak berstruktur atau tidak berstruktur.
  3. Matlamat perlombongan data adalah untuk menjadikan data lebih berguna untuk analisis. Pengekstrakan data ialah pengumpulan data ke satu tempat di mana ia boleh disimpan atau diproses.
  4. Analisis dalam perlombongan data adalah berdasarkan kaedah matematik untuk mengenal pasti corak atau trend. Pengekstrakan data adalah berdasarkan bahasa pengaturcaraan atau alat pengekstrakan data untuk memintas sumber.
  5. Matlamat perlombongan data adalah untuk mencari fakta yang sebelum ini tidak diketahui atau diabaikan, manakala pengekstrakan data berkaitan dengan maklumat sedia ada.
  6. Perlombongan data adalah lebih kompleks dan memerlukan pelaburan yang besar dalam melatih orang. Pengekstrakan data dengan alat yang betul boleh menjadi sangat mudah dan kos efektif.

Kami membantu pemula supaya tidak keliru dalam Data. Khusus untuk habravchan, kami membuat kod promosi HABR, memberikan diskaun tambahan 10% kepada diskaun yang ditunjukkan pada sepanduk.

Memahami perbezaan antara Perlombongan Data dan Pengekstrakan Data

Lebih banyak kursus

Artikel Pilihan

Sumber: www.habr.com