這兩個數據科學流行語讓很多人感到困惑。 數據挖掘經常被誤解為提取和檢索數據,但實際情況要復雜得多。 在這篇文章中,讓我們點挖掘並找出數據挖掘和數據提取之間的區別。
什麼是數據挖掘?
數據挖掘,也稱為 數據庫知識發現(KDD),是一種經常用於使用統計和數學方法分析大型數據集的技術,以發現隱藏的模式或趨勢並從中提取價值。
數據挖掘可以做什麼?
通過自動化流程,
應用實例
數據挖掘在1990世紀XNUMX年代普及後,零售、金融、醫療保健、交通、電信、電子商務等多個行業的公司開始使用數據挖掘方法來獲取基於數據的信息。 數據挖掘可以幫助細分客戶、識別欺詐、預測銷售等等。
- 客戶細分
通過分析客戶數據並識別目標客戶的特徵,公司可以將他們分為一個單獨的組,並提供滿足他們需求的特殊優惠。 - 市場籃子分析
該技術基於這樣的理論:如果您購買某組產品,您更有可能購買另一組產品。 一個著名的例子是:當父親為嬰兒購買尿佈時,他們往往會在購買尿布的同時購買啤酒。 - 銷售預測
它可能看起來與購物籃分析類似,但這次數據分析用於預測客戶將來何時再次購買產品。 例如,教練購買了一罐可以使用 9 個月的蛋白質。 銷售這種蛋白質的商店計劃在 9 個月內推出新的蛋白質,以便教練再次購買。 - 欺詐識別
數據挖掘有助於構建欺詐檢測模型。 通過收集欺詐和真實報告的樣本,企業能夠確定哪些交易是可疑的。 - 生產中的模式檢測
在製造業中,數據挖掘用於通過識別產品架構、配置文件和客戶需求之間的關係來幫助設計系統。 數據挖掘還可以預測產品開發時間和成本。
這些只是數據挖掘的幾個用例。
數據挖掘的階段
數據挖掘是收集、選擇、清理、轉換和提取數據的整體過程,以評估模式並最終提取價值。
一般來說,整個數據挖掘過程可以概括為7個步驟:
- 數據清理
在現實世界中,數據並不總是經過清理和結構化的。 它們通常是嘈雜的、不完整的,並且可能包含錯誤。 為了確保數據挖掘結果準確,首先需要清理數據。 一些清理方法包括填寫缺失值、自動和手動控制等。 - 數據整合
這是提取、組合和集成來自不同來源的數據的階段。 來源可以是數據庫、文本文件、電子表格、文檔、多維數據集、互聯網等。 - 數據採樣
通常,數據挖掘中並不需要所有集成數據。 數據採樣是從大型數據庫中僅選擇和提取有用數據的階段。 - 數據轉換
一旦選擇了數據,它就會被轉換為適合挖掘的形式。 這個過程包括歸一化、聚合、泛化等。 - 數據挖掘
這是數據挖掘中最重要的部分 - 使用智能方法來查找其中的模式。 該過程包括回歸、分類、預測、聚類、關聯學習等。 - 模型評估
此步驟旨在識別潛在有用、易於理解的模式以及支持假設的模式。 - 知識表示
在最後階段,使用知識表示和可視化方法以有吸引力的方式呈現獲得的信息。
數據挖掘的缺點
- 大量的時間和勞動力投入
由於數據挖掘是一個漫長而復雜的過程,因此需要高效且熟練的人員進行大量工作。 數據科學家可以使用強大的數據挖掘工具,但他們需要專家來準備數據並理解結果。 因此,處理所有信息可能需要一些時間。 - 數據隱私和安全
由於數據挖掘通過市場方式收集客戶信息,因此可能侵犯用戶隱私。 此外,黑客還可以獲取數據挖掘系統中存儲的數據。 這對客戶數據的安全構成威脅。 如果竊取的數據被濫用,很容易傷害他人。
以上是對數據挖掘的簡單介紹。 正如我已經提到的,數據挖掘包含收集和整合數據的過程,其中包括提取數據(數據提取)的過程。 在這種情況下,可以肯定地說,數據提取可以是長期數據挖掘過程的一部分。
什麼是數據提取?
也稱為“網絡數據挖掘”和“網絡抓取”,這一過程是將數據從(通常是非結構化或結構不良)數據源提取到集中位置並集中在一個位置進行存儲或進一步處理的行為。 具體來說,非結構化數據源包括網頁、電子郵件、文檔、PDF文件、掃描文本、大型機報告、捲軸文件、公告等。 集中存儲可以是本地、雲或混合。 重要的是要記住,數據提取不包括稍後可能發生的處理或其他分析。
數據提取可以做什麼?
基本上,數據提取的目的分為三類。
- 歸檔
數據提取可以將數據從物理格式(例如書籍、報紙、發票)轉換為數字格式(例如數據庫)以進行存儲或備份。 - 更改數據格式
當您想要將數據從當前站點遷移到正在開發的新站點時,您可以通過提取數據的方式從您自己的站點收集數據。 - 資料分析
通常需要進一步分析提取的數據以深入了解它。 這聽起來可能與數據挖掘類似,但請記住,數據挖掘是數據挖掘的目標,而不是數據挖掘的一部分。 此外,對數據的分析也不同。 一個例子是,在線商店所有者從亞馬遜等電子商務網站提取產品信息,以實時監控競爭對手的策略。 與數據挖掘一樣,數據提取是一個自動化過程,具有許多優點。 過去,人們手動將數據從一個地方復制粘貼到另一個地方,這非常耗時。 數據提取加快了收集速度,大大提高了提取數據的準確性。
使用數據提取的一些示例
與數據挖掘類似,數據挖掘廣泛應用於各個行業。 除了電子商務價格監控之外,數據挖掘還可以幫助您進行自己的研究、新聞聚合、營銷、房地產、旅行和旅遊、諮詢、金融等。
- 領先一代
公司可以從目錄中提取數據:Yelp、Crunchbase、Yellowpages,並為業務開發生成潛在客戶。 您可以觀看下面的視頻,了解如何使用以下命令從黃頁中提取數據網頁抓取模板 . - 內容和新聞的聚合
內容聚合網站可以從多個來源定期接收數據源並保持其網站最新。 - 情緒分析
從 Instagram 和 Twitter 等社交網絡提取評論、評論和推薦後,專業人士可以分析潛在的態度並深入了解品牌、產品或現象的感知方式。
數據提取步驟
數據抽取是ETL(Extract、Transform、Load:提取、轉換、加載)和ELT(Extract、Load、Transform)的第一階段。 ETL 和 ELT 本身就是完整數據集成策略的一部分。 換句話說,提取數據可以是其提取的一部分。
提取、轉換、加載
雖然數據挖掘就是從大量數據中提取信息,但數據提取是一個更短、更簡單的過程。 它可以簡化為三個階段:
- 選擇數據源
選擇您要從中提取數據的源,例如網站。 - 資料收集
向站點發送“GET”請求,並使用Python、PHP、R、Ruby等編程語言解析生成的HTML文檔。 - 數據存儲
將數據保存到本地數據庫或云存儲以供將來使用。 如果您是一位經驗豐富的程序員,想要提取數據,那麼上述步驟對您來說可能看起來很簡單。 但是,如果您不是程序員,有一個捷徑 - 使用數據挖掘工具,例如八度分析 。 數據提取工具與數據挖掘工具一樣,旨在節省能源並使每個人都可以輕鬆進行數據處理。 這些工具不僅經濟,而且適合初學者。 它們允許用戶在幾分鐘內收集數據,將其存儲在雲中,並將其導出為多種格式:Excel、CSV、HTML、JSON,或通過 API 導出到網站上的數據庫。
數據提取的缺點
- 服務器崩潰
當大規模提取數據時,目標站點的Web服務器可能會過載,從而導致服務器崩潰。 這會損害網站所有者的利益。 - 按IP禁止
當一個人過於頻繁地收集數據時,網站可能會阻止他們的 IP 地址。 資源可以通過使數據不完整來完全禁止 IP 地址或限制訪問。 為了檢索數據並避免阻塞,您需要以適中的速度進行操作並應用一些防阻塞技術。 - 法律問題
當涉及到合法性時,從網絡中提取數據就陷入了灰色地帶。 Linkedin 和 Facebook 等主要網站在其使用條款中明確規定禁止任何自動提取數據的行為。 由於機器人活動,公司之間已經發生了許多訴訟。
數據挖掘和數據提取之間的主要區別
- 數據挖掘也稱為數據庫中的知識發現、知識提取、數據/模式分析、信息收集。 數據提取與網頁數據提取、網頁掃描、數據收集等可以互換使用。
- 數據挖掘研究主要基於結構化數據,而數據挖掘通常來自非結構化或結構不良的數據源。
- 數據挖掘的目標是使數據對分析更有用。 數據提取是將數據收集到可以存儲或處理的地方。
- 數據挖掘分析基於識別模式或趨勢的數學方法。 數據提取是基於編程語言或數據提取工具來繞過來源。
- 數據挖掘的目的是發現以前不知道或忽略的事實,而數據提取則處理現有信息。
- 數據挖掘更加複雜,需要大量投資來培訓人員。 使用正確的工具提取數據可以非常簡單且具有成本效益。
我們幫助初學者不要對數據感到困惑。 特別是對於 habravchans,我們製作了促銷代碼 哈伯, 在橫幅上顯示的折扣基礎上額外提供 10% 的折扣。
更多課程
數據分析課程 開發運營課程 職業網絡開發人員 從零開始的職業 iOS 開發者 從零開始的職業 Android 開發者 從零開始的職業 Java 開發人員 JavaScript課程 機器學習課程 “數據科學的數學和機器學習”課程 進階課程《機器學習Pro+深度學習》
推薦文章
如何在沒有在線課程的情況下成為數據科學家 450 個免費的常春藤盟校課程 如何連續 5 個月每週 9 天學習機器學習 數據分析師的收入是多少:2020 年俄羅斯和國外的薪資和職位空缺概覽 採礦業中的機器學習和計算機視覺
來源: www.habr.com