當前位置: 代寫一篇論文多少錢 > 計算機論文 > 大數據時代不同角度劃分數據質量問題

大數據時代不同角度劃分數據質量問題

時間:2020-01-25 18:44作者:劉妍東
本文導讀:這是一篇關于大數據時代不同角度劃分數據質量問題的文章,數據的可信性由三個因素決定:數據來源的權威性、數據的規范性、數據產生的時間。例如新浪微博某一用戶發布的微博內容是否具有可信性,首先確定數據來源是否具有權威性,如果是權威機構的數據,那么可信度比較高。

  摘要:隨著云時代的來歷,大數據技術也越來越引起人們的關注。大數據帶來的巨大的技術和商業機遇使眾多的企業趨之若鶩。大數據分析挖掘和利用將為企業帶來巨大的商業價值,但隨著數據規模的急劇劇增,數據體量巨大、數據類型繁多,數據的價值參差不齊,在數據分析時將導致分析偏差。所以在大數據時代,數據的質量問題也是重中之重。通過分析,數據的質量問題主要存在這六大方面的問題:準確性、完整性、一致性、相關性、時效性、可信性和可解釋性。

  關鍵詞:大數據; 質量問題;

  1、從采集的角度劃分質量問題

  1.1 準確性

  準確性是指數據是否正確的,數據存儲在數據庫中的值是否對應于真實世界的值。例如,某用戶在使用支付寶綁定銀行卡時,網站要求驗證用戶的真實姓名和身份證號碼。如果用戶提供的證件號碼與實際號碼一致,那么該號碼存儲在數據庫中的值就是正確的。

  數據的不準確由如下原因造成:一是在收集數據時,設備出現故障,導致數據存儲的值出現亂碼。二是在數據輸入時,人為的輸入不準確的信息,或者計算機內部出錯導致錄入的信息有誤,比如我們上網注冊一些信息時,出于隱私考慮,用戶會故意輸入不正確的信息,包括年齡、地址、手機號等。 三是在數據傳輸的過程中出現錯誤。比如,超出了傳輸緩沖區的大小,數據會出現截斷等現象。最后一種是命名約定、數據代碼、輸入字段的格式不一致導致出錯。其中,最常見的是:不按格式輸入導致出錯,例如輸入字段為日期時,多個用戶輸入日期的格式不一致。

  1.2 完整性

  完整性是指信息具有一個實體描述的所有必需的部分。在傳統關系型數據庫中,完整性通常與空值(NULL)有關?罩凳侵溉笔Щ虿恢谰唧w的值,可能是一條記錄中的某個屬性缺失,也可能是整條記錄都丟失。

  不完整的數據對數據分析會產生影響,比如考慮構造一個預測交通事故發生率的模型。如果忽略了駕駛員的年齡和性別信息,那么除非這些信息可以間接地通過其他屬性得到,否則模型的精度可能是有限的。這種情況下,我們就需要盡量采集全面的數據信息。

  1.3 一致性

  數據一致性是指在數據庫中,不同表中存儲和使用的同一數據應當是等價的,表示數據有相等的值和相同的含義。

學生信息表

專業信息表

  比如表1描述學生的基本信息,包括學號、姓名、性別、出生日期和所在專業,而所在專業必須從專業信息表獲取。表2描述了專業的基本信息。從這兩個表可以看到,表1中的學生李想所在的專業號并沒有出現在表2中,說明該條記錄的專業號有誤,必須修改正確,才能保證兩張表對應字段的正確性,這是數據的邏輯不一致。 數據不一致還體現在記錄的不規范上,比如兩個表中對日期的格式記錄不一致,如20100405和2019年4月5日這兩種格式,會導致在數據集成中造成數據沖突。

  另外在數據出現冗余的情況下,數據內容由于各種原因比如并發控制不當,或程序故障導致前后數據不一樣也是造成數據不一致的原因。

  2、從應用的角度劃分質量問題

  2.1 相關性

  數據的相關性是指數據與特定的應用和領域有關。與數據相關的應用場景一般有,比如進行數據挖掘或構造模型預測時,需要采集相關的數據。例如考慮構造一個模型,預測交通事故發生率。如果忽略了駕駛員的年齡和性別信息,那么除非這些信息可以間接地通過其他屬性得到,否則模型的精度可能是有限的。這種情況下,我們就需要盡量采集全面的相關的數據信息。

  另外一個相關性的質量問題表現在相同的數據,在不同的應用領域中,相關性也是不一樣的。例如,對于某個公司的大型客戶數據庫,由于時間和統計的原因,顧客地址列表的正確性為80%,其他地址可能過時或不正確。當市場分析人員訪問公司的數據庫,獲取顧客地址列表時,基于目標市場營銷考慮,市場分析人員對于該數據庫的準確性滿意度較高。而當銷售經理訪問該數據庫時,由于地址的缺失和過時,對該數據庫的滿意度較低。

  2.2 時效性

  數據的時效性是指有些數據會隨時間而變化的,這些數據收集后就開始老化,使用老化后的數據進行數據分析、數據挖掘,將會產生不同的分析結果。 如商品推薦。顧客的當時購買行為或Web瀏覽行為稱為快照,它只代表有限時間內的真實情況。如果數據已經過時,則基于它的模型和模式也就已經過時,所以進行商品推薦需要采集當前的數據進行分析和推薦。在這種情況下,我們需要考慮重新采集數據信息,及時對數據進行更新。

  另應用場景是城市的智能交通管理。以前沒有智能手機和智能汽車,很多大城市雖然有交管中心,但它們收集的路況信息非常滯后。用戶看到的,可能已經是半小時前的路況了,那這樣的信息就沒有什么價值。但是,能定位的智能手機普及以后可就不同。很多用戶開放了實時位置信息,做地圖服務的公司,就能實時得到人員流動信息,并且根據流動速度和所在位置,區分步行的人群和汽車,然后提供實時的交通路況信息,給用戶帶來便利。這就是大數據的時效性帶來的好處。

  3、從用戶的角度劃分質量問題

  3.1 可信性

  數據的可信性由三個因素決定:數據來源的權威性、數據的規范性、數據產生的時間。例如新浪微博某一用戶發布的微博內容是否具有可信性,首先確定數據來源是否具有權威性,如果是權威機構的數據,那么可信度比較高。如果微博字數較長且敘述比較詳細,可信度也會增加。同時微博的發布時間是否接近實時,也影響數據的可信度。

  3.2 可解釋性

  數據的可解釋性,也稱為可讀性,是指數據被人理解的難易程度,如果數據具有解釋性或包含有注釋性信息,而且數據書寫規范,則數據的可解釋性越高。相反如果數據晦澀難懂就根本不具備分析的條件。

  當我們在數據采集和處理時能處理好這六種數據質量問題,則在大數據分析中,就會得到正確及實用的信息。

  參考文獻

  [1] 朱慧明。大數據背景下電商運營課程教學改革研究[J].現代商貿工業,2019,(32)。
  [2] 張余丹。大數據時代在線教育平臺商業模式淺析[J].現代商貿工業,2019,(21)。

聯系我們
范文范例
百家乐概率大师 管家婆精准三头中特 精选一肖一码 湖北新11选5走势图遗漏 捕鱼达人经典版 白小姐四肖必选一肖首 浙江11选五遗漏查询 中特图 甘肃11选5前一推荐 11选5开奖 广东11选五预测专家推荐号码