成都公司:成都市成華區(qū)建設南路160號1層9號
重慶公司:重慶市江北區(qū)紅旗河溝華創(chuàng)商務大廈18樓
如何尋找數據價值
近十年來,隨著大中型企業(yè)對業(yè)務應用系統的普及,在經過一段時間的運作后,他們的業(yè)務會越來越成熟,也越來越穩(wěn)定,所擁有的數據也會越來越多,人員使用水平也越來越高,表面看似都做得很不錯,也很風光,但在他們的系統里,面對日積月累存儲的龐大數據,這些數據到底能提供什么樣的價值?如何在這些數據里找到它的再生價值、規(guī)律與關系?以用于指導原有業(yè)務,開拓新業(yè)務,甚至提供決策分析呢?這個問題已成為影響企業(yè)發(fā)展的重要瓶頸之一。

要找出數據的價值、關系和規(guī)律就必須引進商業(yè)智能(BI),不管您是購買商業(yè)智能或是自行開發(fā)的商業(yè)智能系統。
無論您用還是不用商業(yè)智能,在這個大問題里(企業(yè)有可能會遇到以下兩個瓶頸:1、盡管企業(yè)有大量的數據,但有很多數據不準確導致商業(yè)智能應用受阻;2、業(yè)務模型建不起來,影響商業(yè)智能的應用。此兩個瓶頸不在討論之列,就當企業(yè)不存在這兩個問題),您都要解決現有業(yè)務系統下會遇到的五大瓶頸問題:
瓶頸一:性能低劣
性能的好壞直接影響系統的運行速度,尤其是針對擁有TB級數據量的客戶。但性能的好壞主要是看基什么樣的標準,因為客戶進行大量的查詢,報表,分析,OLAP……對得到的結果,會有以下反應:
- 不覺得很慢,因為沒有和其他的對比,覺得就是這樣的速度;
- 目前的狀況尚可以接受這樣的結果,不需要做改變;
- 實實在在速度很高,沒有可比性(此為少數,不在討論之列)。
故此,客戶對性能好壞沒有太大的感覺,但是當系統中的數據過于龐大,達到TB級(海量數據)時,就不得不考慮性能問題了,試想,如果運算了三十分鐘結果還是出不來,最終死機了,您能忍受嗎?但如果僅需要十秒八秒就完成三十分鐘的事情,您覺得如何?要達到這樣的效果,必須解決性能低劣問題,要擁有以下四方面創(chuàng)新技術:
1、 超高速ETL引擎技術
要解決海量數據性能問題,必不可少方法之一就是建數據倉庫,要建好數據倉庫就必須要有好的ETL,沒有好的ETL工具,數據倉庫肯定差,當數據量越大時,您的運行速度必定很慢。例如出入境報表性能處理案例,出入境系統主要是統計全國出入境人口情況,所以數據量相當龐大(千萬記錄級),在軟硬件條件都已非常好的情況下(Oracle 10g / 10多臺刀片式服務器集群服務),按傳統的做法,從數據庫查詢一條簡單SQL語句,Oracle需要30分鐘后才有回應。為了提高性能,我們使用數據倉庫技術解決此問題,利用數據倉庫技術,針對業(yè)務關系數據庫的大數據量表,劃分為多個大數據量主題,建立相應的多維數據集。根據對出境申請和簽注辦理這兩個多維數據集的測試結果,性能可提高幾十倍甚至過百倍。一般條件下,不超過10秒可出結果。不管多復雜的條件組合,一般也不超過一分鐘可出結果。目前出入境如涉及到數據量比較大的表時,都采用了此數據倉庫方式實現。使用了數據倉庫后,報表統計速度由原來的56分鐘,降到現在只需10多秒就統計完畢. 性能比以前提高幾十倍甚至過百倍。
2、 “去掉”表關聯技術
在您構造各種組合查詢、報表時會涉及表與表之間的關系,即是通過表的關鍵標識將表關聯起來,如果您涉及查詢表關聯越多,速度將會越慢,尤其是數據量大時,更有可能死機。故此必須要有“去掉”表關聯技術,通過一種計算方式,在眾多的路徑中找到最短的路徑,通過簡單的拖放連線,熟悉庫結構的IT人員或開發(fā)商就可以預先把表關系建好在語義層中,支持多字段關聯、內外連接。這樣,最終用戶在做查詢或報表時,就不必理會表關聯了,需要查什么直接拖放即可。
3、 代碼表快速轉換技術

在利用計算機進行查找時,我們都知道英文比中文快,數字比中文快。如果數據庫很多字段里的內容是中文,那么對中文進行查找會相當慢,若查找的量很大,則有可能出現“老牛拉破車”一樣令人無法忍受。這時候必須要有一項技術進行代碼表轉換,這項技術可以把任何東西變成數字或字符處理,計算機頻繁處理時是數據,出來的結果是中文,由數字和中文一一對應,使查找起來非常快速。
4、 海量數據處理技術
當查詢統計分析的數據量非常大(達到TB級)時,數據的緩存空間就成為處理海量數據最大的難題,以內存提供緩存空間的做法將極大程度上影響到其他的后臺運作,當內存無法負荷時就會導致速度緩慢,任務排隊,甚至是系統死機,BQ的“資源人工智能分配技術”通過對CPU,內存和硬盤的智能分配,實現海量數據的高效查詢。
上述這四個方面在性能上是至關重要的,也是技術上最大的難點!
瓶頸二:過往成果不能重用
當千辛萬苦制作好大量報表、查詢、分析,因為業(yè)務的需求變化,也許里面的某一條公式發(fā)了變化,例如:業(yè)務公式為“f(a)”,變更為“f(b)”,您能在每一個報表、查詢、分析眾多元素內找到這條公式嗎?您還能記住在哪個地方嗎?或許做這些報表的人已更換,新接手的人就更可想而知了,即便是您自己經手的,盡管您對每個報表、查詢、分析關系相當的清楚,相信您也不大好找,這樣費事費勁的工作可能還會分分鐘鐘因為手工修改而出現遺漏的地方,難道放棄重做?那要花多少資源?多少成本?這意味著企業(yè)辛苦做出的成果得不到重用,這種浪費是非??杀摹?。
如果有一項“全對象重用技術”,就輕而易舉的解決以上問題,這項技術把所有需要操作的元素(數據源、表、字段、條件、查詢、報表等)構建成對象直接引用到報表,查詢、分析中,當修改一個對象,凡是引用該對象的地方都會自動修改。
瓶頸三:數據無法多元化展示
隨著業(yè)務應用深入,對數據呈現的方法必須是多種多樣的,各種各樣的報表、查詢、分析是否都能做?因為屬于商業(yè)智能業(yè)務應用的范圍非常廣,如果無法一一滿足需求的話,這勢必會成為企業(yè)的瓶頸,企業(yè)不得不面臨兩種選擇:要不就只能再購買其他的產品來彌補,但又要考慮到如何整合的問題;要不就只能自行開發(fā),但花費的人力、投入的資源都必須面對,并且開發(fā)出來是否適用還是個問題……最后,甚至會出現用不下去只能放棄的局面。
瓶頸四:無法將結果集合在同一視圖
各種查詢,報表,分析彼此之間都是有關聯的集合,如何把這些做好的結果集合在一個視圖里瀏覽?如果沒有這樣的一項技術,只能一一打開這些查詢、報表、分析來看,這樣看不是不可以,但是看起來相當的費勁,也只會讓您看了前面的忘了后面的,看了后面的由忘了前面的,并且難以記住關聯的關系,當不同參數選擇不同的內容,關聯還會發(fā)生變化,如果不在同一個視圖根本就不可能直觀的看到這種變化。
要解決這個問題必須要有EIS,將彼此關聯的查詢、報表放在同一個視圖,并輔以直觀的圖象,如此一來就能一目了然,非常全面的看到各項關系的變化。

瓶頸五:無法動態(tài)展示文字報表
報表、查詢、分析相對是獨立的,即使解決了上面瓶頸四的問題,但決大部分展示出來的主體是數字和表,還無法真正體現文字報告,文字報告指的是能將文字、數字、圖表三者有機結合,以大量文字為主體,穿插很多數字或與數字有關的圖表。傳統的文字報告由人工編輯完成,一旦數字變了,文字要相應的做改變,與之相關的圖表也要隨之修改,如果這樣的報告很多,那么工作量就會大大增加,出錯的機率也增大。
目前有一種WordReport報表,在WORD里動態(tài)生成文字、數字、圖表三者的關系,能將數字和文字對應起來,動態(tài)變化展示,無須手工改動,更可靠、準確,大大提高了工作效率。
不管是引進的商業(yè)智能或者是自行開發(fā)的系統,如果不能解決以上五大瓶頸問題,企業(yè)無法在原來的基礎上有質的飛躍。而尚南的BlueQuery商業(yè)智能方案,能真正有效的解決上述的五大問題,我們相信實力成就價值!

