大數據設計

發布時間: 2020-11-26 08:10:19

A. 如何設計企業級大數據分析平台

所謂的大數據平台不是獨立存在的，比如網路是依賴搜索引擎獲得大數據並開展業務的，阿里是通過電子商務交易獲得大數據並開展業務的，騰訊是通過社交獲得大數據並開始業務的，所以說大數據平台不是獨立存在的，重點是如何搜集和沉澱數據，如何分析數據並挖掘數據的價值。

我可能還不夠資格回答這個問題，沒有經歷過一個公司大數據平台從無到有到復雜的過程。不過說說看法吧，也算是梳理一下想法找找噴。
這是個需求驅動的過程。
曾經聽過spotify的分享，印象很深的是，他們分享說，他們的hadoop集群第一次故障是因為，機器放在靠窗的地方，太陽曬了當機了（笑）。從簡單的沒有機房放在自家窗前的集群到一直到現在復雜的數據平台，這是一個不斷演進的過程。
對小公司來說，大概自己找一兩台機器架個集群算算，也算是大數據平台了。在初創階段，數據量會很小，不需要多大的規模。這時候組件選擇也很隨意，Hadoop一套，任務調度用腳本或者輕量的框架比如luigi之類的，數據分析可能hive還不如導入RMDB快。監控和部署也許都沒時間整理，用腳本或者輕量的監控，大約是沒有ganglia、nagios，puppet什麼的。這個階段也許算是技術積累，用傳統手段還是真大數據平台都是兩可的事情，但是為了今後的擴展性，這時候上Hadoop也許是不錯的選擇。
當進入高速發展期，也許擴容會跟不上計劃，不少公司可能會遷移平台到雲上，比如AWS阿里雲什麼的。小規模高速發展的平台，這種方式應該是經濟實惠的，省了運維和管理的成本，擴容比較省心。要解決的是選擇平台本身提供的服務，計算成本，打通數據出入的通道。整個數據平台本身如果走這條路，可能就已經基本成型了。走這條路的比較有名的應該是netflix。
也有一個階段，你發現雲服務的費用太高，雖然省了你很多事，但是花錢嗖嗖的。幾個老闆一合計，再玩下去下個月工資發布出來了。然後無奈之下公司開始往私有集群遷移。這時候你大概需要一群靠譜的運維，幫你監管機器，之前兩三台機器登錄上去看看狀態換個磁碟什麼的也許就不可能了，你面對的是成百上千台主機，有些關鍵服務必須保證穩定，有些是數據節點，磁碟三天兩頭損耗，網路可能被壓得不堪重負。你需要一個靠譜的人設計網路布局，設計運維規范，架設監控，值班團隊走起7*24小時隨時准備出台。然後上面再有平台組真的大數據平台走起。
然後是選型，如果有技術實力，可以直接用社區的一整套，自己管起來，監控部署什麼的自己走起。這個階段部署監控和用戶管理什麼的都不可能像兩三個節點那樣人肉搞了，配置管理，部署管理都需要專門的平台和組件；定期Review用戶的作業和使用情況，決定是否擴容，清理數據等等。否則等機器和業務進一步增加，團隊可能會死的很慘，疲於奔命，每天事故不斷，進入惡性循環。
當然有金錢實力的大戶可以找Cloudera，Hortonworks，國內可以找華為星環，會省不少事，適合非互聯網土豪。當然互聯網公司也有用這些東西的，比如Ebay。
接下去你可能需要一些重量的組件幫你做一些事情。
比如你的數據接入，之前可能找個定時腳本或者爬log發包找個伺服器接收寫入HDFS，現在可能不行了，這些大概沒有高性能，沒有異常保障，你需要更強壯的解決方案，比如Flume之類的。
你的業務不斷壯大，老闆需要看的報表越來越多，需要訓練的數據也需要清洗，你就需要任務調度，比如oozie或者azkaban之類的，這些系統幫你管理關鍵任務的調度和監控。
數據分析人員的數據大概可能漸漸從RDBMS搬遷到集群了，因為傳統資料庫已經完全hold不住了，但他們不會寫代碼，所以你上馬了Hive。然後很多用戶用了Hive覺得太慢，你就又上馬交互分析系統，比如Presto，Impala或者SparkSQL。
你的數據科學家需要寫ML代碼，他們跟你說你需要Mahout或者Spark MLLib，於是你也部署了這些。
至此可能數據平台已經是工程師的日常工作場所了，大多數業務都會遷移過來。這時候你可能面臨很多不同的問題。
比如各個業務線數據各種數據表多的一塌糊塗，不管是你還是寫數據的人大概都不知道數據從哪兒來，接下去到哪兒去。你就自己搞了一套元數據管理的系統。
你分析性能，發現你們的數據都是上百Column，各種復雜的Query，裸存的Text格式即便壓縮了也還是慢的要死，於是你主推用戶都使用列存，Parquet，ORC之類的。
又或者你發現你們的ETL很長，中間生成好多臨時數據，於是你下狠心把pipeline改寫成Spark了。
再接下來也許你會想到花時間去維護一個門戶，把這些零散的組件都整合到一起，提供統一的用戶體驗，比如一鍵就能把數據從資料庫chua一下拉到HDFS導入Hive，也能一鍵就chua一下再搞回去；點幾下就能設定一個定時任務，每天跑了給老闆自動推送報表；或者點一下就能起一個Storm的topology；或者界面上寫幾個Query就能查詢Hbase的數據。這時候你的數據平台算是成型了。
當然，磕磕碰碰免不了。每天你都有新的問題和挑戰，否則你就要失業了不是？
你發現社區不斷在解決你遇到過的問題，於是你們架構師每天分出很多時間去看社區的進展，有了什麼新工具，有什麼公司發布了什麼項目解決了什麼問題，興許你就能用上。
上了這些亂七八糟的東西，你以為就安生了？Hadoop平台的一個大特點就是坑多。尤其是新做的功能新起的項目。對於平台組的人，老闆如果知道這是天然坑多的平台，那他也許會很高興，因為跟進社區，幫忙修bug，一起互動其實是很提升公司影響力的實情。當然如果老闆不理解，你就自求多福吧，招幾個老司機，出了問題能馬上帶路才是正道。當然團隊的技術積累不能不跟上，因為數據平台還是亂世，三天不跟進你就不知道世界是什麼樣了。任何一個新技術，都是坑啊坑啊修啊修啊才完善的。如果是關鍵業務換技術，那需要小心再小心，技術主管也要有足夠的積累，能夠駕馭，知道收益和風險。

B. 大數據可視化設計是ui嗎

設計方向應該是ui吧，大數據可視化應該是大數據應用方向的，應該是將數據以圖表的形式展現出來的意思，跟ui有些不同，但是都是設計領域的

C. 設計一個大數據實時分析平台要怎麼做呢

PetaBase-V作為Vertica基於億信分析產品的定製版，提供面向大數據的實時分析服務，採用無共享大規模並行架構（MPP），可線性擴展集群的計算能力和數據處理容量，基於列式資料庫技術，使 PetaBase-V 擁有高性能、高擴展性、高壓縮率、高健壯性等特點，可完美解決報表計算慢和明細數據查詢等性能問題。
大數據實時分析平台（以下簡稱PB-S），旨在提供數據端到端實時處理能力（毫秒級／秒級／分鍾級延遲），可以對接多數據源進行實時數據抽取，可以為多數據應用場景提供實時數據消費。作為現代數倉的一部分，PB-S可以支持實時化、虛擬化、平民化、協作化等能力，讓實時數據應用開發門檻更低、迭代更快、質量更好、運行更穩、運維更簡、能力更強。
整體設計思想
我們針對用戶需求的四個層面進行了統一化抽象：
統一數據採集平台
統一流式處理平台
統一計算服務平台
統一數據可視化平台
同時，也對存儲層保持了開放的原則，意味著用戶可以選擇不同的存儲層以滿足具體項目的需要，而又不破壞整體架構設計，用戶甚至可以在Pipeline中同時選擇多個異構存儲提供支持。下面分別對四個抽象層進行解讀。
1)統一數據採集平台
統一數據採集平台，既可以支持不同數據源的全量抽取，也可以支持增強抽取。其中對於業務資料庫的增量抽取會選擇讀取資料庫日誌，以減少對業務庫的讀取壓力。平台還可以對抽取的數據進行統一處理，然後以統一格式發布到數據匯流排上。這里我們選擇一種自定義的標准化統一消息格式UMS（Unified Message Schema）做為統一數據採集平台和統一流式處理平台之間的數據層面協議。
UMS自帶Namespace信息和Schema信息，這是一種自定位自解釋消息協議格式，這樣做的好處是：
整個架構無需依賴外部元數據管理平台；
消息和物理媒介解耦（這里物理媒介指如Kafka的Topic, Spark Streaming的Stream等），因此可以通過物理媒介支持多消息流並行，和消息流的自由漂移。
平台也支持多租戶體系，和配置化簡單處理清洗能力。
2)統一流式處理平台
統一流式處理平台，會消費來自數據匯流排上的消息，可以支持UMS協議消息，也可以支持普通JSON格式消息。同時，平台還支持以下能力：
支持可視化／配置化／SQL化方式降低流式邏輯開發／部署／管理門檻
支持配置化方式冪等落入多個異構目標庫以確保數據的最終一致性
支持多租戶體系，做到項目級的計算資源／表資源／用戶資源等隔離
3)統一計算服務平台
統一計算服務平台，是一種數據虛擬化／數據聯邦的實現。平台對內支持多異構數據源的下推計算和拉取混算，也支持對外的統一服務介面（JDBC／REST）和統一查詢語言（SQL）。由於平台可以統一收口服務，因此可以基於平台打造統一元數據管理／數據質量管理／數據安全審計／數據安全策略等模塊。平台也支持多租戶體系。
4)統一數據可視化平台
統一數據可視化平台，加上多租戶和完善的用戶體系／許可權體系，可以支持跨部門數據從業人員的分工協作能力，讓用戶在可視化環境下，通過緊密合作的方式，更能發揮各自所長來完成數據平台最後十公里的應用。
以上是基於整體模塊架構之上，進行了統一抽象設計，並開放存儲選項以提高靈活性和需求適配性。這樣的RTDP平台設計，體現了現代數倉的實時化／虛擬化／平民化／協作化等能力，並且覆蓋了端到端的OLPP數據流轉鏈路。
具體問題和解決思路
下面我們會基於PB-S的整體架構設計，分別從不同維度討論這個設計需要面對的問題考量和解決思路。
功能考量主要討論這樣一個問題：實時Pipeline能否處理所有ETL復雜邏輯？
我們知道，對於Storm／Flink這樣的流式計算引擎，是按每條處理的；對於Spark Streaming流式計算引擎，按每個mini-batch處理；而對於離線跑批任務來說，是按每天數據進行處理的。因此處理范圍是數據的一個維度（范圍維度）。
另外，流式處理面向的是增量數據，如果數據源來自關系型資料庫，那麼增量數據往往指的是增量變更數據（增刪改，revision）；相對的批量處理面向的則是快照數據（snapshot）。因此展現形式是數據的另一個維度（變更維度）。
單條數據的變更維度，是可以投射收斂成單條快照的，因此變更維度可以收斂成范圍維度。所以流式處理和批量處理的本質區別在於，面對的數據范圍維度的不同，流式處理單位為「有限范圍」，批量處理單位為「全表范圍」。「全表范圍」數據是可以支持各種SQL運算元的，而「有限范圍」數據只能支持部分SQL運算元。
復雜的ETL並不是單一運算元，經常會是由多個運算元組合而成，由上可以看出單純的流式處理並不能很好的支持所有ETL復雜邏輯。那麼如何在實時Pipeline中支持更多復雜的ETL運算元，並且保持時效性？這就需要「有限范圍」和「全表范圍」處理的相互轉換能力。
設想一下：流式處理平台可以支持流上適合的處理，然後實時落不同的異構庫，計算服務平台可以定時批量混算多源異構庫（時間設定可以是每隔幾分鍾或更短），並將每批計算結果發送到數據匯流排上繼續流轉，這樣流式處理平台和計算服務平台就形成了計算閉環，各自做擅長的運算元處理，數據在不同頻率觸發流轉過程中進行各種運算元轉換，這樣的架構模式理論上即可支持所有ETL復雜邏輯。
2)質量考量
上面的介紹也引出了兩個主流實時數據處理架構：Lambda架構和Kappa架構，具體兩個架構的介紹網上有很多資料，這里不再贅述。Lambda架構和Kappa架構各有其優劣勢，但都支持數據的最終一致性，從某種程度上確保了數據質量，如何在Lambda架構和Kappa架構中取長補短，形成某種融合架構，這個話題會在其他文章中詳細探討。
當然數據質量也是個非常大的話題，只支持重跑和回灌並不能完全解決所有數據質量問題，只是從技術架構層面給出了補數據的工程方案。關於大數據數據質量問題，我們也會起一個新的話題討論。
3)穩定考量
這個話題涉及但不限於以下幾點，這里簡單給出應對的思路：
高可用HA
整個實時Pipeline鏈路都應該選取高可用組件，確保理論上整體高可用；在數據關鍵鏈路上支持數據備份和重演機制；在業務關鍵鏈路上支持雙跑融合機制
SLA保障
在確保集群和實時Pipeline高可用的前提下，支持動態擴容和數據處理流程自動漂移
彈性反脆弱
? 基於規則和演算法的資源彈性伸縮
? 支持事件觸發動作引擎的失效處理
監控預警
集群設施層面，物理管道層面，數據邏輯層面的多方面監控預警能力
自動運維
能夠捕捉並存檔缺失數據和處理異常，並具備定期自動重試機制修復問題數據
上游元數據變更抗性
?上游業務庫要求兼容性元數據變更
? 實時Pipeline處理顯式欄位
4)成本考量
這個話題涉及但不限於以下幾點，這里簡單給出應對的思路：
人力成本
通過支持數據應用平民化降低人才人力成本
資源成本
通過支持動態資源利用降低靜態資源佔用造成的資源浪費
運維成本
通過支持自動運維／高可用／彈性反脆弱等機制降低運維成本
試錯成本
通過支持敏捷開發／快速迭代降低試錯成本
5)敏捷考量
敏捷大數據是一整套理論體系和方法學，在前文已有所描述，從數據使用角度來看，敏捷考量意味著：配置化，SQL化，平民化。
6)管理考量
數據管理也是一個非常大的話題，這里我們會重點關注兩個方面：元數據管理和數據安全管理。如果在現代數倉多數據存儲選型的環境下統一管理元數據和數據安全，是一個非常有挑戰的話題，我們會在實時Pipeline上各個環節平台分別考慮這兩個方面問題並給出內置支持，同時也可以支持對接外部統一的元數據管理平台和統一數據安全策略。
以上是我們探討的大數據實時分析平台PB-S的設計方案。

D. 大數據可視化設計到底是UI還是PM的工作

如果按角色來劃分的話，應該是產品經理的工作。

產品經理，要設計產品的目標，決定產品要解決什麼問題，做成什麼樣子。
UI 主要是負責按照產品經理的定義，進行具體的落實，實現為代碼。
PM（項目經理）主要職責是協調項目的資源，時間，物類等，保證項目按時交付。

E. 建立大數據需要設計一個什麼樣的大型系統

搜先你要看一下你要建什麼樣的資料庫，現在主要的資料庫有：回oracle，sqlserver,mySql,access,Excel;根據你的需要選中後，在把答實際對象數據化，分析對象的特性和關系。比如：車有4個輪子，有開車，停車，剎車，洗車等活動。然後使用PowerDesigner設計你的表格然後create表格就行了。

F. 大數據量的系統的資料庫結構如何設計

1、把你表中經常查詢的和不常用的分開幾個表，也就是橫向切分
2、把不同類型的分成幾個表，縱向切分
3、常用聯接的建索引
4、伺服器放幾個硬碟，把數據、日誌、索引分盤存放，這樣可以提高IO吞吐率
5、用優化器，優化你的查詢
6、考慮冗餘，這樣可以減少連接
7、可以考慮建立統計表，就是實時生成總計表，這樣可以避免每次查詢都統計一次
mrzxc 等說的好，考慮你的系統，注意負載平衡，查詢優化，25 萬並不大，可以建一個表，然後按mrzxc 的3 4 5 7 優化。速度，影響它的因數太多了，且數據量越大越明顯。
1、存儲將硬碟分成NTFS格式，NTFS比FAT32快，並看你的數據文件大小，1G以上你可以採用多資料庫文件，這樣可以將存取負載分散到多個物理硬碟或磁碟陣列上。
2、tempdb tempdb也應該被單獨的物理硬碟或磁碟陣列上,建議放在RAID 0上，這樣它的性能最高,不要對它設置最大值讓它自動增長
3、日誌文件日誌文件也應該和數據文件分開在不同的理硬碟或磁碟陣列上，這樣也可以提高硬碟I/O性能。
4、分區視圖就是將你的數據水平分割在集群伺服器上，它適合大規模OLTP,SQL群集上，如果你資料庫不是訪問特別大不建議使用。
5、簇索引你的表一定有個簇索引，在使用簇索引查詢的時候，區塊查詢是最快的，如用between，應為他是物理連續的，你應該盡量減少對它的updaet,應為這可以使它物理不連續。
6、非簇索引非簇索引與物理順序無關，設計它時必須有高度的可選擇性，可以提高查詢速度，但對表update的時候這些非簇索引會影響速度，且佔用空間大，如果你願意用空間和修改時間換取速度可以考慮。
7、索引視圖如果在視圖上建立索引,那視圖的結果集就會被存儲起來，對與特定的查詢性能可以提高很多，但同樣對update語句時它也會嚴重減低性能，一般用在數據相對穩定的數據倉庫中。
8、維護索引你在將索引建好後，定期維護是很重要的，用dbcc showcontig來觀察頁密度、掃描密度等等，及時用dbcc indexdefrag來整理表或視圖的索引,在必要的時候用dbcc dbreindex來重建索引可以受到良好的效果。不論你是用幾個表1、2、3點都可以提高一定的性能，5、6、8點你是必須做的，至於4、7點看你的需求，我個人是不建議的。打了半個多小時想是在寫論文，希望對你有幫助。

G. 大數據相關畢業設計怎麼做

大數據（Big Data）又稱為巨量資料，指需要新處理模式才能具有更強的決策力、洞察力和流程優化能力的海量、高增長率和多樣化的信息資產。「大數據」概念最早由維克托·邁爾·舍恩伯格和肯尼斯·庫克耶在編寫《大數據時代》中提出，指不用隨機分析法（抽樣調查）的捷徑，而是採用所有數據進行分析處理。大數據有4V特點，即Volume（大量）、Velocity（高速）、Variety（多樣）、Value（價值）。

H. 大數據時代，數據是如何激發設計創造力的

1.許多競爭因素會啟示產品的設計決策，共有有六種因素：定量數據，定性數據，戰略利益，用戶利益，網路利益，商業利益。
2.數據可以幫助設計者優化工具，
3.數據可以決定一項內容的變革

I. 完成一個大數據方案設計客戶需要提供什麼

大數據是指以來多元形源式，自許多來源搜集而來的龐大數據組，往往具有實時性。在企業對企業銷售的情況下，這些數據可能得自社交網路、電子商務網站、顧客來訪紀錄，還有許多其他來源。這些數據，並非公司顧客關系管理資料庫的常態數據組。從技術上看，大數據與雲計算的關系就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單台的計算機進行處理，必須採用分布式計算架構。它的特色在於對海量數據的挖掘，但它必須依託雲計算的分布式處理、分布式資料庫、雲存儲和/或虛擬化技術。大數據的意義是由人類日益普及的網路行為所伴生的，受到相關部門、企業採集的，蘊含數據生產者真實意圖、喜好的，非傳統結構和意義的數據。

J. 建立大數據需要設計一個什麼樣的大型系統

大數據需要以下六類人才：一、大數據系統研發工程師。這一專業人才負責大數據系統研發，包括大規模非結構化數據業務模型構建、大數據存儲、資料庫構設、優化資料庫構架、解決資料庫中心設計等，同時，還要負責數據集群的日常運作和系統的監測.
-

閱讀全文

熱點內容

美發店認證發布：2021-03-16 21:43:38 瀏覽：443

物業糾紛原因發布：2021-03-16 21:42:46 瀏覽：474

全國著名不孕不育醫院發布：2021-03-16 21:42:24 瀏覽：679

知名明星確診發布：2021-03-16 21:42:04 瀏覽：14

ipad大專有用嗎發布：2021-03-16 21:40:58 瀏覽：670

公務員協議班值得嗎發布：2021-03-16 21:40:00 瀏覽：21

知名書店品牌發布：2021-03-16 21:39:09 瀏覽：949

q雷授權碼在哪裡買發布：2021-03-16 21:38:44 瀏覽：852

圖書天貓轉讓發布：2021-03-16 21:38:26 瀏覽：707

寶寶水杯品牌發布：2021-03-16 21:35:56 瀏覽：837

大數據設計

與大數據設計相關的資訊