免費試用
  • Languuage
banner
大數據平台>大數據技術與應用>大數據存儲和管理

大數據的存儲和管理

作者: afenxi來源: afenxi時間:2017-02-09 19:27:000

摘要-||震轩美容美发价目表:下麵我們介紹大數據存儲和管理發展過程中出現的四類大數據存儲和管理數據庫係統|_-108娱乐彩票正规吗。

任何機器都會有物理上的限製_摩托报价:內存容量|--ppl网络电视、硬盤容量--苏西 埃米斯、處理器速度等等--注册送彩金APP,我們需要在這些硬件的限製和性能之間做出取舍--30码期期必中特网址图,比如內存的讀取速度比硬盤快得多|苏州十中吧,因此內存數據庫比硬盤數據庫性能好-|-01彩票官方平台,但是內存為2GB的機器不可能將大小為100GB的數據全部放入內存中--天通银个人代理,也許內存大小為128GB的機器能夠做到--5320软件,但是數據增加到200GB時就無能為力了-_长青贝妮。

數據不斷增長造成單機係統性能不斷下降亿彩彩票公平吗,即使不斷提升硬件配置也難以跟上數據的增長速度_-|苍之涛天书。然而||_234彩票app苹果,當今主流的計算機硬件比較便宜而且可以擴展__众博国际街机讨论吧,現在購置八台8內核__长发速递、128GB內存的機器比購置一台64內核|_滦县二中吧、TB級別內存的服務器劃算得多_--招商银行济南分行,而且還可以增加或減少機器來應對將來的變化-_|陈小春谭耀文。這種分布式架構策略對於海量數據來說是比較適合的__|汇家卡盟,因此-_-2019年生肖卡,許多海量數據係統選擇將數據放在多個機器中清东陵门票,但也帶來了許多單機係統不曾有的問題--亿人娱乐注册平台。

下麵我們介紹大數據存儲和管理發展過程中出現的四類大數據存儲和管理數據庫係統_|兰州 摸吧。

並行數據庫

並行數據庫[1]是指那些在無共享的體係結構中進行數據操作的數據庫係統|_易中奖彩票。這些係統大部分采用了關係數據模型並且支持SQL語句查詢_-环球tv 3d精灵版,但為了能夠並行執行SQL的查詢操作||-新超越极限2 25,係統中采用了兩個關鍵技術_--28码时时彩计划:關係表的水平劃分和SQL查詢的分區執行||-345彩票网登录。

水平劃分的主要思想就是根據某種策略將關係表中的元組分布到集群中的不同節點上|-|soler组合,這些節點上的表結構是一樣的--|镇江京江晚报,這樣就可以對元組並行處理|淮安草根网。現有的分區策略有哈希分區--_掌上彩票吧、範圍分區|小米1s锤子rom下载、循環分區等-|优点彩票能赚钱吗。例如_|成都群芳录,哈希分區策略是將表T中的元組分布到n個節點上|-印度电视剧新娘第四部,可以使用統一的哈希算法對元組中的某個或某幾個屬性進行哈希_-2011版qq,如hash(T.attribute1) mod n-|-陈亚辉,然後根據哈希值將元組放置到不同的節點上-钱缪。

在分區存儲的表中處理SQL查詢需要使用基於分區的執行策略|||河间吧,如獲取表T中某一數值範圍內的元組--行乐居,係統首先為整個表T生成總的執行計劃P__|赤祼特工未删减 百度云,然後將P拆分成n個子計劃_001彩票助手,子計劃Pi在節點ni上獨立執行-_c7000,最後每個節點將生成的中間結果發送到某一選定的節點上||装甲车 电影,該節點對中間結果進行聚集產生最終的結果||_铜皮厚度。

並行數據庫係統的目標是高性能和高可用性_众发娱乐注册下载不了,通過多個節點並行執行數據庫任務|_亿彩下载安装,提高整個數據庫係統的性能和可用性__dsound.dll病毒。最近一些年不斷湧現一些提高係統性能的新技術-_l乐蜂网,如索引-金御医、壓縮-|_河南民生频道双升、實體化視圖-_piaoxinhui、結果緩存-|青年文明号创建承诺、I/O共享等__-长青贝妮,這些技術都比較成熟且經得起時間的考驗||长寿益民网。與一些早期的係統如Teradata必須部署在專有硬件上不同365彩票为什么登录不了,最近開發的係統如Aster__衡水热线专业聊天室、Vertica等可以部署在普通的商業機器上__|jthysh,這些數據庫係統可以稱得上準雲係統-|-召唤帝国时代四之农民。

並行數據庫係統的主要缺點就是沒有較好的彈性_|金佛山滑雪场电话,而這種特性對中小型企業和初創企業是有利的|-银泉酒家。人們在對並行數據庫進行設計和優化的時候認為集群中節點的數量是固定的|斗战神入定修炼,若需要對集群進行擴展和收縮_|图吧公交,則必須為數據轉移過程製訂周全的計劃|_山西电视台小郭跑腿。這種數據轉移的代價是昂貴的|扒糗事地址更新系统,並且會導致係統在某段時間內不可訪問|__小型航空发动机价格,而這種較差的靈活性直接影響到並行數據庫的彈性以及現用現付商業模式的實用性__手机2009qq下载。

並行數據庫的另一個問題就是係統的容錯性較差|-陈仕林,過去人們認為節點故障是個特例|湖南基础教育网,並不經常出現_|闸北大悦城,因此係統隻提供事務級別的容錯功能_金贞熙,如果在查詢過程中節點發生故障|||苍井空无码 亚洲 在线,那麼整個查詢都要從頭開始重新執行-_主流游戏台式机配置。這種重啟任務的策略使得並行數據庫難以在擁有數以千個節點的集群上處理較長的查詢|_长城哈弗cuv,因為在這類集群中節點的故障經常發生|_|平码四中四。基於這種分析|__22彩票,並行數據庫隻適合於資源需求相對固定的應用程序_-永城彩票连接多少。不管怎樣-3218彩城彩票网,並行數據庫的許多設計原則為其他海量數據係統的設計和優化提供了比較好的借鑒_|娇妍经痛贴。

NoSQL數據管理係統

NoSQL[5]一詞最早出現於1998年||118彩票安装苹果009,它是Carlo Strozzi開發的一個輕量_网曝 查开房 网址、開源_物合网、不提供SQL功能的關係型數據庫(他認為-|2元彩票网3d走势图,由於NoSQL悖離傳統關係數據庫模型-_手机qq2009,因此-|黄油笔,它應該有一個全新的名字--|行会名字竖起来,比如“NoREL”或與之類似的名字[6])|-_联欢会策划。

2009年-_山西特产批发,Last.fm的Johan Oskarsson發起了一次關於分布式開源數據庫的討論[7]_|_冰河时代2歌词,來自Rackspace的Eric Evans再次提出了NoSQL的概念_-若尔盖海拔,這時的NoSQL主要指非關係型__-广州市花都区教育局、分布式_-_168手机彩票、不提供ACID的數據庫設計模式_-|大英百科全书txt。

2009年在亞特蘭大舉行的“no:sql(east)”討論會是一個裏程碑|石家庄腾龙山,其口號是"select fun, profit from real_world whererelational=false;"-|昆明桑拿爽记。因此_|手机qq2010官方下载正式版免费下载,對NoSQL最普遍的解釋是“非關係型的”|-海峡两岸主持人,強調鍵值存儲和文檔數據庫的優點_-高清无码在线苍井空,而不是單純地反對關係型數據庫__长春校服门。

傳統關係型數據庫在處理數據密集型應用方麵顯得力不從心|-元氏租房,主要表現在靈活性差_-股票套牢、擴展性差_--11选五任选7中奖率、性能差等方麵||-隐藏文件夹病毒。最近出現的一些存儲係統摒棄了傳統關係型數據庫管理係統的設計思想|_|云购彩票什么时候有的,轉而采用不同的解決方案來滿足擴展性方麵的需求||重庆艾一若厨卫电器。這些沒有固定數據模式並且可以水平擴展的係統現在統稱為NoSQL(有些人認為稱為NoREL更為合理)__|梅州二手房网,這裏的NoSQL指的是“Not Only SQL”_|小吃作文,即對關係型SQL數據係統的補充__-易彩彩民福地登录app。NoSQL係統普遍采用的一些技術有-30码期期必中特:

簡單數據模型_-_阿姆斯特丹机场购物。不同於分布式數據庫|-温岭114黄页,大多數NoSQL係統采用更加簡單的數據模型_媚行深宫 菏泽天下,這種數據模型中--印度新娘第四部,每個記錄擁有唯一的鍵_|淘宝开店,而且係統隻需支持單記錄級別的原子性_至尊许仙,不支持外鍵和跨記錄的關係|-_365高反水彩票平台。這種一次操作獲取單個記錄的約束極大地增強了係統的可擴展性_360全国彩票开奖号码,而且數據操作就可以在單台機器中執行---好听的彩铃,沒有分布式事務的開銷_234彩票登陆。

元數據和應用數據的分離-_众赢彩票导航。NoSQL數據管理係統需要維護兩種數據--|注册送彩金彩票网:元數據和應用數據_-台风妮妲路径。元數據是用於係統管理的--|康鸥移动电源怎么样,如數據分區到集群中節點和副本的映射數據||_125摩托车改装。應用數據就是用戶存儲在係統中的商業數據||-定位修改。係統之所以將這兩類數據分開是因為它們有著不同的一致性要求|_2n3055功放。若要係統正常運轉_中央1台在线直播观看,元數據必須是一致且實時的||-淘宝体通缉令,而應用數據的一致性需求則因應用場合而異_|_众彩娱乐注册。因此_-_248彩票投注软件,為了達到可擴展性|_-093彩票公司合法吗,NoSQL係統在管理兩類數據上采用不同的策略||_软文直播rwzb。還有一些NoSQL係統沒有元數據|_|中科彩票印务,它們通過其他方式解決數據和節點的映射問題||-2017央视春晚小品。

弱一致性__易富app。NoSQL係統通過複製應用數據來達到一致性|_kf qq com在线客服。這種設計使得更新數據時副本同步的開銷很大|_永盛彩票导航,為了減少這種同步開銷|||金盟减肥药,弱一致性模型如最終一致性和時間軸一致性得到廣泛應用|_|青岛单独二胎新政策2014。

通過這些技術-上海蹦极事故,NoSQL能夠很好地應對海量數據的挑戰--_凤舞摩天麦词。相對於關係型數據庫|_|陕西一套节目回看,NoSQL數據存儲管理係統的主要優勢有|-_160彩票春秋网站:

避免不必要的複雜性|__198彩手机平台登录。關係型數據庫提供各種各樣的特性和強一致性|-获奖身份证,但是許多特性隻能在某些特定的應用中使用_-|芜湖阳光半岛,大部分功能很少被使用_-永盛彩票官网和亚泰坊。NoSQL係統則提供較少的功能來提高性能-||curling溃疡。

高吞吐量_--威斯特梵高。一些NoSQL數據係統的吞吐量比傳統關係數據管理係統要高很多_--132彩票网址是不是骗局,如Google使用MapReduce每天可處理20PB存儲在Bigtable中的數據--重庆歪歌横行。

高水平擴展能力和低端硬件集群|--易旺彩票合法。NoSQL數據係統能夠很好地進行水平擴展_--168彩票网站返现正规吗,與關係型數據庫集群方法不同||361dy,這種擴展不需要很大的代價|基督教赞美诗歌曲。而基於低端硬件的設計理念為采用NoSQL數據係統的用戶節省了很多硬件上的開銷-_云顶彩票送45。

避免了昂貴的對象-關係映射__银彩G88。許多NoSQL係統能夠存儲數據對象__鹿喜微断食,這就避免了數據庫中關係模型和程序中對象模型相互轉化的代價__相容以莫。

NoSQL向人們提供了高效便宜的數據管理方案|_安万克,許多公司不再使用Oracle甚至MySQL_-009彩票网合法吗,他們借鑒Amzon的Dynamo和Google的Bigtable的主要思想建立自己的海量數據存儲管理係統___赢彩网app,一些係統也開始開源|-其实不想走简谱,如Facebook將其開發的Cassandra捐給了Apache軟件基金會-|_xiannuhu。

雖然NoSQL數據庫提供了高擴展性和靈活性||-偃师户外,但是它也有自己的缺點-|16楼影院,主要有_|成都水货手机报价:

數據模型和查詢語言沒有經過數學驗證-衡水电影。SQL這種基於關係代數和關係演算的查詢結構有著堅實的數學保證||-注册彩金不限ip,即使一個結構化的查詢本身很複雜--111彩票安卓109,但是它能夠獲取滿足條件的所有數據|陈礼斌。由於NoSQL係統都沒有使用SQL-_35彩票网址,而使用的一些模型還未有完善的數學基礎|_索爱w750。這也是NoSQL係統較為混亂的主要原因之一-|-北交晨光bt。

不支持ACID特性-_-金立gn106白色。這為NoSQL帶來優勢的同時也是其缺點-|-英特尔e1400,畢竟事務在很多場合下還是需要的_-_31选7大星走势图福建省,ACID特性使係統在中斷的情況下也能夠保證在線事務能夠準確執行_-_青岛开发区十中。

功能簡單|_168彩票平台可靠吗。大多數NoSQL係統提供的功能都比較簡單--1995返水05%彩票网,這就增加了應用層的負擔_-_阎良房屋出租。例如如果在應用層實現ACID特性_-经典图文日志,那麼編寫代碼的程序員一定極其痛苦|-移动彩票app。

沒有統一的查詢模型--仲博彩票是不是骗局。NoSQL係統一般提供不同查詢模型-_|至尊彩是真的吗,這一定程度上增加了開發者的負擔_-|金榜起名网。

NewSQL數據管理係統

人們曾普遍認為傳統數據庫支持ACID和SQL等特性限製了數據庫的擴展和處理海量數據的性能|_|亿博娱乐平台登录,因此嚐試通過犧牲這些特性來提升對海量數據的存儲管理能力||-证金贵金属投资有限公司,但是現在一些人則持有不同的觀念-_csol防沉迷,他們認為並不是ACID和支持SQL的特性_234天天彩票真假,而是其他的一些機製如鎖機製-|_重庆力帆少东家、日誌機製_|网页3gqq登陆、緩衝區管理等製約了係統的性能_-_花月婷养巢,隻要優化這些技術|_|实名注册和防沉迷系统,關係型數據庫係統在處理海量數據時仍能獲得很好的性能-_-中科彩票印务。

關係型數據庫處理事務時對性能影響較大|-霍启文、需要優化的因素有-|礼物地带:

通信-_|ems怎么取货。應用程序通過ODBC或JDBC與DBMS進行通信是OLTP事務中的主要開銷__初一下册数学期中试卷及答案。

日誌-__众富彩票富彩彩票怎么样。關係型數據庫事務中對數據的修改需要記錄到日誌中|-盈彩网彩票怎么样,而日誌則需要不斷寫到硬盤上來保證持久性_-闽江学院教务处,這種代價是昂貴的-_镶嵌栏开启装置,而且降低了事務的性能-镇元大仙的诨号。

鎖_|-风行者观察站。事務中修改操作需要對數據進行加鎖|_中国胎记研究中心,這就需要在鎖表中進行寫操作-_qq空间代码克隆,造成了一定的開銷_|长郡中学网站。

閂|-新款途观报价及图片。關係型數據庫中一些數據結構|浪翻云博客,如B樹||365彩票改名了吗?、鎖表|-圣伊依、資源表等的共享影響了事務的性能|_-阿列克莎。這些數據結構常常被多線程讀取|--滤菌器,所以需要短期鎖即閂|_234彩票网络平台。

緩衝區管理_-众发赌博。關係型數據將數據組織成固定大小的頁_-百度钱包登陆,內存中磁盤頁的緩衝管理會造成一定的開銷-_|海马骑士7。

為了解決上麵的問題-|狩猎狂狮,一些新的數據庫采用部分不同的設計-||国产车哪个牌子好,它取消了耗費資源的緩衝池-|碧欧丽,在內存中運行整個數據庫|金兜洞兕大王副本。它還擯棄了單線程服務的鎖機製|-|13彩里面的群是干啥的,也通過使用冗餘機器來實現複製和故障恢複--_移动彩票靠谱吗,取代原有的昂貴的恢複操作_云顶国际赌场。這種可擴展-_天翼3g无线网卡、高性能的SQL數據庫被稱為NewSQL-_|12306智行火车票网页版,其中“New”用來表明與傳統關係型數據庫係統的區別-大丰长途汽车站,但是NewSQL也是很寬泛的概念-_-重生洪荒之逍遥至尊。它首先由451集團在一份報告中提出|--男士眼霜,其主要包括兩類係統_|1q币购物券怎么用:擁有關係型數據庫產品和服務|_易彩网是真的吗?,並將關係模型的好處帶到分布式架構上八马赛珍珠5800价格;或者提高關係數據庫的性能||33彩票安全吗,使之達到不用考慮水平擴展問題的程度--苏州工业园区三中。前一類NewSQL包括Clustrix__|西安一号线、GenieDB_许若月、ScalArc___高中排列组合、ScaleBase_-10元可提现的棋牌、NimbusDB___强心脏20110823,也包括帶有NDB的MySQL集群||_3a录取查询、Drizzle等招远一中。後一類NewSQL包括Tokutek|_众发娱乐赌博、JustOne DB|-何思佳。還有一些“NewSQL即服務”-__078彩票合法吗,包括Amazon的關係數據庫服務-_-金立x805参数、Microsoft的SQL Azure|__安钢大厦、FathomDB等||跆拳道太子妃。

當然||_透蜜光学祛斑仪,NewSQL和NoSQL也有交叉的地方|_1288彩票是正规公司吗?,例如_2019年大乐透历史开奖,RethinkDB可以看作NoSQL數據庫中鍵/值存儲的高速緩存係統-__姿姿堂,也可以當作NewSQL數據庫中MySQL的存儲引擎-易彩娱乐测速。現在許多NewSQL提供商使用自己的數據庫為沒有固定模式的數據提供存儲服務__云顶至尊如何,同時一些NoSQL數據庫開始支持SQL查詢和ACID事務特性||注册下载app送28。

NewSQL能夠提供SQL數據庫的質量保證-__01cp彩票安卓,也能提供NoSQL數據庫的可擴展性_助赢官网。VoltDB是NewSQL的實現之一-银神,其開發公司的CTO宣稱||三棱锥性质,它們的係統使用NewSQL的方法處理事務的速度比傳統數據庫係統快45倍_-武汉华云桑拿。VoltDB可以擴展到39個機器上|_|哈雷摩托官网,在300個CPU內核中每分鍾處理1600萬事務_-国家创新基金网,其所需的機器數比Hadoop集群要少很多_||金枝玉叶花卉。

隨著NoSQL168手机彩票、NewSQL數據庫陣營的迅速崛起--_小灿男装,當今數據庫係統“百花齊放”|_-龙驹私服,現有係統達數百種之多__13彩app,圖1-1將廣義的數據庫係統進行了分類|||1号彩票网址。

大數據的存儲和管理-數據分析網

圖1-1  數據庫係統的分類

圖1-1中將數據庫分為關係型數據庫|_|松江同乐网、非關係型數據庫以及數據庫緩存係統|_步步高学习机h2下载。其中||_重庆ume官网,非關係型數據庫主要指的是NoSQL數據庫-|300302,分為-运盛彩票pk10计划:鍵值數據庫|例外包包官网、列存數據庫-金兰妃、圖存數據庫以及文檔數據庫四大類|__2m全年开奖记录彩图。關係型數據庫包含了傳統關係數據庫係統以及NewSQL數據庫|-234彩票下载。

高容量-_|武汉欢乐谷年票、高分布式_红酒倒进高脚杯、高複雜性應用程序的需求迫使傳統數據庫不斷擴展自己的容量極限_||保定38军,這些驅動傳統關係型數據庫采用不同的數據管理技術的6個關鍵因素可以概括為“SPRAIN”-|_爱财部落网,即---众发娱乐彩票是真是假:

可擴展性(Scalability)——硬件價格

高性能(Performance)——MySQL的性能瓶頸

弱一致性(Relaxedconsistency)——CAP理論

敏捷性(Agility)——持久多樣性

複雜性(Intricacy)——海量數據

必然性(Necessity)——開源 大數據的存儲和管理-數據分析網

作者簡介

陸嘉恒|下载手机qq2009,中國人民大學教授___雷波溪洛渡,博士生導師-|-栾城贴吧。2006年畢業於新加坡國立大學計算機科學係|_天堂电影下载,獲博士學位|杜达雄2013版裸男世界博客;2006-2008年在美國加利福尼亞大學爾灣分校(University of California, Irvine)進行博士後研究-_苍井空 ed2k;2008年加入中國人民大學_|阿迪奥驰,2012年破格晉升為教授-|高清彩虹台。主要研究領域包括數據庫技術和雲計算技術_|-金牛区自考办。先後在SIGMOD---106平台彩票ios版、VLDB--_金立v8、ICDE__兰州商学院教务管理系统、WWW等國際重要會議和期刊上發表數據庫方向的論文40多篇||-我们约会吧李飒,主編多本雲計算和大數據的教材和著作_--详细设计说明书实例。

本文節選自《大數據挑戰與NoSQL數據庫技術》一書|-_306官方彩票安卓。陸嘉恒編著|永安彩票合法吗,由電子工業出版社出版--_150期马会资料。

banner
看過還想看
可能還想看
熱點推薦
Yonghong的價值觀_-108娱乐彩票靠谱吗?:以卓越的數據技術為客戶創造價值_马云评价云联惠,實現客戶成功|盈彩国际可靠吗。