HadoopDB是Abadi領(lǐng)導(dǎo)的開發(fā)團隊利用不同的組件,包括開源數(shù)據(jù)庫、PostgreSQL、Apache Hadoop數(shù)據(jù)分類技術(shù)和Hive(Facebook公司開發(fā)的內(nèi)部Hadoop項目)開發(fā)出的新型數(shù)據(jù)庫,
分布式大規(guī)模數(shù)據(jù)庫系統(tǒng) HadoopDB 簡介
。HadoopDB的查詢是利用MapReduce或常規(guī)的SQL語言完成的。MapReduce是Google公司發(fā)明的Hadoop的祖先,這一軟件架構(gòu)用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行計算。Hadoop是Apache軟件基金會所研發(fā)的開源并行運算編程工具和分布式文件系統(tǒng),與MapReduce和Google檔案系統(tǒng)的概念類似。
另一方面,HadoopDB的數(shù)據(jù)處理部分是利用Hadoop完成的。Abadi表示,其中部分是利用了分布在無分享計算機群集中的許多節(jié)點上的不同的PostgreSQL實例完成的!皩嵸|(zhì)上,HadoopDB是MapReduce和并行數(shù)據(jù)庫管理系統(tǒng)技術(shù)的混血兒。但是與Aster Data、Greenplum或Hive等已經(jīng)開發(fā)出的項目和廠商不同,HadoopDB不是簡單地在語言/接口層面上的混合,它是更深的系統(tǒng)實現(xiàn)層面上的集成!盇badi說。
因為集兩種技術(shù)的精華于一身,HadoopDB可以取得MapReduce等大規(guī)模并行數(shù)據(jù)基礎(chǔ)設(shè)施的容錯性,
電腦資料
《分布式大規(guī)模數(shù)據(jù)庫系統(tǒng) HadoopDB 簡介》(http://www.msguai.com)。在這些基礎(chǔ)設(shè)施中,服務(wù)器故障對整個網(wǎng)絡(luò)的影響非常小。Abadi表示,HadoopDB可以執(zhí)行復(fù)雜的分析,速度幾乎與已有的商用并行數(shù)據(jù)庫一樣快。HadoopDB的源代碼現(xiàn)已公布。雖然其目前的解決方案還是試驗性的,但對Web 2.0企業(yè)和方興未艾的“NoSQL”運動的其他成員卻非常具有吸引力。有專家認為,它最終可能吸引那些尋找代替甲骨文數(shù)據(jù)庫、IBM DB2或微軟SQL Server的更便宜、更具伸縮性數(shù)據(jù)庫的企業(yè)。
Abadi在2009年4月曾參與撰寫了一篇論文,該論文指出對于大多數(shù)的用戶和應(yīng)用而言,關(guān)系型數(shù)據(jù)庫仍然超過MapReduce和Hadoop。Abadi日前表示,目前的研究并沒有否認以前的看法,但是隨著數(shù)據(jù)庫技術(shù)的演進,HadoopDB這樣的新興數(shù)據(jù)庫系統(tǒng)將具有比并行數(shù)據(jù)庫更好的可伸縮性。
另外,HadoopDB雖然基于PostgreSQL構(gòu)建,但同樣可以使用其他數(shù)據(jù)庫作為引擎。Abadi表示,其團隊已經(jīng)成功地使用了MySQL,并計劃嘗試使用像Infobright、MonetDB等柱狀數(shù)據(jù)庫來改進處理分析性工作負載時的性能。
項目主頁:http://www.open-open.com/lib/view/home/1327799544717