标签归档:Bigdata

大数据及云计算相关

这个星期把google0304年发布的几个技术论文的翻译看了一下,算是补一下课,后面还需要持续补课。

首先是Google File System,简称就是GFS,原本设计用于一个机器集群的低一致性的网络文件系统。用一个master调度和记录内容存储的chunk server,文件系统的访问端就是client,先询问master,得到相关的index,就去和chunk server进行读写访问。当然细节有很多了,包括文件的块大小,一般是什么样的文件。

GFS基于的文件假设是顺序写比较多,很多append的操作,随机写的比例低且实时要求也低。因此在GFS之上,又有了BigTable的文件,其实是一个key-value的数据库,适合使用GFS。

对于www产生的文本内容,BigTable的三维结构是合适的。但GFS和BigTable只管保存和查看,如何高效地对内容进行计算,则引出了第三个技术:MapReduce。

MapReduce分成Map和reduce,类似于函数式编程的模型了,写好map和reduce之后,MapReduce的框架就把分布运算、负载均衡等等工作做完了,等着取结果。

GFS + BigTable + MapReduce在目前看来也许不是最优的,但Google当时规划出这样的体系结构无疑是对互联网的超大贡献,自此之后,Amazon、Facebook、Tencent、Alibaba、Baidu等等都有了参考的模板。

今天只是起一个头,后面再补上其他云计算+大数据技术的心得。

……

改公开了,因为术的发展速度太快,而我由于跟不上只好跟着道走了。