这个星期把google0304年发布的几个技术论文的翻译看了一下,算是补一下课,后面还需要持续补课。
首先是Google File System,简称就是GFS,原本设计用于一个机器集群的低一致性的网络文件系统。用一个master调度和记录内容存储的chunk server,文件系统的访问端就是client,先询问master,得到相关的index,就去和chunk server进行读写访问。当然细节有很多了,包括文件的块大小,一般是什么样的文件。
GFS基于的文件假设是顺序写比较多,很多append的操作,随机写的比例低且实时要求也低。因此在GFS之上,又有了BigTable的文件,其实是一个key-value的数据库,适合使用GFS。
对于www产生的文本内容,BigTable的三维结构是合适的。但GFS和BigTable只管保存和查看,如何高效地对内容进行计算,则引出了第三个技术:MapReduce。
MapReduce分成Map和reduce,类似于函数式编程的模型了,写好map和reduce之后,MapReduce的框架就把分布运算、负载均衡等等工作做完了,等着取结果。
GFS + BigTable + MapReduce在目前看来也许不是最优的,但Google当时规划出这样的体系结构无疑是对互联网的超大贡献,自此之后,Amazon、Facebook、Tencent、Alibaba、Baidu等等都有了参考的模板。
今天只是起一个头,后面再补上其他云计算+大数据技术的心得。
……
改公开了,因为术的发展速度太快,而我由于跟不上只好跟着道走了。