大数据及云计算相关 | 瑰珀 & 休生伤杜

这个星期把google0304年发布的几个技术论文的翻译看了一下，算是补一下课，后面还需要持续补课。

首先是Google File System，简称就是GFS，原本设计用于一个机器集群的低一致性的网络文件系统。用一个master调度和记录内容存储的chunk server，文件系统的访问端就是client，先询问master，得到相关的index，就去和chunk server进行读写访问。当然细节有很多了，包括文件的块大小，一般是什么样的文件。

GFS基于的文件假设是顺序写比较多，很多append的操作，随机写的比例低且实时要求也低。因此在GFS之上，又有了BigTable的文件，其实是一个key-value的数据库，适合使用GFS。

对于www产生的文本内容，BigTable的三维结构是合适的。但GFS和BigTable只管保存和查看，如何高效地对内容进行计算，则引出了第三个技术：MapReduce。

MapReduce分成Map和reduce，类似于函数式编程的模型了，写好map和reduce之后，MapReduce的框架就把分布运算、负载均衡等等工作做完了，等着取结果。

GFS + BigTable + MapReduce在目前看来也许不是最优的，但Google当时规划出这样的体系结构无疑是对互联网的超大贡献，自此之后，Amazon、Facebook、Tencent、Alibaba、Baidu等等都有了参考的模板。

今天只是起一个头，后面再补上其他云计算+大数据技术的心得。

……

改公开了，因为术的发展速度太快，而我由于跟不上只好跟着道走了。