月度归档:2013年04月

感觉塞车变严重了

这两天感觉塞车变严重了,直接后果是:

  1. 到办公室的时间晚了,虽然也是提早到,但提早的量没那么多
  2. 在车上听香港电台更多了,从香港电台转成新城财经台

 

 

中文博客的提交渠道

主要是为了加快搜索引擎的收录效率,最好还是博客的主人或网站管理员到各大搜索引擎提交一下收录。一般来说,这个功能网站管理员在搜索引擎上管理自己的网站的功能之一:

  • 提交网站
  • 提交sitemap
  • 检查索引状态
  • 检查内外链状态
  • 设置页面抓取规则、速度
  • 检查404的情况

几个流行的中文搜索引擎的网站管理:

google: https://www.google.com/webmasters/ google帐号登录
bing: http://www.bing.com/toolbox/webmaster live帐号登录
baidu: http://zhanzhang.baidu.com/ hi帐号登录

 

测试一下离线文章的草稿功能

其实只是想看看wordpress的这个apps能否进行离线文章撰写,可行的话,就可以完全当成草稿的编辑功能。

由于google的服务持久性实在不能给人什么强信心,因此不大指望google doc完成这样的功能。
而blog对我来说,又是一个应该可以持续多年的公开型个人日记的需求,所以wordpress+apps的组合可以算是与时俱进了。

我现在明白wordpress的生命力所在了,一个同时提供技术和服务的网络服务运营商。所以也不难理解为何微软会将live迁移到wordpress了。

说回这些BSP,我们实在不能指望google,microsoft,apple这些上市的巨头长期免费的提供低附加值的blog服务,更何况blog服务一旦呈现免费开放状态,作者们其实是可以独立盈利而无需为BSP付费。

所以开源wordpress在技术人群以及小型BSP中继续生存,而wordpress.com的服务也并不是那么理想,正好把空间留给自建wordpress。

这也许也是很多开源CMS的未来了。

2013 金像奖

在看2013金像奖。。。
感觉香港电影终于走出迷茫了,大陆电影虽然很凶很猛,但目前居然铜臭更浓,而香港电影人最终学会了,既要到票房和掌声,也能保有香港特色之路了。

金像奖从去年开始已经控制住了颁奖范围,如果搞成全国性的电影颁奖,确实对本地文化是个打压。

恭喜杨千桦,终于轮到了。

古惑仔系列

上周在线重温了一下古惑仔1和2,当年算是好学生,因此对这样的题材并不感冒。
只是漫不经心地看过,之所以重温,是看到这几个系列有两部确实占了当年香港票房的前位,自然有其理由所在,因此翻出来好好看看。

而陈小春和谢天华的风火海组合成员,均有参与古惑仔的演出,但后续发展路线则迥异,至于为何如此,也可从电影中分析出一二。

郑伊健不必说了,虽然他这辈子不大可能拿个什么影帝了,但古惑仔系列则足以在香港电影史上大书一笔。黄秋生,吴镇宇,任达华等各影帝均在电影中有精彩表演而不夺主角的风头,其实也是水平的体现。

因此陈小春迅速红了起来。

古惑仔根本上还是一个有秩序的社会,也是与时俱进的社会。
生存的压力来自回归(人在江湖)来自商业竞争(猛龙过江),而只会讲兄弟义气,慢慢还是输了。

想起去年香港新出的公司法,也是用来规范政党运作以及社团运作的,所谓黑社会,就是社团了,也自然在政府和法律的框架之中,哪有胡作非为的空间。

金山寺和灵隐寺

春节时重看了《济公全传》,故事总是类似的,但又不是重复。华云龙伏法之后,逐渐演变成邪道与释家之间的斗法。

而其中,华东两座名寺之间的地位起落,也从中可以窥豹。

道济无疑代表了杭州,以及灵隐的地位,而在南宋之前,江南无疑是首选金山寺。从大看来,也是临安成为了南宋首都之后,文化地位就不甘于再落在金陵之后了。

因此形成一种态势:高僧从灵隐出,而道场需要在金山作。

我们再回到白蛇传,法海其实是金山寺的唐代名僧,因白蛇扰民而镇压之,但故事到了宋代,为了扬杭州而抑金陵,就有了白蛇传的全新叙述。如果金陵仍然有对杭州的文化优势的话,恐怕这样的故事不会得到流传的。

 

H7N9禽流感的趋势

早上听香港新闻,这次的禽流感有个很明显的信号,就是:对人类来说,这是持久的范围广但数量少的威胁。

基于几个认知的事实:

  1. H7N9不会人传人,未来是否会衍生出人传人并不清楚
  2. 家禽饲养量足够大,候鸟迁徙范围足够广泛,无法彻底消灭禽流感
  3. H7N9经过禽传人,而且对生命造成威胁,感染后有足够高的死亡率

即使疫苗研发出来,针对这样低的发病率,要强制推广疫苗估计是自愿性质,而样本不足的情况下,疫苗的有效性得不到验证。

所以,我估计这次H7N9的威胁时间远比SARS要久远,直到人群自行产生有效抗体为止。

Xx,xx,我爱你

CC现在学话很快,比如,之前听的音乐里面有:兔子兔子我爱你,你吃萝卜我吃米。

他就对着衣服扣子说,扣子扣子我爱你。
然后这两天有点明白我爱你的意思了,就对着各位说:
外公外公我爱你
爸爸爸爸我爱你
妈妈妈妈我爱你
。。。。我爱你

从博客大巴导出全部文章

其实如果blogbus能提供一个完整的导出工具,我就不需要自己花1个小时去写和测试这个代码。文件头尾需要加一下才是完整的rss文件。然后用wordpress的RSS importer就可以了。

另外,如果正文中带有链接,而链接中又含有非ascii字符,HTML parser也会失败。

export.py内容如下:

#!/usr/bin/env python
# Author:polo@live.cn
# coding=utf-8
import httplib
import re
from HTMLParser import HTMLParser

class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.fed = []
    def handle_data(self, d):
        self.fed.append(d)
    def get_data(self):
        return '\n\n'.join(self.fed)

#strip html tags
def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

#fetch a blog's meta data, and append to xml file, and return the previous blog's url
def fetch_blog(surl):
    conn = httplib.HTTPConnection('zhengrenchi.blogbus.com')
    conn.request('GET', surl)
    rep = conn.getresponse()
    preurl = ''

    if rep.status == 200 :
        content = rep.read()
        content = content.replace('\n', '')
        content = content.replace('\r', '')
        r = re.compile('postHeader">.*?<h2>(.*?)</h2><h3>(.*?) \| Tag:(.*?)</h3>.*?</div>')
        s_match = r.findall(content)
    
        for k1 in s_match:
            title = k1[0]
            time  = k1[1]
            tags  = k1[2]
            r = re.compile('<a href.*?>(.*?)</a>')
            tagsa = r.findall(tags)
    
        r = re.compile('<div>.*?<p.*?</p>(.*?)<div>')
        r1 = re.compile('<div>.*?<p.*?</p>(.*?)<div>')
        s_match = r.findall(content)
        if s_match:
            for k1 in s_match:
                body = k1
        else:
            s_match = r1.findall(content)
            for k1 in s_match:
                body = k1

        r = re.compile('<span><a href=\'(.*?)\'>')
        s_match = r.findall(content)
        for k1 in s_match:
            preurl = k1

        outfile = open('blog.xml','a+')
        outfile.write('<item>')
        outfile.write('<title>' + title + '</title>')
        outfile.write('<pubdate>' + time + '</pubdate>')
        #print body
        outfile.write('<description><![CDATA[' + strip_tags(body) + ']]></description>')
        for k2 in tagsa:
            outfile.write('<category>' + k2 +'</category>')
        outfile.write('</item>')
        outfile.close()

    conn.close()
    return preurl

#set the original url
xurl = '/logs/228488258.html'

while (xurl != ''):
    print xurl
    xurl = fetch_blog(xurl)