Xx,xx,我爱你

CC现在学话很快,比如,之前听的音乐里面有:兔子兔子我爱你,你吃萝卜我吃米。

他就对着衣服扣子说,扣子扣子我爱你。
然后这两天有点明白我爱你的意思了,就对着各位说:
外公外公我爱你
爸爸爸爸我爱你
妈妈妈妈我爱你
。。。。我爱你

从博客大巴导出全部文章

其实如果blogbus能提供一个完整的导出工具,我就不需要自己花1个小时去写和测试这个代码。文件头尾需要加一下才是完整的rss文件。然后用wordpress的RSS importer就可以了。

另外,如果正文中带有链接,而链接中又含有非ascii字符,HTML parser也会失败。

export.py内容如下:

#!/usr/bin/env python
# Author:polo@live.cn
# coding=utf-8
import httplib
import re
from HTMLParser import HTMLParser

class MLStripper(HTMLParser):
    def __init__(self):
        self.reset()
        self.fed = []
    def handle_data(self, d):
        self.fed.append(d)
    def get_data(self):
        return '\n\n'.join(self.fed)

#strip html tags
def strip_tags(html):
    s = MLStripper()
    s.feed(html)
    return s.get_data()

#fetch a blog's meta data, and append to xml file, and return the previous blog's url
def fetch_blog(surl):
    conn = httplib.HTTPConnection('zhengrenchi.blogbus.com')
    conn.request('GET', surl)
    rep = conn.getresponse()
    preurl = ''

    if rep.status == 200 :
        content = rep.read()
        content = content.replace('\n', '')
        content = content.replace('\r', '')
        r = re.compile('postHeader">.*?<h2>(.*?)</h2><h3>(.*?) \| Tag:(.*?)</h3>.*?</div>')
        s_match = r.findall(content)
    
        for k1 in s_match:
            title = k1[0]
            time  = k1[1]
            tags  = k1[2]
            r = re.compile('<a href.*?>(.*?)</a>')
            tagsa = r.findall(tags)
    
        r = re.compile('<div>.*?<p.*?</p>(.*?)<div>')
        r1 = re.compile('<div>.*?<p.*?</p>(.*?)<div>')
        s_match = r.findall(content)
        if s_match:
            for k1 in s_match:
                body = k1
        else:
            s_match = r1.findall(content)
            for k1 in s_match:
                body = k1

        r = re.compile('<span><a href=\'(.*?)\'>')
        s_match = r.findall(content)
        for k1 in s_match:
            preurl = k1

        outfile = open('blog.xml','a+')
        outfile.write('<item>')
        outfile.write('<title>' + title + '</title>')
        outfile.write('<pubdate>' + time + '</pubdate>')
        #print body
        outfile.write('<description><![CDATA[' + strip_tags(body) + ']]></description>')
        for k2 in tagsa:
            outfile.write('<category>' + k2 +'</category>')
        outfile.write('</item>')
        outfile.close()

    conn.close()
    return preurl

#set the original url
xurl = '/logs/228488258.html'

while (xurl != ''):
    print xurl
    xurl = fetch_blog(xurl)

技术自找的麻烦

我丈母娘从内地过来深圳,两个习惯改变不了:一个是打麻将,另一个是买地下六合彩。

然后我才知道原来地下六合彩有这么丰富的玩法,用的是香港赛马会的结果,但中奖规则则被这些底下庄家修改得更容易中奖和吸引人。也衍生了一堆相关的信息产业。

其中有提供各种图文并茂的六合彩经。

于是我的噩梦来了。

这些提供六合彩经的网站,有时候维护不力,连不上;有时候被360屏蔽,有时候又被政府屏蔽。

丈母娘就把这些问题归咎于我给她用的电脑不行……

几天前电脑的显示器坏了,因为用了五六年了,我觉得也很正常,就说,不如改用家里多出来的ipad来看吧。

连上和操作浏览器都没问题,但这个网站居然在非IE的环境下会出exception,然后1秒刷新一次……

那就是没法看。

我把js禁了,发现显示链接内容的部分就是调的js,这招不行。

逼着出大招,就在vps开了个页面,把这个网站的内容都proxy过来,把刷新改成一个小时……然后发现IOS对js跨域有限制,那就再来把js也proxy过来。

终于好了,除了页面显示再慢了一点。

可我丈母娘还是怀疑这数据不对……因为不是她要的网址。

用不用拉倒。

不怕

这几天带CC在小区玩。看到有小孩子在玩烟花放炮之类,CC拉着我,说:放炮不怕,CC不怕,不怕不怕。

但我看他声音变调,眼眶都噙着泪花了,应该是学着大人安慰他的方式在自我鼓励。

还是先抱他走开。

我想起自己小时候倒是没那么多新鲜玩意,有新鲜玩意也基本不会害怕,这个大概会是一个差异。不过CC现在还小,畏惧随着认知的增加而减少,应该是个合理的过程。

花剌子模信使问题

我从来都没有开过户炒股,但并不意味着不去关心这些数据与信息。一个原因是无论你身处哪个行业,总有竞争对手或者你的公司本身就是上市公司。

因此也就知道一些行业的信息,由于并不完全公开,所以某些程度上也可以称为内幕吧。然而上论坛看一下,一般散户都更习惯于相信公开的新闻以及机构的报告,对于真实的负面信息总是采用

谣言

的对待,或者认为是庄家的手段。

但丑妇终须见家翁。一味的视而不见到最后只能等待消息正式公布的那一天。

中国市场上的很多信息,包括大环境、政策、趋势等,其实都是没有问题的,有问题的只是上市公司本身,这是证监会审批上市程序的不足、机构的不作为或分析人员的不深入,导致散户无从获得真实有效的信息,最终成为炮灰。

关于南沙新区

看了《广州南沙新区发展规划》的全文,果然一如既往的美好设想,更确切的说,是一个新的

行政

区域。我们来看看字频统计:

港澳:106

广州:18

香港:9

珠三角:9

澳门:4

深圳:4

珠海:1

中山:1

虎门:1

番禺:0

东莞:0

长安:0

看完这个词频统计之后,你就明白这个新区的所向了吧。跟珠江口左岸的东莞有个屁关系。看的都是港澳。

连广州都只是一个名义上的上级关系而已。

问题是香港与深圳接壤(隔了窄窄的水道),为何舍近求远,你能跟前海片区相比?

澳门那么弹丸之地啊,能输出的量已经被证明是有限的。

而虎门虽说是必争之地,但竟然仅在交通方面提及,这南沙新区也太眼界高企了吧?

说回莞深惠一体化,似乎会无疾而终,但莞穗就能一体化吗?东莞归根结底还是粤东的一部分,流淌着东江水的,文化和认同上只有惠州可以同声同气。

基于对南沙一贯的雷声大雨点小的认识,这玩意早晚会无疾而终,珠江口右岸并非好港口。

太平时,王杀王。

上周刚看完晚清七十年的第二本,太平天国部分。唐德刚说他自己的治学严谨,只是资料来源丰富,所以特意把推背图拿来一说。

推背图真正现于大众时是在金圣叹评点之后,所以太平时,王杀王的第三十四象则在近代成就了推背图的最大神奇。

之后各象,各家评点,多少都穿凿附会,不忍卒读。

术数虽然奇妙,但只是一些尽能力的推演,要非常精确本来就强人所难。不过中华历史,自商周以降,至唐太宗时已经两千多年,因此也无数的故事可供套用,所以推背图各象中的故事,你应该从这之前的两千年中寻找共通之处,应验会更准确。

至于说宋太祖淆乱推背图推向民间,确实是一高招,但是这毕竟也是个故事真伪值得商榷。

说回三十四象,真是巧合得太神奇了。太平=

太平天国,王杀王=

数王内讧,而洪秀全的大名更是直接嵌在:洪水滔天苗不秀,

中原曾见梦全非。一句中。在文字狱刚过的清朝中叶,敢这么明目张胆的藏字诗自然不大可能是当朝人所撰,所以唐德刚的推理也是合理的。

如果不相信这是预言的话,将之视为巧合就合适了。

小时候看太平天国的书,多为正面,这与罗尔纲的推动也有关系,现在接触国外书籍多了,思想也开放了,才有将其与红色高棉之类的故事并提的可能。

太平天国也开创了军政府的先河,后面民初军阀割据,其实和这时期也颇像。

1289

大头儿子CC还不会数数,我们每每教他从1数到10,他总是128,1289,12898989898这样,估计是还没学会发’s’的声母。

然后超有自尊,我故意多念几遍123,他认为我在取笑他,就指着窗上贴着的

字,说:

,然后又指着墙上的挂钟,说:

,潜台词就是,我并不是不会,你看我都会说福和钟。

饥饿游戏

其实饥饿游戏是上周看的,因为刚看过了In time,因此有很自然的感觉将两者联系起来。

都是统治阶级对其他阶层的方式。世界或者国家分成了若干个区,有统治者在的区,也有中产阶级所在的区,也有无产阶级或者贫民所在的。

然后是订立规则,以使被压迫或劳役的阶层接受规则,生老病死,不思谋反之心。

为何这两年会推出这样的影片,当然有其社会背景在,即使是美国,家族式的贫富也越来越难以逾越,所以整个社会会有一种朦胧而又清晰的阶层感。中国除了一些移民城市之外,各地的贫富世袭的感觉越来越像香港。

而两个电影,一个是货币形式的规则掠夺,另一个是选秀的方式制造群体恐惧和个体希望,以游戏的方式转移矛盾。

饥饿游戏另外让人想起的是楚门的世界,不过那故事今天看来就更不堪一击,只有哲学上的意义。同样,在摄像机下的比赛这样的题材也会让人觉得太无聊,所以我看饥饿游戏的劣评并不少。饥饿游戏并不会成为一个有重看价值的电影,跟楚门的世界一样,不过这个故事会让人记得。