危机感

人看来是不能闲下来的。最近几个月,主动或者被动地缺席了一些事情,然后加上公司业绩不佳,个人感觉可做的事情并不多,危机感就变得强烈了。

也不是坏事,身处忙碌之中会发现很多事情都是需要去做的,不能回避,而在事外,则可以花更多时间去思考未来,个人的能力以及定位,以求一个理想的将来。

但是危机感仍然是存在的,思考不能代表现实,也不能代表还没到来的将来,时间是值得珍惜的。

后面还是把自己的一些硬实力继续加强,争取成为主方,而不是客方。

角色名称的影响范围

之前所说的,就是用NLP的方式提取了角色名称的文本及位置。

我想用聚类来分析,然后这是一维的数据,发现聚类还真是略有尴尬。

不过不要紧,算法就是各种用途都可以。

聚类之后,得出中心点,聚类范围,聚类点数,这就是这个一维空间上角色的影响范围了。

得到一个角色的影响范围,再得到另一个角色的影响范围,我就可以再设计一个公式去计算这两个角色的亲密度/相关度。

这个数据有什么作用?至少能帮助编剧或者演员演不到主角的时候选一个合适的配角以保障出场率吧。

小宝终于出生了

周日下午睡午觉,老婆照例听一下胎心,说胎心位置怎么下移了这么多。

晚上我有点困,因为连续多日被CC住院出院复诊等等事情折腾,周六去香港买了铁丸和其他一些待产的东西,周日又带CC去北大医院去复诊。很热。很困。洗完澡10点多一点就上床睡觉,一会就睡着了。

老婆把我推醒,说破水了,我赶紧弹起来,看来是破得挺快。这时候是晚上10:40。要马上去医院了,好在白天把很多准备的物品都挪到车上去了,于是去叫小孩外婆,外婆正在洗澡。我又去看了一下车,好在没被挡。赶紧把东西搬下去,把车开出来一点,车灯打亮,避免被挡。

老婆和孩子外婆都妥当了,就一起扶老婆上车,垫好出发。

老婆还是很厉害的,一边痛一边退掉给CC和其他人买的高铁票,一边打电话给医院的同学安排医生和床位。

医院安排得有点远,开了40分钟才到,好在之前来过一次踩点,不然也要找个半天。这时候已经是11:45。

医生简单检查了一下,让我去门诊敲门办入院手续。等我办完回来,老婆已经推进了产房。想在走廊等一下,护士把我们赶回房间,说是不要挡着医生出入。

于是回房间等,床号是534,是之前跟CC一起玩碰到的数字,印象有点深,因为做了个因式分解534=2*3*89.

辗转了,没睡着,于是坐起来等。1点20左右,老婆打电话过来,让我2:30去产房门口去接她。问她生了没,她说早生了,0:36就顺出来了,3510克。

真利索。待2:30接老婆和小宝回到房间。心中大石算是落了地。

后来问起才知道,原来连侧切都没有,直接撕裂生出来的,算是急产了。出血略多,有500cc的出血。

老婆还是很厉害了,之前CC是剖腹产,这次顺产没想到这么顺利,就是需要补一补。

 

 

JSPHP NLP工作流

这个JSPHP NLP工作流的标题有点拗口,但目前仍难以作为独立服务发布,后面再取一个好听的名字吧。

高大上一点就是,我考虑的是如何利用有限的web空间/运算资源,实现规模略大的运算

我去年买了这个无限量存储的PHP web hosting,放弃了用了好几年的VPS。原因是VPS被攻击风险越来越大,用于VPN效果又不好,而多放几个网站存储上就有点累了。

但是纯粹的host缺点也是很明显的,我不能再在PHP下面自由添加一些扩展库了,更多的时候,只能使用纯粹的PHP进行运算。另外,单个PHP页面运算资源也是有限的,超时、内存限制等都不能自由修改。

不过是缺点也是挑战,于是当我考虑用这个host来进行一些NLP运算和统计工作的时候,我不得不考虑将运算过程进一步分解成若干个独立的小任务,这些小任务运算时间和资源都有一定限制。将这些小任务串联起来的工作,就落在前端的javascript上。

问题来了,为什么不在javascript上完成一切?

继续阅读

Notepad++里面的正则

其实用起来还好,唯一需要注意的是对GB*编码的支持不力,最好转成UTF-8再进行操作。

跟以前整理的UE里面的正则是类似的。

学到一些新的技能,因为在文本分词统计中发现一些名词出来的数量太少,于是找了找原文,发现原文里面既有简体也有繁体,另外还有错字别字。哪吒写成那吒之类。于是数据统计出来便失真了。

但不细看原文很难知道它哪里写错了,于是要用正则来检索。

比如我搜“八臂哪吒”要比“八臂”要少很多,但是后者肯定不是一个常用的词语,如果不在原文中查找具体位置中出现的问题,就要这么搜:“八臂(?!哪吒)”

这样就很快定位出不一样的八臂所在。

innerHTML和value

写了一个textarea,用js去提取内容。

开始的demo里面是用getElementById().innerHTML去拿,发现是OK的,后来改写页面,textarea里面的内容由用户自己修改,然后点某个href去触发js函数再去取,就不行了。

而换IE是好的。

查查了一个小时左右,才定位到innerHTML的不足。Chrome里面,这个textarea的innerHTML如果没有触发浏览器的刷新事件,那么不会更新,反复取只得上一个值。

这个刷新发生在什么时候?我估计可以是js内部修改,也可以是浏览器其他事件发生,比如submit等。

回到这个问题本身,如何让js在chrome中及时取到正确的内容,搜了一下,改成用value去取就OK了。

 

用户研究

今天翻CSDI的PPT,看到有产品经理相关的内容,其中一页列举了在对待新技术层面上的五种用户类型。

其中有 技术狂热者,他们一般是创新者,开创一些新的技术并可能产品化,但另一方面,对市场需求并不是那么敏锐,因为注意力集中在技术创新上了。

第二类是有远见者,他们一般是技术的早期采用者。

第三类是实用主义者,他们一般是新技术起来后的早期使用大众。

第四类是保守主义者,他们一般是等新技术已经广泛铺开后的后期使用大众。

最后一类是怀疑者,他们是落后于技术趋势的。

如果一个公司的核心管理层,完全处在保守主义者和怀疑者掌控之中,那么基本上,已经与创新没有多大关系了。此类型公司的策略,更多的是利用后发优势以及平台优势,在市场上陆续消灭那些根基不牢的竞争对手。

 

土地公公

80年代后期,我们那边生活开始好起来了,这完全得益于改革开放以及靠近香港。经济上升的同时,人们对社会主义信仰本来就不信的情况下,开始恢复了一些传统的活动。我们管理区,每条村,每一坊,都重修了土地庙,里面供奉着土地公和土地婆。庙很小,一般不到两米,面积大概是2mX2m吧。三面是墙,没有门,一般贴一副对联:公公十分公道,婆婆一片婆心。

有了庙,自然要供奉香火,当时是每家每户轮流供奉五天,轮到哪家就发一个木葫芦牌,每天早上就去土地票加香油、点香。

对于我们家,问题来了,我们家里都是不拜神的,我妈也是以无神论自居,我爷爷家里也是不拜神的,我外公家里也是不拜神的。我妈大概是觉得有点尴尬,我没想到她也会有拉不下面子的时候,于是她让我去土地庙去加香油点香。

那时候我哥在外读书,我爸在香港,我还在小学,我是体验主义者,而且这事情不用求人就能办妥。于是我欣欣然操作了五天。当然了,除了加香油点香之外,我还额外多拜了土地几下,祈求一下乡土安宁。

给路人看见,不免传开去,当然了,他们也不会以为有什么可笑的。不过一般来说,这样的活动都是女性家长操作的,而我一个小男生去做,也确实会有点话说。

土地公还是挺关照我,庙前那个斜坡我骑车从来没出过什么事,唯一一次上坡跟一个冒失下坡的自行车撞了,结果他车头都歪掉了,人摔出去,我人车都没事。

现在经过那里,也会念土地公的好,我希望他也念我的好吧。

学憋气

昨晚本来打算在办公室加一小会班再回家。

老婆给我发了一个信息,说CC今天第一天上游泳课,教练教在水里憋气,他没到3秒就冒出来,教练说要回家好好加练一下,要练够10秒钟,并且发视频给他确认。老婆觉得家里人都教不了,让我早点回家给CC练习一下。

于是我就回去了。

CC在院子里疯玩,于是把他叫回家。先是捏鼻子、闭嘴摒住呼吸,看看能否坚持10秒钟,嗯,没问题。然后拿个湿纸巾盖住他口鼻,看看能否10秒钟,他开始露馅了,原来是鼻子忍不住还是想动想呼吸。如是练了两次。

打了盆清水,让CC把脸埋进去试试,他话就多了,比如,你数快一点啊,我说,我用手机来计时;比如水太凉,要温水,我说不行,就是凉水;不要按脖子,我疼,我说,好,你自己深呼吸后把脸放进去。讲了一大轮,才尝试埋进去两次,最多就3秒。

然后在线英语课到了,就先上英语课。

上完英语课,我说,继续联系吧,今天练不到10秒就不要睡觉了。

CC开始说困了,正好外婆又说他中午没怎么睡,就更有理由了,反反复复跟我争,我困了想睡觉为什么不让我睡,明天早上练习好不好?对这样的逃避我一律拒绝。

最后不得不先打了,再说一句废话打一下。如是把他手都打红了。

然后我修改了训练规则,要练20次,每次时间必须比上一次长,否则不算。练到10秒钟可以录像就可以结束。

CC又问了,问什么每次要比上一次长,我说,你玩游戏也知道每次要玩一个更高分啊。再问就打。

CC只好忍着眼泪去练习了,几次就5秒、8秒、11秒,于是我叫老婆过来录像,这次表现得不错,一下就到了16秒。

于是把他解脱了。

他到床上歇了一下,就很开心的出来跟我们说他又不困了。我问他喜不喜欢爸爸,CC很认可。

知子莫若父啊。

 

经验的疆界

上次是在广州的一个培训上听老师介绍的这本书。于是在淘宝上买了一本,却没有原版的了,原版的很贵,只有复印放大的版本。


今天看完,受益匪浅。

目前印象深刻的几点,包括经验复制是否会带来成功?这个是很复杂的,一个变量少的领域内,这个复制会容易碰上相关影响最大的变量。但是变量多的,比如商业行为,就可能性大大降低了。

如何消除噪声也是一门技术。

另外就是,经验的复制,会打击创新,因为一般来说,创新的成功率不如经验复制。但是组织不考虑创新,单纯的经验复制会趋向平庸和退步。

最最重要的是,这本书告诉我一点,所有的模式、故事都是针对真实情况的主观抽象,当然有智慧在里面,但那不一定是最优的,因为真实永远是最复杂的。一个模型能把握住主要矛盾就不错了。

正文只有92页的书,强烈推荐。