月度归档:2017年07月

JSPHP NLP工作流

这个JSPHP NLP工作流的标题有点拗口,但目前仍难以作为独立服务发布,后面再取一个好听的名字吧。

高大上一点就是,我考虑的是如何利用有限的web空间/运算资源,实现规模略大的运算

我去年买了这个无限量存储的PHP web hosting,放弃了用了好几年的VPS。原因是VPS被攻击风险越来越大,用于VPN效果又不好,而多放几个网站存储上就有点累了。

但是纯粹的host缺点也是很明显的,我不能再在PHP下面自由添加一些扩展库了,更多的时候,只能使用纯粹的PHP进行运算。另外,单个PHP页面运算资源也是有限的,超时、内存限制等都不能自由修改。

不过是缺点也是挑战,于是当我考虑用这个host来进行一些NLP运算和统计工作的时候,我不得不考虑将运算过程进一步分解成若干个独立的小任务,这些小任务运算时间和资源都有一定限制。将这些小任务串联起来的工作,就落在前端的javascript上。

问题来了,为什么不在javascript上完成一切?

继续阅读

Notepad++里面的正则

其实用起来还好,唯一需要注意的是对GB*编码的支持不力,最好转成UTF-8再进行操作。

跟以前整理的UE里面的正则是类似的。

学到一些新的技能,因为在文本分词统计中发现一些名词出来的数量太少,于是找了找原文,发现原文里面既有简体也有繁体,另外还有错字别字。哪吒写成那吒之类。于是数据统计出来便失真了。

但不细看原文很难知道它哪里写错了,于是要用正则来检索。

比如我搜“八臂哪吒”要比“八臂”要少很多,但是后者肯定不是一个常用的词语,如果不在原文中查找具体位置中出现的问题,就要这么搜:“八臂(?!哪吒)”

这样就很快定位出不一样的八臂所在。

innerHTML和value

写了一个textarea,用js去提取内容。

开始的demo里面是用getElementById().innerHTML去拿,发现是OK的,后来改写页面,textarea里面的内容由用户自己修改,然后点某个href去触发js函数再去取,就不行了。

而换IE是好的。

查查了一个小时左右,才定位到innerHTML的不足。Chrome里面,这个textarea的innerHTML如果没有触发浏览器的刷新事件,那么不会更新,反复取只得上一个值。

这个刷新发生在什么时候?我估计可以是js内部修改,也可以是浏览器其他事件发生,比如submit等。

回到这个问题本身,如何让js在chrome中及时取到正确的内容,搜了一下,改成用value去取就OK了。

 

用户研究

今天翻CSDI的PPT,看到有产品经理相关的内容,其中一页列举了在对待新技术层面上的五种用户类型。

其中有 技术狂热者,他们一般是创新者,开创一些新的技术并可能产品化,但另一方面,对市场需求并不是那么敏锐,因为注意力集中在技术创新上了。

第二类是有远见者,他们一般是技术的早期采用者。

第三类是实用主义者,他们一般是新技术起来后的早期使用大众。

第四类是保守主义者,他们一般是等新技术已经广泛铺开后的后期使用大众。

最后一类是怀疑者,他们是落后于技术趋势的。

如果一个公司的核心管理层,完全处在保守主义者和怀疑者掌控之中,那么基本上,已经与创新没有多大关系了。此类型公司的策略,更多的是利用后发优势以及平台优势,在市场上陆续消灭那些根基不牢的竞争对手。

 

土地公公

80年代后期,我们那边生活开始好起来了,这完全得益于改革开放以及靠近香港。经济上升的同时,人们对社会主义信仰本来就不信的情况下,开始恢复了一些传统的活动。我们管理区,每条村,每一坊,都重修了土地庙,里面供奉着土地公和土地婆。庙很小,一般不到两米,面积大概是2mX2m吧。三面是墙,没有门,一般贴一副对联:公公十分公道,婆婆一片婆心。

有了庙,自然要供奉香火,当时是每家每户轮流供奉五天,轮到哪家就发一个木葫芦牌,每天早上就去土地票加香油、点香。

对于我们家,问题来了,我们家里都是不拜神的,我妈也是以无神论自居,我爷爷家里也是不拜神的,我外公家里也是不拜神的。我妈大概是觉得有点尴尬,我没想到她也会有拉不下面子的时候,于是她让我去土地庙去加香油点香。

那时候我哥在外读书,我爸在香港,我还在小学,我是体验主义者,而且这事情不用求人就能办妥。于是我欣欣然操作了五天。当然了,除了加香油点香之外,我还额外多拜了土地几下,祈求一下乡土安宁。

给路人看见,不免传开去,当然了,他们也不会以为有什么可笑的。不过一般来说,这样的活动都是女性家长操作的,而我一个小男生去做,也确实会有点话说。

土地公还是挺关照我,庙前那个斜坡我骑车从来没出过什么事,唯一一次上坡跟一个冒失下坡的自行车撞了,结果他车头都歪掉了,人摔出去,我人车都没事。

现在经过那里,也会念土地公的好,我希望他也念我的好吧。

学憋气

昨晚本来打算在办公室加一小会班再回家。

老婆给我发了一个信息,说CC今天第一天上游泳课,教练教在水里憋气,他没到3秒就冒出来,教练说要回家好好加练一下,要练够10秒钟,并且发视频给他确认。老婆觉得家里人都教不了,让我早点回家给CC练习一下。

于是我就回去了。

CC在院子里疯玩,于是把他叫回家。先是捏鼻子、闭嘴摒住呼吸,看看能否坚持10秒钟,嗯,没问题。然后拿个湿纸巾盖住他口鼻,看看能否10秒钟,他开始露馅了,原来是鼻子忍不住还是想动想呼吸。如是练了两次。

打了盆清水,让CC把脸埋进去试试,他话就多了,比如,你数快一点啊,我说,我用手机来计时;比如水太凉,要温水,我说不行,就是凉水;不要按脖子,我疼,我说,好,你自己深呼吸后把脸放进去。讲了一大轮,才尝试埋进去两次,最多就3秒。

然后在线英语课到了,就先上英语课。

上完英语课,我说,继续联系吧,今天练不到10秒就不要睡觉了。

CC开始说困了,正好外婆又说他中午没怎么睡,就更有理由了,反反复复跟我争,我困了想睡觉为什么不让我睡,明天早上练习好不好?对这样的逃避我一律拒绝。

最后不得不先打了,再说一句废话打一下。如是把他手都打红了。

然后我修改了训练规则,要练20次,每次时间必须比上一次长,否则不算。练到10秒钟可以录像就可以结束。

CC又问了,问什么每次要比上一次长,我说,你玩游戏也知道每次要玩一个更高分啊。再问就打。

CC只好忍着眼泪去练习了,几次就5秒、8秒、11秒,于是我叫老婆过来录像,这次表现得不错,一下就到了16秒。

于是把他解脱了。

他到床上歇了一下,就很开心的出来跟我们说他又不困了。我问他喜不喜欢爸爸,CC很认可。

知子莫若父啊。

 

经验的疆界

上次是在广州的一个培训上听老师介绍的这本书。于是在淘宝上买了一本,却没有原版的了,原版的很贵,只有复印放大的版本。


今天看完,受益匪浅。

目前印象深刻的几点,包括经验复制是否会带来成功?这个是很复杂的,一个变量少的领域内,这个复制会容易碰上相关影响最大的变量。但是变量多的,比如商业行为,就可能性大大降低了。

如何消除噪声也是一门技术。

另外就是,经验的复制,会打击创新,因为一般来说,创新的成功率不如经验复制。但是组织不考虑创新,单纯的经验复制会趋向平庸和退步。

最最重要的是,这本书告诉我一点,所有的模式、故事都是针对真实情况的主观抽象,当然有智慧在里面,但那不一定是最优的,因为真实永远是最复杂的。一个模型能把握住主要矛盾就不错了。

正文只有92页的书,强烈推荐。