周明博士是NLP领域的老人,报告主要是历史、当前深度学习介入NLP的不足,未来的形态。
全文可见:https://www.toutiao.com/i6713385632942522891/
继续阅读之前所说的,就是用NLP的方式提取了角色名称的文本及位置。
我想用聚类来分析,然后这是一维的数据,发现聚类还真是略有尴尬。
不过不要紧,算法就是各种用途都可以。
聚类之后,得出中心点,聚类范围,聚类点数,这就是这个一维空间上角色的影响范围了。
得到一个角色的影响范围,再得到另一个角色的影响范围,我就可以再设计一个公式去计算这两个角色的亲密度/相关度。
这个数据有什么作用?至少能帮助编剧或者演员演不到主角的时候选一个合适的配角以保障出场率吧。
这个JSPHP NLP工作流的标题有点拗口,但目前仍难以作为独立服务发布,后面再取一个好听的名字吧。
高大上一点就是,我考虑的是如何利用有限的web空间/运算资源,实现规模略大的运算。
我去年买了这个无限量存储的PHP web hosting,放弃了用了好几年的VPS。原因是VPS被攻击风险越来越大,用于VPN效果又不好,而多放几个网站存储上就有点累了。
但是纯粹的host缺点也是很明显的,我不能再在PHP下面自由添加一些扩展库了,更多的时候,只能使用纯粹的PHP进行运算。另外,单个PHP页面运算资源也是有限的,超时、内存限制等都不能自由修改。
不过是缺点也是挑战,于是当我考虑用这个host来进行一些NLP运算和统计工作的时候,我不得不考虑将运算过程进一步分解成若干个独立的小任务,这些小任务运算时间和资源都有一定限制。将这些小任务串联起来的工作,就落在前端的javascript上。
问题来了,为什么不在javascript上完成一切?