Notepad++里面的正则 | 瑰珀 & 休生伤杜

其实用起来还好，唯一需要注意的是对GB*编码的支持不力，最好转成UTF-8再进行操作。

跟以前整理的UE里面的正则是类似的。

学到一些新的技能，因为在文本分词统计中发现一些名词出来的数量太少，于是找了找原文，发现原文里面既有简体也有繁体，另外还有错字别字。哪吒写成那吒之类。于是数据统计出来便失真了。

但不细看原文很难知道它哪里写错了，于是要用正则来检索。

比如我搜“八臂哪吒”要比“八臂”要少很多，但是后者肯定不是一个常用的词语，如果不在原文中查找具体位置中出现的问题，就要这么搜：“八臂(?!哪吒)”

这样就很快定位出不一样的八臂所在。