其实用起来还好,唯一需要注意的是对GB*编码的支持不力,最好转成UTF-8再进行操作。
跟以前整理的UE里面的正则是类似的。
学到一些新的技能,因为在文本分词统计中发现一些名词出来的数量太少,于是找了找原文,发现原文里面既有简体也有繁体,另外还有错字别字。哪吒写成那吒之类。于是数据统计出来便失真了。
但不细看原文很难知道它哪里写错了,于是要用正则来检索。
比如我搜“八臂哪吒”要比“八臂”要少很多,但是后者肯定不是一个常用的词语,如果不在原文中查找具体位置中出现的问题,就要这么搜:“八臂(?!哪吒)”
这样就很快定位出不一样的八臂所在。