不用正则,我这里有几份算法
字符处理,应该还是正则最强大吧
非专业人员。。。yc011t 这个有什么?简单的正则啊~ 很多正规的门户站,比如163,sina,正文部分一般都会用<p>标签分段的,把聚团的<p>节点的父节点提出来应该就是正文,然后从上面查找h1,h2什么的就是标题了。。。 google一搜一大堆
http://scholar.google.com.hk/scholar?q=%E6%AD%A3%E6%96%87%E6%8F%90%E5%8F%96%E7%AE%97%E6%B3%95&hl=zh-CN&as_sdt=0&as_vis=1&oi=scholart
大多没有实用价值,不如正则好用
页:
1
[2]