ineme 发表于 2011-1-3 18:47:45

这种即使有小偷了,也流量不大吧,不懂得基本都是sina啊,搜狐啊、网易的,懂得吗,基本不去搜索这个新闻,不是吗?

挨个搞 发表于 2011-1-3 18:51:00

原帖由 puper 于 2011-1-3 18:32 发表 http://hostloc.wiki/images/common/back.gif
不用正则,我这里有几份算法

字符处理,应该还是正则最强大吧
非专业人员。。。yc011t

lvhuan 发表于 2011-1-3 19:02:30

这个有什么?简单的正则啊~

greensnow 发表于 2011-1-3 19:04:02

很多正规的门户站,比如163,sina,正文部分一般都会用<p>标签分段的,把聚团的<p>节点的父节点提出来应该就是正文,然后从上面查找h1,h2什么的就是标题了。。。

fish 发表于 2011-1-3 19:28:04

google一搜一大堆
http://scholar.google.com.hk/scholar?q=%E6%AD%A3%E6%96%87%E6%8F%90%E5%8F%96%E7%AE%97%E6%B3%95&hl=zh-CN&as_sdt=0&as_vis=1&oi=scholart

大多没有实用价值,不如正则好用
页: 1 [2]
查看完整版本: 正文提取算法