God
发表于 2011-1-3 17:32:07
正文提取算法
基本是给垃圾站加上了核动力
比如下面这个,没有针对163写任何规则,自动提取网页正文,
http://www.53taobao.com/i/bd1a28a592a0c4d8bdf6fac8d32d6dfa.png
[ 本帖最后由 God 于 2011-1-3 17:35 编辑 ]
bux518
发表于 2011-1-3 17:32:41
什么东东?看似很牛X啊 、
狒狒
发表于 2011-1-3 17:33:28
cookie
发表于 2011-1-3 17:33:28
什么?
mslxd
发表于 2011-1-3 17:34:45
没看懂啊?什么意思嘛
cnshayo
发表于 2011-1-3 17:48:45
原理很简单的,呵呵,没啥特别的
挨个搞
发表于 2011-1-3 17:53:11
正则。。。
puper
发表于 2011-1-3 18:32:01
不用正则,我这里有几份算法
狒狒
发表于 2011-1-3 18:36:53
foxconndmd
发表于 2011-1-3 18:42:40
没看懂