God 发表于 2011-1-3 17:32:07

正文提取算法

基本是给垃圾站加上了核动力


比如下面这个,没有针对163写任何规则,自动提取网页正文,

http://www.53taobao.com/i/bd1a28a592a0c4d8bdf6fac8d32d6dfa.png

[ 本帖最后由 God 于 2011-1-3 17:35 编辑 ]

bux518 发表于 2011-1-3 17:32:41

什么东东?看似很牛X啊 、

狒狒 发表于 2011-1-3 17:33:28

cookie 发表于 2011-1-3 17:33:28

什么?

mslxd 发表于 2011-1-3 17:34:45

没看懂啊?什么意思嘛

cnshayo 发表于 2011-1-3 17:48:45

原理很简单的,呵呵,没啥特别的

挨个搞 发表于 2011-1-3 17:53:11

正则。。。

puper 发表于 2011-1-3 18:32:01

不用正则,我这里有几份算法

狒狒 发表于 2011-1-3 18:36:53

foxconndmd 发表于 2011-1-3 18:42:40

没看懂
页: [1] 2
查看完整版本: 正文提取算法