攻城狮
发表于 2011-9-15 00:31:38
原帖由 GoTop 于 2011-9-13 22:34 发表 http://hostloc.wiki/images/common/back.gif
(3)抓取内容
利用正文提取算法,提取正文。
这一步很难实现吧, 如何从成百上千的网页中读取出正文?
这个技术如果实现的话, 大概就可以做搜索引擎了. ...
这个是最简单的
内有大根
发表于 2011-9-15 04:26:58
小夜来说说
GoTop
发表于 2011-9-15 08:35:36
原帖由 攻城狮 于 2011-9-15 00:31 发表 http://hostloc.wiki/images/common/back.gif
这个是最简单的
真的假的? 说个思路来看看~~
我实在想不出如何在google搜索出的各个不同的网页中提取正文。
这个能实现的话真是日进斗金啊
[ 本帖最后由 GoTop 于 2011-9-15 08:43 编辑 ]
weishimi
发表于 2011-9-15 09:13:10
看起来就是浮云……
greyboy
发表于 2011-9-15 12:27:15
有那钱我去开机房了,一个最低级机房也就100w