攻城狮 发表于 2011-9-15 00:31:38

原帖由 GoTop 于 2011-9-13 22:34 发表 http://hostloc.wiki/images/common/back.gif
(3)抓取内容
利用正文提取算法,提取正文。

这一步很难实现吧, 如何从成百上千的网页中读取出正文?

这个技术如果实现的话, 大概就可以做搜索引擎了. ...
这个是最简单的

内有大根 发表于 2011-9-15 04:26:58

小夜来说说

GoTop 发表于 2011-9-15 08:35:36

原帖由 攻城狮 于 2011-9-15 00:31 发表 http://hostloc.wiki/images/common/back.gif

这个是最简单的

真的假的? 说个思路来看看~~

我实在想不出如何在google搜索出的各个不同的网页中提取正文。

这个能实现的话真是日进斗金啊

[ 本帖最后由 GoTop 于 2011-9-15 08:43 编辑 ]

weishimi 发表于 2011-9-15 09:13:10

看起来就是浮云……

greyboy 发表于 2011-9-15 12:27:15

有那钱我去开机房了,一个最低级机房也就100w
页: 1 2 3 4 5 [6]
查看完整版本: 站群建设方案猜想 Ver 0.1