全球主机交流论坛

 找回密码
 注册

QQ登录

只需一步,快速开始

CeraNetworks网络延迟测速工具IP归属甄别会员请立即修改密码
12
返回列表 发新帖
楼主: God

正文提取算法

[复制链接]
发表于 2011-1-3 18:47:45 | 显示全部楼层
这种即使有小偷了,也流量不大吧,不懂得基本都是sina啊,搜狐啊、网易的,懂得吗,基本不去搜索这个新闻,不是吗?
发表于 2011-1-3 18:51:00 | 显示全部楼层
原帖由 puper 于 2011-1-3 18:32 发表
不用正则,我这里有几份算法


字符处理,应该还是正则最强大吧
非专业人员。。。
发表于 2011-1-3 19:02:30 | 显示全部楼层
这个有什么?简单的正则啊~
发表于 2011-1-3 19:04:02 | 显示全部楼层
很多正规的门户站,比如163,sina,正文部分一般都会用<p>标签分段的,把聚团的<p>节点的父节点提出来应该就是正文,然后从上面查找h1,h2什么的就是标题了。。。
发表于 2011-1-3 19:28:04 | 显示全部楼层
google一搜一大堆
http://scholar.google.com.hk/sch ... s=1&oi=scholart

大多没有实用价值,不如正则好用
您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|全球主机交流论坛

GMT+8, 2025-5-7 03:31 , Processed in 0.061183 second(s), 7 queries , Gzip On, MemCache On.

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表