问题描述
这两天做了一个信息采集系统,很简单就抓新浪的3个栏目,测试的时候抓了800条记录吧,查看数据库发现每个栏目都有2-3条空记录,有的是有标题,但主要内容为空,有的是连标题都为空,这中情况属于正常吗?如果不正常是不是还是正则表达式出了问题?
解决方案
解决方案二:
没人知道吗?
解决方案三:
肯定是正则表达式出问题了,怎么会有空的情况咧?楼主不防把你的正则贴出来,还有采集哪个栏目页贴出来看看
解决方案四:
//抓取正文正则表达式stringRegexContent="<divclass="moduleParagraph">[\s\S]*<divstyle="float:right;font-size:14px">";新闻网址:http://auto.sina.com.cn/news/2009-05-05/1014488719.shtml原文的内容太多,我就不贴了,大家帮忙看看谢谢。
解决方案五:
大家帮忙看看吧
解决方案六:
这个东西不了解我知道有一个采集软件,很强"火车头"
时间: 2024-10-22 20:53:50