请教一个信息采集系统问题

问题描述

这两天做了一个信息采集系统,很简单就抓新浪的3个栏目,测试的时候抓了800条记录吧,查看数据库发现每个栏目都有2-3条空记录,有的是有标题,但主要内容为空,有的是连标题都为空,这中情况属于正常吗?如果不正常是不是还是正则表达式出了问题?

解决方案

解决方案二:
没人知道吗?
解决方案三:
肯定是正则表达式出问题了,怎么会有空的情况咧?楼主不防把你的正则贴出来,还有采集哪个栏目页贴出来看看
解决方案四:
//抓取正文正则表达式stringRegexContent="<divclass="moduleParagraph">[\s\S]*<divstyle="float:right;font-size:14px">";新闻网址:http://auto.sina.com.cn/news/2009-05-05/1014488719.shtml原文的内容太多,我就不贴了,大家帮忙看看谢谢。
解决方案五:
大家帮忙看看吧
解决方案六:
这个东西不了解我知道有一个采集软件,很强"火车头"

时间: 2024-10-22 20:53:50

请教一个信息采集系统问题的相关文章

c++-请教一个CCLIENTDC的问题

问题描述 请教一个CCLIENTDC的问题 一个MFC对话框程序在DLG类的头文件里面定义一个非指针的CCLIENTDC, 在函数中不能调用,错误信息要求你初始化在构造函数里,但是这个函数怎么初始化呢 如果写成 DD(THIS),在构造函数里不能这样写,通不过,如果括号里面写成0的话 又不能在本窗体中画,就不知道跑到哪里去画了. 解决方案 菜鸟请教一个愚笨的问题在这里请教一个问题请教一个关于编码的问题 解决方案二: 错误信息,是编译出错的信息吗? 定义一个 DC,需要与上下文关联后才能使用的,否

布局-请教一个在弹窗中的跳转问题

问题描述 请教一个在弹窗中的跳转问题 弹窗的布局是上下布局的,上面的是一个div,下面是一个div,在下面的div中有滚动条,显示多条数据,现在做了一个按钮浮窗,当点击相应的按钮时,滚动到相应的位置,我是用的a锚点跳转的,但是整个页面都跟着跳转,上面的div就不见了 解决方案 a标签阉割href属性 解决方案二: 有没有代码,贴出一部分看看 解决方案三: 表单1 表单2 表单3 表单4 表单5 表单6 ? ? ? ? ? 前一节点工作质量: 请选择...优秀良好中等一般 办理意见: 附件上传:

提示-真心和各位开发高手交个朋友,请教一个问题,求解!

问题描述 真心和各位开发高手交个朋友,请教一个问题,求解! 我想请教一下,怎么写一个小程序,在这个程序的主界面里面输入用户名.密码.验证码,然后程序能登录到公司一个内网的WEB系统,并能抓一部分关键信息到软件主页面,当有最新的工单更新,然后能声音提示.真心想和各位开发高手交个朋友,麻烦教我一下.

数字-请教一个很简单的关于azure的技术问题

问题描述 请教一个很简单的关于azure的技术问题 请教一个很简单的技术问题:假设在windows azure中的网站,被浏览次数在管理后台哪里可以看到?其中"请求"数字是访问次数吗? 解决方案 azure没有这样的功能,你可以在你的页面上嵌入一段脚本,让第三方网站帮你统计.百度.google都有这样的站长统计. 解决方案二: 您好, 据我所知,Azure website service中可以在monitor(监视)面板中通过添加"Metric"将"Req

oracle 连接-请教一个oracle数据库连接的问题

问题描述 请教一个oracle数据库连接的问题 本菜从来没有接触过oracle,最近需要连接oracle数据库,于是从orale官网下载了带有jdk版本的sqldeveloper : Windows 64-bit - zip file includes the JDK 7. 下载后直接运行:sqldeveloper.exe 打开了连接界面,但是连不上数据库. 请问各位大神,我是不是需要作什么配置或者还需要安装其它东西才可以使用sqldeveloper? 解决方案 起码数据库ip端口,用户名,密码

数据-请教一个 Python 爬虫信息提取问题

问题描述 请教一个 Python 爬虫信息提取问题 最近在学写爬虫,聚合程序员的招聘信息,已经聚合了几个网站数据: http://www.codejob.me 但在写智联招聘爬虫的时候,薪酬如'6001-8000' 我的python代码: s = '6001-8000' if '-' in s: m = re.match(r'(.*?)-(.*?)', s) print m.group(1) print m.group(2) 为什么m.group(1)成功得到6001,而m.group(2)得到

条码打印机-请教一个关于二维码打印机的问题

问题描述 请教一个关于二维码打印机的问题 我们现在需要买一个二维码打印机,还要在此基础上做二次开发, 主要用C#开发一个物品出入库软件 ,每一个物品在入库时都要生成二维码并打印出来贴在物品上,请问有把代码和二维码打印机联系起来的教程吗?是不是需要什么API接口或驱动之类的啊?C#有相关的接口吗?另外用C#可以通过相关信息的输入来生成二维码吗? 解决方案 如果要打印二维条码,只要打印机支持图片打印就可以了. 生成的二维码以图片格式保存,再打印不就可以了吗?

分页-请教一个JSP页面中&amp;amp;lt;script&amp;amp;gt;里嵌套JAVA语句的问题

问题描述 请教一个JSP页面中<script>里嵌套JAVA语句的问题 我想在script里嵌套JAVA语句,接收从另一个页面传来的变量,然后根据他来决定下面的一个span的显示方式 其实就是想通过JS做一个分页的上一页下一页的显示,比如在第一页的时候,上一页的链接隐藏,当只有一页的时候,上一页下一页都隐藏,最后一页的时候下一页隐藏,就是这种效果 大致的代码如下,请问该怎么改怎么,两个从request中取的值都是可以取到的,已经在下面当前页数:X / Y显示了,但是这段代码没有达到预期效果 v

请教一个排课系统的问题,代码已有。

问题描述 请教一个排课系统,有关数据库和设计已完成,但是还有不足,请高手指点,有意请加QQ361477664.//循环该班级教师信息:foreach(DataRowdtrow1inds1.Tables["jsinfo"].Rows){floatjc=Convert.ToSingle(dtrow1["jcCount"]);floatjc1=jc/6;intjc2=Convert.ToInt32(jc1);joint=joint+1;if(jc1<jc2)//如果