一套内容采集系统 解放编辑人员

内容采集系统,对于以内容为主的网站来说是非常好的助手,除了原创内容外,其它内容需要编辑人员或者采集系统来收集整理,然后添加到自己的网站里。Discuz DvBBS CMS等产品,内部都自带了一个内容采集功能,来采集指定的相关内容。 单客户端的火车头采集器也可以非常好的采集指定的内容。这些工具都是想让机器代替人工,把编辑人员从内容搬运的工作中解放出来,做一些更高端的工作,例如采集结果的内容微调,SEO优化,设定精确的采集规则,让采集的内容更加符合自己网站的需要。

下面的内容采集系统就是从这个想法开发而来的,这个采集系统由两个部分组成:
1.  编辑人员所使用的采集规则设定器和对采集结果进行审核、微调和发布所使用的Web站点。
2.  部署在服务器上的定时采集器和定时发送器。

首先由编辑人员通过一个采集规则设定器(NiceCollectoer.exe)设定要采集的站点,再等采集完成后,编辑人员再通过一个Web站点(PickWeb)对采集的结果进行审核、微调和优化然后发布到自己的网站上。编辑人员所需要做的是采集规则的设定,和对采集结果的优化,其它部分的工作都由机器完成。

NicePicker 是Html 分析器,用来抽取Url,NiceCollector 和HostCollector 都使用NicePicker来分析Html, NiceCollectoer 就是采集规则设定器,一个目标网站只用设定一次:
 

使用起来和最早的火车头采集器类似,这里使用博客园来做目标采集站点, 设定采集精华区的文章,采集规则非常简单:当编辑人员设定好采集规则后,这些规则会保存到NiceCollector.exe同目录下的 Setting.mdb中。一般当采集规则设定好以后,基本上不用再变动了,只在目标网站的Html Dom结构发生变化时,需要再次微调一下采集规则。NiceCollector同时用于新目标采集站点的设定和添加操作。
等编辑人员完成采集规则的设定后,把Setting.mdb放到 HostCollector.exe下, HostCollector 会根据Setting.mdb的设定进行真正的采集,并把采集的结果存入数据库。

到这一步就完成了内容的采集工作,编辑人员可以打开PickWeb,对采集结果进行微调和优化,然后审核通过并发送到自己的网站上:


真正发送采集结果到自己网站的工作不是由PickWeb完成的,编辑人员完成内容审核后,PostToForum.exe 会读取数据库并发送这条通过审核的采集结果到自己的网站上,在自己的网站上当然需要一个. ashx或者某种其它方式来接收采集的结果,不建议PostToFormu.exe直接去操作自己网站的数据库,最好通过自己网站上的某个API,来接收采集结果。

NiceCollectoer, HostCollector, PickWeb, PostToForum, 这几个程序联合工作,基本上已经完成了采集和发送的工作,HostCollector, PickWeb, PostToForum 是部署在服务器上的,HostCollector需要被周期性的调用,来采集目标网站所产生的新内容,HostRunnerService.exe 是一个Windows Service,用来周期性调用HostCollector,使用管理员身份在控制台下运行 installutil / i HostRunnerService.exe 就可以安装这个Windows Service了:

HostRunnerService 的配置也很简单:

在RunTime.txt 中设定每天定时采集几次:

当新内容被采集后,编辑人员需要定期的登录PickWeb,来优化、微调、并审核新内容,也可以设定默认审核通过。同样PostToForum 也需要被周期性的调用,用来发送审核通过的新内容,CallSenderService.exe 与 HostRunnerService.exe类似,也是一个Windows Service,用来定期的调用PostToFormu.exe。

到这里整个系统基本上完成了,除此之外还有两个小东东: SelfChecker.exe 和HealthChecker.exe。 SelfCheck.exe 是用来检查Setting.mdb中设定的规则是否是一个有效的规则,例如检查采集规则是否设定了内容采集项。HealthChecker.exe用来收集HostCollector.exe 和 PostToForum.exe 所产生的log,然后将log发送给指定的系统维护人员。

这个内容采集系统还有很多地方需要改进和优化,现在的状态只能说是个Prototype吧,例如 NicePick 需要进一步抽象和重构,给出更多的Interface,把分析Html的各个环节插件化,在各个分析步骤上,可以让用户加载自己的分析器。 在NiceCollector上,需要更多更全面的采集规则设定。在PickWeb上可以加入一些默认的SEO优化规则,如批量SEO优化Title的内容,等其它方面吧。

可执行文件下载:

08_453455_if8l_NROutput.rar(链接已更新)

源代码下载:

08_234324_if8l_NiceCollector.rar (链接已更新)

 

时间: 2024-09-23 01:27:03

一套内容采集系统 解放编辑人员的相关文章

网站编辑人员谈SEO 让站内编辑不再是难题

面对互联网技术的飞速发展,日异月新,不同类型的网站成出不穷,编辑人员日复一日的从复每一天的工作,常常会感到站内无内容可编辑,无内容可扩展,常规软件采集下来的文章略微加工一下,搜索引擎不买账.上海小编為大家分享"四化一体"观念,编辑站内文章扩展秘诀,让站内编辑不再是难题. 常规编辑方法 作为seo优化人员来说,seo知识只能作为指导,要想把SEO做好关键是多积累经验,从实践中总结SEO规律.对于网站编辑来说,是SEO最基础的工作,这恰恰也是SEO最重要部分之一.许多站内编辑的朋友在编辑网

浅谈如何做好网站内容规划与编辑

网站是一个平台,一种媒体,以传递信息和为用户提供有价值的内容为主要目的,也是应为这个原因有不少的搜索引擎优化者一直认同者这个词--"内容为王".对于seo来说,在网站上线之后,内容的规划.编辑与更新是一个长期艰巨的任务,尤其是原创内容,网站发展的基本道路.那么如何把这项艰巨的任务做到合理安排呢? 首先内容的多少我们应该怎么去评判: 有不少人会问这样一个问题我的网站在初期建设的时候到底要准备多少内容呢?什么样的内容才符合我当前网站的主题呢?由于没有一个简单明了的公式来说明这个问题,那么我

软件站编辑人员必备工具集 文字编辑工具

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 每个编辑人员遇到最多的就是文字了,我们一般是从别的网站上面看到好的文章,然后就会稍作修改转到自己的网站,这是一种常见的方法了,但别人的网站很多都有加链接,或是字体加粗或加上一些色彩,这时我必须要把这些不必要的东西给去除,很多人也许现在还是使用的是记事本的方法吧,这却实是一个最简单的方法,但处理出来的效果并不尽如人意,如中间会有很多的空行呀,有

怎样才算是名合格的网络SEO编辑人员

摘要: 随着互联网的发展,网站用户对网站产品信息的需求,网络编辑人员也随之衍生,经常在论坛看到网络编辑人员的招聘,帖子中对编辑人员的要求并不高,可是实际上做为一名网络编辑 随着互联网的发展,网站用户对网站产品信息的需求,网络编辑人员也随之衍生,经常在论坛看到网络编辑人员的招聘,帖子中对编辑人员的要求并不高,可是实际上做为一名网络编辑人员,应该要具备很高的网络编辑素质,并不是只要会ctrl+c.ctrl+v就可以的,笔者给大家说说怎样才算是名合格的网络SEO编辑人员. 编辑要能适当的做标题党 网站

浅谈网站编辑人员的日常工作

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 网站编辑按等级分为网络编辑员.助理网络编辑师.网络编辑师.高级网络编辑师;按照工作性质分为美工编辑.技术编辑.内容编辑,不管按照哪种性质进行分类,笔者认为编辑的工作就是整合用户提供的内容,然后经过精细加工再反馈给用户,有点取之于民,用之于民的味道.那么网站编辑具体都有哪些日常工作呢?下面跟随笔者的键盘为您一一展示. 文章源的收集整合 对于文章

国务院参事室官方网站面向社会招聘网站编辑人员2名

因工作需要,国务院参事室官方网站面向社会公开招聘网站编辑人员2名.现就具体招聘信息公布如下: 一.岗位职责和招聘条件 (一)岗位职责 1.负责网站新闻采编.内容编辑.更新与管理: 2.负责摄影.摄像: 3.负责领导交办的其他工作. (二)招聘条件 1.新闻或计算机相关专业,硕士及以上学历: 2.具有较丰富的新闻采编工作经验和良好的文字驾驭能力,能独立组稿: 3.熟练掌握网站编辑业务和计算机操作,能独立制作.更新网页: 4.具有一定摄影.摄像基础,熟练掌握视频.图片编辑软件. 5.同等条件下,北京

vc++-VC++中如何实现office中通过文件菜单打开命令,在试图中显示文本内容并且可以编辑?

问题描述 VC++中如何实现office中通过文件菜单打开命令,在试图中显示文本内容并且可以编辑? VC++中如何实现office中通过文件菜单打开命令,在试图中显示文本内容并且可以编辑通过CDC的文本输出函数在视图上显示的文本不能编辑 解决方案 你的意思是你希望做一个类似文本编辑器的程序吧,你不能用手动绘图的方式去实现,MFC好像有类似的功能提供.你用多文档模式或者单文档模式,视图类继承CEditView就自动可以编辑了. 希望能够帮到你. 解决方案二: 是不是自己做一个mfc单文档程序,然后

汽车之家的网站内容既有编辑原创,也有用户自制的评论

北京时间11月5日上午消息,中国汽车资讯网站汽车之家今天向美国证券交易委员会(SEC)提交上市申请,计划赴美IPO(首次公开招股),最多融资1.2亿美元. 汽车之家计划登陆纽交所,股票交易代码为"ATHM".德意志银行和 高盛 将担任本次IPO的承销商.汽车之家计划将上市收益用于技术和产品研发,以及市场营销活动. 上市申请文件显示,在截至今年9月30日的前9个月,汽车之家营收为人民币8.306亿元(约合1.088亿美元),比去年同期的人民币5.108亿元增长63%:净利润为人民币3.3

传联众游戏年底裁员达50%主要针对编辑人员

计世网24日消息(赵妍):据业内知情人士透露,联众游戏年底裁员达50%,公司只给了被裁员工少量遣散费,具体标准不详. 昨天,有消息报道联众对旗下游戏网站游戏NPC进行裁撤,目前仅保持5人左右的规模,维持最小化运营. 此次裁员约50%左右,主要是针对编辑人员.原因为该项目发展路线不明确,导致盈利未果.游戏NPC网站的人数一度超过30人. 据悉此次NPC所裁人员都获得了部分遣散费,但是与业内同等水平相似乎少了很多.