Tsys OkHtm.com修改版数据采集方法

采集功能

[1]分类管理

a 添加一个频道

b 频道(点击进入栏目管理)

c 添加新栏目

[2] 项目管理

a 添加新项目

项目名称: 填写采集的项目名称,便于自己以后管理

所属频道: 请选择采集的频道

所属栏目: 请选择所属于的栏目

所属专题: 不属于任何专题

网站名称: 自己用来采集的对象网站名称

网站网址: 自己用来采集的对象的地址

网站登录: 不需要登录 设置参数

登录参数: 需要登录才能访问的请设置登录参数(不支持验证码登录)

提交地址:点击 登录 按钮后用来验证用户名、密码的文件网址,如动力3.62的

是 http://www.****.com/Admin_ChkLogin.asp。

用户(密码)参数:查看登录表单源码,找到形如下面之类的代码

用户名:<input type="text" name="UserName" value="">

密码:<input type="password" name="Password" value="">

用户参数就是--第一行的name=后面的UserName

密码参数就是--第二行的name=后面的Password

失败信息: 用户名或者密码不正确时,登录后的失败提示信息,用于判断登录是否成功的一个标志,请一定要填写,否则不能采集,比如:您输入的用户名或密码不正确,请重新输入!

项目备注:该项目的其它要记录的信息,以后每天都要采集

b 列 表 设 置

Quote 列表就像一本书的目录,目录可以有一页,也可以有很多页,列表也一样。

列表索引页面:

你要开始采集的列表页。

列表开始/结束标记:

平面上的两点确定一条直线,学过几何吧?用在这里是一样的道理,开始/结束标记可以确定你要采集的新闻,有的这里没有设置好结果采集到其它新闻去了。

比如这是某一列表页面的主要部分代码:

<table width="98%" border="0" cellspacing="0" cellpadding="3">

<tr>

<td align="left" valign="top"><br>

<a href="News.asp?id=1" target=_blank>新闻标题</a><br>

<a href="News.asp?id=2" target=_blank>新闻标题</a><br>

....省略

<a href="News.asp?id=50" target=_blank>新闻标题</a>

</td>

</tr>

</table>

    红色部分就是我们要的列表开始标记和结束标记,是不是把你想要的新闻夹在中间了?按照这样的取法可以选择好多对开始标记和结束标记,也就是说它们并不是唯一的。但是它们又是相对唯一的,这里的唯一是指,开始标记在第一条新闻以上的代码中唯一,结束标记在开始标记到结束标记之间的是唯一的。

列表索引分页:

   (1)设置标签

列表索引页的部分代码如下:

<td height="24" align="center" bgcolor="#F6f7f8"> 1 <A HREF="index_2.html">2</A> <A HREF="index_3.html">3</A> <A HREF="index_4.html">3</A><a href="index_2.html">下一页</a>

<a href="index_4.html">尾页</a> </td>

红色部分为分页开始/结束标记,只要这两个代码确定,不是不就可以确定“下一页”了?,剩下的交给程序来处理,有的填写:<A HREF="和">2</A>,这就错了,怎么错了自己想想。

   索引分页重定向:参考链接设置

(2)批量生成

   如有些列表是这种形式:

   第一页http://www.it.com.cn/news/cyxw/yejie/index_1.html

   第二页http://www.it.com.cn/news/cyxw/yejie/index_2.html

   第三页http://www.it.com.cn/news/cyxw/yejie/index_3.html

   那么可以这设置:{$ID}是必须的

   原字符串:http://www.it.com.cn/news/cyxw/yejie/index_{$ID}.html

   生成范围:1--3

   结果程序会生成:http://www.it.com.cn/news/cyxw/yejie/index_1.html

   http://www.it.com.cn/news/cyxw/yejie/index_2.html

   http://www.it.com.cn/news/cyxw/yejie/index_3.html

   这样的几个列表页面

   (3)手动添加

   输入一页网址后按回车再输入另一页,如此反复可以输入多个网址。

(3)链接设置

   链接开始/结束标记:

   这里没设置好采集过程中可能会路途停止

   部分代码

<table width="98%" border="0" cellspacing="0" cellpadding="3">

<tr>

<td align="left" valign="top"><br>

<a href="List.asp?type=IT新闻">[IT新闻]</a><a href="New.asp?id=1" target=_blank>新闻标题</a>

<a href="List.asp?type=Pc新闻">[Pc新闻]</a><a href="New.asp?id=2" target=_blank>新闻标题</a>

....省略

<a href="List.asp?type=IT新闻">[IT新闻]</a><a href="New.asp?id=50" target=_blank>新闻标题</a>

</td>

</tr>

</table>

   红色部分为链接开始/结束标记,注意:如果新闻标题的前面有栏目链接(包括其它的链接,就像上面这个有IT新闻、Pc新闻一样)的,开始标记必须往前延伸,我以前做的3.62版的录像中开始标记是href=,这个只能用于新闻标题前面没有栏目链接的情况。

   链接的重新定位:

   如果新闻的链接特殊,可使用本功能对新闻网址重新定位,比如有些代码可能是这样:

<a href="Javascript:window.open('1')" target=_blank>新闻标题</a><br>

<a href="Javascript:window.open('5')" target=_blank>新闻标题</a><br>

....省略

<a href="Javascript:window.open('50')" target=_blank>新闻标题</a>

   把开始/结束标记设置为红色部分,点击一条新闻看它的真实网页地址,比如第一条新闻的地址是这样,http://www.scuta.net/news.asp?id=1,那么绝对链接就设置为http://www.scuta.net/news.asp?id={$ID}就成了。c 列 表 截 取 测 试

d 列 表 新 闻 链 接 测 试

e 正 文 设 置

f 采 样 测 试

g 属 性 设 置

设置一些采集的选项,注意

采集选项: 立即发布 保存图片 倒序采集 外部链接 中 保存图片不要勾选.

h 点"完成".采集设置完毕

[3] 数据采集

在这里可以看到自己刚设置好的项目, 采集模式:快速模式 稳定模式 筛选模式 采集测试 正文预览这几种自己琢磨了,不多描述 .结果都差不多.

然后开始漫长的采集过程.服务器速度和网速有关系.

[4] 数据审核

数据审核中,有"全选" "部分选择" "全部" 这几种模式,点标题可以查看采集的文章(带图片) .也可以删除数据

[5] 数据导出

是把数据从采集库中导入到cms数据表中,默认的是审核完的文章才可以导出,如果导出过的话会显示"已导出"反之亦然.

数据导出时有几个选项需要注意:

有三种导出模式: 部分选择,全部选择,整个栏目导出.但是不管那种模式都要选择 ·请输出的[资源类别]方向 或者[资源特性],这些是与系统中你建立的资源分类相挂勾的,选择导出到哪个分类.

导出完毕.

资源管理-->常规资源 中可以看到你刚才采集到的文章,默认为已经审核过.

然后可以选择生成或者编辑.

时间: 2024-09-20 17:58:08

Tsys OkHtm.com修改版数据采集方法的相关文章

Android 仿美团网,大众点评购买框悬浮效果之修改版

如果快速滑动界面,显示悬浮框的时候会出现一卡的现象,有些朋友说有时候会出现两个布局的情况,特别是对ScrollView滚动的Y值得监听,我还使用了Handler来获取,还有朋友给我介绍了Scrolling Tricks这个东西,我下载试了下,确实美团网,大众点评的购买框用的是这种效果,但是Scrolling Tricks只能在API11以上使用,这个有点小悲剧,然后我做了下修改,并将实现思路分享给大家,实现起来很简单 首先还是要先对ScrollView进行滚动监听,直接在onScrollChan

Android仿美团网、大众点评购买框悬浮效果修改版

我之前写了一篇关于美团网,大众点评的购买框效果的文章Android对ScrollView滚动监听,实现美团.大众点评的购买悬浮效果,我自己感觉效果并不是很好,如果快速滑动界面,显示悬浮框的时候会出现一卡的现象,有些朋友说有时候会出现两个布局的情况,特别是对ScrollView滚动的Y值得监听,我还使用了Handler来获取,还有朋友给我介绍了Scrolling Tricks这个东西,我下载试了下,确实美团网,大众点评的购买框用的是这种效果,但是Scrolling Tricks只能在API11以上

java-关于自然语言中Trie树修改版 请大家帮我填个注释吧 尤其是treeset

问题描述 关于自然语言中Trie树修改版 请大家帮我填个注释吧 尤其是treeset package MyTrie; import java.util.TreeSet; public class MyTrieUnit implements Comparable { int ch; // 某字符的ASCII码值 int val; // 标记是否为词的最后一位,并记录词对应的编号 TreeSet<MyTrieUnit> sons; public MyTrieUnit(int v) { ch = v

产品经理回应手机QQ头像全亮:修改版将区分状态

&http://www.aliyun.com/zixun/aggregation/37954.html">nbsp;   腾讯科技讯 5月15日消息,近日,QQ全新手机版的发布引发了众多用户的吐槽,业内人士和行业媒体也纷纷关注.腾讯QQ手机版团队在官微上已经声明将在两周内出修改版,尽管已经有业内消息称修改版将区分在线离线状态,但是关于"联系人"中好友头像全亮这个设计,业内还是有不少的声音. 5月15日,腾讯QQ一名产品经理做出了如下回应: 首先得解释,2013版

Linux下APACHE&amp;PHP&amp;MYSQL&amp;CGI修改版_unix linux

根据一个自称自己经验所得的混蛋文章改的 许多文章结合起来,嘿嘿 MOD_PERL,FASTCGI那一栏我没有调试,因为不喜欢CGI.CHMOD MYSQL那一栏两次都是卡住过,如果有问题,可以来回做做实验.  Linux下apache+mysql+php^^^^^^^^(修改版)  唉,网上如此多的文章,版本居然这么多,并且多多少少存在着一些毛病,解决毛病及错误用了自己一天的时间,修改些错误的地方,最后的版本就是下面的了  apache1.3.24+php4.21+mysql3.23.49+op

《星际2》修改版在韩国也未能逃过18禁

5月7日,韩国游戏分级委员会在第35届游戏分级会议上,把<星际争霸2>RC版本(计划上市版本)定为18禁. 韩国游戏分级委员会表示,即使是修改版,其暴力性也比较强.我们发现修改版仅修改了吸烟场面及部分语言的表现,尸体分离和血痕等还是和现有版本一样. 并且,游戏分级委员会还解释到,等待画面和部分角色画面中出现的抽烟的样子,把酒吧作为大厅的背景,频繁出现主人公饮酒场面等,也是<星际争霸2>修改版被定为18禁的理由. 据游戏分级委员会相关人士称,暴雪提交的<星际争霸2>修改版

2月16日蚕豆网不推荐的Android应用:《变形金刚桌面闹钟(修改版)》

前言:如雨后春笋般杂乱滋生的Android app遍布于网络中.下载平台中.用户的手机中,目前由于监管不严.开放性过大这些应用的安全性便成了当前Android手机最大问题.通讯录被复制.私人照片丢失.信息被公开等等事件的出现,其罪魁祸首当属那些存在安全隐患.内藏恶意代码的Android手机应用.鉴于此情况, 蚕豆网联合<安全管家>定期为大家审查Android应用的安全性,尽我们最大力量来帮助用户来认清app.选择app,把最安全.最稳定的Android环境奉献给广大用户.应用名称:变形金刚桌面

Android开发仿咸鱼键盘DEMO(修改版)

在这里布局我就不贴出来了 /** * 最终被调用的修改价格dialog */ protected void editPriceDialog() { // TODO Auto-generated method stub editPriceView = View.inflate(this, R.layout.dialog_price_input_keyboard, null); priceDialog = new Dialog(this, R.style.contactdialog); priceD

ASP.NET编程入门随想之宽容(修改版)

asp.net|编程 相关文章:ASP.NET编程入门随想之宽容 古老的山谷村民生活富足,守旧老人维护着经典和秩序.一位不满现状的漂泊者却宣称外面有更好的世界在等着大家,并鼓动村民跟随前往.但守旧老人的威严和律法的神圣压制了村民的躁动,漂泊者也被处死.一天灾难降临山谷.尽管守旧老人依然试图维护经受村民的求生欲望挑战的律法.但暴动还是发生,老人们被击败,新的道路和新的生活被村民找到.怀着感恩之心,后人把以前的漂泊者奉为先知,尽管他早已尸骨无存. -- 房龙<宽容•序言> ■ 宽容 – W3C 的