抓取某一个网站整站的记录

      经常由于某些原因我们需要爬取某一个网站或者直接复制某一个站点,到网上找了很多工具进行测试,试了很多各有各的问题,最终选择了Teleport Ultra,用起来效果很好;具体的操作手册等东西就不在这里说了,网上搜索一下有很多,这里主要说遇到的问题:

软件下载地址:http://download.csdn.net/detail/ityouknow/9506423

工具截图:

测试抓取的网站为简单心理:www.jiandanxinli.com

抓取后的效果图

 

一般我会选择复制100级基本上也就把网站的东西全部copy下来了,但是因为Teleport Ultra 是以UTF-8的编码进行的抓取如果文件中有中文字符,或者gbk编码的文件就会出现乱码如下图:

 

当然手动在浏览器选择UTF-8也可以,但是咱不能每次打开都这样干吧。于是到网站找到一款软件叫:TelePort乱码修复工具(siteRepair-v2.0),经过测试可以解决乱码的问题,这款工具也会清除一些无效的链接和html符号等。

软件下载地址:http://download.csdn.net/detail/ityouknow/9506429

软件截图:

 

绝大数网站再经过这两个步骤应该都已经OK了,但是有的网站的层级结构中用到了中文目录或者中文的文件名就会出现乱码,类似下面的URL地址:

http://www.xxxx.com/.com/question/除了加锁,还有什么方法解决资源竞争的问题?/解决方案.html

这样网站的结构抓取下来就会出现两种乱码:1)文件夹名乱码 2)文件名乱码

遇到这个问题siteRepair-v2.0工具就会报错,我估计是不能识别乱码的文件夹或者文件吧。

 

后来在网上找了一个PHP的程序,进行了简单的修改测试可以解决这个问题

PHP代码:convert.php

<?php
function listDir($dir)
{
    if(is_dir($dir))
    {
        if ($dh = opendir($dir))
        {
            while (($file = readdir($dh)) !== false)
            {
                if((is_dir($dir."/".$file)) && $file!="." && $file!="..")
                {
                    rename($dir."/".$file,$dir."/".mb_convert_encoding($file,"GBK", "UTF-8"));
                    listDir($dir."/".$file."/");
                }
                else
                {
                    if($file!="." && $file!="..")
                    {
                         $name=rename($dir."/".$file,$dir."/".str_replace('\\','',mb_convert_encoding($file,"GBK", "UTF-8")));
                         echo '路径:'.$dir."/".$file.'<br />';
                         echo '结果: '.str_replace('\\','',mb_convert_encoding($file,"GBK", "UTF-8")).'<br />';
                    }
                }
            }
            closedir($dh);
        }
    }
}
?>
<?php
//开始运行
listDir("./convert");

?>

 

在代码的同级目录下,新建 convert文件夹,把乱码的文件放入这个目录,然后执行convert.php即可。

时间: 2024-09-26 08:49:20

抓取某一个网站整站的记录的相关文章

网站整站下载器怎么用?整站下载器使用教程

  网站整站下载器怎么用?下文将讲解整站下载器使用教程,通过整站下载器我们可以离线浏览某个网页,并且可以从Internet的任何地方抓取你想要的文件,很实用哦~ 第一步.打开"网站整站下载器",主界面如下: 开发视频教程"> 第二步.点击菜单"项目"-"添加开始网址",会弹出输入要下载网站的配置界面; 第三步.在网址对话框里输入你要下载网站的网址,"搜索页面最多到",可以填写大的数字,比如10,这样工具爬得页面

IBM面试题,用JAVA抓取下整个网站

问题描述 作业要求:1.给定一个网站的URL,抓取下整个网站,包括网页.图片等等.2.对该网站的所有对象进行一个统计,比如链接.图片.按钮等等分别有多少. 解决方案 解决方案二:同问!!!是不是要解析该网站下的源代码哦?解决方案三:这题给的不着调啊.加入我有两个页面,分别是http://xxxxx/a和http://xxxxx/b,这两个页面没有相互引用.这算一个网站的吧?你怎么从a知道b呢?出题的弱智吧,限制条件都说不清楚解决方案四:1.给定一个网站的URL,抓取下整个网站,包括网页.图片等等

整站下载 动态页面-无法将含有动态页面的网站整站下载

问题描述 无法将含有动态页面的网站整站下载 各位亲,我需要将一个有动态页面的网站完整下载,老板需要对下载后的网页进行页面元素的修改,但是我用teleport ultra,webzip都不能下载比如'我的购物车','FAQ'等动态页面,或者我分别下载后无法链接,还有下拉菜单也不能显示链接,所以我该怎么办?是软件使用上有误还是要用其他软件??真心向各位大侠求解!!急急急!! 解决方案 teleport 等软件下载下来的页面也仅仅是用于查看的级别,要是用于程序上的修改,他的能力有些弱了,可以说是达不到

较大网站整站打包备份方法

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 较大网站整站打包备份方法--wdcp教程 我的网站不含数据库,容量早已超过百G以上.试了很多次wdcp后台的网站备份都因为太大而超时.假死而无功而返.于是想到了用ssh直接进行打包压缩,无奈ssh打包压缩的漫长等待让人真不敢走开,生怕网络突然中断而前功尽弃.晚上在网上瞎转突然看到了一条screen命令不禁让人喜出望外,立马登陆ssh一试身手果

如何截流快速提升网站整站权重

中介交易 SEO诊断 淘宝客 云主机 技术大厅 如何截流快速提升网站整站权重,在2012-6-2 14:00:16,A5论坛上发表的帖子么?这篇帖子说的是,21天百度BR6,然后带上截图,seopassword如何能够在21天做到百度br6,通过查看seo综合数据百度只收录首页,而google收录2K左右,为此笔者解说seopassword是如何做好21天,百度br6. 上面两个图片可以看出来百度是很喜欢收录百度风云榜上面的实时热点的关键词的,因为那些新闻比较新受到了很多人的关注,那么我们可以用

数据抓取的一个类,包含一些常用的方法

原文:数据抓取的一个类,包含一些常用的方法 using System;using System.Configuration;using System.IO;using System.Net;using System.Text;using System.Text.RegularExpressions; namespace XXX{    /// <summary>    /// Func 的摘要说明.    /// </summary>    public class Func   

php抓取并保存网站图片的实现代码_php技巧

此程序实现了网页源代码捕获,图片链接获取.分析.并将同样的图片链接合并功能,实现了图片抓取功能.利用php强大的网络内容处理函数将指定的网站上的所有图片抓取下来,保存在当前目录下,以下为代码: <?php /*完成网页内容捕获功能*/ function get_img_url($site_name){ $site_fd = fopen($site_name, "r"); $site_content = ""; while (!feof($site_fd)) {

合肥seo:网站整站改版需注意的几个问题

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 博客权重这段时间一直没恢复,一方面服务器不稳定,二来没太多心思花在上面.距降权有10天左右的时间了,本来准备等博客权重恢复了才来改版,但毕竟这个博客只是试验品,趁着降权来测试下改版对网站权重的影响大不大,以毒攻毒未免不失为一个"良策"(呵呵,网站正常的朋友,一心想要排名的朋友可千万别学我).顺便总结下整站改版需要注意的事项

让搜索引擎的蜘蛛更好的抓取我们的网站

搜索引擎的蜘蛛是靠爬行来抓取互联网上的信息,也就是说要想被百度或是谷歌等搜索引擎收录,一般情况下是要有链接存在,让搜索引擎的蜘蛛程序顺着链接爬到网站里,蜘蛛来过了,才能有效的抓取.给了让搜索引擎更好的抓取网站内容,我们通常要做的事情是: 第一,先准备好要被抓取的网页("食物") 站长通常都会说"喂饱蜘蛛",指的就是更新网站的内容,让小蜘蛛来了之后有"东西吃",可以抓取到网页信息,而不是让它空手而归.搜索引擎的蜘蛛喜欢原创内容,所以我们为了提高网站