问题描述
作业要求:1.给定一个网站的URL,抓取下整个网站,包括网页、图片等等。2.对该网站的所有对象进行一个统计,比如链接、图片、按钮等等分别有多少。
解决方案
解决方案二:
同问!!!是不是要解析该网站下的源代码哦?
解决方案三:
这题给的不着调啊。加入我有两个页面,分别是http://xxxxx/a和http://xxxxx/b,这两个页面没有相互引用。这算一个网站的吧?你怎么从a知道b呢?出题的弱智吧,限制条件都说不清楚
解决方案四:
1.给定一个网站的URL,抓取下整个网站,包括网页、图片等等。2.对该网站的所有对象进行一个统计,比如链接、图片、按钮等等分别有多少。分析网页的所有标签,内容、标题、图片、按钮等等。大家帮忙用JAVA编写一下,小弟在线等待,感激不尽。
解决方案五:
我上次提交的importjava.io.BufferedReader;importjava.io.IOException;importjava.io.InputStreamReader;importjava.net.MalformedURLException;importjava.net.URL;importjava.net.URLConnection;publicclassUrlContent{publicstaticStringgetHtmlSource(Stringurl){StringBuffercodeBuffer=null;BufferedReaderin=null;try{URLConnectionuc=newURL(url).openConnection();//读取url流内容in=newBufferedReader(newInputStreamReader(uc.getInputStream(),"gb2312"));codeBuffer=newStringBuffer();StringtempCode="";//把buffer内的值读取出来while((tempCode=in.readLine())!=null){codeBuffer.append(tempCode).append("n");}in.close();}catch(MalformedURLExceptione){e.printStackTrace();}catch(IOExceptione){e.printStackTrace();}returncodeBuffer.toString();}publicstaticvoidmain(String[]args){System.out.println(UrlContent.getHtmlSource("http://sports.163.com/zc/"));}}反馈说我理解的不对,然后回复:作业要求:1.给定一个网站的URL,抓取下整个网站,包括网页、图片等等。2.对该网站的所有对象进行一个统计,比如链接、图片、按钮等等分别有多少。
解决方案六:
不会等待牛人解答
解决方案七:
一个站还是一个页啊,一个站有千八百页,那还有办法啊.?要从网页的URL取得另一页,另一页又有,.................URLurl;HttpURLConnectionconn=null;try{url=newURL("http://baike.baidu.com/view/2125344.htm");conn=(HttpURLConnection)url.openConnection();conn.setRequestProperty("Accept-Charset","utf-8");conn.setRequestProperty("contentType","utf-8");BufferedReaderreader=newBufferedReader(newInputStreamReader(conn.getInputStream(),"gbk"));StringdownloadURL;StringBuffersb=newStringBuffer();while((downloadURL=reader.readLine())!=null){sb.append(downloadURL);}System.out.println(sb.toString());这样就可以打印出这个网页了,至于里用正则如何替换,找出按钮,图片的,那还得再弄下.}catch(Exceptione){}finally{conn.disconnect();}
解决方案八:
应该是所访问的当前页。。我不会,高手回答
解决方案九:
然后将每个网页所抓到的对象存起来。最后统计
解决方案十:
如何用正则如何替换,找出按钮,图片,内容,标题等等这才是关键,是知道正则怎么写。在线等待,感激不尽!
解决方案十一:
顶。。。。等高手解答
解决方案十二:
学习...
解决方案十三:
一个页好说,一个站的话把你抓死了,还有外面的链接!
解决方案十四:
就一个网页就可以了,别的子网页可以不管。
解决方案十五:
可使用Java的htmlpaser开源包PostMethodmethod=null;......//设置method的参数//执行post方法executeHttpMethod(client,method,3000,newArrayList());//获取返回界面BufferedInputStreamf=newBufferedInputStream(method.getResponseBodyAsStream());//保存下来即可---------------------------解析的话就搜索下载下来的文件,统计里面按钮等对应的标签就可以了
解决方案:
该回复于2009-08-12 23:14:49被版主删除
解决方案:
该回复于2009-08-12 23:14:49被版主删除
解决方案:
嗯,是的。面试后留的作业。
解决方案:
典型的网页采集!其实,有点类型搜索引擎!
解决方案:
那个可以把按钮,图片,内容,标题等等正则写出来。
解决方案:
支持万能的正则。
解决方案:
爬虫的基本原理
解决方案:
没人知道吗?汗
解决方案:
引用21楼zangxt的回复:
爬虫的基本原理
同意,偶也只是听说过.另外有相关软件支持分析页面
解决方案:
Readerreader=null;BufferedReaderbr=null;InputStreamin=null;Stringtemp="";Stringtext="";URLConnectionurlConn=(HttpURLConnection)url.openConnection();urlConn.setDoOutput(true);in=urlConn.getInputStream();in=newBufferedInputStream(in);reader=newInputStreamReader(in);br=newBufferedReader(newInputStreamReader(url.openStream(),"GBK"));逐行读文件,写入text中while((temp=br.readLine())!=null){text+=temp;temp=null;}对text进行分析即可,例如超链接匹配<a等
解决方案:
请教大家按钮的正则怎么写。
解决方案:
按钮的正则怎么写
解决方案:
顶个!
解决方案:
汗,没有会吗?
解决方案:
。。自己看开源爬虫源码去
解决方案:
我觉得这所谓的“面试题”很可疑,感觉像作业贴。
解决方案:
er...
解决方案:
我觉得这里用正则不太合适吧,既然是要解析对象,干嘛不用XML呢?将读取出来的字符串转成一个XML文档,然后使用DOM进行递归的解析该XML文档得到所有的元素,这样行不通?对于<html前面的字符我们可以过滤掉。
解决方案:
IBM不会出这样的题目的LZ不厚道忽悠人
解决方案:
引用楼主shao0408的回复:
作业要求:1.给定一个网站的URL,抓取下整个网站,包括网页、图片等等。2.对该网站的所有对象进行一个统计,比如链接、图片、按钮等等分别有多少。
看看作业要求哈哈
解决方案:
这题目有什么意思吗?
解决方案:
用搜索机器人应该可以解决
解决方案:
收藏了
解决方案:
顶个!学习下
解决方案:
网站深度的扫描:也就是生产一个网站基本层次架构(像是一棵树或森林?),然后按照这个结构一层层抓取资源,直到挖掘不下去(这个很可能会死循环的说啊,--)。只是我的想法而已,哈哈
解决方案:
关注,学习,帮顶。
解决方案:
为什么一定要正则呢?说到底正则也是字符串处理函数实现的吧。用普通的indexOf不行么?比如,你逐行读取当前网页的源代码,定义intimgCount=0;intbuttonCount=0;intlinkCount=0。然后只要匹配到type="image"或者<img的时候imgCount++匹配到type="button"或者<button的时候buttonCount++匹配到<a的时候linkCount++不就行了?最后统计各类型的控件数目。可能是我想简单了,再说非要用正则匹配,百度应该可以找到答案的。
解决方案:
引用2楼eastoneking的回复:
这题给的不着调啊。加入我有两个页面,分别是http://xxxxx/a和http://xxxxx/b,这两个页面没有相互引用。这算一个网站的吧?你怎么从a知道b呢?出题的弱智吧,限制条件都说不清楚
是小学没毕业吧。看清题目了么?
解决方案:
给个完整的撒!
解决方案:
该回复于2011-04-27 08:42:32被版主删除
解决方案:
。。坐等牛人解答
解决方案:
该回复于2011-04-27 10:17:22被版主删除