重开一帖,如何将网页源码中../等相对路径转换为绝对路径??

问题描述

我想采集一个页面,,并取出里面的链接,,但是采集的是网页的源代码,,里面的链接都是相对路径,,有什么简便的法子能把这些相对路径替换成绝对路径吗??例如采集http://www.177ks.com的首页,,里面有个路径是../index.aspx采集源码后把这些路径转换成http://www.177ks.com/index.aspx..我看好像网络蜘蛛采过来的代码都是绝对路径,,,但不知道这是怎么实现的,,有什么简单的办法吗??郁闷,,原来那帖我回复不了,,下面的回复框不显出来,,怎么回事...

解决方案

解决方案二:
自己写啊,先取出当前网页地址,然后根据../的个数来确定该取当前网页地址的第几级,然后把../后的东西拼上去就可以了
解决方案三:
string.format
解决方案四:
string.replace("..","http://www.177ks.com/")
解决方案五:
我倒,,上面几个就不能多想想,,我要是取的是最里面的页面,,"../../../../index.aspx"难道要都设上值,,一点点的替换呀...
解决方案六:
正则表达式会不会用啊?

时间: 2024-08-23 11:38:10

重开一帖,如何将网页源码中../等相对路径转换为绝对路径??的相关文章

求助,python 解析爬取的网页源码中的json部分

问题描述 求助,python 解析爬取的网页源码中的json部分 爬下来的网页源码有一部分是这样的 : 中间那一部分是json吧?要怎么才能解析成像浏览器那样的好继续抓取所要的信息? 说部分是因为有另外一些是正常的html,就中间这一部分想要的信息就这样两行超级长的延伸...也使用过json.load()来解析,不想显示错误"没有可以解析的json对象". 这两行中还有一部分"}u0026nicku003d${nick}u0026rnu003d${rn}u0026stats.

如何将网页源码中../等相对路径转换为绝对路径??

问题描述 获取一个网页的代码后,,里面的文件路径都是相对路径,,有没有专门的类来将这些路径转换为绝对路径呢??如,177ks.com首页,/index.aspx转换为http://www.177ks.com/index.aspx 解决方案 解决方案二:.net有专门的类解决方案三:字符串操作replace解决方案四:不会,顶下,期待结果解决方案五:Server.mappath("path")解决方案六:URL重写解决方案七:绝对路径不利于部署...为什么要转换呢?

C#怎么把网页源码中相同格式的内容都给提取出来?

问题描述 比如:<pclass="intro">xxx</p><pclass="intro">yyyy</p><pclass="intro">zzzz</p><pclass="intro">wwww</p>,我想把xxx,yyyy,zzzz,wwww都给提取出来改怎么办 解决方案 解决方案二:stringcontent="

在 Firefox 里通过外部编辑器查看网页源码

  在 Firefox 浏览器中,通过右键.菜单栏功能项或快捷键(cmd + U)就可以查看的网页源码.不过弹出的仅仅是个浏览窗口,想要进行编辑等进一步操作的话就得靠复制粘贴大法了.有没有这样一个办法,能够让 Firefox 的查看源代码功能直接调用外部编辑器来进行操作呢? 在 Firefox 地址栏输入 about:config,然后在过滤器中搜索 source.editor; 双击 view_source.editor.external 将其值设置为 true; 双击 view_source

[IT]HTML网页源码的字符编码(charset)解释

当你通过浏览器,打开某个网站,即某个url地址的时候,你所能正常看到网页的内容,各种文字,都可以正常显示,且没有显示乱码. 此过程,涉及到,浏览器帮你正确解析HTML源码,其中涉及到HTML网页源码的字符编码处理方面的问题. 和字符编码处理相关的大概逻辑是: 1.浏览器访问对应的url地址,并获取对应的HTML(或者,以及,其他的css,javascript等)网页源码 2.浏览器识别解析HTML源码内容 其中包含了解析HTML的头部(head),找到对应的charset和Content-typ

技术-用jsoup抓取网页获取网页源码的时候,得到的源码和在网站上面点击右键查看源码不相同,怎么解决

问题描述 用jsoup抓取网页获取网页源码的时候,得到的源码和在网站上面点击右键查看源码不相同,怎么解决 用jsoup抓取网页获取网页源码的时候,得到的源码和在网站上面点击右键查看源码不相同,怎么解决 Document doc = Jsoup.parse(new URL(url), 5000); 解决方案 一部分html是ajax异步加载的,你得用fiddler调试,得到这些请求,照着写 解决方案二: C++ 抓取网页的源码获取网页的源码获取网页源码工具类

编码-python抓取网页,网页源码无法解码

问题描述 python抓取网页,网页源码无法解码 抓取的网页:http://esf.nanjing.fang.com/ 浏览器查看源码显示content="text/html; charset=gb2312" python chardet 结果显示{'confidence': 0.0, 'encoding': None} 通过page=page.decode('gb2312','ignore').encode('utf-8'),解码后print为乱码 求问应该如何对这个网页的源代码进行

webview可以获取网页源码,进行重新排版吗

 private void getHtml_data(String Url, int FontSize) {                 String text = "";                try {                        URL url = new URL(Url);                        URLConnection conn;                         conn = url.openConnec

android获取网页源码问题

问题描述 android获取网页源码问题 以下是我从网上找的获取网页源码的 代码 所有包都已经正常导入 但是编译后 程序一运行就崩溃 求大神指点import 略; /** @author Jasonzhou @since 2013-03-21 @功能 读取网页内容 @说明 获取网页的全部代码后使用jsuop进行处理, 以便得到想要的内容**/ public class MainActivity extends Activity { public String url = ""http: