这样一个正则怎么取?爬虫,抓取程序,急!!!!!!!!!!

问题描述

<!DOCTYPEhtml><html><head><metahttp-equiv=content-typecontent="text/html;charset=UTF-8"/><metahttp-equiv=X-UA-Compatiblecontent=IE=EmulateIE7/><title>香山-Google地图</title><scripttype=text/javascript>//<![CDATA[varw=window.parent;functiononLoad(){w.loadVPage({title:"香山-Google地图",vartitle:"",url:"/maps?f=qx26source=s_qx26hl=zh-CNx26geocode=x26q=%E9%A6%99%E5%B1%B1x26vps=8x26jsv=156cx26sll=39.965543,116.503143x26sspn=0.442063,0.704498x26ie=UTF8",urlViewport:false,ei:"ULMCStwHhfK5A4Lr2cQO",form:{selected:"q",q:{q:"香山"},l:{q:"香山",near:""},d:{saddr:"",daddr:"",dfaddr:"北京市"},geocode:"",g:{q:"香山"},d_edit:{saddr:"",daddr:""}},query:{type:"l"},viewport:{center:{lat:0,lng:0,alt:{ll:"34545111588400255001",mode:2}},span:{lat:0.44206299999999998,lng:0.70449799999999996},mapType:""},modules:["","truffle","app_infowindow"],overlays:{sxcar:false,markers:[{id:"A",image:"/intl/zh-CN_cn/mapfiles/markerA.png",elms:[4,1,6,2,5],laddr:"北京市海淀区买卖街(北京香山金源商旅中心酒店)",sxti:"北京香山金源商旅中心酒店",name:"北京香山金源商旅中心酒店",dtlsUrl:"/maps?f=qx26source=s_qx26hl=zh-CNx26geocode=x26q=%E9%A6%99%E5%B1%B1x26vps=8x26jsv=156cx26sll=39.965543,116.503143x26sspn=0.442063,0.704498x26ie=UTF8x26latlng=0,0,12994289385194773328x26ei=ULMCStwHhfK5A4Lr2cQOx26cd=2",addressLines:["北京市海淀区","买卖街"],title:"北京x3cbx3e香山x3c/bx3e金源商旅中心酒店",reviews:13,photoUrl:"http://base.googlehosted.com/base_media?q=maps:www.5booking.com/pic/200549201742.jpgx26size=2x26hl=zh-CN",phototabUrl:"/maps?f=qx26source=s_qx26hl=zh-CNx26geocode=x26q=%E9%A6%99%E5%B1%B1x26vps=8x26jsv=156cx26sll=39.965543,116.503143x26sspn=0.442063,0.704498x26ie=UTF8x26latlng=0,0,12994289385194773328x26ei=ULMCStwHhfK5A4Lr2cQOx26cd=1x26oi=md_photosx26sa=Xx26ct=iw_photox26cad=5booking.com",cid:"12994289385194773328",infoWindow:{basics:"x3cdivtransclude="iw"x3ex3c/divx3e",maxUrl:"/maps?f=qx26source=s_qx26hl=zh-CNx26geocode=x26q=%E9%A6%99%E5%B1%B1x26vps=8x26jsv=156cx26sll=39.965543,116.503143x26sspn=0.442063,0.704498x26ie=UTF8x26latlng=0,0,12994289385194773328x26ei=ULMCStwHhfK5A4Lr2cQOx26cd=2x26iwd=1x26fb=0",moreInfo:"更多信息"},geocode:"CcMQRuHunLNuFeQ3YgIdex3tBiFQ2ylhWf1UtA",icon_id:"B",sprite:{width:20,height:34,top:34,image:"/intl/zh-CN_cn/mapfiles/red_markers_A_J.png"},cat2:[{name:"住宿服务;宾馆酒店;五星级宾馆",lang:"zh"},{name:"体育休闲服务;运动场馆;健身中心",lang:"zh"},{name:"其他",lang:"zh"},{name:"其他餐饮美食",lang:"zh"},{name:"星级酒店",lang:"zh"}],latlng:{lat:0,lng:0,alt:{ll:"34510131588008159223",mode:2}},phones:[{number:"010-59898888"}],b_s:2,photoType:1},{id:"C",image:"/intl/zh-CN_cn/mapfiles/markerC.png",取其中的地电话:地址,连接laddr:"北京市海淀区买卖街(北京香山金源商旅中心酒店)",sxti:"北京香山金源商旅中心酒店",name:"北京香山金源商旅中心酒店"photoUrl:"http://base.googlehosted.com/base_media?q=maps:www.5booking.com/pic/200549201742.jpg

解决方案

解决方案二:
先占个楼看看
解决方案三:
up
解决方案四:
就是找其前后的格式特征,加上其本身的特征就可以了。但是有时页面的格式稍一变化,就还得重新做。
解决方案五:
自己的贴子都不能编辑..我晕..LZ的问题不是太明确..是取出来就行..还是必须得按照你的那个结果那样取..如果是取出来就行..可以试试这样写..(?<=bladdr:)"w*"b我现在用的电脑..没有任何开发环境..还不能下载软件..所以没调试过..算是提供个思路吧..找关键字"xxxx"后面的又是""以内的字符串
解决方案六:
引用4楼cyougyoku的回复:

自己的贴子都不能编辑..我晕..LZ的问题不是太明确..是取出来就行..还是必须得按照你的那个结果那样取..如果是取出来就行..可以试试这样写..(?<=bladdr:)"w*"b我现在用的电脑..没有任何开发环境..还不能下载软件..所以没调试过..算是提供个思路吧..找关键字"xxxx"后面的又是""以内的字符串

能不能写完整点?就是取出来就行用正则
解决方案七:
这个就是取laddr的式子....你把laddr换成你要的那些..应该就可以吧..我这没啥环境..不能试..你试试看取出来的是什么...我记得..好象是这么写..就可以取..laddr:"xxxxxxxxxx",这样的格式中的xxxxxx...了..规定头和双引号

时间: 2024-10-14 07:10:50

这样一个正则怎么取?爬虫,抓取程序,急!!!!!!!!!!的相关文章

java爬虫-请求一个url,用java抓取所有网页链接以及内容。

问题描述 请求一个url,用java抓取所有网页链接以及内容. 比如用这个当实例:http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml.(新手,望多多关照) 解决方案 通过java.net.URL类抓取某个网页的内容java-抓取指定URL网页的内容 解决方案二: http://roll.news.sina.com.cn/news/gnxw/gdxw1/index.shtml这个网址下面有好几个子链接网页,有好几页,要求全部抓到.. 解

Java爬虫抓取视频网站下载链接_java

本篇文章抓取目标网站的链接的基础上,进一步提高难度,抓取目标页面上我们所需要的内容并保存在数据库中.这里的测试案例选用了一个我常用的电影下载网站(http://www.80s.la/).本来是想抓取网站上的所有电影的下载链接,后来感觉需要的时间太长,因此改成了抓取2015年电影的下载链接. 一 原理简介 其实原理都跟第一篇文章差不多,不同的是鉴于这个网站的分类列表实在太多,如果不对这些标签加以取舍的话,需要花费的时间难以想象. 分类链接和标签链接都不要,不通过这些链接去爬取其他页面,只通过页底的

玩玩小爬虫——抓取动态页面

       在ajax横行的年代,很多网页的内容都是动态加载的,而我们的小爬虫抓取的仅仅是web服务器返回给我们的html,这其中就 跳过了js加载的部分,也就是说爬虫抓取的网页是残缺的,不完整的,下面可以看下博客园首页 从首页加载中我们看到,在页面呈现后,还会有5个ajax异步请求,在默认的情况下,爬虫是抓取不到这些ajax生成的内容的, 这时候要想获取就必须调用浏览器的内核引擎来下载这些动态页面,目前内核引擎三足鼎立. Trident: 也就是IE内核,WebBrowser就是基于该内核,

有关搜索引擎爬虫抓取原理浅析

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 本文简单的分析了爬虫抓取网页的一些基本原理与大家同享,能基本了解网页的几个排名因素:链接的建设和网页的布局,多多体会,写的不好也别骂,谢谢! 爬虫的工作原理包括抓取,策略和存储,抓取是爬虫的基本劳动过程,策略是爬虫的智慧中枢,存储是爬虫的劳动结果,我们按照由浅入深的过程来了解整个爬虫的工作原理. 1:从种子站点开始抓取 基于万维网的蝴蝶型结构

nodejs爬虫抓取数据之编码问题_node.js

cheerio DOM化并解析的时候 1.假如使用了 .text()方法,则一般不会有html实体编码的问题出现 2.如果使用了 .html()方法,则很多情况下(多数是非英文的时候)都会出现,这时,可能就需要转义一番了 类似这些 因为需要作数据存储,所有需要转换 复制代码 代码如下: Халк крушит. Новый способ исполнен 大多数都是(x)?\w+的格式 所以就用正则转换一番 var body = ....//这里就是请求后获得的返回数据,或者那些 .html()

nodejs爬虫抓取数据乱码问题总结_node.js

一.非UTF-8页面处理. 1.背景 windows-1251编码 比如俄语网站:https://vk.com/cciinniikk 可耻地发现是这种编码 所有这里主要说的是 Windows-1251(cp1251)编码与utf-8编码的问题,其他的如 gbk就先不考虑在内了~ 2.解决方案 1. 使用js原生编码转换 但是我现在还没找到办法哈.. 如果是utf-8转window-1251还可以http://stackoverflow.com/questions/2696481/encoding

使用Python编写简单网络爬虫抓取视频下载资源_python

我第一次接触爬虫这东西是在今年的5月份,当时写了一个博客搜索引擎,所用到的爬虫也挺智能的,起码比电影来了这个站用到的爬虫水平高多了! 回到用Python写爬虫的话题. Python一直是我主要使用的脚本语言,没有之一.Python的语言简洁灵活,标准库功能强大,平常可以用作计算器,文本编码转换,图片处理,批量下载,批量处理文本等.总之我很喜欢,也越用越上手,这么好用的一个工具,一般人我不告诉他... 因为其强大的字符串处理能力,以及urllib2,cookielib,re,threading这些

网页-如何网络爬虫抓取淘宝交易数据

问题描述 如何网络爬虫抓取淘宝交易数据 小弟学软件的,现在想开淘宝店,想想怎么能快速获得用户数据推广产品,问问说网络爬虫可行,可是对这方面不了解,有哪位大神可以教一下,获取自己和其他用户网页上的商品信息之类的,作为分析. 解决方案 搜索引擎如百度都不让抓淘宝里的交易数据,淘宝的安全工程师都不是吃素的,建议你换个课题吧 解决方案二: 可以先看看对应数据的http,浏览器查看一下是否有对应的api,然后再考虑怎么发送请求 解决方案三: 关于电商网站的爬虫,大家可以学习一下这个系列的教程:http:/

JAVA使用爬虫抓取网站网页内容的方法_java

本文实例讲述了JAVA使用爬虫抓取网站网页内容的方法.分享给大家供大家参考.具体如下: 最近在用JAVA研究下爬网技术,呵呵,入了个门,把自己的心得和大家分享下 以下提供二种方法,一种是用apache提供的包.另一种是用JAVA自带的. 代码如下: // 第一种方法 //这种方法是用apache提供的包,简单方便 //但是要用到以下包:commons-codec-1.4.jar // commons-httpclient-3.1.jar // commons-logging-1.0.4.jar

用nodejs爬虫抓取网页,但提示无Post()函数

问题描述 用nodejs爬虫抓取网页,但提示无Post()函数 使用EXPRESS模块搭建WEB项目. 代码: function transToPost(post){ var mPost = new Post({ title : post.title, link : post.link, description : post.description, pubDate : post.pubDate, source : post.source, author : post.author, typeI