分析网页的内容,除正则表达之外还有其他什么方法?

问题描述

分析网页的内容,除正则表达之外还有其他什么方法?请问一下,这个网页标题和内容的正则表达示怎么写呢?http://news.sina.com.cn/c/2007-04-11/161112753911.shtml

解决方案

解决方案二:
UP
解决方案三:
还有啊,比入字符串的indexOf(),,lastIndexOf()...等等。。。************************************************想不出短信?来http://www.9gaoxiao.com
解决方案四:
还有啊,比入字符串的indexOf(),,lastIndexOf()...等等。。。************************************************想不出短信?来http://www.9gaoxiao.com
解决方案五:
或许把html做成xml文件,然后用dataset操作就可以了.不过前提是网页必须有规则!
解决方案六:
上面这个地址使用什么方法更好些.批量的哦!

时间: 2024-09-14 03:19:31

分析网页的内容,除正则表达之外还有其他什么方法?的相关文章

c#winform获取分析网页源代码指定内容信息正则表达式解析

问题描述 c#winform获取分析网页源代码指定内容信息正则表达式解析 比如拿百度首页,一个简单的例子 ,我获取到了源代码,接着用正则表达式解析,获取到:新 闻 网 页 贴 吧 知 道 音 乐 图 片 视 频 地 图 这几个字 求大师试着解析一下 谢谢

正则-java如何抓取不同网站不同网页的内容

问题描述 java如何抓取不同网站不同网页的内容 请教大神们如何用java抓取不同网页(不同网站)相同属性的内容,如图: 用同一个java程序或正则一次性抓取图片上标注的内容(注:有很多这样的网页). 解决方案 内容一般在table或者div中,找出特征匹配,截取字符串就行了 解决方案二: 对于HTML标签,最好用XML解析类库,通过XPATH等方式来查找,这样简单,也不会容易出错,正则表达式处理这个比较麻烦,而且容易出错 解决方案三: 应该用到了,网络请求协议http!

oracle 正则表达分析说明与数字正则(1/2)

    方括号表达示 方括号表达式 描述 [[:alnum:]] 字母和数字混合的字符 [[:alpha:]] 字母字符 [[:cntrl:]] 控制字符 [[:digit:]] 数字字符 [[:graph:]] 图像字符 [[:lower:]] 小写字母字符 [[:print:]] 打印字符 [[:punct:]] 标点符号字符 [[:space:]] 空格字符 [[:upper:]] 大写字母字符 [[:xdigit:]] 十六进制数字字符   l        元字符 元字符 描述 *?

如何通过百度统计热力图分析网页详情?

做SEO的,我想对百度统计热力图一定不会陌生.它通过直观的方式显示出访问者在网页中的点击行为,并且可以告诉你不同位置,不同样式链接以及内容的受欢迎程度. 在百度统计热力图的网页详情分析界面中,共分为两大部分.一部分是网页热力图的显示区,它以颜色变化展现访客在页面上的点击分布情况,显示了当前页面中不同链接被点击的情况.另外一部分是链接点击图的显示区,它以点击百分比展现访客在页面上的点击分布情况. 百度统计热力图中数字的含义 在百度统计的热力图中,所有的访客行为和页面指标都是以数字的形式体现的.这些

php 手机号码正则表达试程序代码

代码如下 function funcMtel($str)//手机号码正则表达试 { return (preg_match("/(?:13d{1}|15[03689])d{8}$/",$str))?true:false; } 测试 18678785887 返回为 false 原因分析,查看了发现上面正则只能验证以13,15开头的,自然18开头的是不可以用的 修改后 代码如下 function funcMtel($str)//手机号码正则表达试 { return (preg_match(&

C#实现抓取和分析网页类实例

  本文实例讲述了C#实现抓取和分析网页类.分享给大家供大家参考.具体分析如下: 这里介绍了抓取和分析网页的类. 其主要功能有: 1.提取网页的纯文本,去所有html标签和javascript代码 2.提取网页的链接,包括href和frame及iframe 3.提取网页的title等(其它的标签可依此类推,正则是一样的) 4.可以实现简单的表单提交及cookie保存 ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24

js正则表达exec与match的区别说明

 本篇文章主要是对js正则表达exec与match的区别进行了介绍,需要的朋友可以过来参考下,希望对大家有所帮助 以前用js很少用到js的正则表达式,即使用到了,也是诸如邮件名称之类的判断,网上代码很多,很少有研究,拿来即用.   最近开发遇到一些需要使用正则表达式,顺便研究一下   正则表达式对象有两个定义方式::    1.第一种定义:   new RegExp(pattern, attributes);如var reg = new RegExp("abc","g&quo

Windows 和 Linux下使用socket下载网页页面内容(可设置接收/发送超时)的代码

主要难点在于设置recv()与send()的超时时间,具体要注意的事项,请看代码注释部分,下面是代码:   [cpp] view plaincopyprint?   #include <stdio.h>   #include <sys/types.h>   #include <stdlib.h>   #include <string.h>   #include <errno.h>   #include <string.h>     

C#里如何获得一个网页的内容 并且验证是否等于一个值?

问题描述 比如说一个网页http://www.83048.com/md5.php这个网页的内容是当前日期YMD和baidu的组合比如今天是2012-04-12baidu显示的是55a3d4a11158c0a5ffce9284349d9023我想用C#获得这个网页的内容,在C#里也生成md5(2012-04-12baidu),然后比较两个结果是否一样.现在的源码我放在这了http://www.83048.com/post.rar想在界面最下面加上,如果前面说的比较字符串相同了,就输出"验证成功&q