网页切片算法的若干问题

算法|网页|问题

  这是我研究网页切片算法的一个汇总想法。

  之前我写过:一种面向搜索引擎的网页分块、切片的原理,实现和演示,随着工作的深入,逐渐碰到以下问题:

  网页切片的粒度问题:

  网页切片算法的目的不是精确找到所需要的内容,而是识别划分网页的各种功能区域,导航区,链接区,内容,页脚区和广告区等。

  网页切片的网页对象:

  互连网纱功能的网页大概有2种类型,目录型和内容型;随着搜索引擎的发展,网站结构逐渐向扁平化的方向发展,车东 对此也做出了数据验证,而且随着显示器分辨率的不断提高,内容和目录结合型的网页呈增加趋势,天极的网页涉及,可以说是其中的典范。

  网页切片算法的对象应该是针对:内容型和内容目录混合型。对不同网页,应该有个识别算法,应该包括哪些标准?

  网页内容区最大范围识别:

  从切片的粒度可以看出,应该把内容区作为一个部分单独切出来。根据一般的网页设计规律,一般有2种容纳内容区的方式:1、包含型(如blog ) 2、并列型(如bbs帖子)。

  如果处理分页的内容型网页:

  现在大多数网站为了改善用户体验和增加页面展示次数的需要,对网页做了分页处理,这部分需要设别出来。

  无意间看到了:VIPS:基于视觉的Web页面分页算法 ,从理论上证明了这种方法的可行性。可是实现起来有很多障碍,正如这位所说的:

  蜗牛 发表于2006-02-21 12:40 AM IP: 220.184.129.*

  我那天用浮动的 用绝对位置定位代替 定位,并且在客户端的JavaScript中动态排列。客户端的对象用脚本动态生成插入。

  弄死他。看他怎么分析。

  这样的算法太依赖于具体实现了,很难有好的解决办法。

  况且,现在依赖客户端脚本展现动态表现力慢慢开始流行,这个算法很难适应未来的潮流。

  就拿最简单的,我有一个类似于OutLook工具条的页面风格,都是脚本生成的,我看他怎么分析!

  视觉分析只能落脚到视觉上,只能对页面的静态画面作分析才能得到正确的条块分割,分割条块是容易的简单算法就能做到,但是要把这些内容归结到分割到的条块是难的。

  好的办法只有一个,模拟鼠标击键,击键处的对象返回响应,这在IE能够实现的。这样才能取得分割好条块后的对象归属。

  我怎么想都觉得我的简单算法都要比文中的算法强多了。

  视觉依靠画面分割条块,很简单,对空白进行膨胀-缩小算法,这样留白就能逐渐清晰出来,文字就模糊了。然后作模糊处理,然后用一个亮度阈值把图片转换成二值图,然后作一个矢量化处理,留下线条。归结到90度和0度上去,得到一个条块分割的矢量图。

  然后,每一块中按照密度用鼠标点击模拟获得对象!这样就可以完成了条块归纳了。

  干吗要分析HTML呢?情况多得很,根本分析不过来。

  我目前的进展是:可以识别 导航区、链接区、页脚区。

  对内容区的分析是个难点,鉴于我自己的需要,只要找到最大的内容区就可以了。

  这段时间对算法的一个体会就是,算法就是解决特定问题的方法。教科书上的算法大都是最一般性,常用性的方法的说明。

  套句俗话,能解决实际问题的方法就是好方法。但能把我们解决的问题用数学模型表达出来仍是一个不断提高算法水平的基本要求。

时间: 2024-09-09 23:21:43

网页切片算法的若干问题的相关文章

网页播放技术的若干特效

网页 为增强大家对网页播放技术的感性认识,同时更为激发学习网页播放技术的浓厚兴趣,特首先向大家介绍网页播放技术的若干特效,简单而实用,希望能对读者有所帮助或启发.    虽然说是特效,但实际上几乎所有的人都很容易上手,因为通过单纯的"文本文件"编辑即可实现目的.     WMP 类媒体播放     1.改变媒体信息.就是将媒体文件在播放时显示的诸如名字.表演者及版权等媒体 ID3 信息一一改变成"自己"的.不是一种真正的改变,实为障眼法.请点击播放键观看效果 .  

Fireworks网页切片应用详解

网页|详解 我们这里所说的切片(Slice)就是将一幅大图像分割为一些小的图像切片,然后在网页中通过没有间距和宽度的表格重新将这些小的图像没有缝隙的拼接起来,成为一幅完整的图像.这样做可以减低图像的大小,减少网页的下载时间,并且能创造交互的效果,如翻转图像等,还能将图像的一些区域用html来代替.Fireworks在网页切片制作方面有很强的优势,今天我们就来仔细看看Fireworks网页切片全攻略. 一.切片在网页制作中的作用 在网页上的图片较大的时候,浏览器下载整个图片的话需要花很长的时间,切

网页水印算法-我的毕设啊,网页水印技术

问题描述 我的毕设啊,网页水印技术 各位大神,实现网页水印算法怎么弄?用MATLAB怎么测试效果?求帮忙~ 解决方案 水印其实就是图片叠加,google下有很多.

精通Python网络爬虫:核心技术、框架与项目实战.3.4 网页分析算法

3.4 网页分析算法 在搜索引擎中,爬虫爬取了对应的网页之后,会将网页存储到服务器的原始数据库中,之后,搜索引擎会对这些网页进行分析并确定各网页的重要性,即会影响用户检索的排名结果. 所以在此,我们需要对搜索引擎的网页分析算法进行简单了解. 搜索引擎的网页分析算法主要分为3类:基于用户行为的网页分析算法.基于网络拓扑的网页分析算法.基于网页内容的网页分析算法.接下来我们分别对这些算法进行讲解. 1.?基于用户行为的网页分析算法 基于用户行为的网页分析算法是比较好理解的.这种算法中,会依据用户对这

搜索引擎网页去重算法解析

seo优化培训:搜索引擎网页去重算法解析 以下转载一篇搜索引擎网页去重算法的内容发出来让大家对百度的算法进行学习一下: 相关统计数据表明:互联网上近似重复的网页的数量占网页总数量的比例高达29%,完全相同的网页大约占网页总数量的22%.研究表明,在一个大型的信息采集系统中,30%的网页是和另外70%的网页完全重复或近似重复的. 即:互联网的网页中相当高的比例的网页内容是近似相同或完全相同的! 搜索爬虫抓取会产生网页重复的类型: 1.多个URL地址指向同一网页以及镜像站点 如:www.sina.c

java分析html算法(java网页蜘蛛算法示例)_java

遇到复杂而繁琐的html页面大家都望而却步.因为很难获取到相应的数据. 最古老的办法的是尝试用正则表达式,估计那么繁琐的东西得不偿失,浪费我们宝贵的时间. 第二个办法用开源组织htmlparser的包,这个是一个比较老的项目,但是效果估计不是很好,好像不可以深入分析html,只能分析5级的结构: 我这里有个htmlparser的源代码,可以获取所有的超链接的 复制代码 代码如下:    /* * To change this template, choose Tools | Templates 

阻止网页挂马的若干工具小集合_安全设置

那么,除了在Web开发的时候注意以外,有什么有效的工具可以对抗SQL注入攻击? 今天,微软和惠普的安全部门合作发布了三个工具,分别是: 微软SQL注入攻击源码扫描器:Microsoft Source Code Analyzer for SQL Injection (MSCASI).这个工具给网站开发人员使用.是一个静态扫描ASP代码的工具,可以查找发现第一类和第二类的SQL注入攻击漏洞.工具下载地址: http://support.microsoft.com/kb/954476 惠普的 Scra

常用网页图像格式简述:bmp/jpg/gif

一.BMP 图像文件 BMP图像文件最早应用于Windows操作系统,是Windows操作系统中的标准图像文件格式,是最简单的图像格式. BMP图像格式非常简单,仅具有最基本的图像数据存储功能,能存储每个像素1位.4位.8位和24位的位图.虽然它提供的信息过于简单,但是由于 Windows系统的普及以及BMP本身具有格式简单.标准.透明的特点,BMP图像文件格式得到了推广,它一般应用于Windows系统下的屏幕显示以及一些简单图像系统中. 这种格式的特点是包含的图像信息较丰富,几乎不压缩,但由此

什么是网页去重原理?

注明:来之痞子瑞<SEO深度解析>书本知识,非常感谢作者给我们写了这么好SEO知识. [导读]在互联网如此发达的今天,同一个资料会在多个网站发布,同一新闻会被大部分媒体网站报道,再加上小站长和SEO人员孜孜不倦地网络采集,造成了网络上拥有大量的重复信息.然而当用户搜索某个关键词时,搜索引擎必定不想呈现给用户的搜索结果都是相同的内容.抓取这些重复的网页,在一定程度上就是对搜索引擎自身资源的浪费,因此去除重复内容的网站也成为了搜索引擎所面临的一大问题. 在一般的搜索引擎架构中,网页去重一般在Spi