网页结构化目标是提取网页的5个基本属性

  针对搜索引擎工作原理的学习,在了解了网页结构化的概念后,就应该进一步探究为什么进行网页结构化,网页结构化的目标是什么。

  我不是学究派,我是从事seo网站优化的工作人员,在此分享自己的学习过程,我一直相信,探究事物的本源,会让具体的seo网站优化工作变得更加可控、应用更加自如。无论是在做北京网站优化,还是上海网站优化,抑或是广州网站优化等等,道理均是一样的。最后这句对已入门者是废话哈。下面进入正题。

  一、为什么进行网页结构化?

  1)网页结构化是搜索引擎识别网页检索价值的基础。

  网页结构化可以理解为搜索引擎系统更深入工作的一个前期筛选,或者理解为流水线上的一个工序,出于效率、资源占用的考虑,把这道工序放到了前面。

  2)网页结构化让搜索引擎节约了大量的存储。

  网页结构化就是搜索引擎把抓取来的原始数据进行瘦身减负的过程。把页面中有价值的并且能够代表页面属性的部分留下,其他东东彻底卸掉。很自然地,就节约了大量的空间。

  二、网页结构化目标是什么?

  其实作为seo网站优化人员最想知道的是,网页结构化抽取页面的哪几个属性来代表网页。所以本文标题也就定为了“网页结构化目标是提取网页的5个基本属性”。即下面5个基本属性,这5个属性对于检索来说极其重要。

  (1) 标题(title):这里的标题特指HTML标识语言中中间的文字部分,这部分文字表达了网页的 基本含义。和锚文本相同的是,都是用来描述网页的内容的属性;和锚文本不同的是,这个标题是由该网页制作者本人编写的。

  (2)锚文本(anchor text):也是描述网页内容的属性之一。比如北京大学主页可能被另外一些网页中存在的锚(anchor)所指向,其锚文本(如文字为“北京大学官网”)就是北京大学网站主页的描述。特别是对于某些没有标题的网页,锚文本是有益的补充。

  (3)正文标题(content title):在HTML网页中,网页的标题由标签标识。实际的情况是由于网页编写者的疏忽,或者其他原 因,标签中的文字不能代表网页的主要内容,为此需要抽取正文中的适当文字作为正文标题。

  

  (4)正文(content):锚文本、标题和正文标题都是网页的简短描述,而正文是一个网页的主体内容,它完整地表述了网页的主体内容,一般出现在div、table和p等HTML标签中。

  (5)正向链接(link):正向链接是网页制作者编写的引导用户继续在网上冲浪的链接,这些链接的文字也是其他网页的锚文本。(来源:www.zhangxundf.cn)

时间: 2024-10-14 03:14:13

网页结构化目标是提取网页的5个基本属性的相关文章

结构化HTML DIV CSS网页布局入门指南

css|网页 你正在学习CSS布局吗?是不是还不能完全掌握纯CSS布局?通常有两种情况阻碍你的学习: 第一种可能是你还没有理解CSS处理页面的原理.在你考虑你的页面整体表现效果前,你应当先考虑内容的语义和结构,然后再针对语义.结构添加CSS.这篇文章将告诉你应该怎样把HTML结构化. 另一种原因是你对那些非常熟悉的表现层属性(例如:cellpadding,.hspace.align="left"等等)束手无策,不知道该转换成对 应的什么CSS语句.  当你解决了第一种问题,知道了如何结

Python提取网页中超链接的方法_python

下面是最简单的实现方法,先将目标网页抓回来,然后通过正则匹配a标签中的href属性来获得超链接 代码如下: import urllib2 import re url = 'http://www.sunbloger.com/' req = urllib2.Request(url) con = urllib2.urlopen(req) doc = con.read() con.close() links = re.findall(r'href\=\"(http\:\/\/[a-zA-Z0-9\.\/

请教关于网页静态化后访问的链接地址问题

问题描述 最近在研究网页静态化,遇到一个问题,网页静态化后保存的网页是以当前的时间为名称的比如:2010081010.htm,前台通过点击相应的标题,访问其具体的内容,现在不知道如何处理其标题的访问链接问题,怎么才能让这个链接自动指向2010081010.htm,谢谢各位

非结构化数据——RAID模式已过时

一份来自Novell公司Ponemon研究所针对对美国94个大型企业的调查显示,平均每个公司每年花在非结构化数据处理上的成本为210万美元:而一些受到严格监管的行业,比如金融.制药.通讯和医疗行业的成本最高,每年将达到250万美元:另一个来自Unisphere Research的调查则显示,62%的受访者表示非结构化信息的产生是不可避免的,在未来十年内将超过传统数据.此外有35%的人表示,在未来的36个月里,非结构化的信息量将超过传统的关系数据. 据IDC的预测,现在全球数据量每18个月就要翻一

润乾蒋步星 | 非结构化数据分析技术是忽悠

大数据概念兴起的同时也带热了非结构化数据分析.传说一个企业中80%的数据都是非结构化数据,如果按占据空间来算,这个比例大体不假,毕竟音视频这类数据真地很大. 有这么大的数据量,需要进行分析是很自然的事了,而要分析当然就要有相应的技术手段了. 那为什么说非结构化数据分析技术是忽悠呢? 不存在通用的非结构化数据计算技术 非结构化数据五花八门,有声音图像.文本网页.办公文档.设备日志.-.:每类数据的都有各自的计算处理手段,比如语音识别.图像比对.文本搜索.图结构计算等等,但是并不存在一种适用于所有非

【数据蒋堂】非结构化数据分析是忽悠?

大数据概念兴起的同时也带热了非结构化数据分析.传说一个企业中80%的数据都是非结构化数据,如果按占据空间来算,这个比例大体不假,毕竟音视频这类数据真地很大.有这么大的数据量,需要进行分析是很自然的事了,而要分析当然就要有相应的技术手段了. 那为什么说非结构化数据分析技术是忽悠呢? 不存在通用的非结构化数据计算技术 非结构化数据五花八门,有声音图像.文本网页.办公文档.设备日志.....:每类数据的都有各自的计算处理手段,比如语音识别.图像比对.文本搜索.图结构计算等等,但是并不存在一种适用于所有

HTML结构化:DIV+CSS网页布局入门指南

css|网页  你正在学习CSS布局吗?是不是还不能完全掌握纯CSS布局?通常有两种情况阻碍你的学习: 第一种可能是你还没有理解CSS处理页面的原理.在你考虑你的页面整体表现效果前,你应当先考虑内容的语义和结构,然后再针对语义.结构添加CSS.这篇文章将告诉你应该怎样把HTML结构化. 另一种原因是你对那些非常熟悉的表现层属性(例如:cellpadding,.hspace.align="left"等等)束手无策,不知道该转换成对 应的什么CSS语句. 当你解决了第一种问题,知道了如何结

HTML结构化:实践DIV+CSS网页布局入门指南

css|网页 你正在学习CSS布局吗?是不是还不能完全掌握纯CSS布局?通常有两种情况阻碍你的学习: 第一种可能是你还没有理解CSS处理页面的原理.在你考虑你的页面整体表现效果前,你应当先考虑内容的语义和结构,然后再针对语义.结构添加CSS.这篇文章将告诉你应该怎样把HTML结构化. 另一种原因是你对那些非常熟悉的表现层属性(例如:cellpadding,.hspace.align="left"等等)束手无策,不知道该转换成对 应的什么CSS语句. 当你解决了第一种问题,知道了如何结构

HTML结构化:实践DIV+CSS网页布局入门指南_CSS/HTML

你正在学习CSS布局吗?是不是还不能完全掌握纯CSS布局?通常有两种情况阻碍你的学习:  第一种可能是你还没有理解CSS处理页面的原理.在你考虑你的页面整体表现效果前,你应当先考虑内容的语义和结构,然后再针对语义.结构添加CSS.这篇文章将告诉你应该怎样把HTML结构化.  另一种原因是你对那些非常熟悉的表现层属性(例如:cellpadding,.hspace.align="left"等等)束手无策,不知道该转换成对 应的什么CSS语句. 当你解决了第一种问题,知道了如何结构化你的HT