正确使用XHTML的冒险

 JunChen注:omemo.net网站似乎已经挂掉,链接都失效了。文章写得非常不错,一直是Best of 456 Berea Street。在这里发布的时候我进行了少量代码上和翻译上的修改,以忠实原著。

  我使用XHTML有些年了,但直至去年夏天我才着眼于如何正确使用,那就是说,以application/xhtml+xml的MIME类型来伺服(server)它。虽然我遇到了这些问题,但我知道问题远非如此。就如你即将发现的一样,当你开始使用真正的XHTML,你会遭遇很多似乎细小但让人困惑的问题。

  请注意这不是一篇讨论支持或反对使用XHTML的文章。我只是写下我所知道的潜在的易犯错误,并且让你自己来决定自己的选择:HTML 4.01,为所有浏览器伺服为text/html的XHTML 1.0或者为能够处理其的浏览器伺服为application/xhtml+xml而其他浏览器则伺服为text/html的XHTML 1.0。否则有些东西会完全不一样。

  只有在问题发生的时候,我才有机会去了解和认识这些东西。有些情况下我必须花很多时间来查找问题和求助于其他人,来寻求一个解决方案。但我在其中学到不少东西,我会把我已经使用XHTML后应该知道的都告诉你。

  注意我这里提及的问题只会发生在能正确处理application/xhtml+xml MIME类型的用户代理中,而因此XHTML被作为XML。这也可能是这里不提及XHTML的早期使用的原因——很少有人使用这样的浏览器,所以几乎不会有人因只伺服为text/html的XHTML所烦忧。

  今天,实际上把XHTML伺服为application/xhtml+xml正慢慢变得平常。我所知道的理由有两个:

  使用Firefox,Mozilla,Opera,Safari和其他兼容XHTML浏览器的人数增加了很多,所以你不再仅仅为自己和伙伴这样做。嗯。或许你就这样做,当将影响更多人。

  在web开发者之间,对XHTML的真正面目是什么的觉醒越来越多了。使用XHTML已经有多次多时的热烈的讨论,尤其是伺服为text/html的时候。如果你参与了任何一次讨论,你知道我在说什么。

  假如你,像我,决定实现某些类型的content negotiation和在传送XHTML的时候使用正确的媒体类型,你需要知道什么能(和将)在你发布的文档中发生,并且知道怎样避免问题的发生。对于对content negotiation同进行content negotiation的脚本例子有兴趣的读者,我推荐你阅读Content Negotiation和Serving up XHTML with the correct MIME type。还有很多这种类型的文章,但这是我读到的最精彩的两篇。

  每一个基本的教程都有一些HTML和XHTML的明显区别:元素和属性名字使用小写,属性值总要用引号。不要使用简化属性,确保所有的元素都有结束标签和没有不正确的嵌套等等。但是,当XHTML伺服为application/xhtml+xml时还需要知道更多东西。

  良好的结构是必须的

  文档必须是良好的结构(well-formed)的XML(跟合法的(valid)XHTML不必然相同)。就是必须,不是可能。

  如果文档结构不好,符合标准的浏览器(当前我知道Mozilla,Firefox,Netscape,Camino,Opera,Safari和OmniWeb——相当多的浏览器除了IE)将会显示错误信息并且以某种方式中止处理文档。

  此外,这还意味着不再使用未编码的"&"号。

  XML声明可能是必须的

  如果要使用UTF-8或者UTF-16以外的变法,必须要XML声明,除非HTTP头已经提供编码。

在HTTP头中是否要指定字符编码有些模糊,Architecture of the World Wide Web, Volume One: Media Types for XML这样写的:总体上,不应该在协议头为XML数据指定字符编码,因为数据本身已描述。

  另一方面,XHTML 1.0, Second Edition: Character Encoding写到:

  为了让文档使用指定的字符编码,最好的办法是保证web服务器发送正确的头。

  就是说,在XML声明中指定字符编码是好的习惯:

  <?xml version="1.0" encoding="iso-8859-1"?>

  只有五个实体是安全的

  只有五个预定义的实体(&lt;, &gt;, &amp;, &quot;, 和&apos;)的支持是有保证的。其他的可能完全被忽略或者直接输出。比如,如果XHTML文档包含如&nbsp;或者&rdquo;的实体,Safari会直接地输出。Opera反而选择忽略未知的实体,同时Mozila家族会认得这些实体并且就像HTML中“如果文档引用公共的映射浏览器伪DTD目录中的标识符并且没有单独声明的文档”来处理。

  使用UTF-8字符编码是最受推荐的,让你(几乎)可以使用你需要键入文档的任意字符,不需要实体或者字符编号。如果你不能或不愿使用UTF-8,数字式的字符编号是可以支持和安全使用的。

  SGML式注释的内容可能会被忽略

  SGML注释(HTML风格注释, <!-- 注释 -->)可能会(并且会)被浏览器当作注释,就算是在script或者style元素内部使用。

  在HTML中,普遍地把script和style的内容装入注释中,为的是在不认识script或style元素的浏览器中隐藏他们,并且在页面上把其内容生成平白文本。

  在XHTML中,这样做会引起浏览器忽略掉注释里的任何内容。

  在老的浏览器中隐藏script和style的习惯可以追溯到1990年代中期。我的经验是,有如此表现的浏览器是十分罕见的,所以你可以安全地忽略它们,并且停止在脚本和样式中装入SGML式注释,就算你使用的是HTML。

  脚本和样式元素的内容也被当作XML

  样式和脚本元素是PCDATA(parsed character data,解析字符数据)块,不是CDATA(character data,字符数据)块。因此,在其内看起来像XML的任何东西都会被当作XML来解析,并且会引发错误除非是良构的。

  为了在script或style块中使用<、&或者--,你需要用CDATA :

<script type="text/javascript">
<![CDATA[
...
]]>
</script>

  在CDATA里,你可以任何顺序的字符,它们不会被当作XML来解析(除了结束CDATA部分]]>)。

  需要以text/html发送的文档中,CDATA部分的起始和结束标签需要注释掉,以便在不能处理CDATA部分的浏览器中隐藏:

<script type="text/javascript">
// <![CDATA[
...
// ]]>
</script>
<style type="text/css">
/* <![CDATA[ */
...
/* ]]> */
</style>

如果要确保很老的浏览器隐藏CDATA部分,需要使用更为复杂的方法,像在Ian Hickson的Sending XHTML as text/html Considered Harmful中描述的那样:

<script type="text/javascript">
<!--//--><![CDATA[//><!--
...
//--><!]]>
</script>
<style type="text/css">
<!--/*--><![CDATA[/*><!--*/
...
/*]]>*/-->
</style>

  一个更好的办法可能是在发送text/html的文档前使用content negotiation脚本来删除任何CDATA部分。

  当然,最聪明和安全的途径是把所有的CSS和JavaScript都移动到外部文件中,但不总是现实的做法。

  没有会自动补全的元素

  在HTML中,假如表格的tbody元素漏写的话浏览器会自动补全,而XHTML不会。如果你没有清楚地添加tbody,它就不会出现。在编写CSS选择器和JavaScript的时候请铭记在心。

  用document.write编写的脚本不再工作

  在XHTML中使用JavaScript,document.write不会工作。Ian Hickson在Why document.write() doesn’t work in XML解释了原因。你需要使用document.createElementNS()代替。关于更多可以在Experts Exchange中的论坛主题中找到。

  这也是Google AdSense不在XHTML中工作的原因之一。那些希望以application/xhtml+xml伺服XHTML并且使用Google广告的人,这儿有一个解决办法:Simon Jessey的Making AdSense work with XHTML。尽管有点麻烦,但还是工作了(我在这里也使用了),同时被Google所认可。

  引入样式元素

  在XHTML中,为了兼容定义CSS规则的XML方法,你应该使用XML样式表声明(访问 XHTML 1.0, Second Edition: Referencing Style Elements when serving as XML的XML样式表声明和Associating Style Sheets with XML documents的xml-stylesheet处理说明)。要载入外部CSS文件,我们需要使用style元素,同时应该使用XML样式表声明来引入样式元素。为此,使用id属性给style元素一个分解的标识符,然后在XML样式表声明中引入该标识符:

 

<?xml-stylesheet href=”stylesheet1.css” type=”text/css”?>
<?xml-stylesheet href=”#stylesheet2” type=”text/css”?>
<!DOCTYPE html
PUBLIC “-//W3C//DTD
XHTML 1.0 Strict//EN”
“http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd”>
<html xmlns=”http://www.w3.org/1999/xhtml” xml:lang=”en”
lang=”en”>
<head>
<title>XML stylesheet declaration</title>
<style type=”text/css” id=”stylesheet2”>
@import “stylesheet2.css”;
</style>
</head>

  我不知道在实际中究竟有多必要,并且不使用XML样式表声明的话会有什么问题。或许有人会指点我的。

  CSS的应用规则有些不一样

  CSS应用到body的性质(property)并不应用到XHTML的整个文档。最值得注意的是应用背景颜色或者图片。在HTML中,应用到body元素的背景将会覆盖整个页面。在XHTML中,你必须同时样式化html。在Juicy Studio的CSS body Element Test中有这个行为的演示。

  在XHTML中作为CSS规则的元素和属性名字是大小写敏感的(而且必须是小写的)。避免问题最简单的办法是,不管在HTML,XHTML还是CSS中所有东西都保持小写。

有挑战,但不是不可能

  当我开始为兼容的浏览器伺服XHTML为application/xhtml+xml时,在作出决定前假如我能读到想这篇一样的文章,或许我的头痛可以减轻不少。我甚至考虑使用HTML 4.01 Strict。虽然如此,我还是从经验中学到不少,而学习总是一个好东西。

  正确地使用真正的XHTML,十分希望这篇文章能为你提供一些更有用的信息,并且可以为是否需要走这条路提供更多有根据的决定。

  HTML和XHTML可能比我在这里提到的还有更多地不同,所以在这里把你在使用application/xhtml+xml的XHTML时遇到的问题提出来,如果你知道任何的错误或者忽略,务必告诉我。

时间: 2025-01-21 08:35:43

正确使用XHTML的冒险的相关文章

正确使用XHTML的冒险以及解决办法

xhtml|解决 我使用XHTML有些年了,但直至去年夏天我才着眼于如何正确使用,那就是说,以application/xhtml+xml的MIME类型来伺服(server)它.我知道我碰到问题的一些,但问题远非如此.就如你即将发现的一样,当你开始使用真正的XHTML,你会遭遇很多似乎细小但让人困惑的问题. 请注意这不是一篇讨论支持或反对使用XHTML的文章.我只是写下我所知道的潜在的易犯错误,并且让你自己来决定自己的选择:HTML 4.01,为所有浏览器伺服为text/html的XHTML 1.

XHTML 1.0:标记新的开端

xhtml 新标准的熟悉和入门内容: 还在用 HTML 编写文档?如果是的话,就不符合当前标准了.2000 年 1 月 26 日,XHTML 1.0 成为万维网联盟(W3C) 的建议.根据 W3C,HTML 不再是 Web 标记标准.取而代之,XHTML 1.0 已替代旧宠儿,标志着通信技术令人兴奋的新时代已经来临. 那么,XHTML 1.0 到底是什么?对 Web 开发人员来说,它意味着什么?下面从 W3C 的描述讲起:XHTML 1.0 是 XML 应用程序的 HTML 再形成.这意味着,如

HTML和XHTML的区别

这篇文章主要阐述 HTML 和 XHTML 的区别.简单来说,XHTML 可以认为是 XML 版本的 HTML,为符合 XML 要求,XHTML 语法上要求更严谨些. 以下是 XHTML 相对 HTML 的几大区别: XHTML 要求正确嵌套 XHTML 所有元素必须关闭 XHTML 区分大小写 XHTML 属性值要用双引号 XHTML 用 id 属性代替 name 属性 XHTML 特殊字符的处理 XHTML 要求正确嵌套 以下是正确的嵌套: <p>网页教学网<strong>更新

HTML 和 XHTML 区别

这篇文章主要阐述 HTML 和 XHTML 的区别.简单来说,XHTML 可以认为是 XML 版本的 HTML,为符合 XML 要求,XHTML 语法上要求更严谨些. 以下是 XHTML 相对 HTML 的几大区别: XHTML 要求正确嵌套 XHTML 所有元素必须关闭 XHTML 区分大小写 XHTML 属性值要用双引号 XHTML 用 id 属性代替 name 属性 XHTML 特殊字符的处理 XHTML 要求正确嵌套 以下是正确的嵌套: <p>网页教学网<strong>更新

Html,sHtml,XHtml区别分析

如:<u>这个没有结束符浏览器也认识 shtml基于server side include(ssi) ,当有服务器端可执行脚本时候被当做一种动态编程语言看待,可以include,当不包含服务器端脚本时候和html没区别 xhtml基本w3c标准,遵循严格的xml格式,可以认为是一种html向xml的过渡,语法格式要求严格 xhtml<p>必须有</p>结束符(所有元素必须关闭) xhtml<p><strong></strong><

XHTML 1.0:标记新的开端_XML/RSS

新标准的熟悉和入门 内容: 还在用 HTML 编写文档?如果是的话,就不符合当前标准了.2000 年 1 月 26 日,XHTML 1.0 成为万维网联盟(W3C) 的建议.根据 W3C,HTML 不再是 Web 标记标准.取而代之,XHTML 1.0 已替代旧宠儿,标志着通信技术令人兴奋的新时代已经来临. 那么,XHTML 1.0 到底是什么?对 Web 开发人员来说,它意味着什么?下面从 W3C 的描述讲起:XHTML 1.0 是 XML 应用程序的 HTML 再形成.这意味着,如果用 XH

XML与其相关技术(2)

xml <?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />  var xmlfile=new ActiveXObject("Microsoft.xmldom"); xmlfile.load("2.xml"); var xslfile=new ActiveXObject("Microsoft.xmldom"); xs

css初学者快速参考

在使用CSS建站时,您肯定遇到过形形色色的布局问题,最后可能被搞得焦头烂额. 在使用CSS建站时,您肯定遇到过形形色色的布局问题,最后可能被搞得焦头烂额.本文的目的是让您的设计过程更为容易,当您遇到困难时为您提供快速参考.有疑问,先验证 在调试时,先对您的代码进行验证往往能省去不少麻烦事.格式不正确的XHTML/CSS 会导致许多布局上的错误. 在其他浏览器中进行测试之前,请先在最先进的浏览器中撰写和测试CSS代码,而不是相反. 如果您在破旧的浏览器中编写和测试,你的代码就不得不依赖那个破旧浏览

锦囊妙计 CSS实现样式布局22招

css 在使用CSS建站时,您肯定遇到过形形色色的布局问题,最后可能被搞得焦头烂额.本文的目的是让您的设计过程更为容易,当您遇到困难时为您提供快速参考. 1.有疑问,先验证 在调试时,先对您的代码进行验证往往能省去不少麻烦事.格式不正确的XHTML/CSS 会导致许多布局上的错误.在其他浏览器中进行测试之前,请先在最先进的浏览器中撰写和测试CSS代码,而不是相反. 如果您在破旧的浏览器中编写和测试,你的代码就不得不依赖那个破旧浏览器的糟糕的显示,然后在符合标准的浏览器中进行测试,看到显示结果"不