python正则表达式修复网站文章字体不统一的解决方法_python

  网站的大框架下有定义的字体,包括字体大小和颜色等,用户发布文章的时候可能是从其他网站复制过来的文本,复制的过程也保留了字体描述信息。当文章在页面上显示的时候,默认先会使用文章中定义的字体,如果文章中字体不存在的话才显示大框架下定义的全局字体。因此网站的内容就会显得很乱,有的文章字体很大,有的文章字体很小,不美观。能统一的话就好了!

  我对html和css等不是很熟,不知道是否能设置一下让文章中定义的字体内容失效。

  笨人有笨办法,统一修改文章,将用户的对字体的定义全部删除!哈哈!如果手工完成的话,这可是一个相当繁重的任务,要首先预览页面,如果不统一的话就修改字体,幸好编辑器里面有个“清除格式”选项,全选文本,点一下就OK了,然后再保存……也很麻烦

  如果仅仅是修改字体的话,最省事的方法当然是直接修改数据库,从数据库将文章提取出来,删除和字体相关的标签,然后再写回数据库。

  专门查了一下html参考手册,对字体的定义有两种方法:

1.是用<font>标签,例如:

复制代码 代码如下:

<p>
<font size="2" face="Verdana">
This is a paragraph.
</font>
</p>

<p>
<font size="3" face="Times">
This is another paragraph.
</font>
</p>

这种方法是不推荐使用的

2.使用style定义,例如:

复制代码 代码如下:

<p style="font-family:verdana;font-size:80%;color:green">
This is a paragraph with some text in it. This is a paragraph with some text in it. This is a paragraph with some text in it. This is a paragraph with some text in it.
</p>

只要将字体的定义部分删除就可以了,用python的正则表达式模块进行替换无压力:

复制代码 代码如下:

def format(data):
    '''将font标签和style标签全部删除'''
    p = re.compile(r'<font .*?>|</font>|style=\".*?\"')
    ret = p.sub('',data)
    if ret != data:
        return retelse:
        return None

python处理数据库相关操作时要注意更新数据方法,可以参考这篇文章:http://www.cnblogs.com/ma6174/archive/2013/02/21/2920126.html

时间: 2024-09-20 00:41:07

python正则表达式修复网站文章字体不统一的解决方法_python的相关文章

使用Python脚本实现批量网站存活检测遇到问题及解决方法_python

做渗透测试的时候,有个比较大的项目,里面有几百个网站,这样你必须首先确定哪些网站是正常,哪些网站是不正常的.所以自己就编了一个小脚本,为以后方便使用. 具体实现的代码如下: #!/usr/bin/python # -*- coding: UTF-8 -*- ''' @Author:joy_nick @博客:http://byd.dropsec.xyz/ ''' import requests import sys f = open('url.txt', 'r') url = f.readline

python logging 日志轮转文件不删除问题的解决方法_python

前言 最近在维护项目的python项目代码,项目使用了 python 的日志模块 logging, 设定了保存的日志数目, 不过没有生效,还要通过contab定时清理数据. 分析 项目使用了 logging 的 TimedRotatingFileHandler : #!/user/bin/env python # -*- coding: utf-8 -*- import logging from logging.handlers import TimedRotatingFileHandler l

Python首次安装后运行报错(0xc000007b)的解决方法_python

错误提示如下: 其实这是一个挺常见的系统报错,缺乏VC++库. 我安装的是python3.5.2,这个版本需要的vc版本是2015的了,下载:Microsoft Visual C++ 2015 安装完后发现就正常了: 总结 通过以上的方法就能轻松解决首次安装Python后运行报错的问题,希望本文的内容对同样遇到这个问题的朋友们能有所帮助,如果有疑问大家可以留言交流,小编会尽快给大家回复.

淘宝客网站被百度K站的解决方法

很多的淘宝客站长都发现了网站被百度又K了,从去年的618到809到今年的1月6号,一共三次的K站,到底是真是如坊间传闻针对淘宝的吗?那么有哪些现象可以定义为被K了呢?被K站后的共性有哪些呢?下面来介绍一下淘宝客网站被百度K站的解决方法. 一 百度K站是否针对淘宝客网站 对于这个问题,从不同的角度来看,可以说是,但也可以说不是,百度半年来的三次K站主要是针对垃圾站,站群站,过度优化站等,而同时也做了一次清理,把淘宝客等一些竞争对手的下属网站清理了一批,其中也有一些是被认定为垃圾站,而这在坊间就被传

网站影响搜索引擎收录原因及解决方法

对于百度近期算法调整,对新站收录时间大大提高,一般网站多数引下蜘蛛三天内就能收录了首页,免去众多站长因百度长时间不收录而困扰.惊喜之余却有另一个烦劳困扰着我们,为什么百度收录了首页不收录内页.本人认为这只是百度对新站收录审核调整的关系. 以前对新站检测不通过不放出,现在是只要站不涉及黄.毒.赌以及扰乱社会治安或者危害社会的内容,百度都会在第一时间收录首页,然后对新站设定有一个观察期,过了这个观察期,自然就会放出内页.在这个观察期期间,我们这要做好网站每天定时更新原创,有续的增加网站外链.等待1-

总结:网站被K的原因与解决方法

中介交易 SEO诊断 淘宝客 云主机 技术大厅 最近,随着百度更新频率不断提高,很多网站站长都会在抱怨网站被K了,或者很好的排名变成了0,针对于这样的情况,我们来仔细的分析总结一下网站被K 的原因与解决方法. 首先我们应该了解最重要的一个知识点:百度快照. 百度快照是什么?百度百科中有一个简短的解释,这里我在为大家用自己的理解讲述一遍:百度快照其实是收录网站的过程中的一个备份页,这个备份页不仅仅可以在我们无法打开网站的时候,点击百度快照就可以看到网站除图片.FLASH等,虽然我们只能看到纯文本内

合肥SEO浅析影响网站关键词排名的因素及解决方法

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 本人从开始学习SEO已经快一年的时间了,在这一年里每天都会上A5.落伍.SEOWHY等学习一些SEO的知识,在学习的同时进行一些总结.今天合肥SEO根据学习总结的知识以及一些实战经验浅析影响网站关键词排名的因素. 影响网站关键词排名的因素有以下几点: 一.关键词分布与密度 关键词分布的位置与密度是影响网站排名的第一因素.解决方法是在建站前期规

电脑中IE11浏览器被银行网站识别为火狐浏览器的解决方法

  电脑中IE11浏览器被银行网站识别为火狐浏览器的解决方法         1.网站是通过User-Agent字符串来识别浏览器类型的,IE11之前的IE6/7/8/9/10浏览器的User-Agent字符串一般如下: Mozilla/5.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/6.0) 可是到了IE11就革命性地变成了: Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; rv:11.0)

网站空间流量超出原因及解决方法

中介交易 http://www.aliyun.com/zixun/aggregation/6858.html">SEO诊断 淘宝客 云主机 技术大厅 是真的很忙,还是我阿光越来越懒了,想想自己都不知道什么时候写过东西了.今天也是在工作中碰到了一个之前从来都没有碰到过的问题--网站空间流量超了,因于在这么晚的深夜给大家分享下"网站空间流量超出原因及解决方法?" 很多人可能都没有碰到过这个问题,那是因为你的网站没有什么比较耗流量的东西,或者是你们用是二.三线的服务商的网站空