python 爬取html代码后,入库问题

问题描述

python 爬取html代码后,入库问题

我用python 爬取html代码,并把代码存入数据库,老是存不进去。。因为里面有单引号,双引号等。,。,一系列特殊字符,有没有大神知道什么类库,,可以完成html的转义(能入库的那种)。。跪求

解决方案

单引号,双引号等字符可以存进数据库啊。
你可以在你的数据库里设置编码为utf-8。

解决方案二:

数据库也可以存放这些字符的,只要你跟插入的数据库的引号等能否区分开,比如转义等

解决方案三:

可以去官方搜索下相关库文件(测试回答)

解决方案四:

可以去官方搜索下相关库文件(测试回答)

时间: 2024-11-02 16:58:07

python 爬取html代码后,入库问题的相关文章

Python爬取APP下载链接的实现方法_python

首先是准备工作 Python 2.7.11:下载python Pycharm:下载Pycharm 其中python2和python3目前同步发行,我这里使用的是python2作为环境.Pycharm是一款比较高效的Python IDE,但是需要付费. 实现的基本思路 首先我们的目标网站:安卓市场 点击[应用],进入我们的关键页面: 跳转到应用界面后我们需要关注三个地方,下图红色方框标出: 首先关注地址栏的URL,再关注免费下载按钮,然后关注底端的翻页选项.点击"免费下载"按钮就会立即下

通过抓取淘宝评论为例讲解Python爬取ajax动态生成的数据(经典)_AJAX相关

在学习python的时候,一定会遇到网站内容是通过 ajax动态请求.异步刷新生成的json数据 的情况,并且通过python使用之前爬取静态网页内容的方式是不可以实现的,所以这篇文章将要讲述如果在python中爬取ajax动态生成的数据. 至于读取静态网页内容的方式,有兴趣的可以查看本文内容. 这里我们以爬取淘宝评论为例子讲解一下如何去做到的. 这里主要分为了四步: 一 获取淘宝评论时,ajax请求链接(url) 二 获取该ajax请求返回的json数据 三 使用python解析json数据

微博爬虫-求助。用python爬取微博用户的粉丝列表及粉丝的粉丝列表

问题描述 求助.用python爬取微博用户的粉丝列表及粉丝的粉丝列表 急需一份能爬取微博用户的粉丝列表及对应粉丝的粉丝列表搭建一个实验平台,由于自己编程能力太弱,所以希望好心人能给一份相应的python代码(其他语言编写的能运行的也可),在线等,急求! 解决方案 Python:获取新浪微博用户的收听列表和粉丝列表微博粉丝 解决方案二: python爬取糗百 模式不变 改一下正则就可以 也可以用sqllite保存 .正则自己网上看一下就回了 解决方案三: urllib请求页面获取response

python爬取网站数据保存使用的方法_python

编码问题因为涉及到中文,所以必然地涉及到了编码的问题,这一次借这个机会算是彻底搞清楚了.问题要从文字的编码讲起.原本的英文编码只有0~255,刚好是8位1个字节.为了表示各种不同的语言,自然要进行扩充.中文的话有GB系列.可能还听说过Unicode和UTF-8,那么,它们之间是什么关系呢?Unicode是一种编码方案,又称万国码,可见其包含之广.但是具体存储到计算机上,并不用这种编码,可以说它起着一个中间人的作用.你可以再把Unicode编码(encode)为UTF-8,或者GB,再存储到计算机

Python爬取京东的商品分类与链接_python

前言 本文主要的知识点是使用Python的BeautifulSoup进行多层的遍历. 如图所示.只是一个简单的哈,不是爬取里面的隐藏的东西. 示例代码 from bs4 import BeautifulSoup as bs import requests headers = { "host": "www.jd.com", "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWe

利用Python爬取可用的代理IP_python

前言 就以最近发现的一个免费代理IP网站为例:http://www.xicidaili.com/nn/.在使用的时候发现很多IP都用不了. 所以用Python写了个脚本,该脚本可以把能用的代理IP检测出来. 脚本如下: #encoding=utf8 import urllib2 from bs4 import BeautifulSoup import urllib import socket User_Agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv

浅谈Python爬取网页的编码处理_python

背景 中秋的时候一个朋友给我发了一封邮件说他在爬链家的时候发现网页返回的代码都是乱码让我帮他参谋参谋(中秋加班真是敬业= =)其实这个问题我很早就遇到过之前在爬小说的时候稍微看了一下不过没当回事其实这个问题就是对编码的理解不到位导致的. 问题 很普通的一个爬虫代码代码是这样的 # ecoding=utf-8 import re import requests import sys reload(sys) sys.setdefaultencoding('utf8') url = 'http://j

python爬取页面数据错误,连续爬很多页数。我主要改变的是post里面的参数pageno

问题描述 python爬取页面数据错误,连续爬很多页数.我主要改变的是post里面的参数pageno 爬数据的时候,比如有800页数据要爬,爬到400多页会出现返回400错误,没有数据.但是如果将程序从400页到800再重新爬,又不会报错. 求解决方法

Python爬取三国演义的实现方法_python

本文的爬虫教程分为四部:      1.从哪爬 where      2.爬什么 what      3.怎么爬 how      4.爬了之后信息如何保存 save 一.从哪爬 三国演义 二.爬什么 三国演义全文 三.怎么爬 在Chrome页面打开F12,就可以发现文章内容在节点 <div id="con" class="bookyuanjiao"> 只要找到这个节点,然后把内容写入到一个html文件即可. content = soup.find(&q