nodejs爬虫抓取数据之编码问题_node.js

cheerio DOM化并解析的时候

1.假如使用了 .text()方法，则一般不会有html实体编码的问题出现

2.如果使用了 .html()方法，则很多情况下(多数是非英文的时候）都会出现，这时，可能就需要转义一番了

类似这些因为需要作数据存储，所有需要转换

复制代码代码如下:

Халк крушит. Новый способ исполнен

大多数都是(x)?\w+的格式

所以就用正则转换一番

var body = ....//这里就是请求后获得的返回数据，或者那些 .html()后获取的

//一般可以先转换为标准unicode格式（有需要就添加：当返回的数据呈现太多\\\u 之类的时）
body=unescape(body.replace(/\\u/g,"%u"));
//再对实体符进行转义
//有x则表示是16进制，$1就是匹配是否有x ，$2就是匹配出的第二个括号捕获到的内容，将$2以对应进制表示转换
body = body.replace(/(x)?(\w+);/g,function($,$1,$2){
        return String.fromCharCode(parseInt($2,$1?16:10));
       });

ok ～

当然了，网上也有很多个转换的版本，适用的就行了

后记：

当使用爬虫抓取网页数据时，cheerio模块是经常使用到底，它像jq那样方便快捷

（但有些功能并未支持或者换了某种形式，比如 jq的 jQuery('.myClass').prop('outerHTML') ，cheerio则等价于 jQuery.html('.myClass')http://www.mgenware.com/blog/?p=2514）

以上是小编为您精心准备的的内容，在的博客、问答、公众号、人物、课程等栏目也有的相关内容，欢迎继续使用右上角搜索按钮进行搜索爬虫
， nodejs
编码
nodejs爬虫抓取知乎、nodejs 爬虫、nodejs 爬虫框架、nodejs抓取动态网页、nodejs 抓取网页，以便于您获取更多的相关知识。

时间： 2024-11-02 15:41:49

nodejs爬虫抓取数据之编码问题_node.js

nodejs爬虫抓取数据之编码问题_node.js的相关文章

nodejs爬虫抓取数据乱码问题总结_node.js

用nodejs爬虫抓取网页，但提示无Post()函数

使用Python编写简单网络爬虫抓取视频下载资源_python

nodeJs爬虫获取数据简单实现代码_node.js

Java爬虫抓取视频网站下载链接_java

网页-如何网络爬虫抓取淘宝交易数据

源代码乱码问题-抓取数据乱码，不是编码问题

关于数据抓取时网页编码各不相同的问题

JAVA使用爬虫抓取网站网页内容的方法_java