scrapy自定义pipeline类实现将采集数据保存到mongodb的方法_python

本文实例讲述了scrapy自定义pipeline类实现将采集数据保存到mongodb的方法。分享给大家供大家参考。具体如下:

# Standard Python library imports
# 3rd party modules
import pymongo
from scrapy import log
from scrapy.conf import settings
from scrapy.exceptions import DropItem
class MongoDBPipeline(object):
  def __init__(self):
    self.server = settings['MONGODB_SERVER']
    self.port = settings['MONGODB_PORT']
    self.db = settings['MONGODB_DB']
    self.col = settings['MONGODB_COLLECTION']
    connection = pymongo.Connection(self.server, self.port)
    db = connection[self.db]
    self.collection = db[self.col]
  def process_item(self, item, spider):
    err_msg = ''
    for field, data in item.items():
      if not data:
        err_msg += 'Missing %s of poem from %s\n' % (field, item['url'])
    if err_msg:
      raise DropItem(err_msg)
    self.collection.insert(dict(item))
    log.msg('Item written to MongoDB database %s/%s' % (self.db, self.col),
        level=log.DEBUG, spider=spider)
    return item

希望本文所述对大家的python程序设计有所帮助。

以上是小编为您精心准备的的内容,在的博客、问答、公众号、人物、课程等栏目也有的相关内容,欢迎继续使用右上角搜索按钮进行搜索保存
, mongodb
, scrapy
, 采集数据
自定义类
scrapy pipeline、scrapy imagepipeline、scrapy item pipeline、scrapy filespipeline、scrapy 多个 pipeline,以便于您获取更多的相关知识。

时间: 2024-11-05 14:53:02

scrapy自定义pipeline类实现将采集数据保存到mongodb的方法_python的相关文章

Android实现内存中数据保存到sdcard的方法

本文实例讲述了Android实现内存中数据保存到sdcard的方法.分享给大家供大家参考,具体如下: public static void writeToSdCard(String s) { try { File dst = new File("/sdcard/test_sensor/" + mName + ".txt"); File parent = dst.getParentFile(); if(!parent.exists()) { parent.mkdirs

Python基于scrapy采集数据时使用代理服务器的方法_python

本文实例讲述了Python基于scrapy采集数据时使用代理服务器的方法.分享给大家供大家参考.具体如下: # To authenticate the proxy, #you must set the Proxy-Authorization header. #You *cannot* use the form http://user:pass@proxy:port #in request.meta['proxy'] import base64 proxy_ip_port = "123.456.7

python读取json文件并将数据插入到mongodb的方法_python

本文实例讲述了python读取json文件并将数据插入到mongodb的方法.分享给大家供大家参考.具体实现方法如下: #coding=utf-8 import sunburnt import urllib from pymongo import Connection from bson.objectid import ObjectId import logging from datetime import datetime import json from time import mktime

c#-如何把datagridview中的数据保存到SQL数据库中?VB.NET或C#

问题描述 如何把datagridview中的数据保存到SQL数据库中?VB.NET或C# 如下图:已经实现从EXCEL导入数据到Datagridview中,现在要把其中的数据保存到数据库的AAAie表里面.请用代码说明,谢谢. 解决方案 取数据用ado.net保存到SQL Server数据库.http://blog.csdn.net/lysc_forever/article/details/7697536 解决方案二: 方法1.创建一个数据库,表,表名自取,表的字段和Excel相同,取Excel

asp.net 把数据保存到xml 与txt文件的方法

 XML是一种数据描述语言,结构比较简单,不是专业人员也可以看得懂语言所描述的内容.XML 代表Extensible Markup Language(eXtensible Markup Language的缩写,意为可扩展的标记语言).XML是一套定义语义标记的规则,这些标记将文档分成许多部件并对这些部件加以标识.它也是元标记语言,即定义了用于定义其他与特定领域有关的.语义的.结构化的标记语言的句法语言. 保存XML数据的方法: 在ASP.NET 2.0中,使用"XmlDocument"

就是刚出来工作 经理今天安排了个任务 大致就是用NHibernate技术把从页面获得的数据保存到MYSQL数据库

问题描述 就是刚出来工作经理今天安排了个任务大致就是用NHibernate技术把从页面获得的数据保存到MYSQL数据库,给了时限半个月,有没有好心的大神帮帮我啊,这个技术一无所知,谢谢了 解决方案 解决方案二:我们从来瞧不上NHibernate,累赘得会死人的.要访问MySQL,读写一堆.net对象,直接写sql语句与之交互就行了.不用学习半个月,最多2天半就行了.解决方案三:建议你先把数据写到MySQL数据库中(创建1.2个数据表来保存你的数据),然后再开始考虑NHibernate.解决方案四

python读取json文件并将数据插入到mongodb的方法

 这篇文章主要介绍了python读取json文件并将数据插入到mongodb的方法,实例分析了Python操作json及mongodb数据库的技巧,需要的朋友可以参考下     本文实例讲述了python读取json文件并将数据插入到mongodb的方法.分享给大家供大家参考.具体实现方法如下: ? 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36

.Net中将图片数据保存到XML文档

xml|数据 因为最近要做的项目中,我要通过XML动态生成窗体,看了UI图样,我有些叫苦:我通过XML动态生成窗体,可是主窗体中UI要用图标来确定要使用的窗体,怎么才能使主窗体的图标也是动态加载而且图标和要生成的窗体还有关联呢?我又想到用XML,查MSDN,看到只有XmlTextWriter和XmlTextReader里分别有XmlTextWriter.WriteBase64和XmlTextReader.ReadBase64可以操作图片这种二进制字节的数据.但是XmlTextWriter和Xml

如何将List的数据保存到XML中

问题描述 如何将List的数据保存到XML中求代码!!!!!!!!! 解决方案 解决方案二:PrintWriterout=response.getWriter();StringBufferstrBuffer=newStringBuffer();strBuffer.append("<?xmlversion="1.0"encoding="UTF-8"?>")strBuffer.append("<root>"