使用Python操作Elasticsearch数据索引的教程_python

Elasticsearch是一个分布式、Restful的搜索及分析服务器，Apache Solr一样，它也是基于Lucence的索引服务器，但我认为Elasticsearch对比Solr的优点在于：

轻量级：安装启动方便，下载文件之后一条命令就可以启动；
Schema free：可以向服务器提交任意结构的JSON对象，Solr中使用schema.xml指定了索引结构；
多索引文件支持：使用不同的index参数就能创建另一个索引文件，Solr中需要另行配置；
分布式：Solr Cloud的配置比较复杂。

环境搭建

启动Elasticsearch，访问端口在9200，通过浏览器可以查看到返回的JSON数据，Elasticsearch提交和返回的数据格式都是JSON.

>> bin/elasticsearch -f

安装官方提供的Python API，在OS X上安装后出现一些Python运行错误，是因为setuptools版本太旧引起的，删除重装后恢复正常。

>> pip install elasticsearch

索引操作

对于单条索引，可以调用create或index方法。

from datetime import datetime
from elasticsearch import Elasticsearch
es = Elasticsearch() #create a localhost server connection, or Elasticsearch("ip")
es.create(index="test-index", doc_type="test-type", id=1,
  body={"any":"data", "timestamp": datetime.now()})

Elasticsearch批量索引的命令是bulk，目前Python API的文档示例较少，花了不少时间阅读源代码才弄清楚批量索引的提交格式。

from datetime import datetime
from elasticsearch import Elasticsearch
from elasticsearch import helpers
es = Elasticsearch("10.18.13.3")
j = 0
count = int(df[0].count())
actions = []
while (j < count):
   action = {
        "_index": "tickets-index",
        "_type": "tickets",
        "_id": j + 1,
        "_source": {
              "crawaldate":df[0][j],
              "flight":df[1][j],
              "price":float(df[2][j]),
              "discount":float(df[3][j]),
              "date":df[4][j],
              "takeoff":df[5][j],
              "land":df[6][j],
              "source":df[7][j],
              "timestamp": datetime.now()}
        }
  actions.append(action)
  j += 1

  if (len(actions) == 500000):
    helpers.bulk(es, actions)
    del actions[0:len(actions)]

if (len(actions) > 0):
  helpers.bulk(es, actions)
  del actions[0:len(actions)]

在这里发现Python API序列化JSON时对数据类型支撑比较有限，原始数据使用的NumPy.Int32必须转换为int才能索引。此外，现在的bulk操作默认是每次提交500条数据，我修改为5000甚至50000进行测试，会有索引不成功的情况。

#helpers.py source code
def streaming_bulk(client, actions, chunk_size=500, raise_on_error=False,
    expand_action_callback=expand_action, **kwargs):
  actions = map(expand_action_callback, actions)

  # if raise on error is set, we need to collect errors per chunk before raising them
  errors = []

  while True:
    chunk = islice(actions, chunk_size)
    bulk_actions = []
    for action, data in chunk:
      bulk_actions.append(action)
      if data is not None:
        bulk_actions.append(data)

    if not bulk_actions:
      return

def bulk(client, actions, stats_only=False, **kwargs):
  success, failed = 0, 0

  # list of errors to be collected is not stats_only
  errors = []

  for ok, item in streaming_bulk(client, actions, **kwargs):
    # go through request-reponse pairs and detect failures
    if not ok:
      if not stats_only:
        errors.append(item)
      failed += 1
    else:
      success += 1

  return success, failed if stats_only else errors

对于索引的批量删除和更新操作，对应的文档格式如下，更新文档中的doc节点是必须的。

{
  '_op_type': 'delete',
  '_index': 'index-name',
  '_type': 'document',
  '_id': 42,
}
{
  '_op_type': 'update',
  '_index': 'index-name',
  '_type': 'document',
  '_id': 42,
  'doc': {'question': 'The life, universe and everything.'}
}

常见错误

SerializationError：JSON数据序列化出错，通常是因为不支持某个节点值的数据类型
RequestError：提交数据格式不正确
ConflictError：索引ID冲突
TransportError：连接无法建立

性能

上面是使用MongoDB和Elasticsearch存储相同数据的对比，虽然服务器和操作方式都不完全相同，但可以看出数据库对批量写入还是比索引服务器更具备优势。

Elasticsearch的索引文件是自动分块，达到千万级数据对写入速度也没有影响。但在达到磁盘空间上限时，Elasticsearch出现了文件合并错误，并且大量丢失数据（共丢了100多万条），停止客户端写入后，服务器也无法自动恢复，必须手动停止。在生产环境中这点比较致命，尤其是使用非Java客户端，似乎无法在客户端获取到服务端的Java异常，这使得程序员必须很小心地处理服务端的返回信息。

以上是小编为您精心准备的的内容，在的博客、问答、公众号、人物、课程等栏目也有的相关内容，欢迎继续使用右上角搜索按钮进行搜索python
数据库
elasticsearch 建索引、elasticsearch 索引、elasticsearch 多索引、elasticsearch 删索引、elasticsearch清索引，以便于您获取更多的相关知识。

时间： 2024-11-01 01:00:15

使用Python操作Elasticsearch数据索引的教程_python的相关文章

python操作 hbase 数据的方法_python

配置 thrift python使用的包 thrift 个人使用的python 编译器是pycharm community edition. 在工程中设置中,找到project interpreter, 在相应的工程下,找到package,然后选择 "+" 添加, 搜索 hbase-thrift (Python client for HBase Thrift interface),然后安装包. 安装服务器端thrift. 参考官网,同时也可以在本机上安装以终端使用. thrift Ge

Python中用Spark模块的使用教程_python

在日常的编程中,我经常需要标识存在于文本文档中的部件和结构,这些文档包括:日志文件.配置文件.定界的数据以及格式更自由的(但还是半结构化的)报表格式.所有这些文档都拥有它们自己的"小语言",用于规定什么能够出现在文档内.我编写这些非正式解析任务的程序的方法总是有点象大杂烩,其中包括定制状态机.正则表达式以及上下文驱动的字符串测试.这些程序中的模式大概总是这样:"读一些文本,弄清是否可以用它来做些什么,然后可能再多读一些文本,一直尝试下去." 解析器将文档中部件和结

Python操作Access数据库基本步骤分析_python

本文实例分析了Python操作Access数据库基本步骤.分享给大家供大家参考,具体如下: Python编程语言的出现,带给开发人员非常大的好处.我们可以利用这样一款功能强大的面向对象开源语言来轻松的实现许多特定功能需求.比如Python操作Access数据库的功能实现等等.在Python操作Access数据库之前,首先,你应安装了Python和Python for Windows extensions. 步骤之1.建立数据库连接 import win32com.client conn = wi

Python实现命令行通讯录实例教程_python

1.实现目标编写一个命令行通讯录程序,可以添加.查询.删除通讯录好友及电话 2.实现方法创建一个类来表示一个人的信息.使用字典存储每个人的对象,名字作为键. 使用pickle模块永久地把这些对象存储下来. 使用字典内建的方法添加.删除修改人员信息. 3.思维导图 4.编写伪代码 # 1.创建字典用来存储通讯录信息 # 2.创建人员类,包含姓名.关系.电话三个属性 # 3.创建操作类,包含增加.查询.删除人员,退出,保存并退出五个方法 # 4.程序运行 # 5.判断通讯录文件是否存在 # 6.

Python处理JSON数据并生成条形图_python

一.JSON 数据准备首先准备一份 JSON 数据,这份数据共有 3560 条内容,每条内容结构如下: 本示例主要是以 tz(timezone 时区) 这一字段的值,分析这份数据里时区的分布情况. 二.将 JSON 数据转换成 Python 字典代码如下: 三.统计 tz 值分布情况,以"时区:总数"的形式生成统计结果要想达到这一目的,需要先将 records 转换成 DataFrame,DataFrame 是 Pandas 里最重要的数据结构,它可以将数据以表格的形式表示:然后

Python修改Excel数据的实例代码_python

在前面的文章中介绍了如何用Python读写Excel数据,今天再介绍一下如何用Python修改Excel数据.需要用到xlutils模块.下载地址为https://pypi.python.org/pypi/xlutils.下载后执行python setup.py install命令进行安装即可.具体使用代码如下: 复制代码代码如下: #-*-coding:utf-8-*-from xlutils.copy import copy # http://pypi.python.org/pypi

python操作日期和时间的方法_python

不管何时何地,只要我们编程时遇到了跟时间有关的问题,都要想到 datetime 和 time 标准库模块,今天我们就用它内部的方法,详解python操作日期和时间的方法.1.将字符串的时间转换为时间戳复制代码代码如下: 方法:a = "2013-10-10 23:40:00"#将其转换为时间数组import timetimeArray = time.strptime(a, "%Y-%m-%d %H:%M:%S")#转换为时间戳:timeStamp = int(t

在Python中利用Into包整洁地进行数据迁移的教程_python

动机我们花费大量的时间将数据从普通的交换格式(比如CSV),迁移到像数组.数据库或者二进制存储等高效的计算格式.更糟糕的是,许多人没有将数据迁移到高效的格式,因为他们不知道怎么(或者不能)为他们的工具管理特定的迁移方法. 你所选择的数据格式很重要,它会强烈地影响程序性能(经验规律表明会有10倍的差距),以及那些轻易使用和理解你数据的人. 当提倡Blaze项目时,我经常说:"Blaze能帮助你查询各种格式的数据."这实际上是假设你能够将数据转换成指定的格式. 进入into项目 into

Python操作Mysql数据库实例代码教程

实例1.取得MYSQL的版本 # -*- coding: UTF-8 -*- #安装MYSQL DB for python import MySQLdb as mdb con = None try: #连接mysql的方法:connect('ip','user','password','dbname') con = mdb.connect('localhost', 'root', 'root', 'test'); #所有的查询,都在连接con的一个模块cu

猜你喜欢

软件工程之概述

人生总是在不断的经历,又不断的前进,敲机房收费系统你百感交集,但收获后的喜悦让你嘴角扬起弧线,机房收费系统宛如IT路上的一瞥惊鸿,那一种莫名的纠结,那一个个窗体的交融,滋生出万般滋味,来 ...

android seekbar-android关于自定义seekbar控件的问题（将横向seekbar改成竖向seekbar）

问题描述 android关于自定义seekbar控件的问题(将横向seekbar改成竖向seekbar) 自定义了个seekbar,将横向的seekbar改为了竖向的seekbar,目前只支持触摸,但 ...

利用jdbc连接db2数据库

问题描述利用jdbc连接db2数据库数据库连接配置如下: jdbc.driver=com.ibm.db2.jcc.DB2Driver jdbc.url=jdbc:db2://localhost:5 ...

网站被攻击带来深刻的教训

网站有漏洞,被挂马,是一个网站站长最不原意看到的事情,轻的,网站被搜索引擎降权,更新网站快照的时间延长了,严重的,被搜索引擎K网站,让站长辛辛苦苦经营做的网站,毁于一旦.这个是我亲身体会的. 网站被攻 ...

DELPHI在状态栏中显示进程条

经常上网的朋友可能早就已经发现,在一些浏览器的底部会在某些情况下动态显示一个进程条,比如在显示网页的时候,如果时间比较长,就会出现一个一格一格前进的,用以提醒用户已经有多少数据被下传下来.它不仅仅出现 ...

将Java Studio Creator 2的项目转换为NetBeans IDE 6.0项目

在你使用本教程之前, 你需要在你的系统上安装 NetBeans IDE 6.0 的 Web 功能模块 (Web & Java EE 或者 Full install) , 在 NetBeans ...

体验小巧简洁易用格子啦浏览器

最近看到好友都在用体积小巧浏览速度快的浏览器,觉得挺有意思,朋友介绍说这是一款新发布的格子啦浏览器,体积特别小,仅有851KB,启动.浏览网页快如光速.如果经常出外的朋友也可以拷贝到U盘里随时使用.而 ...

javascript判断并获取注册表中可信任站点的方法

本文实例讲述了javascript判断并获取注册表中可信任站点的方法.分享给大家供大家参考.具体分析如下: 判断可信任站点,首先要在注册表中找到可信任站点在注册表中的位置,如下: (1)域名作为可 ...

解决windows 7资源管理器已停止工作问题

方法: 1.打开任务管理器,点"文件",再点"新建任务" ,在"打开"后面打上 explorer.exe 确定 2.找到WinRAR,点&q ...

PS与LR打造别样荷花照片技巧

荷花的气质高贵脱俗,出淤泥而不染.而荷花的韵味已经不是单纯靠摄影技巧就能表现出来的了,独特的天气因素.多角度机位.形态姣好的荷花.纯熟的摄影技巧都缺一不可.但没有后期的渲染和创作,也难以让作品出彩带来 ...

教你在Word2007保护自己的文档使用隐私

每次我们使用文档保存后,word会自动记录下来,在点击office按钮的时候,这些文档会在[最近使用的文档]中展现出来.但很多时候,出于隐私保护的需求,我们不想让同样使用这个word的人看到,就需 ...

qsv格式转换mp4教程

qsv 是爱奇艺公司下一种正版的视频加速格式,所以受到版权的保护,故只能在爱奇艺的播放器上播放.那想把奇艺下载的qsv格式视频转换成常用的mp4格式有什么方法呢?这就是要用到奇艺产品旗下专业的&qu ...

浏览器中右键没有反应怎么办？

遇到这种问题,可能是浏览器的组建遭到了破坏,建议你先从浏览器自身入手解决: 第一,一些主流的浏览器均有自己的一些修复方法,如360安全浏览默,如果出现问题的话我们可以直接进行浏览器自身的修复工具修 ...

电脑桌面图标点击没反应

电脑开机使用一段时间后,会出现点击或者右击桌面图标或者任务栏图标没有反应的情况,那么应该怎么修复呢? 解决方案: 1.按[CTRL]+[ALT]+[DEL]组合键弹出任务管理器. 2.选择" ...

acm题，测试很多数据都没错，一提交就WA

问题描述 acm题,测试很多数据都没错,一提交就WA 1C /*Judge Info Memory Limit: 32768KBCase Time Limit: 1000MSTime Limit: 1 ...

用c#如何提取百度的返回的链接

问题描述用c#如何提取百度的返回的链接现在百度用js返回页面,通过正则就提取不到结果了.有什么办法提取到链接吗? 解决方案坐等高手,用fiddler也没找到返回数据的地方... 解决方案二: 应 ...

代码-JAVA中如何计数或如何进行标记

问题描述 JAVA中如何计数或如何进行标记例如我要计算出2015-1900,年之间所有闰年的个数或标记出闰年,该利用哪些代码完成解决方案 public class SelectSort { pub ...

第十二章 hibernate缓存

1.一级缓存(Session级缓存) 一级缓存很短和session的生命周期一致,因此也叫session级缓存或事务级缓存那些方法支持一级缓存: *get() *load() *iterate(查询 ...

从五大要素切入应用告别SOA幻灭的谷底期

本文讲的是从五大要素切入应用告别SOA幻灭的谷底期,[IT168 资讯]严峻的经济形势,缺乏有说服性的案例使得SOA开始面临质疑,有分析师断言SOA已死,并批评SOA项目浪费了企业大量的投资. 这真 ...

模拟java.util.Collection一些简单的用法

/* 需求:模拟java.util.Collection一些简单的用法! 注意:java虚拟机中并没有泛型类型的对象.泛型是通过编译器执行一个被称为类型擦除的前段转换来实现的. 1)用泛型的原生类 ...

杭州鼎楚：厉伟的下一个“荣信”？

周惟菁 12年后厉伟的又一单 12年前,厉伟在清洁技术领域投资的第一单荣信电子,据报道其回报达10倍以上. 12年后,厉伟又下一单,旗下的松禾资本入股杭州鼎楚科技有限公司(以下简称"鼎楚&q ...

《编译与反编译技术实战》——1.5　编译器LLVM

1.5 编译器LLVM LLVM是构架编译器的框架系统,由C++编写而成,用于优化以任意程序语言编写的程序的编译时间.链接时间.运行时间以及空闲时间,对开发者保持开放,并兼容已有脚本.LLVM计划启动 ...

视频-Python opencv帧怎么显示在GUI 中？

问题描述 Python opencv帧怎么显示在GUI 中? 现在要在做,将摄像头提取的视频处理后显示在python 的GUI 中,计划在GUI中可以选择对视频处理的方式,请问大神应该怎么做? ...

国内资源价格改革步伐加快

2007年,资源产品价格上涨的压力让很多人记忆犹新.2007年12月24日,国务院出台<关于促进资源型城市可持续发展的若干意见>(简称<意见>),首次明确了未来资源性产品的成 ...

link中可以将同一个内存分配给不同的对象么？怎么实现的？

问题描述 link中可以将同一个内存分配给不同的对象么?怎么实现的? link中可以将同一个内存分配给不同的对象么?怎么实现的? 解决方案同时让多个引用指向同一个对象就是了.怎么可能重复分配呢.

“游在内蒙古”网站正式开通上线

近日,由内蒙古自治区旅游局和新华社内蒙古分社合作共建的"游在内蒙古"网站(www.jcnmg.com)正式开通上线. "游在内蒙古"网站旨在为旅客提供细致.周到 ...

PHP生成唯一订单号的6种方法

做商城类项目经常需要生成唯一订单号,下面来个汇总! 方法一: return date('Ymd') . str_pad(mt_rand(1, 99999), 5, '0', STR_PAD_LEFT) ...

详解在.net中读写config文件的各种方法_实用技巧

今天谈谈在.net中读写config文件的各种方法. 在这篇博客中,我将介绍各种配置文件的读写操作. 由于内容较为直观,因此没有过多的空道理,只有实实在在的演示代码, 目的只为了再现实战开发中的各种场 ...

输出流-关于汉诺塔递归输出cout的问题

问题描述关于汉诺塔递归输出cout的问题 #include<iostream> using namespace std; void hanoi(int n,char a,char b,c ...

android链接sqlserver

问题描述 android链接sqlserver 因为项目开发android app和网站共用sqlserver数据库,所以需要android 链接sqlserver数据库, 哪个大神指导一下 ,或者 ...

热搜