ES快速入门,一篇就懂!

前言

什么是搜索

概念:输入关键字,获取到想要的关键字相关的信息

场景:

  • 站内搜索:个人博客搜索文章,电商网站搜索商品、订单等
  • 互联网搜索:百度、谷歌等

为什么常用数据库不适合做搜索

数据量小,简单的搜索功能时可以用到常用的数据库,如:后台管理系统里的常见的查询

  • 存储问题:数据量大的时候,比如上亿条数据的查询,就得去考虑分库分表
  • 性能问题:模糊查询(如:条件为 %包包%)时用不到索引导致全表查询,查询效率相当慢
  • 分词问题:当你输入关键字“LV包包”,常用数据库一般只能返回完全匹配“LV包包”的结果,而不会匹配返回“LV”或“包包”关键字的结果

什么是Lucene

Lucene是apache下的一个开源的,一套用java写的全文检索的工具包。

  • 什么是全文检索?
    非结构化数据(不定长或无固定格式的数据,如邮件,word文档等磁盘上的文件)中提取出的然后重新组织(分词)的信息,我们称之索引。先建立索引,再对索引进行搜索的过程就叫全文检索。

  • 什么是分词?
    将采集到的文档内容切分成一个一个的词。如“I like apples , i mean fruit”,根据一定的规则后分词为“i”、“like”、“apple”、“mean”、“fruit”。

倒排索引

Lucene中对文档检索基于倒排索引实现,并将它发挥到了极致。

什么是倒排索引

倒排索引是实现“单词-文档矩阵”的一种具体存储形式,通过倒排索引,可以根据单词快速获取包含这个单词的文档列表。
在这里插入图片描述
例如:

id 句子
1 I like apples
2 I dislike apples
3 I dislike apples too

如果要用单词作为索引,而句子的位置作为被索引的元素,那么索引就发生了倒置:

id 单词索引
I {1,2,3}
like {1}
apples {1,2,3}
dislike {2,3}
too {3}

如果要检索I dislike apples这句话,那么就可以这么计算 : {1,2,3} ^ {2,3} ^ {1,2,3} (^是交集)

为什么使用倒排索引

当用户在淘宝上搜索关键词“小米洗衣机”时,假如只存在正向索引(forward index),那么就需要扫描索引库中的所有文档,然后找出所有包含关键词“小米洗衣机”的文档,再根据一定的机制排序后展示给用户。

因为淘宝上的商品(或者互联网上收录在搜索引擎中的文档的数目等)是个天文数字,这样的索引结构不可能做的到实时返回给用户。

所以,搜索引擎会将正向索引重新构建为倒排索引,即把文档ID对应到关键词的映射转换为关键词到文档ID的映射,每个关键词都对应着一系列的文档,这些文档中都出现这个关键词。最后再通过文档ID找到对应的详细文档。

什么是Elastic Search

官方定义

Elasticsearch 是一个分布式的、开源的搜索分析引擎,支持各种数据类型,包括文本、数字、地理、结构化、非结构化。

与Lucene的关系

  • Elastic Search基于lucene,封装了许多lucene底层功能,提供了分布式的服务、简单易用的restful API接口和许多语言的客户端。
    ES与Lucene关系图

ES核心概念

  • 近实时(NRT Near RealTime)
    写数据时:过1秒才会被搜索到,因为内部在分词、录入索引。
    es搜索时:搜索和分析数据需要秒级出结果。
  • 集群(Cluster)
    包含一个或多个启动着es实例的机器群。通常一台机器起一个es实例。
    默认集群名是“elasticsearch”,同一网络,同一集群名下的es实例会自动组成集群。
  • 节点(Node)
    一个es实例即为一个节点。
  • 索引(Index)
    即拥有相似文档的集合
  • 类型(Type)
    每个索引里都可以有一个或多个type,type是index中的一个逻辑数据分类,一个type下的document,都有相同的field。7.x版本正式被去除。
  • 文档(Document)
    es中的最小数据单元。一个document就像数据库中的一条记录。通常以json格式显示。
    多个document存储于一个索引(Index)中。
  • 映射(Mapping)
    定义索引中的字段的名称;
    定义字段的数据类型,比如字符串、数字、布尔;
    字段,倒排索引的相关配置,比如设置某个字段为不被索引、记录 position 等。

与关系型数据库核心概念对比

Elasticsearch 关系型数据库(如Mysql)
索引Index 数据库Database
类型Type 表Table
文档Document 数据行Row
字段Field 数据列Column
映射Mapping 约束 Schema

ES使用

正常启动

以下是基于linux环境下安装好的elastic search 5.5.1版本(默认端口9200):


                
最低0.47元/天 解锁文章
21_Days
关注 关注
  • 15
    点赞
  • 48
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
Elasticsearch入门学习,这一篇就够了
鬼小生
01-28 4349
目录 一、ES简介 二、ES应用场景 三、ES核心概念 四、ES架构 4.1整体架构 4.2集群架构 五、ES原理 5.1Lucence存储和检索 5.2ES写数据 5.3ES读数据 5.4ES检索关键词 5.5ES删数据 六、ES常用API 6.1索引操作 6.2文档操作 6.3查询操作 6.4分词器使用 七、ES中的数据类型 7.1字符串类型 7.2整数类型 7.3浮点类型 7.4逻辑类型 7.5日期类型 7.6范...
快速入门Elasticsearch:安装、基本概念、分词器和文档基本操作详解
丨汀、的博客
10-24 1319
快速入门Elasticsearch:安装、基本概念、分词器和文档基本操作详解
ES的基本组成和es的优势以及搜索写入原理
后端开发
07-22 1174
本文依照倒叙的方式介绍什么是elasticsearch,包含es的基本组成和es的优势以及写入搜索的流程首先引入一个问题,如何从三段文本中快速找到包含关键词’caixukun’的记录?最直接的思路就是遍历所有的文本记录,然后判断是否包含关键词,最后返回文本的id如果记录的条数有上亿条呢?或者十亿?百亿?继续采用最初的思路全部遍历,先不说速度与乌龟相比如何,有没考虑过计算机的感受?cpu呢?内存呢?磁盘io?
ES的介绍和使用
最新发布
weixin_45621552的博客
08-21 2066
​ Elastic Search 简称ES,是一个开源的高扩展的分布式全文检索引擎,它可以近乎实时的存储、检索数据;本身扩展性很好,可以扩展到上百台服务器,处理PB级别的数据。自定义查询的命名规则:方法名必须是其中之一开始,后面接字段名以及条件,条件之间的组合使用and或者or, 方法参数必须与使用的字段一一匹配//文章标题模糊查询,并且ID在给定的范围之内@Test。
ES搜索快速入门
08-29
简单的hello World 案例 快速入门ES 使用maven工具配置 上手快
ES快速入门
11-20 657
https://www.jianshu.com/p/7d687c9dba4f 链接上一篇文章 :ElasticSearch介绍 https://www.jianshu.com/p/403c9d5b1463 3 ES快速入门 ES作为一个索引及搜索服务,对外提供丰富的REST接口,快速入门部分的实例使用head插件来测试,目的是对ES的使用方法及流程有个初步的认识。 3.1 创建索引库 E...
ES入门
weixin_44240370的博客
03-22 3499
文章目录1、ES是什么2、ES基本结构2.1、结构图2.2、基本概念2.3、和关系型数据库概念类比3、ES原理3.1、Node节点管理3.1.1、多节点集群方案3.1.2、协调节点3.1.3、节点故障转移3.2、shard分片原理3.2.1、文本可被搜索:分词器+倒排索引3.2.2、动态更新索引3.2.3、保证近实时的搜索3.2.4、持久化变更3.2.5、段合并3.3、ES并发控制原理3.4、原理小结 1、ES是什么 一个分布式实时文档存储,每个字段可以被索引和搜索 一个分布式实时分析搜索引擎 能胜任上百
elasticsearch一篇(入门篇)1
08-03
NRT 表示从数据被存储到能够被索引检索之间的时间差极小,通常小于1秒,这使得 Elasticsearch 能够快速响应用户的查询请求。 Elasticsearch 以分布式的方式运行,它构建在集群(Cluster)的基础上。一个集群可以由...
Elasticsearch入门篇(一、基本概念)1
08-03
Elasticsearch入门篇(一、基本概念) Elasticsearch是一个近实时的搜索平台,它意味着从索引文档的时间到可搜索的时间之间存在轻微的延迟(通常为一秒)。在Elasticsearch中,集群(cluster)是由一个或多个节点...
Elasticsearch 保姆级入门
09-12
Elasticsearch 入门Elasticsearch 是一个分布式的、面向生产规模工作负载优化的搜索引擎。Kibana 可以将 Elasticsearch 中的数据转化为直观的图表、图形和仪表盘。本篇文章将详细介绍 LOCAL 安装 Elasticsearch ...
es快速入门
yuyeqianhen的博客
10-23 179
https://www.cnblogs.com/aaanthony/p/7380662.html
ES 入门
Tattoo的博客
02-16 2227
文章目录基本概念(1)索引、文档、REST API文档索引Type与关系型数据库的类比REST API ----很容易被各种语言调用(2)节点、集群、分片及副本节点---就是指集群下的一个节点分片---其实就是倒排索引分词分词器ES中内置的分词器使用 _analyzer Api默认分词器 Standard Analyzer 和 Keyword Analyzer搜索搜索API检索term 查询:单个精确值查找(term query),包含:范围查询,前缀查询。对输入不会做分词处理。全文搜索:会对输入的查询进
ESElasticsearch入门指南
花语无痕的博客
01-23 1881
版权声明:原创文章 欢迎参考 请勿抄袭 https://blog.csdn.net/aA518189/article/details/86064737 </div> <link rel="stylesheet" href="https://csdnimg.cn/release/phoenix/temp...
ES入门指南
EricLYN的博客
09-09 2213
ES入门指南
ES基础入门
热门推荐
小知识吖
12-21 1万+
ElasticSearch基础入门
写文章

热门文章

  • ES快速入门,一篇就懂! 8565
  • Springboot集成mybatis,解读SQL 映射语句mapper的路径配置的源码 3815
  • eclipse中查看源码为乱码的解决方法 1384

最新评论

  • ES快速入门,一篇就懂!

    21_Days: 谢谢大佬表情包欢迎互关一键三连

  • ES快速入门,一篇就懂!

    JSON_L: 写的不错,很详细

  • ES快速入门,一篇就懂!

    我爱人工智能: 写的不错!期待大佬回访!

大家在看

  • 俄罗斯摄影师JOAKIM KARLSSON全站私房人像摄影技巧及后期80套教程合集
  • 深入探索 Flutter 鸿蒙版的画笔使用与高级自定义动画 1597
  • 性能测试工具JMeter(二)
  • 荷兰风光摄影大神Max Rive风光摄影后期修饰10套合集-中文字幕

最新文章

  • Springboot集成mybatis,解读SQL 映射语句mapper的路径配置的源码
  • eclipse中查看源码为乱码的解决方法
2021年1篇
2018年2篇

目录

目录

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

深圳坪山网站建设公司网站手机站优化怎么办罗湖大型网站优化的有效方式网站内页的seo优化临夏网站综合优化自己的网站如何优化网站站长如何优化吉林网站优化排名揭阳效果好网站权重优化安徽咨询网站搭建优化好的网站优化有用吗成都网站优化怎么制作南京教育网站优化合作网站关键词优化巩义外贸网站优化怎么样绥化正规的企业网站优化南充微信企业网站优化网站运营优化推广加盟新郑网站关键词优化公司费用重庆网站优化哪家值得信赖o2o网站如何优化太原建材行业网站优化推广优点苏州门户网站开发新站快速优化深圳软件网站优化费用多少网站标题优化的要点是什么济南网站优化seo沈阳网站推广优化有什么技巧鱼峰区网站优化推广如何进行网站搜索引擎优化福田品牌网站优化网站优化第一步教程香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声卫健委通报少年有偿捐血浆16次猝死汪小菲曝离婚始末何赛飞追着代拍打雅江山火三名扑火人员牺牲系谣言男子被猫抓伤后确诊“猫抓病”周杰伦一审败诉网易中国拥有亿元资产的家庭达13.3万户315晚会后胖东来又人满为患了高校汽车撞人致3死16伤 司机系学生张家界的山上“长”满了韩国人?张立群任西安交通大学校长手机成瘾是影响睡眠质量重要因素网友洛杉矶偶遇贾玲“重生之我在北大当嫡校长”单亲妈妈陷入热恋 14岁儿子报警倪萍分享减重40斤方法杨倩无缘巴黎奥运考生莫言也上北大硕士复试名单了许家印被限制高消费奥巴马现身唐宁街 黑色着装引猜测专访95后高颜值猪保姆男孩8年未见母亲被告知被遗忘七年后宇文玥被薅头发捞上岸郑州一火锅店爆改成麻辣烫店西双版纳热带植物园回应蜉蝣大爆发沉迷短剧的人就像掉进了杀猪盘当地回应沈阳致3死车祸车主疑毒驾开除党籍5年后 原水城县长再被查凯特王妃现身!外出购物视频曝光初中生遭15人围殴自卫刺伤3人判无罪事业单位女子向同事水杯投不明物质男子被流浪猫绊倒 投喂者赔24万外国人感慨凌晨的中国很安全路边卖淀粉肠阿姨主动出示声明书胖东来员工每周单休无小长假王树国卸任西安交大校长 师生送别小米汽车超级工厂正式揭幕黑马情侣提车了妈妈回应孩子在校撞护栏坠楼校方回应护栏损坏小学生课间坠楼房客欠租失踪 房东直发愁专家建议不必谈骨泥色变老人退休金被冒领16年 金额超20万西藏招商引资投资者子女可当地高考特朗普无法缴纳4.54亿美元罚金浙江一高校内汽车冲撞行人 多人受伤

深圳坪山网站建设公司 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化