【Elasticsearch】Elasticsearch 中使用 HDFS 存储快照

risc123456

于 2025-03-05 20:25:58 发布

阅读量438

点赞数 4

分类专栏： Elasticsearch 文章标签： elasticsearch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/risc123456/article/details/146052013

版权

Elasticsearch 专栏收录该内容

145 篇文章

订阅专栏

在 Elasticsearch 中使用 HDFS 存储快照的步骤如下：

1.安装 HDFS 插件

要使用 HDFS 存储 Elasticsearch 的索引快照，需要在 Elasticsearch 集群的所有节点上安装 HDFS 插件。

• 在线安装：适用于网络环境良好的场景，执行以下命令：

```bash

sudo bin/elasticsearch-plugin install repository-hdfs

```

• 离线安装：适用于网络受限的环境，先下载插件包，然后安装：

```bash

sudo bin/elasticsearch-plugin install file:///path/to/repository-hdfs.zip

```

插件版本必须与 Elasticsearch 版本一致。

安装完成后，重启所有 Elasticsearch 节点以使插件生效。

2.创建 HDFS 存储库

在 HDFS 中创建一个目录，并为 Elasticsearch 用户分配权限：

```bash

sudo -u hdfs hdfs dfs -mkdir /user/elasticsearch

sudo -u hdfs hdfs dfs -chown elasticsearch:elasticsearch /user/elasticsearch

```

然后在 Elasticsearch 中注册 HDFS 存储库：

```bash

PUT /_snapshot/my_hdfs_repository

{

"type": "hdfs",

"settings": {

"uri": "hdfs://namenode:8020/",

"path": "elasticsearch/repositories/my_hdfs_repository",

"conf.dfs.client.read.shortcircuit": "true"

}

}

```

• `uri`是 HDFS 集群的地址。

• `path`是 HDFS 中存储快照的目录路径。

• `conf.dfs.client.read.shortcircuit`可根据需要设置为`true`或`false`。

3.创建快照

注册存储库后，可以创建快照：

```bash

PUT /_snapshot/my_hdfs_repository/snapshot_1?wait_for_completion=true

{

"indices": "index1,index2", # 指定要备份的索引，可选

"ignore_unavailable": true, # 忽略不存在的索引

"include_global_state": false # 不备份集群全局状态

}

```

• `wait_for_completion=true`参数会阻塞操作直到快照完成。

4.查询快照

可以使用以下命令查询快照状态：

```bash

GET /_snapshot/my_hdfs_repository/snapshot_1

```

5.恢复快照

快照可以恢复到同一个集群或另一个集群：

```bash

POST /_snapshot/my_hdfs_repository/snapshot_1/_restore?wait_for_completion=true

{

"indices": "index1,index2", # 指定要恢复的索引

"include_global_state": true

}

```

注意事项

• 快照和恢复操作存在版本兼容性问题，备份的 Elasticsearch 版本应与恢复时的版本一致。

• 在跨集群恢复时，目标集群需要创建与原始集群相同名称的存储库。

通过以上步骤，可以将 Elasticsearch 的快照存储到 HDFS 中，实现数据的备份和恢复。

是的，Elasticsearch 在恢复快照时，会覆盖目标索引中的现有数据。恢复快照的目的是将目标索引恢复到快照所记录的状态，因此它会替换掉目标索引中的现有数据。以下是关于恢复操作的一些关键点和注意事项：

1.恢复操作的覆盖行为

• 当你恢复一个快照时，Elasticsearch 会将快照中的索引数据完全覆盖目标索引中的数据。

• 如果目标索引已经存在，恢复操作会删除目标索引中的所有数据，并用快照中的数据替换。

• 如果目标索引不存在，Elasticsearch 会创建新的索引，并写入快照中的数据。

2.如何避免覆盖
如果你希望在恢复快照时保留目标索引中的现有数据，可以通过以下方式避免覆盖：

（1）重命名索引
在恢复快照时，可以通过`rename_pattern`和`rename_replacement`参数对索引进行重命名。例如：

```json
POST /_snapshot/my_hdfs_repository/snapshot_1/_restore
{
"indices": "my_index",
"rename_pattern": "my_index",
"rename_replacement": "my_index_restored"
}
```

这会将快照中的`my_index`索引恢复为`my_index_restored`，从而避免覆盖现有的`my_index`。

（2）仅恢复部分数据
如果你只需要恢复部分数据，可以在恢复时指定具体的索引，而不是整个快照。例如：

```json
POST /_snapshot/my_hdfs_repository/snapshot_1/_restore
{
"indices": "index1,index2" // 只恢复指定的索引
}
```

这样可以避免恢复不需要的索引，从而减少对现有数据的影响。

（3）备份现有数据
在恢复快照之前，建议先备份目标索引中的现有数据。可以创建一个新的快照，或者使用其他备份工具（如 Logstash）导出数据。

3.恢复时的注意事项

• 版本兼容性：恢复的 Elasticsearch 版本应与创建快照时的版本一致，或者至少是向后兼容的版本。

• 集群状态：在恢复之前，确保集群状态是绿色的，以避免恢复过程中出现错误。

• 索引状态：如果目标索引已经存在，恢复操作会删除并重建索引。如果需要保留现有数据，建议先重命名现有索引。

• 性能影响：恢复操作可能会对集群性能产生影响，建议在低峰时段进行。

4.示例：避免覆盖的恢复操作
以下是一个示例，展示如何在恢复快照时避免覆盖现有索引：

```json
POST /_snapshot/my_hdfs_repository/snapshot_1/_restore
{
"indices": "my_index",
"rename_pattern": "my_index",
"rename_replacement": "my_index_restored",
"include_global_state": false
}
```

这个操作会将快照中的`my_index`索引恢复为`my_index_restored`，而不会覆盖现有的`my_index`。

总结
Elasticsearch 的恢复操作默认会覆盖目标索引中的现有数据。为了避免覆盖，可以通过重命名索引、仅恢复部分数据或备份现有数据来实现。在执行恢复操作之前，务必仔细规划，以确保数据安全。

博客等级

码龄7年

271
原创

1604
点赞

1355
收藏

821
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

【Elasticsearch】 Intervals Query
risc123456: 在Elasticsearch中，`intervals`查询允许基于词项顺序和邻近度的精确匹配。以下是结合多个规则匹配精确顺序的方法及优化查询性能的策略： --- ### **一、使用 `intervals` 查询实现多规则顺序匹配** #### 1. **基础语法结构** ```json GET /your_index/_search { "query": { "intervals": { "your_text_field": { "all_of": { // 必须满足所有子规则 "ordered": true, // 强制按顺序匹配 "intervals": [ // 定义多个子规则 { "match": { "query": "term1 term2", "max_gaps": 0 } }, { "match": { "query": "term3 term4", "max_gaps": 1 } } ], "max_gaps": 5 // 允许子规则之间的最大间隔 } } } } } ``` #### 2. **关键参数解释** - **`all_of` / `any_of`**: - `all_of`: 所有子规则必须匹配。 - `any_of`: 任意子规则匹配即可。 - **`ordered`**: - `true`: 子规则必须按顺序出现。 - `false`（默认）: 允许无序。 - **`max_gaps`**: - 控制词项之间的最大间隔（默认为`-1`，无限制）。 - **`filter`**: - 附加过滤条件（如词项必须包含特定字段）。 #### 3. **示例：多规则顺序匹配** 匹配文本中 **必须依次出现** "quick brown fox" 和 "lazy dog"，且两者间隔不超过5个词： ```json { "query": { "intervals": { "content": { "all_of": { "ordered": true, "intervals": [ { "match": { "query": "quick brown fox", "ordered": true, "max_gaps": 0 // 三个词必须连续 } }, { "match": { "query": "lazy dog", "ordered": true, "max_gaps": 0 } } ], "max_gaps": 5 // 两个短语之间最多间隔5个词 } } } } } ``` --- ### **二、性能优化策略** #### 1. **索引设计优化** - **字段映射**: - 对需要高精度匹配的字段，启用 `position` 和 `offset`（默认启用）： ```json { "mappings": { "properties": { "content": { "type": "text", "index_options": "offsets" // 记录词项位置信息 } } } } ``` - **避免嵌套过多规则**: - 减少 `all_of`/`any_of` 的子规则数量，复杂逻辑可拆分为多个查询。 #### 2. **查询优化** - **限制匹配范围**: - 结合 `filter` 上下文缩小文档集： ```json { "query": { "bool": { "filter": [ { "range": { "timestamp": { "gte": "now-7d/d" } } } ], "must": [ { "intervals": { ... } } ] } } } ``` - **使用 `max_gaps` 控制扫描范围**: - 设置合理的 `max_gaps` 值，避免扫描过多无关词项。 - **分页与结果截断**: - 若不需要完整结果，使用 `size` 限制返回文档数： ```json { "size": 100, "query": { ... } } ``` #### 3. **硬件与集群优化** - **分片策略**: - 根据数据量合理设置分片数（建议单个分片不超过50GB）。 - 避免跨分片查询，使用 `preference` 参数路由查询到特定分片。 - **缓存利用**: - 对频繁使用的过滤条件启用查询缓存： ```json { "query": { "bool": { "filter": [ { "term": { "category": "news" } } // 可缓存 ] } } } ``` #### 4. **监控与分析** - **Profile API**: 分析查询执行细节，定位性能瓶颈： ```json { "profile": true, "query": { ... } } ``` - **慢日志（Slow Log）**: 启用索引慢日志监控耗时操作： ```json PUT /your_index/_settings { "index.search.slowlog.threshold.query.warn": "10s", "index.search.slowlog.threshold.query.info": "5s" } ``` --- ### **三、高级场景示例** #### 场景：匹配“error”或“warning”后紧跟数字ID（如“error 500”） ```json { "query": { "intervals": { "log_message": { "any_of": { "intervals": [ { "match": { "query": "error", "filter": { "after": { "span_containing": { "little": { "match": { "query": "error" } }, "big": { "match": { "query": "[0-9]+", "use_field": "numeric_id" } } } } } } }, { "match": { "query": "warning", "filter": { ... } // 类似逻辑 } } ] } } } } } ``` --- ### **四、总结** - **精确顺序匹配**：通过 `ordered: true` 和 `max_gaps` 控制词项顺序及间隔。 - **性能优化核心**： 1. 合理设计索引映射和分片策略。 2. 限制查询范围和复杂度。 3. 利用缓存和路由减少计算量。 4. 监控查询性能并针对性调优。建议在真实数据集上通过 `Profile API` 验证优化效果，并根据实际场景调整参数。
【elasticsearch】如何更新许可证（License）
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/619553046。
事务回滚 try catch finally
risc123456: try catch。finally有一个报错 try catch finally 都要回滚
forkjoinpool
risc123456: forkjointask就像是在用多线程来做递归
zookeeper锁问题
CSDN-Ada助手: 不知道云原生入门技能树是否可以帮到你：https://edu.csdn.net/skill/cloud_native?utm_source=AI_act_cloud_native

大家在看

最新文章

2025

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。