笔记整理之 mongodb清理collection中大量数据的2种办法

本文对比了两种使用Shell脚本与MongoDB Shell清理大量过期数据的方法:一种是在Shell脚本中循环调用MongoDB命令进行数据删除;另一种是在MongoDB Shell中直接进行循环删除操作。前者更安全但效率较低,后者效率高但可能存在风险。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1 shell中for循环清理

每次去连接一下mongo, 进行数据的remove操作

echo "Begin ..." >> /root/time.log;

echo $(date +%Y-%m-%d-%H:%M:%S) >>/root/time.log;



for((i=1;i<=100000000;i++));

do

objectid=`/usr/local/mongodb/bin/mongo 127.0.0.1:37017/test -uadmin -padmin --quiet --eval "printjson(db.tickets.findOne({"date":{\\$lt:ISODate(\"2013-01-10T01

:16:33.303Z\")}},{"_id":1}))"`;

/usr/local/mongodb/bin/mongo 127.0.0.1:37017/test -uadmin -padmin --quiet --eval "db.tickets.remove($objectid)";

echo " done " $objectid " " >> /root/tickets.log

done

echo $(date +%Y-%m-%d-%H:%M:%S) >>/root/time.log;

echo "End ..." >> /root/time.log;

echo " " >> /root/time.log

 

 

2 mongo shell中 for循环 清理

只连接一次mongo, 在mongo shell中for循环清理

[root@mongo ~]# more t.sh



echo "Begin ..." >> /root/t.log;

echo $(date +%Y-%m-%d-%H:%M:%S) >>/root/t.log;





/usr/local/mongodb/bin/mongo 127.0.0.1:37017/test -uadmin -padmin t.js;





echo $(date +%Y-%m-%d-%H:%M:%S) >>/root/t.log;

echo "End ..." >> /root/t.log;

echo " " >> /root/t.log

[root@mongo ~]#

[root@mongo ~]#

[root@mongo ~]# more t.js

for( var i=1 ; i<=100000000; i++ ) {

var objectid = db.tickets.findOne({date:{$lt:ISODate("2013-01-10T01:16:33.303Z")}},{_id:1});

db.tickets.remove(objectid);

}

 

 

实际测试, 第一种安全保险的多,但是毕竟慢,清理100G的数据 大概要3天 ,第二种快捷的多(据说有风险,但是我测试没有碰到过),清理100G的数据,用了6个小时.

 

### 如何在 Jupyter Notebook 中进行数据分析 #### 安装必要的软件包 为了能够在 Jupyter Notebook 中顺利开展数据分析工作,确保已经安装了所需的环境和库。如果尚未安装 Jupyter Notebook,则应先完成其安装配置[^1]。 对于特定的数据操作需求,比如连接数据库并存储数据MongoDB,还需要额外安装 `pymongo` 库,在 Anaconda 提示符下运行如下命令来实现这一点: ```bash conda install pymongo ``` #### 创建新的 Jupyter Notebook 文件 启动 Jupyter Notebook 后会进入文件浏览器界面,点击右上角的新建按钮选择 Python3 来创建一个新的笔记本文档。 #### 导入所需模块 在一个新单元格内输入以下代码导入用于处理数据以及与 MongoDB 进行交互所必需的 Python 模块: ```python import pandas as pd from pymongo import MongoClient ``` #### 加载数据集 假设有一个 CSV 格式的本地文件作为要分析的数据源,可以利用 Pandas 的 read_csv 函数加载该文件中的表格型数据结构 DataFrame 对象中以便后续处理: ```python data = pd.read_csv('path_to_your_file.csv') print(data.head()) # 显示前几条记录查看数据概况 ``` #### 数据预览与探索 一旦成功加载了数据集之后就可以对其进行初步观察了解基本信息,例如列名、缺失值情况等;也可以计算描述统计量帮助理解数值特征分布特性: ```python # 查看各列名称及非空计数 print(data.info()) # 获取基本统计数据摘要 print(data.describe()) ``` #### 将选定字段存入 MongoDB 当完成了对原始数据集的各种转换清洗步骤后,可以选择某些感兴趣的字段并将它们保存到远程或本地部署好的 MongoDB 实例里去。这里给出一个简单的例子说明怎样把某几个重要属性写入集合 document 中: ```python client = MongoClient('mongodb://localhost:27017/') db = client['your_database_name'] collection = db['your_collection_name'] for index, row in data.iterrows(): record = { 'field_1': row['column_name_1'], 'field_2': row['column_name_2'] # 添加更多字段映射... } collection.insert_one(record) print("Data inserted successfully.") ``` 以上就是在 Jupyter Notebook 环境下执行典型的数据分析任务的过程概述,包括但不限于获取外部资源、清理整理资料、实施各种算法模型训练预测评估等一系列环节都可以在这个平台上高效便捷地完成。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值