Elasticsearch到底能玩多大的数据量一个p多大

http://ip:9200 注意阿里云 配置的地址是内部地址 但浏览器上的地址是公ip
虚拟机直接写主机ip即可

}

给定这样一个简单的 mapping

插入100万行随機的重复值

把每个word搞长一些同样是插入100万行

这说明了lucene在底层用列式存储这些字符串的时候是做了压缩的。这个要是在某个商业列式数据庫里就这么点优化都是要大书特书的dictionary encoding优化云云。

实验表明把一堆小文档打包成一个大文档的nested document可以压缩存储空间把前面的mapping改成这样:

还昰插入100万行,但是每一千行打包成一个大文档

文档数没有变小但是磁盘空间仅仅占用了2.47M。这个应该受益于lucene内部对于嵌套文档的存储优化

}
版权声明:本文为博主原创文章遵循 版权协议,转载请附上原文出处链接和本声明

从关系型库中迁移数据算是比较常见的场景,这里借助两个工具来完成本次的数据遷移考虑到数据量一个p多大并不大(不足两千万),未采用snapshot快照的形式进行


    为提高脚本的执行效率,特殊关注下limit参数数据批的大小,默認是100条比较小的,这个需要根据具体的环境来调整建议1000以上。脚本执行过程中会有日志输出显示数据传输的进程。

    • 若对目标索引需偠特殊处理的情况而不采用上面两个脚本——type类型为:analyzer及mapping,制定好自己的索引及映射关系后再使用工具进行迁移。

    • 为应对脚本针对大數据量一个p多大的迁移执行中断的情况工具中有参数offset,但只针对写索引有效并不能按我们的预期直接从offset中断处继续读中断后的数据进洏去迁移数据,而是继续从头开始此处需要特别注意。

    • limit参数不宜调试过大容易导致timeout的情况发生,近而导致任务中断执行失败。

    • 脚本運行建议以后台挂起的形式运行防止因连接中断导致任务中断。

    实际操作时请结合自身的具体环境希望能帮到你。

}

我要回帖

更多关于 数据量一个p多大 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信