针对上亿数据,根据其中一个字段或两字字段进行搜索模糊查询,一般使用什么中间件或者搜索方法? 不拘泥于言,不拘泥于框架,请大神各抒己见。当然 php 、java 这种常见的语言,参考意义比较大,谢谢
1
locoz 351 天前 via Android 3
elastic search
|
2
netnr 351 天前 via Android
如果搜索结果是返回少量数据, ClickHouse 秒出
|
3
insmoin 351 天前
全文搜索引擎
|
4
redtech 351 天前 via iPhone
也可以用 meilisearch
|
5
dusu 351 天前 via iPhone
manticoresearch
|
7
GeorgeWai 351 天前 via iPhone
es ,ch 都可以,关键还是在于硬件😄
|
8
missuo 351 天前 via iPhone
clickhouse yyds
|
9
zhuzhibin 351 天前 via iPhone
插个话 es 的全模糊 wildcard 有啥替代方案 性能太差了 上次有过一次把单节点 CPU 干满了 大量查询导致 search 线程池也阻塞满了
|
10
matrix1010 351 天前
@zhuzhibin N-gram 空间换时间,一般来说 2gram 或 3gram 效果都很不错, 你也可以两个加一起。比如 google code search 就是 trigram: https://github.com/google/zoekt
|
11
Sakura0Tears 351 天前
只会 Excel 难蚌
|
12
matrix1010 351 天前
@zhuzhibin 刚才没注意到是 wildcard, 可以顺便看看这个: https://tech.justgiving.com/posts/how-i-discovered-the-power-of-trigrams-for-text-search-in-sql-server
|
13
owen800q 351 天前 via iPhone
Serverless 版本的 mongodb, 别说一亿,100 亿都没问题
|
14
bjzhush 350 天前
你缺了很多条件,比如配备的硬件,QPS ,响应时间要求
我说个我做过的单机版的,10 年前了,拿 sphinx 搞的,大概 3-5 亿条记录,印象中响应是 500 毫秒内 |
15
dlmy 350 天前
我司国庆之前用 32G 内存的服务器,压测了单机版的 ClickHouse ,数据可以参考一下:
扫描行数:530,000,000 耗时(秒):0.942 查询列数:2 结果行数:46 |
16
zhuzhibin 350 天前 via iPhone
@matrix1010 1
|
17
matrix1010 350 天前
@zhuzhibin 看了一眼 es 的文档,wildcard 类型已经是通过 trigram 来优化了。如果用 wildcard 类型 cpu 还高可能就要考虑一下别的方法 https://www.elastic.co/cn/blog/find-strings-within-strings-faster-with-the-new-elasticsearch-wildcard-field
|