怎样构建一个站内搜索引擎

2018年11月9日 | 分类: 【技术】

背景:一论坛具有千万记录规模的数据,并实时增长,通过 mysql 内建全文检索(耗时 40s 以上);原有搜索机制已无法满足站内搜索需要。

方案:对站内数据采集入库,并建立索引。通过 PHP+Python 构建多进程采集端,通过 Redis 实现多个服务器分布式并发采集,入库后采用 Sphinx 建立全文检索数据,使用 Bootstrap 框架 + PHP 上线网站。将搜索时间降低至 0.01s 以下。

前端:JQuery/Bootstrap
后端:PHP/Python/Apache/Memcache
全文检索: Sphinx/Coreseek
版本管理: Git/SVN
数据可视化: Gephi/SPSS