ivdon3@bk.ru
В данной статье описаны подходы к автоматизации полнотекстового поиска по ключевым фразам в области патентной информации. Автоматизация поиска по ключевым фразам (n-граммам) является существенно более сложной задачей, чем поиск по отдельным словам, кроме того требует проведения морфологического и синтаксического анализа текста. Для достижения поставленной цели были решены следующие задачи: (а) проанализированы системы полнотекстового поиска: Apache Solr, ElasticSearch и ClickHouse; (б) проведено сравнение архитектур и основных возможностей каждой системы; (в) получены результаты поиска в Apache Solr, ElasticSearch и ClickHouse на одном и том же наборе данных. Были сделаны следующие выводы: (a) все рассмотренные системы осуществляют полнотекстовый поиск по ключевым фразам; (б) Apache Solr является системой с самой высокой производительностью, также у неё максимально удобные функции; (б) ElasticSearch обладает быстрой и мощной архитектурой; (в) ClickHouse имеет высокую скорость обработки данных.
Ключевые слова: поиск, ключевые фразы, патент, Apache Solr, Elasticsearch, ClickHouse