ivdon3@bk.ru
В данной статье описаны подходы к автоматизации полнотекстового поиска по ключевым фразам в области патентной информации. Автоматизация поиска по ключевым фразам (n-граммам) является существенно более сложной задачей, чем поиск по отдельным словам, кроме того требует проведения морфологического и синтаксического анализа текста. Для достижения поставленной цели были решены следующие задачи: (а) проанализированы системы полнотекстового поиска: Apache Solr, ElasticSearch и ClickHouse; (б) проведено сравнение архитектур и основных возможностей каждой системы; (в) получены результаты поиска в Apache Solr, ElasticSearch и ClickHouse на одном и том же наборе данных. Были сделаны следующие выводы: (a) все рассмотренные системы осуществляют полнотекстовый поиск по ключевым фразам; (б) Apache Solr является системой с самой высокой производительностью, также у неё максимально удобные функции; (б) ElasticSearch обладает быстрой и мощной архитектурой; (в) ClickHouse имеет высокую скорость обработки данных.
Ключевые слова: поиск, ключевые фразы, патент, Apache Solr, Elasticsearch, ClickHouse
В данной работе описываются подходы к визуализации и сравнению семантических деревьев, отражающих компонентную структуру патентуемого устройства и связи между ними, при помощи графовых баз данных. Данные СУБД используют графовые структуры для хранения, обработки и представления данных. Основные элементы графовой базы данных - узлы (nodes) и ребра (edges), которые в рамках поставленной задачи моделируют сущности 3-х типов (SYSTEM, COMPONENT, ATTRIBUTE) и 5 типов связей (PART-OF, LOCATED-AT, CONNECTED-WITH, ATTRIBUTE-FOR, IN-MANNER-OF). По результатам исследования можно заявить, что Neo4j демонстрирует наилучшие возможности для визуализации графов; ArangoDB несмотря на правильно введённые запросы, осуществляет неполную визуализацию; AllegroGraph показал сложную работу с кодом, затрудненную настройку визуализации графового дерева. Апробированы 3 алгоритма сравнения графовых представлений информации: Graph Edit Distance, Topological Comparison, Subgraph Isomorphism. Алгоритмы реализован на python, сравнивает 2 графовых дерева, выводит на экран визуализацию и анализ общих структур и различий графов.
Ключевые слова: семантическое дерево, компонентная структура, патент, графовые БД, Neo4j, AllegroGraph, ArangoDB
В статье представлено описание автоматизации процесса распознавания аудиозаписи с целью выявления заказанной песни на радиостанции. Использована модель распознавания русской речи Golos от SberDevices. Разработан алгоритм коррекции текста, полученного в результате анализа аудиозаписи с помощью модели Golos, на основе метода расстояния Левенштейна. Для распознанных заявок радиослушателей организовано взаимодействие с БД DIGISPOT II (формирование и выполнение запросов для поиска исполнителей и их песен).
Ключевые слова: распознавание речи, Golos, Digispot II
В настоящее время в патентных документах содержатся графические изображения чертежей устройств, графиков, химических и математических формул, причем формулы зачастую необходимо распознать и привести к унифицированному стандарту. В данной работе осуществляется анализ графических изображений, извлеченных из описаний патентов ФИПС Роспатента. Обеспечивается тематическая фильтрация математических и химических формул, содержащихся в патентных документах, и их распознавание. Теоретическая ценность заключается в разработанных алгоритмах парсинга патентов в системе Яндекс.Патенты; распознавания среди графических патентных изображений химических и математических формул; перевода графических изображений химических формул в формат SMILES; конвертации графических изображений математических формул в формат LaTeX. Практическая значимость работы заключается в разработанном программном модуле анализа графических изображений из патентных документов. Область применения разработанной системы — исследование патентов и приведение графических изображений к унифицированному стандарту для решения задач патентного поиска.
Ключевые слова: патент, изображение, математическая формула, химическая формула, LaTeX, SMILES
Рассмотрены и использованы методы и технологии для решения задачи визуализации патентного ландшафта на основе кластерного анализа патентного массива. Разработаны алгоритмы загрузки патентных архивов, парсинга патентных документов, кластеризации патентов и визуализации патентного ландшафта. Реализован программный модуль для кластеризации патентных документов на основе модели латентного размещения Дирихле и визуализации патентного ландшафта на данных кластеризации с использованием библиотек gensim, PySpark, sklearn. Программный модуль апробирован на патентах, выданных ведомством по патентам и товарным знакам США.
Ключевые слова: патенты, извлечение информации, кластеризация, патентный ландшафт, инновационный потенциал
С развитием промышленности и науки растет размер патентной базы, а так же растет и количество патентных заявок, поступающих в ведомства, регулирующие вопросы по выдаче патентов. Каждую патентную заявку необходимо проверить на уникальность патентируемой технологии, для этого эксперту патентного бюро необходимо провести поиск по патентной базе и найти патенты-аналоги. В случае отсутствия патентов-аналогов данную технологию можно считать уникальной и принимать на патентирование. Поскольку базы патентов различных ведомств могут насчитывать десятки миллионов патентов, то такой патентный поиск и оценка уникальности патентируемой технологии может занимать очень длительное время. Существующие системы не удовлетворяют всем требованиям и не имеют полного необходимого функционала. В этой статье описывается разработка автоматизированной системы поиска патентов-аналогов в патентном массиве.
Ключевые слова: патент, база данных, поиск, патент-аналог, Hadoop, Solr, Django, Python, Haystack, HDFS
Представлена методика проектирования новых информационных систем с указанием перечня процедур, позволяющая создавать новые нетривиальные проекты, на примере программного продукта психосемантического анализа аудио данных. Описано, что на основе имеющейся потребности, в условиях наличия прототипа, эти технологии позволяют сформулировать требования к функциональной структуре будущей системы, определить ее принципы действия и представить варианты технического решения.
Ключевые слова: концептуальное проектирование, интеллектуальные технологии, информационные технологии, цифровая обработка сигналов.
Ключевые слова:
05.13.01 - Системный анализ, управление и обработка информации (по отраслям)