×

Вы используете устаревший браузер Internet Explorer. Некоторые функции сайта им не поддерживаются.

Рекомендуем установить один из следующих браузеров: Firefox, Opera или Chrome.

Контактная информация

+7-863-218-40-00 доб.200-80
ivdon3@bk.ru

Система автоматизированного построения графа социальной сети

Аннотация

В.И. Носко

Рассматривается устройство и работа программной платформы автоматизированного сбора данных о графе социальной сети с применением модуля парсинга веб-страниц социальных сетей в Интернет.

Ключевые слова: граф социальной сети, построение графа, выборка данных, drupal, модуль Feeds, импорт комментариев, граф комментариев

05.13.18 - Математическое моделирование, численные методы и комплексы программ

На сегодняшний день существует некоторое количество автоматизированных систем классификации и анализа интернет-текстов. Такая услуга оказалась весьма востребована на ниве интернет-продаж, такие сервисы предлагают своим клиентам, например, автоматическую индикацию тональности сообщений. Основаны такие системы, как правило, на соотнесении имеющего текстового фрагмента  с заранее составленными тональными словарями.
Безусловно, это направление будет интенсивно развиваться в ближайшие годы, но на данный момент наиболее адекватным инструментом анализа представляется ручная обработка данных мониторинга социальных медиа.
В Северо-Кавказском научном центре высшей школы Южного федерального университета (далее СКНЦ ВШ ЮФУ) разработана программная платформа автоматизированного построения графа социальной сети при помощи обработки интернет страниц социальных сетей. Система применялась для автоматизированного сбора данных в период избирательной кампании в Государственную думу в 2011 году.
Для генерации таблицы упоминаний обработка страниц социальных сетей и блогосферы (парсинг) реализуется с применением модуля Feeds для CMF Drupal с плагином SimpleHTMLDOMparser. В процессе парсинга система обращается к странице с информацией в Интернет и производит выборку данных из DOM дерева HTML в соответствии с набором тегов и каскадной таблицей стилей.
Рассмотрим конфигурацию модуля для импорта в систему комментариев пользователей. Система разработана таким образом, что позволяет разделять собираемую информацию на элементарные части, каждая из которых представляет собой отдельное поле в базе данных. Импорт производится гранулярно, что впоследствии дает возможность гибко фильтровать результаты. В набор собираемых данных (см. рис. 1) входят следующие экстракторы (Extractions):
заголовок комментария;
автор комментария – никнейм пользователя в сети или блоге;
автор журнала – запись, к которой относится комментарий;
комментарий – собственно текст;
ссылка на комментарий;
журнал комментатора;
журнал автора поста;
дата комментирования – актуальная дата размещения комментария в сети.



Рис.  1. – Настройки экспорта данных в модуле Feeds


Поиск данных производится иерархически:

  • Сначала система инспектирует Root node pattern (корневой образец) и определяет набор повторяющихся элементов на странице.
  • Затем в каждом из таких элементов ведется поиск соответствия паттерна экстрактора комбинации CSS-классов и HTMLтегов.

В частности, для поля «Автор комментария» необходимо установить паттерн «ul[class='info b-hlist b-hlist-middot'] li a»  с атрибутом «plaintext».  Такой паттерн обеспечивает погружение в дерево DOM HTML и экспортирует все элементы, которые находятся в ненумерованном списке «ul» с классом «info b-hlist b-hlist-middot» и обернуты тегом «a» (см. рис. 2).



Рис.  2. – Настройка паттерна и атрибутов поля «Автор комментария» в модуле Feeds


Каждый экспортируемый элемент в системе соответствует предустановленным полям типа материала Feed item (экземпляр фида). Таблица соответствия представлена на рис. 3.



Рис.  3. – Настройка паттерна и атрибутов поля «Автор комментария» в модуле Feeds


После настройки всех необходимых параметров система начинает парсинг по выбранным ключевым словам. В результате в системе будет сформирована таблица с набором данных о комментариях, представленная на рис. 4: заголовок комментария, дата его импорта в систему, автор комментария, автор блога, к которому относится комментарий, текст комментария, дата его публикации в сети Интернет, тональность (позитив, негатив, нейтрал), определяемая пользователем системы.



Рис.  4. – таблица с данными комментариев


Для дальнейшего анализа графа производится экспорт сформированной таблицы в один из поддерживаемых форматов. Для экспорта следует воспользоваться кнопкой XLS, находящейся под таблицей, рис. 5.



Рис.  5. – кнопки экспорта таблицы


В процессе экспорта можно наблюдать за его прогрессом: отображается время, которое необходимо системе для формирования файла и процент выполнения, рис. 6.



Рис.  6. – процесс экспорта данных


Результат экспорта – файл, который следует сохранить для дальнейшего анализа графа, рис. 7.

Рис.  7. – результат экспорта


Реализации технологии мониторинга агитационных действий с помощью разработанной модели и с использованием описанного алгоритма будут полезны на разных этапах мониторинга социальных сетей и избирательного процесса – как во время избирательных кампаний, так и в периоды между ними. Также возможно применение системы сбора данных и формирования графа в любых сферах деятельности, где структура может быть представлена в виде графа с четко выраженными узлами и связям между ними.

Литература

  1. Меркулова, Т.В. Моделирование динамики пользователей  социальных сетей [Электронный ресурс] / Т.В. Меркулова, Е.Ю. Кононова. http://www.cyber.kharkov.ua/ contentimages/  15.model.soc.net.pdf – Загл. с экрана. – Яз. рус.
  2. Губанов Д.А. Социальные сети: модели информационного влияния, управления и противоборства [Текст]  / Под ред. чл.-кор. РАН Д.А. Новикова / Д.А. Губанов, Д.А. Новиков, А.Г. Чхартишвили. – М.: Изд-во физ.-мат. лит., 2010. – 228 с.
  3. Сайт сервиса Яндекс.Поиск по блогам [Электронный ресурс] / 2011. Режим доступа: http://blogs.yandex.ru, свободный. — Загл. с экрана. — Яз.рус.
  4. Семантический анализ текста онлайн [Электронный ресурс] / 2011. Режим доступа: http://advego.ru/text/seo, свободный. — Загл. с экрана. — Яз.рус.