Контакты

Неструктурированные данные 2.0

Открытые системы - 31 мая 2012 - Артак Оганесян, EPAM

Можно ли прочитать мысли клиентов, чтобы понять их текущие и будущие предпочтения? Как оперативно найти важную информацию в потоке новостей и сообщений в социальных медиа? Возможно, понятие «контент» сегодня обретает новый смысл.

Сегодня, в результате активного участия широкого круга пользователей в публикации информационных материалов на различных ресурсах, увеличивается количество новостных и аналитических порталов, материалы для которых в виде текстовых документов, аудио- или видеофайлов размещают не только профессиональные журналисты или аналитики, но и другие посетители. Растет популярность социальных сетей, блогов и форумов как площадок, где каждый может поделиться своим мнением или оставить отзыв, например, о той или иной компании, для которой эта возможность, в свою очередь, открывает просторы для оценки, в частности, своей деятельности. Прежде всего речь идет о новых способах получения обратной связи от клиентов и анализа эмоционального информационного фона, который складывается вокруг организации и ее конкурентов. Все это позволяет говорить о рождении эпохи контента 2.0, решение задач в рамках которой в первую очередь необходимо компаниям, работающим на массовых рынках с высокой конкуренцией: финансовый сектор, страхование, индустрия развлечений и отдыха, сфера розничной торговли и другие отрасли. Своевременное получение полных и качественных данных позволяет повысить уровень обслуживания клиентов, ускорить продвижение услуг и продукции, быстрее реагировать на изменение ситуации на рынке. Однако найти нужные сведения в громадном объеме различной по структуре и форматам информации тяжело, чем и обусловлен сегодня стабильный спрос на специализированные программные приложения обработки неструктурированных данных.

Богатство выбора

Как правило, системы обработки неструктурированных данных — это разработки западных ИТ-компаний, что закономерно: в России интерес к сбору и анализу мнений клиентов, новостной и аналитической информации имеется пока лишь у небольшого круга компаний, а на Западе подобные программные продукты стали необходимыми. Источниками данных для них являются СМИ, новостные порталы, социальные сети, аналитические порталы, внутренние информационные приложения компаний и др. Приведем несколько характерных примеров таких систем.

  • First Rain компании First Rain — решение для поиска, сбора и анализа информации. В качестве источников данных здесь выступают только Web-ресурсы — в основном сведения из годовых отчетов компаний и аналитических отраслевых обзоров. Найденная информация сортируется по стандартизированным темам и степени значимости для клиента.
  • Digimind компании Digimind — решение для поиска структурированных и неструктурированных данных. Основные источники: Web и социальные сети. Решение имеет встроенные инструменты классификации обработанных материалов, однако основной акцент сделан на средствах представления итоговых данных в виде, удобном для пользователя, которому предлагается два возможных варианта внедрения: в качестве отдельного решения или дополнительного компонента, встраиваемого в уже имеющиеся у компании аналитические информационные системы.
  • InfoNgen компании Instant Information — спектр решений для поиска, сбора и анализа неструктурированных данных. Информация агрегируется из разных типов источников: порталы, электронная почта, внутренние информационные ресурсы организации-клиента. Полученные документы категоризируются по стандартизированной или специализированной таксономии клиента. Пользователь может получать данные в виде специальной новостной ленты, электронного бюллетеня, RSS, API или через источник («фид») электронного вещания в режиме реального времени. Стандартный пакет включает в себя Web-интерфейс и не требует инсталляции на стороне клиента.
  • Factiva компании News Corporations — спектр информационно-аналитических решений, наиболее известным из которых является система Factiva.com, позволяющая собирать мультимедийный контент из десятков тысяч источников новостной информации. Однако в их число входят только средства массовой информации: крупнейшие информационные агентства, новостные интернет-издания, электронные версии печатных СМИ и т. д.
  • «Медиалогия» компании «Медиалогия» — решение для автоматического мониторинга СМИ в режиме реального времени. Информация по конкретной компании, ее руководству, брендам, конкурентам и т. п. собирается из базы данных СМИ, анализируется по количественным и качественным критериям. Основные источники данных — около 8 тыс. российских и зарубежных печатных и электронных изданий (ТВ, Интернет, радио), а также блоги.
  • «Голос клиента» компании Clarabridge в партнерстве с EPAM Systems — решение для анализа структурированных и неструктурированных данных. Источники данных: отзывы клиентов в социальных сетях, данные из центров работы с клиентами и CRM, заполненные клиентами на сайте или в отделениях компании анкеты и т. д. В основном акцент делается на обработке информации из форумов и блогов.
  • RCO Fact Extractor Desktop компании RCO — решение для поиска и обработки информации. Источником данных может быть Web, внутренние приложения и базы данных компании. Продукт поставляется как персональное приложение для платформы Windows.

В целом работа с неструктурированными данными сводится к решению нескольких задач: поиск и агрегация контента из различных источников, извлечение данных в соответствии с заданными параметрами и их семантический анализ, предоставление итоговых сведений пользователю в удобном графическом виде. Более подробно возможности решений для работы с неструктурированными данными рассмотрим на примере приложений InfoNgen и «Голос клиента».

Агрегация контента

Для InfoNgen основными поставщиками данных являются Web (на данный момент около 70 тыс. сайтов) — СМИ, отраслевые новостные порталы, сайты регуляторов, ассоциаций и т. д., отобранные на основе запросов и пожеланий клиентов из различных отраслей и регионов, — а также электронная почта и внутренние информационные ресурсы самой организации. Средства сбора данных позволяют учитывать специфические особенности каждого источника. В зависимости от потребностей организации список ресурсов для мониторинга может быть изменен или разбит по группам подписки и предпочтениям. Пользователи имеют возможность добавить источники — например, включить узкоспециализированные порталы, публикующие информацию по отдельным небольшим бизнес-темам или направлениям, или сайты-поставщики подписного или лицензионного контента. Так как одна и та же новость часто приходит из разных источников, то InfoNgen предоставляет возможность сгруппировать похожие статьи (рис. 1).

Рис.1. Группировка в InfoNgen схожих по содержанию новостей из различных источников

С помощью поисковых роботов (краулеров) организуется подключение к системам обмена почтой или сообщениями, например Microsoft Exchange, что позволяет в режиме реального времени категоризировать содержание электронных писем и вложений в них, выбирая сообщения, соответствующие заранее установленным контекстным фильтрам. Кроме того, в качестве источника данных могут выступать информационные ресурсы самой организации-заказчика, в частности локальные и сетевые диски. Администратор заказчика имеет возможность контролировать доступ пользователей к найденным данным с помощью установки правил на уровне источника.

Система «Голос клиента» в качестве основного источника информации рассматривает Интернет, но, в отличие от более универсальных решений InfoNgen, позволяющих собирать и обрабатывать любую информацию о компании, ее продуктах и услугах или информацию по какой-либо выбранной теме (например, новости о сделках по слиянию и поглощению на финансовом рынке), «Голос клиента» имеет более узкую специализацию: выявление отношения к бренду и продуктам организации-заказчика, определение их сильных и слабых (по мнению потребителей) сторон. Для этого основной акцент делается на сборе и анализе отзывов, построении фона, выявляемого на базе прописанной специалистами-лингвистами для конкретного заказчика логики положительных или отрицательных оттенков в высказываниях, оставляемых клиентами на специализированных форумах, в блогах и социальных сетях. Автоматический сбор информации проводится с помощью краулеров (используются решения различных производителей программного обеспечения, к примеру компании RCO), при этом учитываются различия в стиле подачи информации на разных ресурсах (например, в ЖЖ или в Twitter). Возможности решения позволяют собирать не только контент в текстовом формате, но и, например, аудиофайлы. Для последующего анализа полученная информация с помощью технологий voice to text («голос в текст») переводится в текстовые данные.

Извлечение и семантический анализ

Сервисы InfoNgen проводят сканирование текстовой информации по мере ее поступления, извлекая заголовок, резюме, оглавление, дату публикации и нужный текст для анализа. В каждом обрабатываемом тексте определяется его семантическая структура, выявляются и удаляются данные, не относящиеся к основной теме: рекламные объявления других компаний или продуктов, упоминания о правовых ограничениях, ссылки на дополнительные информационные материалы и т. д. Система семантического тегирования позволяет распознавать наличие или отсутствие в тексте заданных пользователем элементов — названий компаний, биржевых котировок (тикеров), наименований продуктов, услуг и т. д. В качестве тегов могут использоваться и специфичные отраслевые или бизнес-термины, обозначенные самим заказчиком или взятые из стандартной таксономии InfoNgen (наборы терминов, характерных для таких индустрий, как финансы, розничная торговля, медиабизнес и др.). В процессе анализа учитываются синонимы, возможные варианты написания слов (в том числе на других языках), аббревиатуры, семантические зависимости, релевантность тега к документу, а также ряд других параметров. Данная функция реализована в виде программного интерфейса, что при необходимости позволяет ее интегрировать в любые другие приложения.

Пользователи могут также указывать релевантность тега к документу как параметр своего поиска, тем самым дополнительно фильтруя документы, которые фокусируются на выбранной теме, а не просто упоминают ее вскользь. Кроме того, существует возможность определения эмоциональной окраски того или иного текста. Если речь идет о документах, где анализируется финансовая отчетность компаний, то средства лингвистического анализа позволяют оценить отношение авторов документа к компании или к ее отдельным данным (доход, прибыль, убытки и др.). Просуммировав такие оценки для всех высказываний в рамках одного текста, можно понять его общий эмоциональный характер. Например, предложение «Выручка Компании в 2011 году в России выросла на 5,5% по сравнению с показателем за 2010 год» имеет положительный смысл, а предложение «Объем продаж Компании в РФ в 2011 году снизился на 1% в натуральном выражении» — негативный.

По схожему принципу реализована работа системы «Голос клиента». В ходе морфологического и лексического анализа каждый текст разделяется на связанные между собой слова, которые сопоставляются с заранее определенными тегами. На основе прописанной аналитиками-лингвистами логики проводится анализ оценки тональности высказываний — позитивная или негативная. Специальные средства скоринга позволяют задать ценность каждого позитивного и негативного высказывания в зависимости от целей и специфики бизнеса заказчика. Например, фраза из отзыва клиента «менеджер был невежлив, но условия по кредитам в банке очень хорошие» содержит и позитивную и негативную часть. Если для компании приоритетом является повышение качества обслуживания клиентов в своих отделениях и именно по этому параметру ведется мониторинг отзывов, то для тегов, которые свидетельствуют об уровне сервиса, задаются более высокие значения, а для характеристик предлагаемых банковских продуктов — более низкие.

Предоставление итоговых данных

В InfoNgen встроенные средства анализа позволяют на основе обработки контента выявлять закономерности и тренды, связанные с использованием определенных тегов, что дает возможность увидеть неочевидные взаимосвязи (например, между конкретной компанией и темой слияния или судебного разбирательства). Для более наглядного просмотра полученных в ходе анализа результатов используются инструменты визуализации.

В зависимости от потребностей и задач в системе InfoNgen поддерживается несколько вариантов внедрения решения и предоставления результатов. Один из них — Web-интерфейс, через который пользователи могут искать и читать новости в виде ленты или настроить их электронную рассылку другим пользователям в виде бюллетеня, в который помимо ссылок на найденный контент включаются дополнительные сведения: дата и время публикации, заголовок, ключевые темы, выявленные взаимосвязи между ключевыми тегами (названия компании, продуктов и т. д.), индекс релевантности, эмоциональная оценка. У пользователей есть возможность кооперировать и комментировать найденные документы, создавать совместные рассылки или делиться результатами поиска. Другой вариант — встраивание решений InfoNgen через API в уже существующие в компании приложения.

В отличие от InfoNgen, система «Голос клиента» не содержит встроенных аналитических средств и для анализа подготовленных в системе классифицированных данных используются стандартные инструменты бизнес-аналитики: IBM Cognos, Microstrategy, Oracle BI и др. С их помощью можно не только подсчитывать количество упоминаний компании или ее продуктов, но и выявлять тенденции в обсуждениях на форумах конкретных услуг, продуктов или самой компании (как отдельно, так и в сравнении с конкурентами), определять наиболее «горячие» темы дискуссий. Итоги могут оказаться весьма неожиданными для компании: например, в результате анализа обсуждения пассажирами качества сервиса на борту самолетов одной из авиакомпаний выяснилось, что стюардессы, несмотря на запрет курения на борту, предлагают пассажирам приобрести у них сигареты.

С помощью механизмов «развертки» (drill-down) по конкретной теме можно посмотреть ключевые слова, которые покажут, что именно в данной теме обсуждается чаще всего (рис. 2). Проследив связь между выбранными ключевыми словами и отзывами, где они присутствуют, легко понять, какими именно причинами был вызван всплеск обсуждений.

Рис. 2. Автоматическое определение эмоционально окрашенных слов, которые чаще всего встречаются в обсуждениях по данной тематической категории («Голос клиента»)

Кроме того, благодаря анализу, появляется возможность выявить случаи намеренного упоминания в отзывах о компании названий ее конкурентов или их услуг (product placement) или отслеживать случаи резкого увеличения количества позитивных или негативных высказываний о компании (рис. 3).

Рис. 3. Определение случаев аномального роста позитивных или негативных отзывов клиентов

Даже общий взгляд на возможности решений для обработки неструктурированных данных позволяет сделать вывод, что их применение может облегчить деятельность служб компаний, чья работа связана с обслуживанием клиентов, маркетингом, конкурентной разведкой, внешними и внутренними корпоративными коммуникациями, обработкой аналитической финансовой информации и др. За счет более качественной работы с неструктурированными данными появляется возможность отслеживать эффект от проведенных маркетинговых и PR-акций, более адресно работать с целевой аудиторией, повышать качество сервиса для клиентов, своевременно выявлять актуальные тенденции на важных для компании рынках и корректировать свою деятельность.

Оригинал публикации