Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии - страница 8

Подобный подход к построению архитектуры модуля классификации используется в проекте Hypatia [99] – экспертной системе, разработанной для отделов канцелярии и делопроизводства и обеспечивающей категоризацию, семантический поиск, обобщение, извлечение знаний, агрегацию и многие другие функции в области анализа текстовых документов.

7. Предлагаемая система

7.1. Архитектура системы

Предлагаемая экспертная система категоризации рассматривается как часть высоконагруженной распределенной системы агрегации контента, агрегирующей текстовые данные различных типов, таких как новости, блоги, объявления о работе, информация о компании (включая отзывы о работе), события (встречи, конференции, выставки и т. д.), и отображает его в удобном для пользователя виде.

Поскольку основной целью этой системы является предоставление релевантного ответа на пользовательский запрос, решение проблемы категоризации агрегированного контента очень актуально. Задача усложняется огромным объемом данных, что подразумевает необходимость обеспечения высокой производительности и масштабируемости работы системы категоризации.

Каждый из агрегированных документов обладает набором свойств, таких как заголовок, дата создания, URL, тип, краткое описание и т. д. Эти свойства используются механизмом на основе правил для категоризации данных в том случае, когда данные, полученные на этапе нейросетевой обработки, недостаточны для принятия конечного решения.

Высокоуровневая архитектура предлагаемой системы показана на рисунке 2.

Рисунок 2. Архитектура экспертной системы категоризации агрегированного контента

Система, показанная на рисунке 2, состоит из кластера загрузчиков контента [100], т. е. веб-краулеров, модуля парсинга контента, модуля классификации, модуля предварительной обработки, классификатора спама, классификатора на основе нечетких отпечатков, классификатора на основе атрибутов и SVM-классификатора.

В системе также имеется тезаурус – база данных со списком слов на разных языках, которые используются в категоризации данных. На каждом этапе система пытается получить метки, соответствующие категориям обрабатываемого контента.

Всю представленную систему можно разделить на две части: первая часть – поиск информации, вторая – ее последующая обработка и категоризация. Эти части будут описаны ниже, уделяя больше внимания части категоризации, поскольку технология агрегирования контента не является основной темой данного исследования.

7.2. Получение информации

Загрузчики контента отвечают за постоянное наполнение системы данными: они отправляют сотни запросов к источникам в Интернете и сохраняют веб-страницы в базу данных хранилища контента.

Парсер контента – это распределенный набор сервисов-парсеров, которые получают на вход агрегированные данные и извлекают из них структурированную информацию в соответствии с бизнес-правилами. Полученные в результате обработанные данные затем сохраняются в БД агрегированного контента. Так же, как и БД с загруженными страницами, БД агрегированного контента является реляционной базой данных (PostgreSQL [101]). В системе повсеместно используется master-slave репликация для обеспечения отказоустойчивости и стабильной работы.

Классификатор извлекает обработанные данные из БД агрегированного контента и добавляет их для последующей обработки в очередь классификации (RabbitMq [102]). Очередь сообщений в данном случае используется для масштабирования нагрузки, т. к. объем обрабатываемой информации очень велик.

Назад Вперед

Похожие книги

Агрегация контента и его обработка. Сборник статей по архитектуре распределенных систем и программной инженерии

Денис Кирьянов

Книги о компьютерах

В данный сборник вошли три статьи.В первой статье рассматриваются экспертные системы, их преимущества и недостатки, а также применимость для решения проблем категоризации агрегированных данных.Во второй рассматриваются принципы построения систем агрегации контента, а также такие научно-технические проблемы, как веб-краулинг, обнаружение нечетких дубликатов, суммаризация и т. д.В третьей статье приводится детальное описание архитектуры высоконагру

Читать онлайн

Современный SMM в России: инструкции для успешного продвижения

Татьяна Маркова

Руководства

Эта книга заменит тысячу курсов по SMM. Вы держите в руках путеводитель, благодаря которому быстро выведете ваш аккаунт в ТОП социальных сетей.Книга содержит короткие и ясные инструкции, которые помогут вашему делу уверенно держаться на плаву в современных реалиях.Предназначена для владельцев бизнеса, мастеров красоты и всех заинтересованных.

Читать онлайн

Новое SEO-2.0 без ключевых слов. Как вывести сайт на вершину поисковой выдачи?

Анатолий Косарев

Просто о бизнесе

Книга – полезна тем, кто занимается SEO-оптимизацией и поисковым маркетингом. Она дает руководство, по каким критериям искусственный интеллект Google и других поисковиков определяют, что ищет пользователь, и какой сайт лучшие всего отвечает на его запрос. Прочитав книгу, вы поймёте, что ключевые слова, покупные ссылки, ушли в прошлое.Поисковики борются между собой в предоставлении лучшего сайт первым в результатах поиска. А эта книга рассказывает

Читать онлайн

Глоссариум по цифровому здравоохранению: 2000 терминов и определений

Александр Чесалов

Руководства

Книга деcятая [2023 г.]В этой книге вам предлагается краткий словарь из 2000 терминов и определений на русском и английском языках по цифровому здравоохранению. Словарь поможет вам достаточно быстро сориентироваться во всем многообразии новых терминов, которые, чуть ли не ежедневно появляются в нашем с вами лексиконе в период активной цифровой трансформации системы здравоохранения Российской Федерации и применения технологий четвертой промышленно

Читать онлайн

Elements applications of artificial intelligence in transport and logistics

Alexander Korpukov

Книги о компьютерах

Abramov Dmitry, Moscow Polytechnic UniversityKorpukov Alexander, Pirogov Russian National Research Medical UniversityShmal Vadim, Federal state autonomous educational institution of higher education «Russian university of transport»Minakov Pavel, Federal state autonomous educational institution of higher education «Russian university of transport»

Читать онлайн

Слова о важном

Екатерина Гнатюк

Современная русская литература

Каждый текст в сборнике – это новая история, их между собой ничего не связывает, кроме одного: все эти слова важны для меня. Все тексты – это часть моей истории, того, что я переживала сама. Сборник разделен на две части, если в одной я пытаюсь раскрыть проблемы, которые так сильно волновали и волнуют меня, через истории персонажей, в другой я говорю напрямую, отбросив эти маски героев и злодеев. Во всех этих историях однозначных героев и злодеев

Читать онлайн

Год по обмену

Юлия Костина

Современные любовные романы

Объявили посадку на наш рейс и мы пошли в самолёт. Как только мы поднялись на высоту, я не выдержала и заплакала. Потому что только сейчас я поняла, что лечу в неизвестность на год. За год жизнь может очень круто измениться, и не известно, к чему и к кому я вернусь через год.

Читать онлайн