23 октября в рамках Российской недели Интернета RIW состоится круглый стол «Проблема навигации и каталогизации контента в Интернете».
Это реально жгучая проблема, поскольку объем контента в Интернете – как профессионального, так и user generated – возрастает в геометрической прогрессии. Возникли целые новые контент-области: интерент-телевидение, видео-записи, лекции, блоги, короткие литературные формы… Как найти нужную и важную информацию среди необозримого множества?
Обычные средства поиска (каталогизация, многоуровневая рубрикация, тегирование) – спасают лишь отчасти. Поскольку даже на самом последнем уровне рубрикатора возможны выборки с тысячами и десятками тысяч позиций.
Дмитрий Олеринский, директор проектов Имхонета:
Привычные средства навигации (метки, авто контекст и каталогизация) хорошо работают только тогда, когда они активно расставляются пользователями, либо когда возможен качественный семантический анализ контента с выделением высокоточных ключевых слов. Но это крайне слабо работает со звуками, видео и статичными изображениями, а также в тех контент-областях, где семантический анализ невозможен (например, из-за того, что сам контент кроме заголовка недоступен роботу), а у пользователей недостаточно мотивации для UGC тегирования. Кроме того, даже обильные пользовательские теги всегда носят субъективный характер, и редко когда корректно описывают суть контента. А нанимать армию модераторов неоправданно дорого.
Можно прибегнуть к поиску по атрибутам объекта. Что нередко практикуется по отношению к кинофильмам: их ищут по названию + актеру в главной роли или режиссеру. Но и это не панацея, поскольку связи между атрибутами часто не прописаны.
Способы упрощения навигации
Самый распространенный путь выделения наиболее востребованных и популярных объектов – это рейтинги. Но они настолько усредняют информацию, что результат на выходе – средняя температура по больнице. Еще один общепринятый метод – сокращение перечня объектов. Принципы вивисекции разные: список наиболее покупаемых товаров, фильмы, транслирующиеся по телевидению сей момент и т.д. Ограничения очевидны.
Артем Лебедев, глава департамента web-разработки Имхонета:
Все это не решает проблему «хвоста» – не пользующихся массовым спросом, но очень важных объектов. Как быть, например, с документальным кино, востребованность которого ничтожно мала по сравнению с художественными фильмами? Или образовательным контентом: материалами лекций, докладов, сообщений, презентаций? Их не так мало в интернете, но найти что-либо на разрозненных ресурсах крайне сложно.
Поэтому в последнее время стремительно возрастает актуальность новых способов структуризации всех типов данных и удобной навигации по ним.
Поиск контента с помощью искусственного интеллекта
Один из вариантов – автоматический анализ мультимедийных данных. Это особенно актуально для поиска визуальной информации, где стандартные средства работают плохо. Интеллектуальная система анализа содержания мультимедийного контента может быть реализована на основе технологии компьютерного зрения, которые разрабатывает компания SeeStorm (seestorm.com).
Александр Крайнов, директор по продуктам SeeStorm:
Технологии компьютерного зрения позволяют в автоматическом режиме распознавать содержание графических данных: определять наличие на изображении человеческого лица или нескольких ли; идентифицировать заданный объект по признакам подобия; находить изображения, соответствующие определенным визуальным характеристикам и т.д.
Другой путь решения проблемы – совмещение привычных способов поиска контента с его персонификацией. Носителем этой идеологии является рекомендательный сервис Имхонет (imhonet.ru).
Персонификация контента: применение рекомендательных систем для решения проблемы навигации
Артем Лебедев, глава департамента web-разработки Имхонета:
Сильная сторона рекомендательных систем в том, что, оперируя большими массивами данных, они позволяют каждому отдельному пользователю находить контент в соответствии с его личными предпочтениями и вкусами. Благодаря этому юзеры могут отыскать среди множества объектов те, которые не пользуются массовым спросом. Плюс сервис выдает не только списки рекомендованных объектов, но и перечень единомышленников данного человека.
Еще одно важнейшее преимущество рекомендательных систем – они совмещают разные способы расфасовки контента. К стандартному упорядочиванию множества объектов по полочкам тематических подмножеств (областей потребления, развлекательных или потребительских товаров и т.д.) добавляется многоуровневая рубрикация, тегирование, рейтинги, поиск по атрибутам. Плюс на полученные выборки накладывается фильтр по пользовательским предпочтениям (рекомендательный функционал). Таким образом рекомендательный сервис способен выступать значимой надстройкой поисковых систем – поисковиком нового поколения.
Существуют и иные варианты решения проблемы – обо всех них и пойдет речь на круглом столе RIW.