Что Google грядущий нам готовит…

Разговоры о том, что господствующий в мире поисковых систем Google готовится к кардинальному изменению некоторых алгоритмов своей работы, идут уже давно. На этом хотят поживиться многие западные умы, которые наперебой патентуют свои изобретения, чтобы Большой Папа Google одобрил и взял себе на вооружение разработанные ими методы борьбы со спамом, которым нехорошие черные seoшники плодят, как кошка котят. :)

Краткий обзор одного из таких изобретений под названием PhraseRank, которое было запатентовано в Министерстве США по патентам и товарным знакам (USPTO) в декабре 2006 года, представляю ниже. Каждый может сделать для себя соответствующие выводы. Читайте, изучайте, думайте…

………………………………………………………………………………………………………………

Обнаружение спам-документов информационно-поисковой системой на основании фразовой зависимости

Патент США № 20060294155

Авторы изобретения: Patterson, Anna Lynn

December 28, 2006

Определение

Информационная поисковая система использует фразы для индексирования, организации и описания документов. Фразы, которые идентифицируются системой, могут указывать на связь с другими фразами в документе. Документы индексируются в соответствии с включенными в них фразами. Спам-документ идентифицируется на основании количества связанных или похожих фраз, включенных в документ.

Область изобретения

Настоящее изобретение относится к любой информационно-поисковой системе и предназначено для индексирования, поиска и классификации документов в масштабных областях, таких как Интернет.

Основные положения изобретения

Информационно-поисковые системы, обычно называемые поисковыми системами, в настоящее время являются важным инструментом для поиска информации в больших масштабах, многообразны, и влияют на рост таких глобальных систем, как Интернет.

Как правило, поисковые системы создают индекс, который устанавливает связь документов (или «страниц») для отдельных слов, представленных в каждом документе.

Документ извлекается в ответ на запрос, который, как правило, основывается на некотором количестве условий запроса, представленных в документе.

Извлеченные документы затем ранжируются в соответствии с другими статистическими показателями, такими, как частота появления условий запроса, хост домена, анализ ссылок и т.п.

Затем извлеченные документы представляются пользователю, как правило, в отранжированном порядке и без каких-либо дальнейших группирований или установленной иерархии.

В некоторых случаях выбранные части текста документа представляются пользователю для беглого знакомства с содержимым документа.

Современная логическая поисковая система, сопоставляющая условия запросов, имеет хорошо известные ограничения, в частности, не определяет документы, которые не имеют условий запроса, но имеют ключевые слова.

Например, в типичной поисковой системе, поиск по фразе «австралийские пастушьи собаки» может не выдать документы о других пастушьих собаках, таких, например, как Колли, которые не имеют точных условий запроса.

И наоборот, в результатах поиска система может выдать документы с большим PR (PageRank), которые представляют темы Австралии и пастухов, но не имеют ничего общего с собаками.

Проблема здесь заключается в том, что традиционные системы индексируют документы на основе отдельных терминов, а не понятий в целом.

Запросы часто содержат словосочетания, такие, например, как: » австралийская пастушья собака «, «Президент Соединенных Штатов Америки» или «Кинофестиваль Sundance».

В лучшем случае, некоторые системы индексируют документы по заранее определенным и весьма ограниченным наборам известных фраз, как если бы это делал человек.

Индексирование фраз из трех, четырех, пяти или более слов, как правило, избегается в связи с ограничением возможностей вычислительных и запоминающих устройств.

Например, если взять любую фразу, состоящую из пяти слов, и предположить, что система имеет 200 тыс. условий, то в результате будет примерно 3.2 раз из 10 супремумов по 26 возможных фраз, что явно больше, чем любая существующая система может хранить в памяти или программно манипулировать.

Еще одна проблема заключается в том, что есть фразы, которые используются гораздо чаще других, которые и составляют словарный запас с точки зрения их использования.

Новые фразы всегда генерируются из таких источников, как: технологии, искусство, мировые события и закон.

Использование других фраз с течением времени будет сокращаться.

Еще одна проблема, которая возникает в существующих информационно-поисковых системах, это появление «СПАМ» документов.

Некоторые спам-страницы отдельных документов не имеют смыслового содержания, а вместо этого составляют коллекции популярных слов и фраз, часто сотни или даже тысячи из них. Иногда эти страницы называют «страницы, наполненные ключевыми словами«.

Страницы других документов включают конкретные слова и фразы, которые представляют интерес для рекламодателей.

Эти типы документов (часто называемые «приманка») создаются для того, чтобы в результатах поиска поисковые системы выдавали их вместе с оплачиваемой рекламой.

Однако для пользователя, который осуществляет поиск значимого содержания, получение в выдаче таких документов приводит к потере времени и разочарованию.

Следовательно, существует потребность в информационно-поисковой системе и методологии, которые смогут комплексно определять фразы в больших масштабах данных и индексировать документы в соответствии с фразами.

Кроме того, существует потребность в такой информационно-поисковой системе, для того, чтобы выявлять спам-документы и отфильтровывать их в результатах поиска.

Резюме изобретения

Информационно-поисковая система и методология используют фразы для индексирования, поиска, ранжирования и описания документов в базе данных.

Система адаптирована для выявления фраз, которые достаточно часто используются и/или известны базе данных, что позволяет определить, являются ли они «действительными» или «хорошими» фразами.

Таким образом, многословные фразы могут быть идентифицированы.

Это позволяет избежать проблемы определения и индексации всех возможных фраз, полученных в результате выявления всех возможных последовательностей заданного числа слов.

Эта система адаптирована к выявлению фраз, которые связаны друг с другом, то есть любая фраза имеет способность предсказывать присутствие других фраз в документе.

В частности, в системе заложена прогнозируемая степень фактического появления двух фраз, которая вытекает из ожидания совместного появления этих двух фраз.

Информационный коэффициент усиления, как соотношение фактического совместного появления, является одним из таких прогнозируемых понятий.

Две фразы связываются там, где прогнозируемая степень превышает заранее установленный пороговый уровень.

В этом случае вторая фраза имеет более значительный информационный коэффициент усиления в сравнении с первой фразой.

Семантически, похожими будут те фразы, которые используются для описания или обсуждения заданной темы или концепции, например, такие как «Президент Соединенных Штатов» и «Белый Дом».

Для заданной фразы, связанные фразы могут быть упорядочены с учетом их релевантности и значимости, основанные на их соответствующих методах прогноза.

Информационно-поисковая система адаптирована к выявлению спам-документов, содержащих чрезмерное количество связанных фраз в документе.

Настоящее изобретение имеет дополнительные модификации в системе и программное обеспечение, компьютерные программные продукты и компьютерные внедренные методы, а также сгенерированные пользовательские интерфейсы и презентации.

Мы привели лишь некоторые из функций информационно-поисковой системы и методологии, основанной на фразах.

Специалисты в искусстве поиска информации по достоинству оценят гибкость универсальности информационной фразы, которая имеет большее разнообразие в использовании и применении при индексации, аннотации документов, поиске, ранжировании и в других областях анализа документов и обработки данных.

………………………………………………………………………………………………………..

Ну, а мы, пока Google и другие поисковые системы будут решать, принимать на вооружение очередную фишку по искоренению зла или нет, будем двигаться вперед и делать каждый своё дело.


Метки: , , , , , ,

Если Вам понравилась заметка, пожалуйста, прокомментируйте ее, подпишитесь на фид и получайте будущие публикации по RSS, либо поделитесь с друзьями в социальных сетях:

Комментарии

Пока нет комментариев.

Комментирование закрыто.