НОУ ИНТУИТ | Процедуры, диагностики и безопасность в Интернет. Лекция 5: Подписные листы (LISTSERV) и поисковые системы

Учитесь и получайте официальные документы БЕСПЛАТНО. Вы можете поддержать наш проект.

Регистрация Вход

Твой путь к знаниям!

Опубликован: 10.10.2007 | Уровень: специалист | Доступ: платный

|

Вам нравится? Нравится 31 студенту

| Поделиться |

Поддержать программу

В случаях, когда поисковая система выдает заказчику большой список документов, отвечающих критериям его запроса, бывает важно, чтобы они были упорядочены согласно их степени соответствия (наличие ключевых слов в заголовке, большая частота использования ключевых слов в тексте документа и т.д.). Но простые критерии здесь не всегда срабатывают: так, объемный документ имеет больше шансов попасть в список результата поиска, поскольку в нем много слов и с большой вероятностью там встречается ключевое слово. По этому критерию Британская энциклопедия должна попасть в результирующий список любого запроса. Для компенсации искажений, вносимых длиной документов, используется нормализация весов индексных терминов.

Нормализация представляет собой способ уменьшения абсолютного значения веса индексных терминов, обнаруженных в документе. Одним из наиболее распространенных методов, решающих данную проблему, является косинусная нормализация. При использовании этого метода нормализации вес каждого индексного термина делится на Евклидову длину вектора оцениваемого документа. Евклидова длина вектора определяется формулой:

$L=\sqrt{w_1^2+w_2^2+...+w_n^2},$

где w_i = tf x idf

– вес i -того термина в документе, tf (term frequency) — частота, с которой встречается данный индексный термин; IDF (Inverted Document Frequency) — величина, обратная частоте, с которой данный термин встречается во всей совокупности документов. Окончательная формула для вычисления веса термина ( w ) в документе с учетом косинусного фактора нормализации представляется формулой:

$W=\frac{tf \times idf}{\sqrt{w_1^2+w_2^2+...+w_n^2}}$

Термины, которые отсутствуют в тексте документа, имеют нулевой вес. В списке, возвращаемом на запрос, документы перечисляются в порядке уменьшения данного численного значения.

В работах Букштейна, Свенсона и Хартера было показано, что распределение функциональных слов, в отличие от специфических слов, с хорошей точностью описывается распределением Пуассона. То есть, если отыскивается распределение функционального слова w в некотором множестве документов, тогда вероятность f(n) того, что слово w будет встречено в тексте n раз представляется функцией:

$f(n)=\frac{e^{-x}x^n}{n!}$

– распределение Пуассона. Значение параметра x варьируется от слова к слову и для конкретного слова должно быть пропорционально длине текста. Слова, распределенные в совокупности документов согласно Пуассону, полезной информации не несут.

Для представления документов используется векторная модель, в которой любой документ характеризуется бинарным вектором x = x₁,x₂,...,x_n, где значения x_i = 0 или 1, в зависимости от того, присутствует в тексте i -ый индексный термин или нет. Рассматриваются два взаимно исключающих события:

w₁ — документ удовлетворяет запросу; w₂ — документ не удовлетворяет запросу

Для определения того, какие документы удовлетворяют запросу, а какие нет, необходимо вычислить условные вероятности P(w₁|x) и P(w₂|x).

Непосредственно получить значения этих вероятностей нельзя, поэтому необходимо найти другой альтернативный подход для их определения с помощью известных нам величин. По формуле Байеса для дискретного распределения условных вероятностей:

$P(w_i|x)=\frac{P(x|w_i)P(w_i)}{P(x)},$

где i=1, 2.

В приведенной формуле P(w₁) — первоначальная вероятность соответствия ( i = 1 ) или несоответствия ( i = 2 ) запросу, величина P(x|w_i) пропорциональна вероятности соответствия или несоответствия запросу для данного x ; в недискретном случае она представляет собой функцию плотности распределения и обозначается как P(x|w_i).

Окончательно:

$P(x)=\sum_{i=1}^2P(x|w_i)P(w_i),$

что представляет собой вероятность получения документа x в ответ на запрос, при условии, что он будет ему соответствовать. P(x) выступает в качестве нормализующего фактора (т.е. с его помощью достигается выполнение условия P(w₁|x)+P(w₂|x)=1 ).

Для определения релевантности документа используется вполне очевидное правило:

Если P(w₁|x)>P(w₂|x), то документ удовлетворяет запросу [1].

В противном случае считается, что документ не удовлетворяет запросу. При равенстве значений вероятности решение о релевантности документа принимается произвольно.

Правило [1] основано на том, что при его использовании просто минимизируется средняя вероятность ошибки принятия нерелевантного документа за релевантный и наоборот. То есть, для любого документа x вероятность ошибки P(error|x) равна:

$P(error|x)=\left\{\begin{aligned}P(w_1|x),\ если\ было\ решено,\ что\ произойдет\ w_2\\P(w_2|x),\ если\ было\ решено,\ что\ произойдет\ w_1\\\end{aligned}\right\}$

Таким образом, для минимизации средней вероятности ошибки необходимо минимизировать функцию $P(error)=\sum_xP(error|x)P(x)$

Не углубляясь в теорию вероятностного нахождения релевантных документов, укажем еще одно правило, которое можно использовать вместо [1]:

(l₂₁-l₁₁)P(x|w₁)P(w₁)>(l₁₂-l₂₂)P(x|w₂)P(w₂)

Листинг 2.

В формуле [2] коэффициенты l_ij стоимостной функции определяют потери, вносимые при ожидании события w_i, когда на самом деле произошло событие w_j.

Для практической реализации вероятностного поиска вводится упрощающее предположение относительно P(x|w_i). Принимается, что значения x_i вектора x являются статистически независимыми. Данное утверждение математически представляется в виде:

P(x|w_i)=P(x₁|w_i)P(x₂|w_i)...P(x_n|w_i).

Определим переменные: p_i=Pr ob(x_i=1/w₁) и q_i=Pr ob(x_i=1/w₂), представляющие собой вероятность того, что в документе присутствует i -ый индексный термин при условии, что документ является релевантным (нерелевантным). Соответствующая вероятность для отсутствия индексных терминов имеет вид: 1-p_i=Pr ob(x_i=0/w_i)

Вероятностные функции, используемые для подстановки в правило [1], имеют вид:

$P(x|w_1)=\prod_{i=1}^np_i^{x_i}(1-p_i)^{1-x_i}$

и

$P(x|w_2)=\prod_{i=1}^nq_i^{x_i}(1-q_i)^{1-x_i}.$

Подставляя значения P(x|w_i) в [2] и логарифмируя, получаем:

$g(x)=\sum_{i=1}^n(a_ix_i+b_i(1-x_i))+e=\sum_{i=1}^nc_ix_i+C,$

где

$c_i=\log\frac{p_i(1-q_i)}{q_i(1-p_i)}$

и

$C=\sum_{i=1}^n\log\frac{(1-p_i)}{(1-q_i)}+\log\frac{P(w_1)}{P(w_2)}+\log\frac{l_{21}-l_{11}}{l_{12}-l_{22}}.$

Функция G(x) представляет собой не что иное, как весовую функцию, в которой коэффициенты С_i есть веса присутствующих в документе индексных терминов. Константа С одинакова для всех документов x, но, конечно, различна для разных запросов и может рассматриваться в качестве порогового значения для поисковой функции. Единственными параметрами, которые могут меняться для данного запроса, являются параметры стоимостной функции, вариации которых позволяют получать в ответе большее или меньшее число документов.

Дальше >>

Сетевые технологии

Процедуры, диагностики и безопасность в Интернет

Подписные листы (LISTSERV) и поисковые системы

Вопросы и ответы

Студенты

Авторизоваться

Сетевые технологии

Процедуры, диагностики и безопасность в Интернет

Подписные листы (LISTSERV) и поисковые системы

Вопросы и ответы

Студенты