Всем привет, сегодня искал дополнительную информацию для своей кандидатской и наткнулся на очень интересную тему, которая напрямую связана с моим хобби — seo. Вобщем-то почти все, что есть в моей работе, так или иначе можно использовать если не для seo то для поисковых машин точно.
Возможно, для многих такая информация будет избыточной, поэтому буду писать максимально обобщенно, чтобы не искушенному в математике читателю было понятно о чем идет речь.
Итак, что такое скрытое распределение Дирихле (LDA) — это статистический метод, который может выявить сходство данных, другими словами если у Вас есть документ, например веб-страница, то используя данный метод можно определить насколько релевантен данный документ определенной теме. Слова, которые встречаются в документа могут отображаться принадлежность документа к набору тем.
Вот так выглядит формула:
![]()
Простым подсчетом слов тут не обойтись и в дополнение необходимо учитывать встречаемость слов и словосочетаний в разных тематиках. В комплексе, например, с хорошо обученными нейронными сетями алгоритм может значительно улучшить определение тематики текста и с большой вероятностью классифицировать (отнести) документ к правильной теме.
Как Вы уже догадались использовать этот математический аппарат можно для внутренней оптимизации сайта, а именно внутренней оптимизации текстов веб-страниц.
Внутренняя оптимизация сайта — это трудоемкий процесс, особенно когда дело касается оптимизации сайта под конкретные ключевые слова. Многие знают, что релевантность можно приблизительно предсказать с помощью частотной характеристики определенного термина в тексте страницы. Однако этот метод слишком прямолинеен и вероятнее всего не может быть достаточно точным.
Скрытое распределение Дирихле относительно новый метод, для более детального ознакомления рекомендую посмотреть в Вики.
На сайте Seomoz — появился сервис, который позволяет определить релевантность текста или url заданной теме! Таким образом, можно его использовать как более точный, на мой взгляд, индикатор внутренней оптимизации сайта, а именно оптимизации текстов ваших веб-страниц.
Правда он не хочет нормально работать с русским языком, но какие-то результаты он выдает и русские слова, скорее всего, не отсекает при расчетах, а просто не отображает в текстовом поле. Для англоязычных сайтов результаты похожи на правду. Тесты алгоритма проводились по существующей выдаче поисковиков.
Надеюсь, пост оказался полезным, если Вас заинтересовала данная тема, более детально могу ответить по почте или в комментариях.
P.S.
Для тех кому хочется поработать рекомендую посмотреть вакансии на сайте объявлений.
Популярность: 8%
Читайте также
Понравился пост, не стесняйся - подпишись на рассылку RSS!

Интересно было почитать. Жалко что на СеоМозе с русским не работает. Надеюсь, что и в Рунете скоро появится подобный сервис
Как то все сложно у вас, на самом деле оптимизация очень проста, просто взгляните на мир поиска другими глазами и формулы тут ни при чем. Может формулы и заложены в поиске для ПС, но для оптимизации страницы они вряд ли применимы — нужно чутьё!
Да, немного трудновато написано. По ссылке, кстати, требует чтобы под зарегистрированным пользователем зашел. Спасибо за инфу.
to ssoross: Во многом согласен. «Все что сложно — значит не работает». Чтобы иметь это чутье надо очень много работать и экспериментировать и желательно этим заниматься по какой-то системе. Опытным путем добывать данные, систематизировать и т.д. И тогда со временем чутье будет подсказывать Вам правильные действия в той или иной ситуации! Так что математика рулит в любом случае, по крайней мере в тех областях где надо что-то посчитать!
Кандидатская пишется на тему сео? Если честно, то из формулы ничего не поняла, написали бы хоть что подразумевается под каждой буквой.
Интересно написано, разжевано). Вот насчет того что математика не нужна не соглашусь. Дело в том, что то что кажется простым на самом деле при более глубоком понимании является наиболее сложным, и без математики не опишешь. Тем более что это алгоритм для того чтоб машина «понимала» о чем текст. А чутье — это опыт, когда рука уже набита и стоит только взглянуть на сайт и уже видите что не так. В случае же глубокого понимания подобных алгоритмов, применение этих знаний сулит неплохие вознаграждения =))