Статьи




На главную страницу
Отправить нам e-mail
Карта сайта

АГЕНТСТВО ИНТЕРНЕТ-РЕКЛАМЫ WEB-ЛИДЕР
Сделаем Ваш сайт чемпионом продаж!
Телефон: (495) 669 66 28


Отзывы

ООО "Клиника Бобыря", http://www.spina.ru
Особенно понравилось: 1) При заметном сокращении расходов на рекламу наблюдалось увеличение количества звонков; 2) Оперативная реакция на наши запросы (1-2 часа); 3) Одноцентовая рекламная кампания приносит около 10 000 целевых посетителей. И это стоит сущие копейки!
Бобырь Михаил Анатольевич


Люберецкие ковры, ООО "Оптово-розничный ковровый центр", http://www.lcarpets.ru/
Наша сфера деятельности достаточно специфична, а потому рекламный трафик имеет не слишком высокую конвертацию. Тем не менее, грамотно настроенная контекстная реклама принесла большое количество целевых звонков. В итоге мы получили большое количество новых клиентов за небольшой срок и вполне разумные деньги.
Маленко Александр Анатольевич


ООО "Аква-Логика"
Через две недели после начала сотрудничества с компанией WEB-ЛИДЕР по продвижению нашего сайта 75% слов были уже в Топ-10 "Яндекса". Очень понравилось.
Смоленцев Евгений Вячеславович


ЗАО "Промышленные системы" - оптовая торговля соединительными деталями трубопроводов
Сотрудничали с компанией WEB-ЛИДЕР несколько лет. Сайт, как правило, находится в Топ-3 во всех поисковиках Рунета ("Яндекс", "Гугл", "Рамблер"). Конечно, иногда сайт "падал", но команда WEB-ЛИДЕР быстро возвращала сайт на ведущие позиции. Оптимизацией сайта и продвижением мы очень довольны.
Федорович Александр Аркадьевич


"Арго-Аудит"
Спасибо! Вашей работой все очень довольны! И мы, и наши клиенты!
Куркина Оксана Евгеньевна


"Амкодор-Сервис" - торговля техникой ОАО "Амкодор-Ударник"
Мы довольны. Условия договора соблюдены; требуемый результат получен.
Гужевников Андрей Юрьевич


"Хартфорд Партнерс" - образование за рубежом
Пока все хорошо, занимаем 1-3 место. Количество клиентов растет. Я не часто проверяю, но несколько раз заходил - эффект действительно есть. Собираемся заказать оптимизацию по новым словам.
Натапов Леонид Леонидович


"Star Time" - дистрибьютор часов
Довольны вполне. Отчеты соответствуют действительности. Условия договора выполняются. Все в порядке, все устраивает.
Феофилова Ольга


"Гарант Тур" - международное кадровое агентство.
Выскажусь одним словом: отлично.
Чижиков Максим


"БельеОптТорг" - оптовая торговля нижним бельем
В принципе, работа хорошая. Но как сайт поднялся на высоту, так и стоит, а хотелось бы выше.
Зубрилов Андрей Андреевич


  Главная > Статьи > Шинглы: проверяем тексты на схожесть

Шинглы: проверяем тексты на схожесть


На первый взгляд, размеры базы поисковика – фактор далеко не критический. Но на самом деле, значение он имеет достаточно большое. Например, чем больше база Гугла, тем больше растёт его популярность и посещаемость. Основная причина такой закономерности – это редкие запросы, то есть, те, по которым поисковик находит менее 100 документов. Эти запросы составляют из общей массы 30%.

Но рост базы подразумевает под собой возникновение некоторых логических проблем, например, способность быстро реагировать на повторы и мусор и т.д. Копии документов в Интернете могут иметь различное происхождение. К примеру, один и тот же документ, размещённый на одном и том же сервере, может иметь отличия по техническим факторам: разные форматы, кодировки, переменные вставки (текущая дата, реклама и т.д.).

Достаточно многие документы копируются и редактируются в Интернете. Среди методов редактуры наиболее популярны корректура, раскрытие темы, ревизия и т.д. Или же текст может быть намеренно скопирован и изменён. Правда, есть и ещё один класс внешне мало различных документов: форумы, анкеты и т.д.

Если повтор полный, то проблем, можно сказать, не возникает. В данном случае, в индексе сохраняется контрольная сумма текста и все остальные тексты, у которых такая же контрольная сумма, просто игнорируются. Но этот метод совершенно не подходит для того, чтобы выявить отредактированные документы.

Для этого был разработан алгоритм «шинглов» (от слова shingles, «черепички, чешуйки»). Работает он примерно следующим образом. Для каждых 10 слов текста определяется шингл (контрольная сумма). Десятисловия перекрывают друг друга – это делается в целях, чтобы никакой отрывок текста не пропал. После из всех определённых сумм выбирают те, которые, к примеру, делятся на 15. К особенностям текста выборка не привязана, потому что контрольные суммы имеют равномерное распределение. Если найдено хоть одно идентичное десятисловие по контрольной сумме, то это – верный признак дублирования. Если же таких десятисловий много – скорее всего, вы наткнулись на искомую копию! Ведь один шингл, который совпал, соответствует пятнадцати десятисловиям, которые есть в полной версии текста. Чтобы выявить полный повтор документа, считают ещё одну контрольную сумму – супершингл. В данном случае, полной копией будет считаться только тот документ, где все шинглы полностью совпали.

Таким методом можно находить копии теста, а также источники и т.д. Теперь определять долю плагиата в статье стало очень просто. Но не стоит думать, что данная методика действует только на Западе. Схожий алгоритм выявления нечетких дублей разработан Яндексом.

02.12.2008