Шингл – таинственный и непонятный

Шингл как метод для сравнения уникальности статей

Уникальность контента

Уникальный контент необходим для продвижения любого сайта. При этом показателем использования оригинального, а не заимствованного с других ресурсов контента, и является уникальность. Простое же копирование текстовой информации не только бесполезно, но и чревато санкциями поисковых систем.

 Шингл используется при размножении статей

Метод шингловВсем, кто хоть раз выполнял размножение статей, пришлось столкнуться с таким понятием, как  шингл. Многие и не пытаются понять суть данного термина. Это можно заметить на примере общения с начинающими оптимизаторами.

 

 

Типичный пример диалога при заказе на размножение статей:

  • 1 – Ожидаю уникальность не ниже 95%!
  • 2 – При каком шаге шингла проверять тексты?
  • 1 – А что такое шингл?
  • 2 – Это параметр, который используется для сравнения, когда выполняют размножение статьи.
  • 1 – Вот я сделаю размещение статей. После их индексации какая уникальность будет? Только скажите без шинглов, не пишите мне про них.

Вот такие примерно диалоги иногда случаются при обсуждении технического задания на размножение статей. Эта проблема подтолкнула меня сделать попытку разобраться: что же такое алгоритм шинглов и “с чем его едят” оптимизаторы. Данная статья не претендует на полноту рассмотрения вопроса или на классическое определение термина. Наша задача – понять, каким образом используется этот непонятный метод при определении уникальности, когда мы пытаемся размножить статью.

Это часть исходного текста

Шингл – цепочка, состоящая из нескольких, подряд идущих слов. На практике используется размер шингла от 3 до 10 слов. Перед сравнением текстов формируют массив. Формируются цепочки массива не последовательно, а внахлест. Приведу пример такого массива при шаге 3 слова.

Исходный текст – “Первое второе третье четвертое пятое шестое слово”.
Полученный массив:

  • Первое второе третье
  • второе третье четвертое
  • третье четвертое пятое
  • четвертое пятое шестое
  • пятое шестое слово

Длина массива равна количеству слов минус длина шага шингла плюс один. В нашем примере 7-3+1=5. Более того, перед получением массива текст нормализуется. Процесс нормализации заключается в отбрасывании стоп-слов, предлогов, союзов, символов, цифр и т.д. После того, как мы получили массив для каждого текста, несложно рассчитать процент уникальности между статьями. Расчет уникальности статей – процент неодинаковых шинглов от общего их количества в статьях. Для расчета уникальности статьи в некотором наборе текстов мы должны сравнить эту статью с остальными и взять минимальный результат.

Какой размер шингла использовать при проверке

Тут же напрашивается встречный вопрос: для какой цели сравниваем тексты? Если нам необходимо просто узнать уникальность статей между собой, то и ответ прост – чем короче шингл, тем более уникальны тексты. Поясню: уникальность, например, 95% при шаге 5 слов, “более уникальна” чем те же 95% при шаге 10 слов. Можно сказать по-другому: уникальность 97% при длине 10 слов примерно равна уникальности 90% при длине 5 слов. А если нам необходимо прогнозировать уникальность этих же текстов с точки зрения поисковых систем (после их размещения и индексации), то тут нет точного ответа. Однозначно можно утверждать только одно: чем меньше размер шингла и выше процент уникальности, тем более лояльны будут к вашим статьям поисковые системы. Этот момент особенно необходимо учитывать тем, кто решил впервые создать свой сайт и наполнить его уникальным контентом.

Метод шинглов применяется во всех программах для размножения статей

Программа для размножения статей TextXpert применяет при использовании алгоритма шинглов метод CRC, что позволяет достичь весьма приличной скорости сравнения большого количества размноженных текстов. А это, в свою очередь, увеличивает и скорость, с которой выполняется генерация текста. Для справки: алгоритм CRC позволяет работать не с самими строками шинглов, а с их контрольными суммами, что, естественно, повышает скорость (сравнение чисел происходит на порядок быстрее сравнения строк).

Ждем ваших заказов по размножению статей и копирайтингу на нашем ресурсе http://www.textxpert.ru