Документация TextExpert, TextXpert генерация статей

TextXpert режим размножение статей

Генерация статей и сравнение группы статей методом шинглов

Основные возможности:

  • генерация статей;
  • сравнение статей методом шинглов (алгоритм CRC32);
  • анализ шаблона размножения (лог наиболее повторяющихся шинглов) позволяет быстро его исправить;
  • лог сравнения (максимальный % совпадений при сравнении “каждая с каждой” );
  • возможность перемещения, переименования, удаления неподходящих статей;
  • максимум настроек, настройки по умолчанию соответствуют параметрам проверки по программам ACE, GTW, DuplOff и др.;

2017-09-12 18_04_03-TextXpert Phoenix - Генерация и сравнение статей

Поддерживается следующий синтаксис шаблона

(который “вшит” в мастера редактора шаблона):

  • {||} простой шаблон для выбора одного из вариантов (как и во всех аналогичных программах) ;
  • [R1|R2|P1|P2|P3|P4] для смешивания перечислений. r1-разделитель, r2-последний разделитель, pN-перечисления (свой синтаксис);

Вложенность шаблона произвольная.
Скобки могут быть вложены друг в друга неограниченно.

Самый элементарный порядок действий

  1. Открыть файл шаблона размножения текста.
  2. Выбрать папку для готовых статей (любая папка, удобнее если она пустая).
  3. Указать необходимое количество клонов.
  4. Указать шингл сравнения.
  5. Указать максимально допустимый процент схожести.
  6. Ожидать завершения.

Если не удается получить нужное кол-во статей при заданных параметрах

Это значит, что шаблон генерация текста недостаточно сложен.
Сразу замечу: пробная генерация в редакторе шаблона не проверяет уникальность, она “тупо” генерирует варианты статей случайным образом и нужна для проверки читаемости статей.
А вот модуль-2 генерирует статьи, проверяя их по заданному шагу шингла и максимально допустимому % схожести.
Если только одна статья генерится или недостаточное количество, значит шаблон слабый.
В редакторе шаблона нужно его доработать.
1. Слов без синонимов должно быть как можно меньше, особенно подряд стоящих.
2. К каждому слову – по возможности максимальное количество синонимов.
3. Добавить “синонимы” частей предложений, словосочетаний.
4. Делайте по возможности несколько вариантов предложения (в фигурных скобках). Например, “сломайте” предложение, т.е. сделайте его вариант “задом наперед” или отрерайтите его. И конечно, для каждого из вариантов предложения, обязательно  надо подбирать синонимы к словам.

Слабые места в шаблоне можно найти в модуле-2, вкладка “Сравнение”, пункт “Анализ шинглов”. Но там необходимы хотя бы несколько размноженных статей. Т.е. запускаем этот пункт, указываем полученные статьи. На выдаче у вас цепочки шинглов. Выбираем самые повторяющиеся, находим их в шаблоне и дорабатываем. Как правило их всего несколько на шаблон.

Использование переменных подстановки в шаблоне генерации

Использование переменных подстановки в шаблоне генерации позволяет в процессе генерации подставлять на место переменной определенное строковое значение.

Количество переменных в шаблоне размножения статей неограниченно. Количество вариантов для каждой переменной неограниченно. Номера переменных, набор значений для каждой переменной и количество замен для каждого значения описываются в текстовом файле.

Пример файла описания переменных

^1^
1 первая_первый
2 первая_второй
3 первая_третий
^0^
2 нулевая_первый
3 нулевая_второй

Расшифровка:
Переменная1
КоличествоЗамен ВариантЗамены1
КоличествоЗамен ВариантЗамены2
КоличествоЗамен ВариантЗамены3
Переменная2
КоличествоЗамен ВариантЗамены1
КоличествоЗамен ВариантЗамены2

В тексте шаблона генерации статей переменные записываются как и в файле описания (^N^). Переменные могут входить в скобки вариантов на любом уровне вложенности.
В качестве одного из вариантов применения переменных можно отметить их использования для вставки в статьи ключей (анкоров), которые потом будут использованы для расстановки ссылок. Подобный подход сможет гарантировать нужное количество ссылок с нужных анкоров.

Прочие опции

1.1 Пропускать слова короче N символов.
Используется при проверке сгенерированных текстов. Слова короче N символов не участвуют при составлении цепочек шинглов.
1.2 Шингл.
Используется при проверке сгенерированных статей. Задаёт  количество слов в шингле. В зависимости от опций, при составлении цепочки шингла, могут отбрасываться слова короче N символов, “стопслова”, теги HTML.
1.3 Процент.
Максимально допустимый процент совпадения статей. При проверке используется алгоритм CRC32, статьи проверяются “каждая с каждой”. Хэш проверенных статей сохраняется в памяти программы, что позволяет максимально ускорить проверку вновь сгенерированных статей. Алгоритм проверки максимально оптимизирован различными методами (Ассемблер, оптимизированные циклы и т.д.).
1.4 Псевдолемматизация
Никакого секрета, просто отбрасываем окончания.
1.5 Поправка округления.
Процент схожести рассчитывается путем округления расчетного процента, если необходимо отбросить дробную часть ставьте 0.49.
2. Сравнение статей.
2.1 Анализ шинглов (медленно, алгоритм CRC32 не используется).
На основе сравнения статей (каждая с каждой) строится массив совпадающих шинглов. Каждый, кто занимался размножением, сталкивался с ситуацией, когда достичь нужный уровень “уникальность-шингл” бывает проблематично, тут и приходит на помощь данный сервис. На практике проверено: добавляя синонимы (или рерайт предложений) в найденный участок шаблона, максимально быстро достигается нужный результат.
2.2 Статистика
Статистика сравнения выдается в текстовый файл. Кроме обычных параметров, здесь имеется max, min и средний% ( среди максимальных значений совпадений).

На главную страницу