четверг, 18 июня 2015 г.




Тексты разные важны, тексты разные нужны
(АНАЛИЗ ТЕКСТА  В РАЗЛИЧНЫХ СЕРВИСАХ)

В  последнее время появилось много различных сервисов  по проверке текстов на избыточность, на читабельность, они программы, и работают по-разному. 
Я проанализировала текст в разных сервисах.

Текст проанализирован по тесту, предложенному в задании недели 4  Тест. Оценка степени удобочитаемости текста  https://audit.te-st.ru/readability/Уровень сложности текста в дистанционном курсе ниже, чем в обычном тексте
Для этого существует индексы:Индекс Флеша — мера определения сложности текста для восприятия, вычисляется на основании среднего количества слов в предложении и среднего количества слогов в слове (подробнее о методике расчета).
Индекс Фога — по условной шкале оценивает необходимый образовательный уровень для восприятия конкретного текста и рассчитывается также на установлении средней длины предложения и удельного веса сложных слов
Были протестированы теоретические тексты Недели 1- (см таблицу) Показатели  30 – 50 соответствуют студентам вуза, более высокие показатели 50-70 соответствует ученикам старших классов. Индекс Фога говорит нам об уровне восприятия. С учетом того, что в дистанционном курсе текст должен иметь более высокий уровень доступности, то индексы как раз и говорят, что текст читабелен для массовой аудитории
Обобщеннная таблица результатов по Индексам Флеша  Фога

Название текста
Индекс Флеша
Комментарии
Индекс Фога
комментарии
1.1 Тенденции развития сети
81
Простой текст. Доступен для понимания школьникам
5
Язык детской и школьной литературы. Доступен для понимания широкой аудитории

1.2 Куратор содержания
37
Текст средней степени сложности. Доступен для широкой аудитории
8
Язык популярной прессы. Доступен для понимания широкой аудитории
1.3 Типы курирования
40
Текст средней степени сложности. Доступен для широкой аудитории
7
Язык детской и школьной литературы. Доступен для понимания широкой аудитории

1.4  Роль курирования содержания в обществе
33
Текст средней степени сложности. Доступен для широкой аудитории
7
Язык детской и школьной литературы. Доступен для понимания широкой аудитории

1.5 Социальные  сервисы и курирование содержания
71
Простой текст. Доступен для понимания школьникам
5
Язык детской и школьной литературы. Доступен для понимания широкой аудитории

 
СЕРВИС 1 Анализ текста по закону ЦИПФА с помощью сервиса 1y.ru 
Механизмы поисковых систем таковы, что искусственно сгенерированный текст распознается как неестественный и исключается из верхних позиций поисковой выдачи. Как определить уровень естественности текста? Американский лингвист Джордж Ципф вывел закон естественности текста, согласно которому частота использования слова в тексте обратно пропорциональна его порядковому номеру. То есть второе слово встречается вдвое реже первого, третье – втрое реже первого и так далее. 
На основе этого нехитрого математического метода можно провести анализ любого текста на естественность. Естественным считается такой текст, который соответствует данному правилу на 30-50 процентов. Чем выше процентный показатель, тем естественнее выглядит текст. В интернете уже существуют специальные онлайновые ресурсы, с помощью которых можно выполнить анализ текста по закону Ципфа. Статьи с показателем менее 30 процентов поисковыми системами отбраковываются. ( подробнее см «Насколько можно доверять результатам анализа  текста по закону Ципфа» http://www.kakprosto.ru/kak-896507-chto-takoe-analiz-teksta-po-zakonu-cipfa-Результат выдается в двух окнах: в одном — график, в другом — частота использования отдельных слов и рекомендации по корректировке. Проанализировала теоретические тексты недели 1 дистанционного курса «Куратор содержания»
Таблица результатов анализа текста по закону Ципфа
Название текста
Кол-во слов
Оценка качества текста
Повторяющиеся слова
(количество)
Уменьшить на количество
1.1 Тенденции развития сети
521
51% (плохо)
Информация - 9

 9 слов ( канал, курирование, социальный,час, год новость, личный, частый. новый)- 3 раза
Соответствует закону Ципфа,
Уменьшить на 2 все 9
1.2 Куратор содержания
1236
73% (удовлетворительно)
Содержание – 36 раз
 Аудитория -12  Информация -11
Соответствует закону Ципфа,
- 6
- 6
1.3 Типы курирования
227
69% (удовлетворительно)
«Содержание» -6
 Обмен -2
Соответствует закону Ципфа, уменьшить на 2
1.4  Роль курирования содержания в обществе
106
55% (плохо)
«Содержание» повторяется 21 раз
- 6
1.5 Социальные  сервисы и курирование содержания
1153
59% (плохо)
«Информация» -14
-2

Результат показан на 2-картиках: 1) – интерактивный график 20 повторяющихся слов, показан голубым цветом, серым показано распределение слов в тексте по закону Ципфа, и зеленым показано оптимально возможное по рекомендации сервиса; 2) таблица - 20 повторяющихся слов , отображает количество повторов и рекомендации примеры окон по текстам 1.1 и 1.2
Пример по тексту 1.1 Тенденции развития сети

Слово
Повторов
Рекомендации
информация
9
okhttp://1y.ru/img/help.png
источник
7
-2http://1y.ru/img/help.png
каждый
6
-3http://1y.ru/img/help.png
количество
5
-2http://1y.ru/img/help.png
содержание
4
-2http://1y.ru/img/help.png
сеть
4
-2http://1y.ru/img/help.png
канал
3
-1http://1y.ru/img/help.png
курирование
3
-1http://1y.ru/img/help.png
социальный
3
-2http://1y.ru/img/help.png
час
3
-2http://1y.ru/img/help.png
год
3
-2http://1y.ru/img/help.png
новость
3
-2http://1y.ru/img/help.png
частый
3
-2http://1y.ru/img/help.png
личный
3
-2http://1y.ru/img/help.png
новый
3
-2http://1y.ru/img/help.png
многий
2
-1http://1y.ru/img/help.png
ссылка
2
-1http://1y.ru/img/help.png
сервиса
2
-1http://1y.ru/img/help.png
содержать
2
-1http://1y.ru/img/help.png
другой
2
-1http://1y.ru/img/help.png
 Пример по тексту 1.2 Куратор содержания


Слово
Повторов
Рекомендации
содержание
36
okhttp://1y.ru/img/help.png
курирование
23
-5http://1y.ru/img/help.png
конкретный
13
-1http://1y.ru/img/help.png
куратор
12
-3http://1y.ru/img/help.png
процесс
12
-4http://1y.ru/img/help.png
аудитория
12
-6http://1y.ru/img/help.png
контента
11
-5http://1y.ru/img/help.png
информация
11
-6http://1y.ru/img/help.png
тема
8
-4http://1y.ru/img/help.png
вашей
6
-2http://1y.ru/img/help.png
лучший
5
-1http://1y.ru/img/help.png
представление
5
-2http://1y.ru/img/help.png
область
5
-2http://1y.ru/img/help.png
новый
5
-2http://1y.ru/img/help.png
это
5
-2http://1y.ru/img/help.png
новость
5
-2http://1y.ru/img/help.png
сеть
5
-2http://1y.ru/img/help.png
простой
4
-2http://1y.ru/img/help.png
качество
4
-2http://1y.ru/img/help.png
опыт
4
-2http://1y.ru/img/help.png
 Вывод  тексты естественны , т.к. показатели выше 50%, не смотря на то что сервис выдает иногда оценку «плохо», когда менее 60%, но в проанализированных текстах есть показатели 69% и 73%, что говорит о высокой естественности текста

СЕРВИС 2  Проверка текста с помощью сервиса pr-cy.ru
 Текст 1.2  Куратор содержания по результатам анализа текста по закону Ципфа с помощью сервиса pr-cy.ru
Мы получили  что текст «1.2 Куратор содержания» имеет показатель естественности 81%. А по результатам анализа с помощью сервиса 1y.ru имеет 73% . В этом варианте показывают стоп-слова, и есть, такой показатель «Тошнота», он равен 6.6 для поверяемого текста.
Тошнота текста – это насыщенность страницы ключевыми словами. По всей видимости, имеется ввиду, что если статья  будет перенасыщена ключевыми словами для того, чтобы «понравиться поисковым системам», то нормального человека будет от этого нечитабельного текста просто тошнить. Допускается тошнота  в пределах 2-7%. Таким образом, проверяемый текст в пределах нормы по этому показателю.
 В результатах показано 87 слов по соответствию на 34%, Считается, что неплохая оценка – это 50% и больше, но стремиться надо к максимальным 100%.. И есть колонка рекомендаций на сколько надо уменьшить количество слов для каждого из 87
Итак, естественность равна 81%, что выше 30, и тошнота 6.6 меньше 7

СЕРВИС 3 Проверка текста с помощью сервиса istio.com

Сервис, который умеет анализировать текст по многим параметрам и искать орфографические ошибки. Нас будет интересовать функция проверки водности, то есть слов, которые не несут полезной информации. Слова-паразиты, вводные фразы, шаблонные обороты — все это «вода». Некоторое ее количество есть в любом тексте, и само по себе это не является проблемой, но до определенного порога. Оптимальным считается показатель водности менее 30%, максимальный предел — 60%.  По результатам анализа текста «1.2 Куратор содержания» водность равна 39%, тошнота здесь равна 8



При проверке на орфографию обнаружена только 1 ошибка  - «ищют», остальные с замечания не существенны.
Музейные кураторы не создавать контент, они держит руку на пульсе тенденций, прислушиваются к тому, что гости обсуждают, и находят ресурсы, которые хорошо резонируют с интересом посетителей. Они ищют артефакты, связанные с этой темой, и организуют выставки.

Таким образом, текст находится в допустимых пределах по водности, превосходит порог тошноты 8, что более 7 и 1 орфографическая ошибка


СЕРВИС 4 Проверка текста «1.2 Куратор содержания» с помощью сервиса textmarket.net

Экспресс-анализ текста дал следующие результаты:
Всего слов: 1184 "Водность" текста: 23%, "тошнота": 4% (26) Чаще всего встречаются: содержания(38), курирование(30), контент(16), кураторах(16), конкретных(13)
Итак, по этим результатам, водность текста на оптимальном уровне, тошнота значительно меньше 7

СЕРВИС 5  Проверка текста с помощью сервиса text.ru
Сервис проверки текстов по многим параметрам, включая уникальность, проверку орфографии, выделение ключевых слов. Нас интересует функция анализа водности и спамности (частоты употребления определенного слова или фразы). 

  По частоте слов следующие показатели

содержания
38
курирование
30
курирование содержания
20
кураторах
16
аудитории
13
информации
13
конкретных
13
процесс
13
темой
12
контента
11
http
9
content
7
content curation
7
curation
7
Итак, по результатам этой проверки водность 10%, заспамленность 54% - это не очень хороший показатель.
СЕРВИС 6  проверка текста с помощью сервиса test-the-text.ru
Сервис проверки текстов, написанных в информационном стиле, главными характеристиками которого являются четкость, предметность, объективность, лаконичность. При помощи данного сервиса тексты проверяются на соответствие информационному стилю, а в качестве бонуса даются рекомендации по корректировке.
Результат – качество текста 13% - не самый худший результат,довольно-таки часто равно 0  и при наведении мышкой на выделенные слова можно узнать в чем проблема, и как устранить
 СЕРВИС 9 Проверка с помощью сервиса glvrd.ru
Главред помогает очистить текст от словесного мусора, проверяет на соответствие информационному стилю. Сервис выдает подсвеченные замечания, при наведении на которые можно узнать как их устранить

Результат 6,3 балла из 10 по шкале Главреда
83 предложения  1123 слова, 8869 знаков 158 стоп-слов.
 Основные проблемы: необъективная оценка слабый глагол усилитель обобщение личное местоимение
Итак, по информационному стилю сервис неплохо оценил текст
Выводы:
Проанализирован текст недели1 из курса «Куратор содержания» в 6 различных сервисах: 1y.ru, pr-cy.ru, istio.com, textmarket.nettext.ru test-the-text.ru, glvrd.ru, а также определены индексы Флеша и Фога Понравились сервисы pr-cy.ru,istio.com, glvrd.ru,. Они взаимно дополняют друг друга и обеспечивают значимой информацией. Но истинность результатов сервисов пока нельзя принимать безоговорочно.  Исследуемый текст, проходит по нормативам практически во всех сервисах, в некоторых даже на оптимальном уровне



Комментариев нет:

Отправить комментарий