Отчет CENTR об использовании местных языков в ccTLD

Большинство веб-сайтов мира говорят по-английски. В мире существует более 6000 языков, но английский язык наиболее популярен онлайн – 54% веб-страниц на английском. Основные языки мира, такие как арабский и хинди, с более чем миллиардом носителей, едва представлены на веб-страницах.

В рамках празднования своей 20-й годовщины CENTR (Council of European National Top Level Domain Registries, Совет европейских национальных реестров доменов верхнего уровня) обратился к Оксфордской Информационной лаборатории (Oxford Information Labs) с просьбой проверить гипотезу о том, что ccTLD (country code Top-Level Domain, Национальный домен верхнего уровня) способствуют распространению местных языков. Благодаря сотрудничеству членов CENTR Оксфордской информационной лаборатории был предоставлен беспрецедентный доступ к файлам зон и анализу языка для 10 TLD, включающих 16,4 миллиона доменных имен.

Члены и ассоциированные члены CENTR совместно управляют 80% всех зарегистрированных IDN во всем мире. Многие участники созданы еще в 1990-х годах, до коммерциализации рынков доменных имен. Большинство было создано, чтобы отразить дух раннего Интернета(как это выражено в RFC 1591) Менеджеры ccTLD являются «доверенными лицами делегированного домена и обязаны служить сообществу». Эта «служба сообществу» для местных интернет-сообществ, естественно, включает в себя работу с местными языками и их поддержку.

В этом исследовании OIL обнаружили, что в среднем 76% веб-контента, связанного с каждым TLD, отражает языки, на которых говорят в соответствующей стране или территории. На английский язык приходится 19% веб-контента, а на другие языки 4%. Для тех TLD, включенных в исследование, которые также предлагают интернационализированные доменные имена, или IDN (т. е. домены с акцентами, диакритическими знаками и нелатинскими шрифтами), местные языки составляют более высокую долю веб-контента (84%), а английский — более низкую (9%). Это соответствует выводу, что IDN помогают улучшить языковое разнообразие в киберпространстве.

Большинство доменов ccTLD не делают свои данные общедоступными. Исследователи, заинтересованные в измерении языкового разнообразия онлайн, редко имеют доступ к необработанным данным ccTLD. Исследовательская группа OIL разработала свою собственную методологию для автоматического анализа языка веб-контента. Обучение алгоритмам на общедоступных gTLD облегчило анализ больших наборов данных с источниками в различных форматах. Для этого исследования OIL доработала свою методологию для идентификации одностраничников и парковочных сайтов.

С помощью автоматического анализа данных исследовательская группа выполнила следующие задачи:

• Идентификация доменов с активными сервисами.

• Автоматический анализ языка для всех активных доменов в наборе данных.

• Идентификация некачественного контента (одностраничники и подозрение на парковочные страницы).

• Сравнительный языковой анализ до и после устранения некачественного контента.

• Определение интернационализированных доменных имен в образце данных и сравнение всех вышеупомянутых результатов с полным набором данных.

После анализа были получены следующие данные:

Домены с активными сервисами. Чтобы поддерживать любой языковой контент, доменное имя должно иметь активные службы. В среднем, процент доменов с активными услугами (серверов имен или электронной почты) на TLD в анализе составляет 80%. Результаты варьируются в широких пределах: самый высокий процент активных доменов был найден в .sk (Словакия) с 91%, а самый низкий в .nu (Nuie) с 44%.

Целью этого анализа является не вынесение суждений о показателях использования в рамках конкретного TLD, а исключение из дальнейшего анализа тех доменов, которые отнесены к категории неактивных.

Использование доменных имен: выявление контента низкого качества. Исследовательская группа определила как некачественный контент и исключила из дальнейшего изучения одностраничники и парковочные сайты. В среднем суммарный процент некачественного контента составил 37%. Самый высокий показатель был в зоне .nu (53%), а самый низкий — .sk (23%).

Анализ языка. За исключением доменов с некачественным контентом, исследовательская группа провела автоматический анализ языка веб-контента, связанного с оставшимися доменными именами в образце данных, в соответствии с разработанной методологией.

Результаты исследования.

Результаты этого исследования показывают, что национальные и региональные домены повышают присутствие местных языков в Интернете и показывают более низкий уровень английского языка, чем в секторе глобальных TLD.

Модель использования языка не случайна, но соответствует языкам, на которых говорят в стране или территории, представленной TLD. Таким образом, словацкий язык, на который приходится 0,4% веб-сайтов в мире, является основным языком для 64% (91 000+) доменов .sk. Кроме того, процент «других» языков в каждой зоне низкий (обычно менее 5%). Такие результаты указывает на то, что пользователи Интернета рассматривают каждый ccTLD как отражающий страну или географическую территорию и их языки.

Три наиболее часто используемых языка каждой зоны, исключая английский, отражают основные языки, на которых говорят в стране или территории, представленной TLD. Второй и третий наиболее распространенные языки также относятся к географическому региону и языковым семьям. Так, испанский был найден в зонах .cat и .pt; чешский в зоне .sk; и шведский в зоне .dk. Единственной аномалией является присутствие румынского языка в доменах .se второго уровня IDN, но этот процент очень низок (<1%).

В исследовании интенсивно присутствовал английский язык во всех TLD, но во всех случаях он был значительно ниже среднемирового показателя в 54%.

После исключения некачественного контента, то есть одностраничных и парковочных сайтов, процент англоязычных сайтов упал для каждого TLD в исследовании. Это приводит к выводу, что английский, скорее всего, будет языком некачественного веб-контента.

Хотя ccTLD демонстрируют постоянную согласованность с основными языками, на которых говорят в соответствующей стране или территории, присутствие языков коренных народов или меньшинств является слабым. Несмотря на глобальный характер Интернета, языки онлайн не соответствуют языкам реального мира. В этом контексте роль интернационализированных и региональных TLD играет все более важную роль в поддержке языкового разнообразия в Интернете.

Источник: https://centr.org/library/library/educational-promotional-material/20th-anniversary-paper-diversity-through-localization.html

Оставьте комментарий:

Ваш e-mail не будет опубликован.