Ответ

Добро пожаловать на NovaLingua - форум любителей лингвистики.
Войти
Регистрация

15 апреля 2025, 14:14

Главное меню

Ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя
Имейл
Тема сообщения
Иконка

Вложения и другие параметры

ALT+S — отправить
ALT+P — предварительный просмотр

Сообщения в этой теме

Автор Awwal

- 21 июня 2022, 11:29

Цитата: Hellerick от 21 июня 2022, 10:09Я имел в виду заголовок первого столбца. Он остался английским.

Пардон, какой-то баг. Исправлено.

Цитата: Hellerick от 21 июня 2022, 10:09Просто более частотные слова вцелом должны оказаться короче менее частотных. Алгоритм генерации первичной лексики должен это как-то учитывать.

Ключевое слово - "в целом". Тут довольно легко уйти в две крайности, и в общем я бы не стал переоценивать возможности такого подхода. Легко заметить, например, что на длину большинства реальных русских слов в списке значительные ограничения оказывает морфология, и русский тут не одинок. В целом же лично мне видится более критичной для коммуникации меньшая длина не более частотных слов (от односложности "театра" или даже "женщины" язык вряд ли что-то выиграет), а служебных слов и отдельных морфем. Скажем, "человек" примерно в полтора раза частотнее слов "до" и "мой" и вдвое частотнее слова "кто", но кажется очевидным, что его трехсложность создает существенно меньше проблем, чем создавала бы трехсложность этих трех служебных слов вместе взятых.

Автор Hellerick

- 21 июня 2022, 10:09

Цитата: Awwal от 21 июня 2022, 08:39В общих чертах это сделать нетрудно, но вот есть ли смысл?

Просто более частотные слова вцелом должны оказаться короче менее частотных. Алгоритм генерации первичной лексики должен это как-то учитывать.

Цитата: Awwal от 21 июня 2022, 08:39Глагол "считать", "подсчитывать" - на 38-й строке.

Я имел в виду заголовок первого столбца. Он остался английским.

Автор Awwal

- 21 июня 2022, 08:39

Цитата: Hellerick от 21 июня 2022, 05:17Надо бы слово 'count' обратно на русский локализовать.

Глагол "считать", "подсчитывать" - на 38-й строке. Существительное "счёт" в этом свете я счел избыточным для перечисления.

Цитата: Hellerick от 21 июня 2022, 05:17А еще придумать бы, как этот список по частотности сранжировать.

В общих чертах это сделать нетрудно, но вот есть ли смысл? Частотность сильно зависит от контекста (достаточно сказать, что в словаре Ляшевской в первые же 400 слов входит слово "театр") и не может быть уравнена с важностью слова. Если бы мы, к примеру, ограничились тысячей наиболее частотных слов русского, мы бы, скорее всего, технически способны были бы вести какой-то простейший диалог, но испытывали бы острейший дефицит любых тематических слов (без которых диалог проблематичен) и даже слов для выражения некоторых совершенно базовых понятий (т.к., скажем, ни слово "звук", ни слово "звучать" в первую тысячу не входят), зато одновременно у нас в списке оказалось бы существенное количество синонимов или семантически близких слов (напр., "тут" и "здесь"). Чтобы такое ранжирование имело смысл, необходимо было бы как минимум ввести какие-то дополнительные изменения в систему сортировки слов, иначе ранжирование по частотности тех же общих существительных или служебных слов и наречий оказалось бы... непродуктивным.

Автор Hellerick

- 21 июня 2022, 05:17

Надо бы слово 'count' обратно на русский локализовать.
А еще придумать бы, как этот список по частотности сранжировать.
А там и до автоматического генератора недалеко.

Автор Awwal

- 21 июня 2022, 02:19

Новая, исправленная и улучшенная версия списка (созданная по итогам английской локализации) содержит 1300 русских слов.
another_conlang_list_-_rus_1300.xls

Автор Awwal

- 05 июня 2022, 11:35

В таблице Excel представлен список из 1100 слов русского языка, грубо рассортированных по нескольким категориям (прилагательные, культурные существительные, анатомические термины, служебные слова, культурные глаголы и пр.). При наличии нескольких частей речи с тесными семантическими связями я старался их не дублировать. Уточнение значения слова дается редко, в целом список ориентирован на полный набор значений приведенных слов в русском. При создании использовались Language Construction Kit Марка Розенфельдера и частотные словари. Надеюсь, список в дальнейшем поможет другим конлангерам при создании словарей своих языков.
another_conlang_list_-_largest.xls