В помощь конлангеру: 1100 лексических значений

Автор Awwal, 05 июня 2022, 11:35

« назад - далее »

Awwal

В таблице Excel представлен список из 1100 слов русского языка, грубо рассортированных по нескольким категориям (прилагательные, культурные существительные, анатомические термины, служебные слова, культурные глаголы и пр.). При наличии нескольких частей речи с тесными семантическими связями я старался их не дублировать. Уточнение значения слова дается редко, в целом список ориентирован на полный набор значений приведенных слов в русском. При создании использовались Language Construction Kit Марка Розенфельдера и частотные словари. Надеюсь, список в дальнейшем поможет другим конлангерам при создании словарей своих языков.
another_conlang_list_-_largest.xls

Awwal

Новая, исправленная и улучшенная версия списка (созданная по итогам английской локализации) содержит 1300 русских слов.
another_conlang_list_-_rus_1300.xls

Hellerick

Надо бы слово 'count' обратно на русский локализовать.
А еще придумать бы, как этот список по частотности сранжировать.
А там и до автоматического генератора недалеко.

Awwal

#3
Цитата: Hellerick от 21 июня 2022, 05:17Надо бы слово 'count' обратно на русский локализовать.
Глагол "считать", "подсчитывать" - на 38-й строке. Существительное "счёт" в этом свете я счел избыточным для перечисления.
Цитата: Hellerick от 21 июня 2022, 05:17А еще придумать бы, как этот список по частотности сранжировать.
В общих чертах это сделать нетрудно, но вот есть ли смысл? Частотность сильно зависит от контекста (достаточно сказать, что в словаре Ляшевской в первые же 400 слов входит слово "театр") и не может быть уравнена с важностью слова. Если бы мы, к примеру, ограничились тысячей наиболее частотных слов  русского, мы бы, скорее всего, технически способны были бы вести какой-то простейший диалог, но испытывали бы острейший дефицит любых тематических слов (без которых диалог проблематичен) и даже слов для выражения некоторых совершенно базовых понятий (т.к., скажем, ни слово "звук", ни слово "звучать" в первую тысячу не входят), зато одновременно у нас в списке оказалось бы существенное количество синонимов или семантически близких слов (напр., "тут" и "здесь"). Чтобы такое ранжирование имело смысл, необходимо было бы как минимум ввести какие-то дополнительные изменения в систему сортировки слов, иначе ранжирование по частотности тех же общих существительных или служебных слов и наречий оказалось бы... непродуктивным.

Hellerick

Цитата: Awwal от 21 июня 2022, 08:39В общих чертах это сделать нетрудно, но вот есть ли смысл?

Просто более частотные слова вцелом должны оказаться короче менее частотных. Алгоритм генерации первичной лексики должен это как-то учитывать.

Цитата: Awwal от 21 июня 2022, 08:39Глагол "считать", "подсчитывать" - на 38-й строке.

Я имел в виду заголовок первого столбца. Он остался английским.

Awwal

#5
Цитата: Hellerick от 21 июня 2022, 10:09Я имел в виду заголовок первого столбца. Он остался английским.
Пардон, какой-то баг. Исправлено.
Цитата: Hellerick от 21 июня 2022, 10:09Просто более частотные слова вцелом должны оказаться короче менее частотных. Алгоритм генерации первичной лексики должен это как-то учитывать.
Ключевое слово - "в целом". Тут довольно легко уйти в две крайности, и в общем я бы не стал переоценивать возможности такого подхода. Легко заметить, например, что на длину большинства реальных русских слов в списке значительные ограничения оказывает морфология, и русский тут не одинок. В целом же лично мне видится более критичной для коммуникации меньшая длина не более частотных слов (от односложности "театра" или даже "женщины" язык вряд ли что-то выиграет), а служебных слов и отдельных морфем. Скажем, "человек" примерно в полтора раза частотнее слов "до" и "мой" и вдвое частотнее слова "кто", но кажется очевидным, что его трехсложность создает существенно меньше проблем, чем создавала бы трехсложность этих трех служебных слов вместе взятых.

Быстрый ответ

Обратите внимание: данное сообщение не будет отображаться, пока модератор не одобрит его.

Имя:
Имейл:
ALT+S — отправить
ALT+P — предварительный просмотр