Цитата: Hellerick от 21 июня 2022, 10:09Я имел в виду заголовок первого столбца. Он остался английским.Пардон, какой-то баг. Исправлено.
Цитата: Hellerick от 21 июня 2022, 10:09Просто более частотные слова вцелом должны оказаться короче менее частотных. Алгоритм генерации первичной лексики должен это как-то учитывать.Ключевое слово - "в целом". Тут довольно легко уйти в две крайности, и в общем я бы не стал переоценивать возможности такого подхода. Легко заметить, например, что на длину большинства реальных русских слов в списке значительные ограничения оказывает морфология, и русский тут не одинок. В целом же лично мне видится более критичной для коммуникации меньшая длина не более частотных слов (от односложности "театра" или даже "женщины" язык вряд ли что-то выиграет), а служебных слов и отдельных морфем. Скажем, "человек" примерно в полтора раза частотнее слов "до" и "мой" и вдвое частотнее слова "кто", но кажется очевидным, что его трехсложность создает существенно меньше проблем, чем создавала бы трехсложность этих трех служебных слов вместе взятых.
Цитата: Awwal от 21 июня 2022, 08:39В общих чертах это сделать нетрудно, но вот есть ли смысл?
Цитата: Awwal от 21 июня 2022, 08:39Глагол "считать", "подсчитывать" - на 38-й строке.
Цитата: Hellerick от 21 июня 2022, 05:17Надо бы слово 'count' обратно на русский локализовать.Глагол "считать", "подсчитывать" - на 38-й строке. Существительное "счёт" в этом свете я счел избыточным для перечисления.
Цитата: Hellerick от 21 июня 2022, 05:17А еще придумать бы, как этот список по частотности сранжировать.В общих чертах это сделать нетрудно, но вот есть ли смысл? Частотность сильно зависит от контекста (достаточно сказать, что в словаре Ляшевской в первые же 400 слов входит слово "театр") и не может быть уравнена с важностью слова. Если бы мы, к примеру, ограничились тысячей наиболее частотных слов русского, мы бы, скорее всего, технически способны были бы вести какой-то простейший диалог, но испытывали бы острейший дефицит любых тематических слов (без которых диалог проблематичен) и даже слов для выражения некоторых совершенно базовых понятий (т.к., скажем, ни слово "звук", ни слово "звучать" в первую тысячу не входят), зато одновременно у нас в списке оказалось бы существенное количество синонимов или семантически близких слов (напр., "тут" и "здесь"). Чтобы такое ранжирование имело смысл, необходимо было бы как минимум ввести какие-то дополнительные изменения в систему сортировки слов, иначе ранжирование по частотности тех же общих существительных или служебных слов и наречий оказалось бы... непродуктивным.