NovaLingua - форум любителей лингвистики

Теоретический раздел => Интерлингвистика и лингвопроектирование => Проекты письменностей и транслитераций => Тема начата: Зритель от 07 августа 2022, 15:49

Название: Частотные списки
Отправлено: Зритель от 07 августа 2022, 15:49
Catalog of the most frequent spellings for each phoneme in American English https://wp.auburn.edu/rdggenie/home/teaching-ideas/spcat/

ЦитироватьA Catalog of Spellings

The top spellings for phonemes and their percentages of the 17,000 most frequent words were investigated by Paul Hanna (see Hodges, R E. (1966). The case for teaching sound-to-letter correspondences in spelling. Elementary School Journal, 66, 327-336, and the update, Fry, E. (2004). Phonics: A large phoneme-grapheme frequency count revisited.  Journal of Literacy Research, 36, 85-98).  I will only include graphemes that account for at least 3% of the example words. For the reliability of phonics generalizations, see the chart below summarizing Francine Johnston's research.
Phoneme
   
Principal spellings in order of frequency (Hanna, Fry) and example words
/a/    a (sack), 97%; a_e (have), 3%
/A/    a (bacon), 45%; a_e (bake), 35%; ai (raid), 9%; ay (play), 6%
/Ar/    ar (parable), 29%; are (bare), 23%; air (fair), 21%; ere (there), 15%; ear (bear), 6%
/ar/    ar (bar), 89%; are (are), 5%; ear (heart), 3%
/aw/    o (lost), 41%; a (ball), 22%; au (haul), 19%; aw (saw) 10%
/b/    b (big), 97%
/ch/    ch (chair), 55%, t (feature), 31%; tch (catch), 11%
/d/    d (do), 98%
/u/ (schwa)     o (other), 24%; u (up), 20%; a (alarm), 19%; i (panic), 18%; e (enough), 11%; ou (famous), 5%
/e/     e (bed), 91%; ea (bread) 4%
 /E/     y (very), 41%; e (beware), 40%;  ee (feet), 6%; ea (seat), 6%
 /Er/     er (experience), 32%; ear (fear), 25%; eer (deer), 18%; e_e (here), 14%; ier (tier), 7%
 /ul/     le (table), 95%
 /er/     er (hammer), 77%; or (odor), 12%; ar (cellar), 8%
 /f/     f (fox), 78%; ph (phone), 12%; ff (stuff), 9%
 /g/     g (girl), 88%; gg (egg), 5%; x (exit), 3%
 /h/     h (hot), 98%
/hw/     wh (white), 100%
 /i/     i (hit), 92%; i-e (give), 6% [y (gym), 2%]
 /I/     i_e (pipe), 37%; i (Bible), 37%; y (by), 14%; igh (right), 6%
 /j/     ge (age), 66%; j (jet), 22%; dge (edge), 5%; d (soldier), 3%
/k/     c (car), 73%; k (kit), 13%; ck (sick), 6%; ch (choir), 3%
 /ks/     x (six), 90%; cs (tocsin), 10%
 /kw/     qu (quit), 97%
 /l/     l (leg), 91%; ll (tell), 9%
 /m/     m (mad), 94%; mm (dimmer), 4%
 /n/     n (no), 97% [kn (know)<1%]
/ng/     ng (sing), 59%; n (monkey), 41%
 /o/     o (hot), 94%; a (want), 5%
 /O/     o (focus), 73%; o_e (hope), 14%; oa (boat), 5%; ow (row), 5%
/oi/     oi (oil), 62%; oy (toy), 32%
 /oo/     u (bush), 61%; oo (hook), 35%; o (woman), 5%
 /Or/     or (for), 97%; ore (core), 3%
 /ow/     ou (shout), 56%; ow (howl), 29%; ou_e (house), 13%
 /p/     p (pin), 96%, pp (happen), 4%
 /r/     r (run), 97%
 /s/    s (say), 73%, c (cereal), 17%; ss (toss), 7%
/sh/     ti (action), 53%; sh (shy), 26%; ci (special), 5%; ssi (fission), 3%
 /t/     t (top), 97%
 /th/     th (bath) 100%
 /u/     u (bus) 86%; o (ton), 8%
 /U/ or /OO/     u (human), 59%; u_e (use), 19%; oo (moon), 11%; ew (few) 4%
 /v/    v (very), 99.5%
 /w/    w (way), 92%; u (suede), 7.5%
 /y/     i (onion), 55%; y (yes), 44%
 /z/     s (was), 64%; z (zero), 23%; es (flies), 4%, x (xylophone), 4%
 /zh/     si (incision), 49%; s (pleasure), 33%; g (garage), 15%

The frequency of spelling patterns is a matter of scientific discovery.  Much of what I learned from Hanna's study surprised me, e.g., that s is the most common spelling of /z/.  We don't want to burden children and teachers with rare spellings, nor do we want to omit common ones.
How reliably do vowel spellings represent phonemes?
Evidence from Johnston's study of the 3000 most common words

From Johnston, F. P. (2001).  The utility of phonic generalizations:  Let's take another look at Clymer's conclusions.  The Reading Teacher, 55, 132-143.
Correspondence
   
Phoneme, example word, and percent of reliability in common words
a_e    /A/ (cake) 78%
ai    /A/ (rain) 75%
ay    /A/ (play) 96%
e_e    /E/ (these) 17%
ee    /E/ (feet) 96%
ea    /E/ (seat) 64%; /e/ (head) 17%
ei    /A/ (rein) 50%; /E/ (either) 25%
ey    /E/ (monkey) 77%
ie    /E/ (field) 49%; /I/ (tied) 27%
i_e     /I/ (five) 74%
 o_e     /O/ (stove) 58%
 oa     /O/ (coat) 95%
 ow     /O/ (snow) 68%; /ow/ (how) 32%
 oe     /O/ (toe) 44%; /OO/ (shoe) 33%; /u/ (does) 22% [only 9 words in sample]
 ou     /ow/ (out) 43%; /u/ (touch) 18%; /U/ (your) 7%
 u_e     /OO/ or /U/ (rule, refuse) 77%
 oo     /OO/ (boot) 50%; /oo/ (book) 40%
 ew     /OO/ (blew) 88%; /U/ (few) 19% [some overlap, e.g., new]
 ui     /i/ (build) 53%; /U/ (fruit) 24%
 au     /aw/ (cause) 79%
aw     /aw/ (saw) 100%
 oi     /oy/ (join) 100%
 oy     /oy/ (boy) 100%
 ia     /E/a/ (piano) 54%; /u/ (Asia) 46%
 y (unaccented syllable)     /E/ (lucky) 100%
Название: От: Частотные списки
Отправлено: Hellerick от 08 августа 2022, 06:06
Спасибо. Крайне любопытно и вдохновляет на эксперименты.
Название: От: Частотные списки
Отправлено: Зритель от 08 августа 2022, 08:59
К сожалению не нахожу материал по Received Pronunciation. Исследователей конечно можно понять -- General American проще, в нём меньше фонем засчёт того, что нет трифтонгов и нет интерференции с /r/. Но стандарт есть стандарт и хочется делать по RP. Ваш фонетический словарь какой, только по GA или по обоим? Поделитесь?
Название: От: Частотные списки
Отправлено: Hellerick от 08 августа 2022, 09:12
Я сейчас на работе. Потом поищу.
Мой конвертер работает с двумя словарями. Сначала ищет слово в американском словаре, а если не найдет — в британском.

Лично у меня здесь больший вопрос возник по поводу того, как они базу слов брали. Как сравнивать "графофонемы" в небольшом числе частотных слов и в большом числе редких слов? Что для носителя важнее и формирует стереотип соответствия букв и звуков?
Название: От: Частотные списки
Отправлено: Зритель от 08 августа 2022, 09:33
Буду благодарен.

Работы, на которые автор ссылается, я не читал, но думаю, что надо считать так же, как Вы считали частотность фонем, а именно по литературным произведениям. Только в этот раз считать пары фонема--буквосочетание, а потом группировать по фонеме.
Название: От: Частотные списки
Отправлено: Hellerick от 08 августа 2022, 18:52
Мои словарики:

https://disk.yandex.ru/d/BdrymRKC8vSErQ

Два американских, один британский и табличка соответствия фонетических символов.
Название: От: Частотные списки
Отправлено: Зритель от 09 августа 2022, 05:34
Познавательно. ;up:

Теперь понятно откуда у Вас взялся from [frʌm] - так написано в словаре Карнеги, а в Кембриджском [frɑm]. Поди разберись как они выговаривают.

Словарь Карнеги странный. Ещё заметил, что он даёт SINGLE  S IH1 NG G AH0 L т.е. [sɪŋgʌl] вместо ожидаемого [sɪŋgəl] - как собственно и есть в Кембриджском.

Что означают цифры после гласных?
Название: От: Частотные списки
Отправлено: Зритель от 09 августа 2022, 05:37
А, понял. Они вообще шву не используют. Везде заменили шву на ʌ.
Название: От: Частотные списки
Отправлено: Зритель от 09 августа 2022, 05:40
Цитата: Зритель от 09 августа 2022, 05:34Теперь понятно откуда у Вас взялся from [frʌm] - так написано в словаре Карнеги, а в Кембриджском [frɑm]. Поди разберись как они выговаривают.

Это и отсутствие швы в паре указывают на то, что они дали слово from в слабой форме, т.е. [frəm]. В кембриджском дают все четыре: сильную и слабую * американскую и британскую. Единственный недостаток кембриджского - они зачем-то пихают долготы гласных в американский вариант, где их заведомо нет.
Название: От: Частотные списки
Отправлено: Hellerick от 09 августа 2022, 05:41
Цитата: Зритель от 09 августа 2022, 05:34Что означают цифры после гласных?

Ударение.
1 — Первичное
2 — Вторичное
0 — Нет ударения

Соответственно, AH0 — это шва.
Название: От: Частотные списки
Отправлено: Hellerick от 09 августа 2022, 05:52
Цитата: Зритель от 09 августа 2022, 05:40Это и отсутствие швы в паре указывают на то, что они дали слово from в слабой форме, т.е. [frəm].

Нет, они указали сильную форму. Викисловарь тоже указывает американское произношение как /fɹʌm/.

А вообще, я заметил, что современные англофоны уверены, что [ə] и [ʌ] — это один и тот же звук, просто в ударном и безударном вариантах. Даже не считают нужным пояснять такой очевидный для них момент.
Название: От: Частотные списки
Отправлено: Зритель от 09 августа 2022, 06:28
Ну, викисловарь не источник по-хорошему. Но я всё равно согласен, потому что похоже, что в Карнегийском конкретно это слово в сильной форме, а слабые даются с цифрами в скобках:

TO  T UW1
TO(1)  T IH0 :what:
TO(2)  T AH0


FROM  F R AH1 M
FROM(1)  F ER0 M :o
Название: От: Частотные списки
Отправлено: Hellerick от 09 августа 2022, 07:07
С цифрами даются альтернативные произношения, и их порядок мне не ведом.

Вот здесь безударное произношение указано в качестве основного, а ударное — с цифрой:

ЦитироватьTHE  DH AH0
THE(1)  DH AH1
THE(2)  DH IY0
Название: От: Частотные списки
Отправлено: Toman от 09 августа 2022, 12:08
Цитата: Hellerick от 09 августа 2022, 05:52А вообще, я заметил, что современные англофоны уверены, что [ə] и [ʌ] — это один и тот же звук, просто в ударном и безударном вариантах. Даже не считают нужным пояснять такой очевидный для них момент.
Да, при просмотре списка в начале темы я что-то прифигел - думаю, неужели кто-то все эти слова произносит с одним и тем же гласным, они ж явно разные. Как-то даже удивительно для англофонов-то, при их количестве и тонкости различения гласных - вдруг не различать настолько явно разные.
Ну, на ЛФ относительно русского ровно такое же (практически именно этих гласных) неразличение постоянно практиковал/продвигал Воллигер.