Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > IT форум > Общие вопросы по программированию, компьютерный форум
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 29.10.2020, 19:45   #21
MihalNik
МегаМодератор
СуперМодератор
 
Регистрация: 27.11.2012
Сообщений: 5,723
По умолчанию

Цитата:
Сообщение от babai-rais Посмотреть сообщение
В основах распознавания входной сигнал нарезается на фреймы по 10-12 мсек с перекрытием. Я предлагаю не резать фонограмму а анализировать в непрерывном скользящем окне которое получается сдвигом
Какая-то игра слов.

Цитата:
Сообщение от babai-rais Посмотреть сообщение
В этом скользящем окне происходит беспрерывная регистрация соотношений следующих друг за другом периодов сигнала
Двух? Почему так сразу не написать? Очень размазанно, тяжело читать.
Благими намерениями устлана дорога на programmersforum.ru

Последний раз редактировалось MihalNik; 30.10.2020 в 01:59.
MihalNik вне форума Ответить с цитированием
Старый 29.10.2020, 19:50   #22
Pavia
Лис
Старожил
 
Аватар для Pavia
 
Регистрация: 18.09.2015
Сообщений: 2,409
По умолчанию

Цитата:
Сообщение от babai-rais Посмотреть сообщение
Основы фонетики в школе уже с первого класса дают.
Речь не о фонетике. А о том что у ударных согласных спектр частот гладкий и во временной области нельзя выделить частоты.
https://books.ifmo.ru/file/pdf/1921.pdf
http://www.jip.ru/2004/202-220.pdf

А соотношения можете сами посчитать.
Код:
Буква F1 F2 F3
А 600 1200 2400
Э 450 1700 2500
О 450 800 2500
У 350 750 2200
Ы 300 1800 2450
И 300 2200 3000
Е 400 1850 2600
Я 450 1500 2450
Хорошо поставленный вопрос это уже половина ответа. | Каков вопрос, таков ответ.
У дзен программиста программа делает то что он хотел, а не то что он написал .
Pavia вне форума Ответить с цитированием
Старый 29.10.2020, 20:15   #23
Pavia
Лис
Старожил
 
Аватар для Pavia
 
Регистрация: 18.09.2015
Сообщений: 2,409
По умолчанию

Цитата:
Сообщение от babai-rais Посмотреть сообщение
Если сильно упростить, гласные звуки это периодические сигналы с определенной окраской звука.
С чем? Кто их окрасил? И каким методом?

Цитата:
Сообщение от MihalNik Посмотреть сообщение
Сообщение от babai-rais
В основах распознавания входной сигнал нарезается на фреймы по 10-12 мсек с перекрытием. Я предлагаю не резать фонограмму а анализировать в непрерывном скользящем окне которое получается сдвигом
Какая-то игра слов.
Фреймы и есть окна.
Нормальная фраза. Сам думал о этом же на первых порах. Сейчас опыт и знаю, что так делать не стоит. У вас речь имеет разную продолжительность, а слово фиксированное! Вы можете одну и другую фразу произнести быстро и медленно. Скороговоркой или нараспев. поэтому непрерывный анализ неинтересен.
Основная задача это найти границы слово или звуков(фонем, биграмм, триграмм), а вот уж какое там соотношение частот это вторично. Более того частоты мы можем подсчитать только для определенного окна. Если окно маленькое то будут ошибки подсчета частоты и граничные эффекты. А если большими то звуки будут перекрываться. Поэтому и делают разметку.

Видимо человек будет переизобретать темпоральное сжатие DTW или сверточные нейронные сети RNN собрался или скрытые Макровые модели HMM
Хорошо поставленный вопрос это уже половина ответа. | Каков вопрос, таков ответ.
У дзен программиста программа делает то что он хотел, а не то что он написал .
Pavia вне форума Ответить с цитированием
Старый 29.10.2020, 20:28   #24
MihalNik
МегаМодератор
СуперМодератор
 
Регистрация: 27.11.2012
Сообщений: 5,723
По умолчанию

Цитата:
Сообщение от Pavia Посмотреть сообщение
Фреймы и есть окна.
Нормальная фраза.
Нельзя использовать синонимы говоря о различиях.
Перевожу на русский язык:
Автор хочет просто сравнивать крупные куски - около половины звуков. Способом, который кривоват из-за разной их длительности и заминок. Также отожрет много ресурсов из-за очень частых ("непрерывных") перекрытий-сдвигов.
Благими намерениями устлана дорога на programmersforum.ru

Последний раз редактировалось MihalNik; 29.10.2020 в 20:44.
MihalNik вне форума Ответить с цитированием
Старый 30.10.2020, 08:44   #25
babai-rais
Пользователь
 
Регистрация: 27.10.2020
Сообщений: 36
По умолчанию

Цитата:
Сообщение от MihalNik Посмотреть сообщение
Также отожрет много ресурсов из-за очень частых ("непрерывных") перекрытий-сдвигов.
Нет ни каких перекрытий, идет регистрация периодов сигналов в один непрерывный файл из двух каналов.
Цитата:
Сообщение от babai-rais Посмотреть сообщение
В нашем случае получим временной ряд показывающий соотношение прямого сигнала с запаздывающему. Импульсы записываются как точка и тире или как ноль и единица. Получим в итоге непрерывный код. Когда частота не меняется количество импульсов в прямом и задержанном сигнале будет одинаково, и в строке записи будет чередование нулей и единичек, примерно так : 0101010101…. , при любых равных частотах. При разных частотах количество будет отличатся. Во сколько раз одна частота больше другой покажет соотношение нулей единиц. Строка 110110110110110…. показывает что одна частота больше другой в два раза. Для музыкальных сигналов легко представить как будет выглядеть файл записи музыки таким способом из чередования единиц и нулей. Частота соседних октав различается в два раза, соотношения между нотами в октаве тоже известны поэтому непрерывный код из единиц и нулей можно записать в виде нотной грамоты. Если на одной числовой оси мы будем записывать »1» с канала с основным сигналом а «0» от задержанного на сколько то миллисекунд то появится возможность судить как изменяется сигнал в относительных величинах в окне задержки. Сдвиг (ширину окна) для музыкальных мелодий рассчитываем исходя из законов музыкальной грамоты.
babai-rais вне форума Ответить с цитированием
Старый 30.10.2020, 09:47   #26
MihalNik
МегаМодератор
СуперМодератор
 
Регистрация: 27.11.2012
Сообщений: 5,723
По умолчанию

Цитата:
Сообщение от babai-rais Посмотреть сообщение
Нет ни каких перекрытий
Т.е. просто нарезка по 50 мс?
Благими намерениями устлана дорога на programmersforum.ru

Последний раз редактировалось MihalNik; 31.10.2020 в 01:21.
MihalNik вне форума Ответить с цитированием
Старый 30.10.2020, 11:56   #27
babai-rais
Пользователь
 
Регистрация: 27.10.2020
Сообщений: 36
По умолчанию

Цитата:
Сообщение от MihalNik Посмотреть сообщение
Т.е. просто нарезка по 50 мс?
Нет нарезки, есть скользящее окно в котором идет регистрация импульсов . Мы можем считать импульсы в этом окне но мы этого не делаем. А просто регистрируем, есть импульс определенной амплитуды он записывается единичкой с одного канала а со второго нулем. По чередованию единиц и нулей мы судим на сколько и как меняется частота тона, выше или ниже и во сколько раз. Во сколько раз одна нота отличается от другой расписано в нотной грамоте. Какая точность в распознавании букв при таком алгоритме могут сразу сказать кто владеет языком математики. Из каждого периода берется одна выборка. В полученном коде оси времени нет а только чередование наступления события. Нет импульсов нет и записи,

Последний раз редактировалось babai-rais; 30.10.2020 в 12:02.
babai-rais вне форума Ответить с цитированием
Старый 30.10.2020, 12:33   #28
Pavia
Лис
Старожил
 
Аватар для Pavia
 
Регистрация: 18.09.2015
Сообщений: 2,409
По умолчанию

Цитата:
Сообщение от babai-rais Посмотреть сообщение
Нет нарезки, есть скользящее окно в котором идет регистрация импульсов . Мы можем считать импульсы в этом окне но мы этого не делаем. А просто регистрируем, есть импульс определенной амплитуды он записывается единичкой с одного канала а со второго нулем.
Зачем тут окно? И почему на втором канале инвертируем сигнал?
Хорошо поставленный вопрос это уже половина ответа. | Каков вопрос, таков ответ.
У дзен программиста программа делает то что он хотел, а не то что он написал .
Pavia вне форума Ответить с цитированием
Старый 30.10.2020, 12:41   #29
MihalNik
МегаМодератор
СуперМодератор
 
Регистрация: 27.11.2012
Сообщений: 5,723
По умолчанию

Цитата:
Сообщение от babai-rais Посмотреть сообщение
Нет нарезки, есть скользящее окно
Одно положение окна накладывается на другое частично? Значит, перекрытие Если нет - нарезка.
Благими намерениями устлана дорога на programmersforum.ru

Последний раз редактировалось MihalNik; 30.10.2020 в 12:44.
MihalNik вне форума Ответить с цитированием
Старый 30.10.2020, 12:58   #30
Pavia
Лис
Старожил
 
Аватар для Pavia
 
Регистрация: 18.09.2015
Сообщений: 2,409
По умолчанию

Цитата:
Сообщение от babai-rais Посмотреть сообщение
В предлагаемом мной алгоритме в скользящем окне регистрируются одновременно количество периодов прямого и задержанного сигнала.
Я так понимаю эта фраза уже не актуальна. Так как поступило уточнение:
Цитата:
Сообщение от babai-rais Посмотреть сообщение
Мы можем считать импульсы в этом окне но мы этого не делаем.

Цитата:
Сообщение от babai-rais Посмотреть сообщение
Для этого производим запись проекций уровней квантования от прямого и задержанного сигнала без квантования по времени.
Что тут значит слово "проекция"? Как по момоему оно тут лишнее.
Без квантовая по времени известному как PCM оцифровать сигнал не получится. Так что запись будет именно квантованная по времени.
Цитата:
Сообщение от babai-rais Посмотреть сообщение
чередование нулей и единичек, примерно так : 0101010101…. , при любых равных частотах. При разных частотах количество будет отличатся. Во сколько раз одна частота больше другой покажет соотношение нулей единиц. Строка 110110110110110…. показывает что одна частота больше другой в два раза.
Тут в принципе понятно берем окно подсчитываем число единичек у буквы У их 35 у буквы А их в 2 раза больше. Как только нашли расхождение ставим маркер раздела звуков.

Цитата:
Сообщение от babai-rais Посмотреть сообщение
Для музыкальных сигналов легко представить как будет выглядеть файл записи музыки таким способом из чередования единиц и нулей. Частота соседних октав различается в два раза, соотношения между нотами в октаве тоже известны поэтому непрерывный код из единиц и нулей можно записать в виде нотной грамоты.
Вот лично мне трудно представить. Речь она имеет структуру достаточно посмотреть на осциллограмму, там будут видны импульсы , а вот музыка такой характеристикой не обладает. Там вместо импульсов апереодическая функция как дорога с ухабами, ямами, горами и впадинами. Так что нужно вначале продифференцировать. И найти ритмические последовательности.
Цитата:
Сдвиг (ширину окна) для музыкальных мелодий рассчитываем исходя из законов музыкальной грамоты. Какой получится результат при такой записи музыкальных гармонических колебаний можно представить путем простых расчётов и умозаключений.
Есть аппараты и программы которые переводят музыку MIDI файлы. MIDI - как раз на нотной грамоте основаны.
Хорошо поставленный вопрос это уже половина ответа. | Каков вопрос, таков ответ.
У дзен программиста программа делает то что он хотел, а не то что он написал .

Последний раз редактировалось Pavia; 30.10.2020 в 13:02.
Pavia вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц

Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск


Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Автоматическое распознавание речи IADom Безопасность, Шифрование 1 04.11.2020 13:36
C# Распознавание речи satirikzn Фриланс 0 23.05.2015 14:51
Распознавание речи SpeechAPI rmv240899 Помощь студентам 2 23.11.2012 21:39
Распознавание речи Артегор Visual C++ 3 11.06.2012 22:47
Распознавание речи php Krasi PHP 5 29.08.2011 08:37