8 (905) 200-03-37 Владивосток
с 09:00 до 19:00
CHN - 1.14 руб. Сайт - 17.98 руб.

Распознавание голоса Kaldi Фактическое распознавание боевого голоса быстро создать учебное пособие машинного обучения

Цена: 961руб.    (¥53.4)
Артикул: 630885029154

Вес товара: ~0.7 кг. Указан усредненный вес, который может отличаться от фактического. Не включен в цену, оплачивается при получении.

Этот товар на Таобао Описание товара
Продавец:蚌埠新华书店图书专营店
Адрес:Аньхой
Рейтинг:
Всего отзывов:0
Положительных:0
Добавить в корзину
Другие товары этого продавца
¥17.55316руб.
¥48.95881руб.
¥51.73931руб.
¥66.51 196руб.

Введение

Калди в настоящее время является областью распознавания голоса, которая широко популярна и популярна.В начале дизайна Kaldi, серии иерархических соображений исходного кода, таких как универсальность, расширение может значительно снизить порог Кальди как инструментарий для распознавания голоса, и в то же время у него очень полный сценарий обучения системы распознавания голоса ПолемЭта книга помогает читателям быстро создать доступную систему распознавания голоса, расчесывая и направляя сценарий обучения.
Оглавление

1 технология распознавания голоса 1
1.1 Минималистская история распознавания голоса 1
1.1.1 Раннее исследование распознавания голоса 2
1.1.2 Модель вероятности Тонгцзян озеро 2
1.1.3 Нейронные сети появились из оружия 3 3
1.1.4 Фонды коммерческого приложения 4
1.2 Архитектура системы распознавания голоса 6
1.2.1 Апкирование понимания классических методов 6
1.2.2 Модель вероятности 7
1.2.3 END -END УПРАВЛЕНИЕ ГОЛОСА 10
1.3 Некоторые другие детали 11
1.3.1 Обработка голосового сигнала 11
1.3.2 произношение и лингвистика 12
1.3.3 Оценка системы распознавания голоса 13
2 Краткое изложение Кальди. Введение 15
2.1 История развития 15
2.1.1 Происхождение имени 15
2.1.2 Летний семинар Университета Джона Хопкинса 16
2.1.3 Краткая история Калди. 17
2.2 Мысли о дизайне 18
2.2.1 Оригинальное намерение 18
2.2.2 Открытый исходный код 19
2.2.3 Сценарий обучения 19
2.3 Установите 20
2.3.1 Код Калди 20
2.3.2 Установите CUDA20
2.3.3 Установка и компиляция Библиотека зависимостей 21
2.3.4 Установите третий участник 21
2.3.5 Выберите другие матричные библиотеки 23
2.3.6 Компилирование кода Калди 23
2.3.7 Настройте параллельную среду 25
2.4 Простой пример 26
2.4.1 run run.sh26
2.4.2 Анализ скрипта 28
2.5 Пример Введение 34
2.5.1 Пример данных 34
2.5.2 Пример конкурса 38
2.5.3 Другое пример 40
2.5.4 Пример структуры 41
3 Организация данных 44
3.1 Разнообразие данных 44
3.1.1 Процесс обработки данных Librispeech Пример 45
3.1.2 Согласование данных 46
3.2 Предварительная обработка данных 49
3.2.1 Экологическая проверка 51
3.2.2 Сгенерировать файл формы 52
3.2.3 Инспекция данных 55
3.3 Входной и выходной механизм 56
3.3.1 Форма 57
3.3.2 Форма архива 60
3.3.3 Чтение и написание заявления 60
3.3.4 Атрибут формы 64
3.4 Общая форма данных и сценарий обработки 69
3.4.1 Список данных Форма 70
3.4.2 Форма данных Архив 72
3.4.3 Сценарий обработки папки данных 77
3.4.4 Консистенция индекса формы 78
3.5 Файл, связанный с моделью языка 79
3.5.1 Словарь произношения и набор тон 80
3.5.2 языковая папка 85
3.5.3 Сгенерировать и использовать языковую папку 92
4 Классическая технология моделирования акустики 94
4.1 Выдержка 95
4.1.1 Извлечение акустических особенностей с Kaldi 95
4.1.2 Хранение функций в Kaldi 99
4.1.3 Использование функций 104
4.1.4 Общий тип функции 106
4.2 ОБУЧЕНИЯ ОДНА модели 107
4.2.1 Основные концепции акустики модели 108
4.2.2 Используйте акустическую модель для распознавания речи 112
4.2.3 инициализация модели 113
4.2.4 Выравнивание 115
4.2.5 Модель перехода 118
4.2.6 ITHIS 124
4.3 Sanyin Model Training 128
4.3.1 Наставник гипотезы 128 модели 128
4.3.2 Акустическая модель, связанная с контекстом 129
4.3.3 Кластер из трех звуков 130
4.3.4 Трехтонный модельный процесс обучения в Калди 130
4.4 Технология изменения функции 139
4.4.1 Неконтролируемое преобразование функций 139
4.4.2 Изменение с функциями надзора 141
4.5 дифференциальная тренировка 143
4.5.1 Изменение учебного процесса акустической модели 143
4.5.2 Дифференциальная целевая функция 144
4.5.3 Молекулы, Мать 145 дивизии 145
4.5.4. Применение обучения различия на практике 146
5 композиция и декодирование 147
5.1 N Yuan Grammar Language Model 148
5.2 Взвешенная машина с ограниченным состоянием 151
5.2.1 Обзор 151
5.2.2 OpenFst153
5.3 Используйте WFST для представления языковой модели 156
5.4 Строительная график статуса 158
5.4.1 Используйте WFST для представления словаря произношения 158
5.4.2 Композитная работа WFST 163
5.4.3 Тексты расширяются за счет произношения 165
5.4.4 LG Диаграммы Пары контекста 166
5.4.5 Используйте WFST для представления топологии HMM 169
5.5 Оптимизация структуры на рисунке 170
5.5.1. Определено 170
5.5.2 *Маленькая 173
5.5.3 Стохастичный на рисунке 174
5.6 *Бытие окончательного состояния 174
5.7 Witby Search 176 на основе токена
5.8 Анализ исходного кода SimpleDecoder 178
5.9 Семья декодеров Калди 187
5.10 Декодирование сгенерированной сеткой 189
5.11 Re -Scoring с языковой моделью для повышения уровня распознавания 192

6 Технология акустического моделирования глубокого обучения 195
6.1 модель акустики на основе нейронной сети 195
6.1.1 Фонд нейронной сети 196
6.1.2 Функция активации 198
6.1.3 Обновление параметров 199
6.2 Реализация нейронных сетей в Калди 200
6.2.1 NNET1 (NNET) 200
6.2.2 nnet2203
6.2.3 nnet3208
6.3 Обучение модели нейронной сети 214
6.3.1 Обработка входных функций 214
6.3.2 Инициализация нейронной сети 215
6.3.3 Пакет и рандомизация тренировочных образцов 217
6.3.4 Корректировка уровня обучения 222
6.3.5 Параллельное обучение 224
6.3.6 Расширение данных 227
6.4 Отдел нейронных сетей 228
6.4.1 Основные мысли об обучении различия 228
6.4.2 Целевая функция обучения различия 229
6.4.3 Практические навыки обучения различия 231
6.4.4 Пример обучения различий в нейронной сети Калди 232
6.4.5 Модель цепи 234
6.5 Комбинация с другими рамками глубокого обучения 242
6.5.1 Acoustics Model 242
6.5.2 Языковая модель 243
6.5.3. Конец -END Голосовое распознавание 243
7 Поиск ключевых слов и голосовой пробуждение 245
7.1 Технология поиска ключевых слов Введение 245
7.1.1 Основной метод поиска ключевых слов 245
7.1.2 Основное применение технологии поиска ключевых слов 247
7.2 Голосовой поиск 247
7.2.1 Описание метода 248
7.2.2 Простая система поиска голоса 248
7.2.3 Расширение расширения эпизода 254
7.2.4 Расширение эпизода необычайного расширения лечения.
7.2.5.
7.2.6 Практическая система поиска голоса 258
7.3 голосовой пробуждение 263
7.3.1 Голосовое пробуждение классическое кадр 264
7.3.2 Оптимизация входа в голосовой залзок 266
7.3.3 Калди Реализация голоса пробуждения 267
8 Признание спикера 269
8.1 Обзор 269
8.2 Технология выступления на основе I-Vector и PLDA 271
8.2.1 Общий процесс 271
8.2.2 I-Vector Extract 272
8.2.3 На основании строкового расстояния до I-Vector Classification 274
8.2.4 На основе классификации I-Vector 276 на основе PLDA 276
8.3 Технология распознавания динамиков на основе глубокого обучения 280
8.3.1 Обзор 280
8.3.2 x-vector280
8.3.3 Пример распознавания спецкеров на основе X-Vector 283
8.4 Признание языка 288
9 Практика заявления на распознавание голоса 292
9.1 Основное применение распознавания голоса 292
9.1.1 Офлайн -распознавание голоса и реальное время онлайн распознавание голоса 292
9.1.2 Модуль приложения для распознавания голоса 293
9.1.3 меньше 296
9.2 Истинный модуль обнаружения звука 296
9.2.1 Алгоритм VAD 296
9.2.2 Оффлайн VAD297
9.2.3 потоковой онлайн Vad298
9.3 Адаптация модели 299
9.3.1 Адаптация акустической модели 299
9.3.2 Расширение ginctoring watch 300
9.3.3 Адаптация языковой модели 301
9.3.4 Резюме 301
9.4 Выбор и расширение декодера 302
9.4.1 Декодер 302 в Калди
9.4.2 Общие проблемы и расширения в практических приложениях 303
9.4.3 Резюме 305
ПРИЛОЖЕНИЕ СПИСОК 306
Приложение B часто задают вопросы Ответы 308
Ссылка 313
об авторе

Университет Чен Гугуо Университета Цинхуа, докторская степень в Университете Джона Хопкинса, основным направлением исследования является распознавание голоса и поиск ключевых слов.Во время доктора философии, прототип Ok Google разработал слово «пробуждение» для Google.Во время доктора философии он также участвовал в разработке инструмента распознавания голоса с открытым исходным кодом Kaldi и инструмента Neural Network с открытым исходным кодом CNTK.После окончания доктора философии он соучредил Kitt.ai и сосредоточился на распознавании голоса и обработке естественного языка. ПолемDujiayu Bachelor окончил Далонский технологический университет, а затем учился в Школе электронного информационного инженера, Университет Нового Южного Уэльса, Австралия, чтобы получить степень магистра в области обработки сигналов.Во время аспиранта под руководством инструктора Жюльена Эппс он начал исследование по обработке голоса и направлению эмоционального распознавания.После окончания университета он работал в лаборатории голосовых технологий Университета Цинхуа, факультете голосовой технологии Baidu, а также Alibaba Idst и Dharma Academy Good Group.Участвуйте в работе, связанной с Калди: автор LSTM в рамках нейронной сети Kaldi Nnet1; Почти 200 внутренних и иностранных университетов, таких как Университет науки и техники и Колумбийский университет.Основная степень бакалавра Xingyu и доктор философии окончила Пекинский технологический университет.Он работал в Институте акустики Китайской академии наук и роботов Alibaba, чтобы принять участие в разработке системы обучения модели распознавания голоса и системы голосового взаимодействия.В настоящее время он работает в Microsoft и служит прикладными учеными, занимаясь разработкой и поддержкой бизнеса алгоритмов распознавания голоса и технической архитектуры.В 2015 году он начал вносить код в проекте с открытым исходным кодом Kaldi, участвовал в разработке моделей NNET3 и цепей и сохранил несколько примеров и китайских моделей распознавания голоса OpenSlr.Доктор Чжан Джунбо окончил Институт академии наук Китайской академии наук и учился под руководством Yan Yonghong.В целом наборе фронт -рамки исследований фонетического алгоритма преобладали нулевой, включая распознавание голоса, интеллектуальное пробуждение голоса оборудования, распознавание звука, улучшение голоса и развертывание нейронной сети для голосовых приложений, все достигли продвинутого уровня времени и опубликовали его и опубликовали его и Опубликовано.Недавно был запущен механизм оценки качества произношения для изучения иностранных языков, и код для хорошего показателя произношения для Кальди способствовал Кальди.
Ассоциирован

Практикующие в области искусственного интеллекта.