音声認識と音声処理(301~330)– 音声データの処理と音声認識の基本を学びます。 –
-
第11章
【0から学ぶAI】第314回:音声合成(Text-to-Speech)の基本 〜テキストから音声を生成する技術を説明
前回のおさらいと今回のテーマ こんにちは!前回は、音声認識技術の一つであるWav2Vecについて解説しました。Wav2Vecは、自己教師あり学習を用いて音声データから特徴を学習する技術で、音声認識において非常に高い精度を実現するモデルでした。 今回は、... -
第11章
【0から学ぶAI】第313回:Wav2Vecの仕組み 〜自己教師あり学習による音声表現学習を解説
前回のおさらいと今回のテーマ こんにちは!前回は、音声認識モデルの一つであるDeepSpeechについて解説しました。DeepSpeechは、ディープラーニングとCTC(Connectionist Temporal Classification)を組み合わせて、エンド・ツー・エンドで音声データをテ... -
第11章
【0から学ぶAI】第312回:DeepSpeechの概要 〜ディープラーニングを用いた音声認識モデルを紹介
前回のおさらいと今回のテーマ こんにちは!前回は、Connectionist Temporal Classification(CTC)について解説しました。CTCは、音声認識において入力シーケンスと出力ラベルの長さが異なる問題を解決するための手法でした。これにより、ディープラーニ... -
第11章
【0から学ぶAI】第311回:Connectionist Temporal Classification(CTC) 〜音声認識でのラベル整合性を保つ手法を説明
前回のおさらいと今回のテーマ こんにちは!前回は、音声認識の古典的なモデルであるHidden Markov Model(HMM)について解説しました。HMMは、音声信号を音素に分解し、それを基に音声を認識する手法でしたが、音声データの複雑な構造や長期的な依存関係... -
第11章
【0から学ぶAI】第310回:Hidden Markov Model(HMM) 〜古典的な音声認識モデルを解説
前回のおさらいと今回のテーマ こんにちは!前回は、音声認識技術の基本について解説し、音声をテキストに変換するプロセスやPythonでの実装方法を学びました。音声認識は、前処理から音響モデル、言語モデルまで、複数の技術が連携して動作するシステムで... -
第11章
【0から学ぶAI】第309回:音声認識の基本 〜音声からテキストへの変換技術を紹介
前回のおさらいと今回のテーマ こんにちは!前回は、音声データの前処理について、正規化やフィルタリング、サンプリングレートの変更などの基本的な手法を解説しました。前処理は、音声認識の精度を高めるために欠かせない重要なステップでしたね。 今回... -
第11章
【0から学ぶAI】第308回:音声データの前処理 〜正規化やフィルタリングの方法を説明
前回のおさらいと今回のテーマ こんにちは!前回は、ノイズ除去について解説し、音声データからノイズを取り除く手法や、その実装方法を学びました。ノイズ除去は音声データの品質向上に欠かせない重要なステップでしたね。 今回は、音声データの前処理に... -
第11章
【0から学ぶAI】第307回:ノイズ除去 〜音声データからノイズを取り除く手法を解説
前回のおさらいと今回のテーマ こんにちは!前回は、メル周波数ケプストラム係数(MFCC)について学びました。MFCCは、音声データの特徴を抽出し、音声認識や音響分析に役立てるための重要なツールでしたね。 今回は、音声データの品質を向上させるための... -
第11章
【0から学ぶAI】第306回:メル周波数ケプストラム係数(MFCC) 〜音声特徴量の抽出方法を紹介
前回のおさらいと今回のテーマ こんにちは!前回は、音声データのスペクトログラムについて解説し、音声信号を周波数成分に分解して時間軸に沿って表示する方法を学びました。スペクトログラムは、音声の周波数特性を視覚的に把握するための重要なツールで... -
第11章
【0から学ぶAI】第305回:スペクトログラムとは 〜周波数成分を時間軸で表示する方法を説明
前回のおさらいと今回のテーマ こんにちは!前回は、波形データの可視化について解説し、音声信号を時間軸に沿って振幅の変化として表示する方法を学びました。波形を視覚的に確認することで、音の強弱や特定の音声イベントを把握する手段を理解しましたね... -
第11章
【0から学ぶAI】第304回:波形データの可視化 〜音声信号をグラフで表示する方法を解説
前回のおさらいと今回のテーマ こんにちは!前回は、Pythonの音声処理ライブラリであるLibROSAを使って、音声データの基本操作について学びました。LibROSAを利用することで、音声ファイルの読み込み、再生、特徴量抽出が簡単に行えることが分かりましたね... -
第11章
【0から学ぶAI】第303回:LibROSA入門 〜音声処理ライブラリの基本操作を紹介
前回のおさらいと今回のテーマ こんにちは!前回は、音声データの基本について、サンプリングレートやビット深度といったデジタル音声の基礎知識を解説しました。これらの基礎を理解することで、音声データの取り扱いや品質管理の基本がつかめましたね。 ... -
第11章
【0から学ぶAI】第302回:音声データの基本 〜サンプリングレートやビット深度などの基礎を説明
前回のおさらいと今回のテーマ こんにちは!前回は、音声処理とはというテーマで、音声データのデジタル化や音声認識、音声合成の基本技術について解説しました。音声処理がどのような技術で成り立っているのか、具体的な手法について学びましたね。 今回... -
第11章
【0から学ぶAI】第301回:音声処理とは 〜音声データを扱う技術の概要を解説
前回のおさらいと今回のテーマ こんにちは!前回は、第10章のまとめと理解度チェックを行い、これまで学んだ内容を振り返り理解を深めました。今回から第11章に入り、音声認識と音声処理について学びます。この章では、音声データの基本や処理方法、音声認...
12
