0から学ぶAI– category –
-
第11章
【0から学ぶAI】第320回:話者認識 〜音声から話者を特定する技術を説明
前回のおさらいと今回のテーマ こんにちは!前回は、音声感情認識について解説しました。音声感情認識は、音声データから話者の感情を推定する技術で、カスタマーサポートや医療分野、音声アシスタントなどに活用される重要な技術でした。 今回は、音声デ... -
第11章
【0から学ぶAI】第318回:キーワードスポッティング 〜特定のキーワードを検出する技術を紹介
前回のおさらいと今回のテーマ こんにちは!前回は、音声認識モデルの評価指標について解説し、特にWord Error Rate(WER)を中心に、音声認識の精度を評価する方法を学びました。音声認識モデルの性能を正確に評価するためには、WERやCER、SERなどの指標... -
第11章
【0から学ぶAI】第319回:音声感情認識 〜音声から話者の感情を推定する方法を解説
前回のおさらいと今回のテーマ こんにちは!前回は、特定のキーワードを検出する技術であるキーワードスポッティング(KWS)について解説しました。KWSは、音声アシスタントやスマートデバイスの操作で活用され、特定のキーワードをリアルタイムで検出する... -
第11章
【0から学ぶAI】第317回:音声認識モデルの評価指標 〜Word Error Rate(WER)などの指標を説明
前回のおさらいと今回のテーマ こんにちは!前回は、WaveGlowという高品質かつリアルタイムな音声合成を可能にするボコーダモデルについて解説しました。WaveGlowは、音声合成においてTacotron 2と組み合わせることで、非常に自然な音声波形を効率的に生成... -
第11章
【0から学ぶAI】第315回:Tacotron 2の実装 〜高品質な音声合成モデルを紹介
前回のおさらいと今回のテーマ こんにちは!前回は、音声合成(Text-to-Speech, TTS)について、テキストから音声を生成する技術の基本を解説しました。音声合成技術は、ディープラーニングを用いることで、非常に自然で高品質な音声を生成できるようにな... -
第11章
【0から学ぶAI】第316回:WaveGlowの概要 〜リアルタイム音声合成を可能にするモデルを解説
前回のおさらいと今回のテーマ こんにちは!前回は、Tacotron 2という高品質な音声合成モデルについて解説しました。Tacotron 2は、テキストからメルスペクトログラムを生成し、非常に自然な音声合成を実現するモデルです。しかし、Tacotron 2自体はメルス... -
第11章
【0から学ぶAI】第314回:音声合成(Text-to-Speech)の基本 〜テキストから音声を生成する技術を説明
前回のおさらいと今回のテーマ こんにちは!前回は、音声認識技術の一つであるWav2Vecについて解説しました。Wav2Vecは、自己教師あり学習を用いて音声データから特徴を学習する技術で、音声認識において非常に高い精度を実現するモデルでした。 今回は、... -
第11章
【0から学ぶAI】第313回:Wav2Vecの仕組み 〜自己教師あり学習による音声表現学習を解説
前回のおさらいと今回のテーマ こんにちは!前回は、音声認識モデルの一つであるDeepSpeechについて解説しました。DeepSpeechは、ディープラーニングとCTC(Connectionist Temporal Classification)を組み合わせて、エンド・ツー・エンドで音声データをテ... -
第11章
【0から学ぶAI】第311回:Connectionist Temporal Classification(CTC) 〜音声認識でのラベル整合性を保つ手法を説明
前回のおさらいと今回のテーマ こんにちは!前回は、音声認識の古典的なモデルであるHidden Markov Model(HMM)について解説しました。HMMは、音声信号を音素に分解し、それを基に音声を認識する手法でしたが、音声データの複雑な構造や長期的な依存関係... -
第11章
【0から学ぶAI】第312回:DeepSpeechの概要 〜ディープラーニングを用いた音声認識モデルを紹介
前回のおさらいと今回のテーマ こんにちは!前回は、Connectionist Temporal Classification(CTC)について解説しました。CTCは、音声認識において入力シーケンスと出力ラベルの長さが異なる問題を解決するための手法でした。これにより、ディープラーニ... -
第11章
【0から学ぶAI】第310回:Hidden Markov Model(HMM) 〜古典的な音声認識モデルを解説
前回のおさらいと今回のテーマ こんにちは!前回は、音声認識技術の基本について解説し、音声をテキストに変換するプロセスやPythonでの実装方法を学びました。音声認識は、前処理から音響モデル、言語モデルまで、複数の技術が連携して動作するシステムで... -
第11章
【0から学ぶAI】第309回:音声認識の基本 〜音声からテキストへの変換技術を紹介
前回のおさらいと今回のテーマ こんにちは!前回は、音声データの前処理について、正規化やフィルタリング、サンプリングレートの変更などの基本的な手法を解説しました。前処理は、音声認識の精度を高めるために欠かせない重要なステップでしたね。 今回... -
第11章
【0から学ぶAI】第307回:ノイズ除去 〜音声データからノイズを取り除く手法を解説
前回のおさらいと今回のテーマ こんにちは!前回は、メル周波数ケプストラム係数(MFCC)について学びました。MFCCは、音声データの特徴を抽出し、音声認識や音響分析に役立てるための重要なツールでしたね。 今回は、音声データの品質を向上させるための... -
第11章
【0から学ぶAI】第308回:音声データの前処理 〜正規化やフィルタリングの方法を説明
前回のおさらいと今回のテーマ こんにちは!前回は、ノイズ除去について解説し、音声データからノイズを取り除く手法や、その実装方法を学びました。ノイズ除去は音声データの品質向上に欠かせない重要なステップでしたね。 今回は、音声データの前処理に... -
第11章
【0から学ぶAI】第306回:メル周波数ケプストラム係数(MFCC) 〜音声特徴量の抽出方法を紹介
前回のおさらいと今回のテーマ こんにちは!前回は、音声データのスペクトログラムについて解説し、音声信号を周波数成分に分解して時間軸に沿って表示する方法を学びました。スペクトログラムは、音声の周波数特性を視覚的に把握するための重要なツールで...
