Speex:言論の自由のための無料コーデック

November 17 , 2021

概要


Speexは、音声用に設計されたオープンソース/フリーソフトウェアの特許フリーのオーディオ圧縮形式です. Speexプロジェクトは、高価なプロプライエタリ音声コーデックの無料の代替手段を提供することにより、音声アプリケーションの参入障壁を下げることを目的としています.さらに、Speexはインターネットアプリケーションにうまく適応しており、他のほとんどのコーデックにはない便利な機能を提供します.最後に、SpeexはGNUプロジェクトの一部であり、改訂されたBSDライセンスの下で利用できます.


Speexは、Voice over IP(VoIP)およびファイルベースの圧縮を対象としています.設計目標は、高品質の音声と低ビットレートに最適化されるコーデックを作成することでした.これを実現するために、コーデックは複数のビットレートを使用し、超広帯域、広帯域、狭帯域をサポートします. コーデックは、失われたパケットに対しては堅牢であるが、破損したパケットに対しては弱いと判断されています.これらすべてが、Speexに使用するエンコーディング手法としてコード励起線形予測(CELP)の選択につながりました.

特徴


サンプリングレート
Speexは主に、8 kHz(電話を送信するための同じサンプリングレート)、16 kHz、および32kHzの3つの異なるサンプリングレート用に設計されています.これらはそれぞれ、狭帯域、広帯域、超広帯域と呼ばれます.


品質
Speexエンコーディングは、ほとんどの場合、0〜10の範囲の品質パラメーターによって制御されます.固定ビットレート(CBR)動作では、品質パラメーターは整数ですが、可変ビットレート(VBR)の場合、パラメーターは実際の(浮動小数点)数.


複雑さ(可変)
Speexを使用すると、エンコーダーに許可されている複雑さを変えることができます.これは、gzip圧縮ユーティリティの-1から-9のオプションと同様の方法で、1から10の範囲の整数を使用して検索を実行する方法を制御することによって行われます.通常の使用では、複雑度1のノイズレベルは複雑度10の場合よりも1〜2 dB高くなりますが、複雑度10のCPU要件は複雑度1の場合の約5倍です.実際には、最良のトレードオフは複雑さの間です. 2および4、[13]ただし、DTMFトーンのような非音声サウンドをエンコードする場合、またはエンコードがリアルタイムでない場合は、より高い設定が役立つことがよくあります.


可変ビットレート(VBR)
可変ビットレート(VBR)を使用すると、コーデックはビットレートを動的に変更して、エンコードされるオーディオの「難易度」に適応できます. Speexの例では、母音や高エネルギートランジェントのような音は、高品質を実現するためにより高いビットレートを必要としますが、摩擦音(sやfの音など)は、より少ないビットで適切にコーディングできます.このため、VBRは、同じ品質でより低いビットレートを実現するか、特定のビットレートでより高い品質を実現できます.その利点にもかかわらず、VBRには3つの主な欠点があります.1つは、品質を指定するだけで、最終的な平均ビットレートが保証されないことです.次に、Voice over IP(VoIP)などの一部のリアルタイムアプリケーションでは、最大ビットレートが重要になります.これは、通信チャネルに対して十分に低くする必要があります.第三に、VBRでエンコードされた音声の暗号化は、完全なプライバシーを保証しない可能性があります.少なくとも、フレーズの小さな辞書を使用した制御された設定では、ビットレートの変動パターンを分析することでフレーズを識別できるためです[14].


平均ビットレート(ABR)
平均ビットレートは、特定のターゲットビットレートを満たすためにVBR品質を動的に調整するため、VBRの問題の1つを解決します.品質/ビットレートはリアルタイム(開ループ)で調整されるため、グローバル品質は、ターゲットの平均ビットレートを満たすために正確に適切な品質設定でVBRでエンコードすることによって得られる品質よりもわずかに低くなります.


音声アクティビティ検出(VAD)
有効にすると、音声アクティビティ検出は、エンコードされているオーディオが音声であるか、無音/バックグラウンドノイズであるかを検出します. VADは、VBRでエンコードするときに常に暗黙的にアクティブ化されるため、このオプションは非VBR操作でのみ役立ちます.この場合、Speexは非音声期間を検出し、バックグラウンドノイズを再現するのに十分なビットでそれらをエンコードします.これを「コンフォートノイズ発生」(CNG)といいます. VADが正常に機能していた最後のバージョンは1.1.12です.これは、v 1.2以降、単純なAny ActivityDetectionに置き換えられたためです.


不連続伝送(DTX)
不連続送信は、VAD / VBR動作への追加であり、バックグラウンドノイズが静止しているときに送信を完全に停止することができます.ファイルでは、欠落しているフレームごとに5ビットが使用されます(250ビット/秒に対応).


知覚の向上
知覚強化はデコーダーの一部であり、オンにすると、コーディング/デコードプロセスによって生成されるノイズ(の知覚)を低減しようとします.ほとんどの場合、知覚の強化により、サウンドは元のサウンドから客観的に遠ざけられますが(信号対ノイズ比)、最終的にはサウンドが向上します(主観的な改善).


アルゴリズムによる遅延
すべてのコーデックは、送信に遅延をもたらします. Speexの場合、この遅延はフレームサイズに、各フレームの処理に必要な「先読み」を加えたものに等しくなります.狭帯域動作(8 kHz)の場合、遅延は30ミリ秒ですが、広帯域(16 kHz)の場合、遅延は34ミリ秒です.これらの値は、フレームのエンコードまたはデコードにかかるCPU時間を考慮していません.


TONMIND、デザイナーおよびメーカーIPS ピーカー 2014年以降.SIPスピーカー 音質を向上させるためにSpeexオーディオ処理を適用しました.


私たちの IPページングスピーカー コーデックに含まれるもの OPUS、G711U、G711A、G722、GSM、MP1、MP2、MP3、WAV、LPCMs16le.さまざまなコーデックも優れた音質を保証します.


心に SIPスピーカー 学校、商業用キャンター、カスタマーサービスセンター、ホテル、病院、大規模な会場など、さまざまなアプリケーションケースに適用できます.ユーザーは、SIPスピーカーをIPPBXまたはR & Dチームが開発したPAシステムソフトウェアに接続できます. .また、RTPマルチキャストを介してAxisソフトウェアと連携することもできます.


Tonmindのコアの強さは次のとおりです.

•10年以上のVoIPオーディオおよびビデオの経験

排他的なテクニカルサポート.
よく訓練された顧客チーム.
お客様志向.
迅速な市場対応.


伝言を残す
伝言を残す
あなたは私達のプロダクトに興味があり、詳細を知りたいのですが、ここにメッセージを残してください

製品

skype

whatsapp