FUNCTIONS機能

AI Suiteが提供するこれらの多様なAPIは、お客さまのAIサービスの開発・改善を支援し
人の感情に寄り添う高度なコミュニケーションを実現します。

MULTI MODAL AIマルチモーダルAI

テキスト、映像、音声などの複数の情報をもとに
感情および対話応答を予測するAI suite独自のAIモデル

MULTI MODAL CONVBERT

マルチモーダル対話応答AI

対話型BERTに、映像、音声などの非言語情報を加え、ユーザー発話に対する応答を予測する。

ユーザ発話 音声 画像(顔検出した領域を切り出した画像)
デバッグ情報(AIが生成した応答過去発話など)
MULTI MODAL EMOTION PREDICTOR

マルチモーダル感情予測AI

テキスト、映像、音声などの複数の情報を基に感情分析をする。

ユーザ発話 音声 画像(顔検出した領域を切り出した画像)
AIが解析した感情情報

MEDIA STREAMING AI音声映像AI

音声映像の認識や合成を実現するためのAIモデル

AUTOMATIC SPEECH RECOGNITION

音声認識AI

音声認識機能。音声から、発話した内容や話者の特徴(感情、年齢、性別など)を識別する。

音声
性別 年齢 感情推定 笑い声スコア 言い澱みスコア
音声(発話区間推定した区間の音声)
発話テキスト
VIDEO UNDERSTANDING

映像認識AI

映像認識。映像から、登場する話者の特徴(感情、年齢、性別など)を識別する。

画像
顔領域 性別推定
顔画像
性別 年齢 感情推定 頷き 視線 まばたき ランドマーク推定
TEXT-TO-SPEECH

音声合成AI

音声合成。テキストから、読み上げ音声を生成する。感情ラベルに応じてトーンの変更も可能。

テキスト 話者のID 話者の感情
音声