FUNCTIONS機能

AI Suiteが提供するこれらの多様なAPIは、お客さまのAIサービスの開発・改善を支援し
人の感情に寄り添う高度なコミュニケーションを実現します。

MULTI MODAL AIマルチモーダルAI

MULTI MODAL CONVBERT

対話型BERTに、映像、音声などの非言語情報を加え、ユーザー発話に対する応答を予測する。

ユーザ発話音声画像(顔検出した領域を切り出した画像)

デバッグ情報(AIが生成した応答過去発話など)

MULTI MODAL EMOTION PREDICTOR

テキスト、映像、音声などの複数の情報を基に感情分析をする。

ユーザ発話音声画像(顔検出した領域を切り出した画像)

AIが解析した感情情報

AUTOMATIC SPEECH RECOGNITION

音声認識機能。音声から、発話した内容や話者の特徴（感情、年齢、性別など）を識別する。

音声

性別年齢感情推定笑い声スコア言い澱みスコア

音声(発話区間推定した区間の音声)

発話テキスト

VIDEO UNDERSTANDING

映像認識。映像から、登場する話者の特徴（感情、年齢、性別など）を識別する。

画像

顔領域性別推定

顔画像

性別年齢感情推定頷き視線まばたきランドマーク推定

TEXT-TO-SPEECH

音声合成。テキストから、読み上げ音声を生成する。感情ラベルに応じてトーンの変更も可能。

テキスト話者のID 話者の感情

音声