FUNCTIONS機能
AI Suiteが提供するこれらの多様なAPIは、お客さまのAIサービスの開発・改善を支援し
人の感情に寄り添う高度なコミュニケーションを実現します。
MULTI MODAL AIマルチモーダルAI
テキスト、映像、音声などの複数の情報をもとに
感情および対話応答を予測するAI suite独自のAIモデル
MULTI MODAL CONVBERT
マルチモーダル対話応答AI
対話型BERTに、映像、音声などの非言語情報を加え、ユーザー発話に対する応答を予測する。
ユーザ発話
音声
画像(顔検出した領域を切り出した画像)
デバッグ情報(AIが生成した応答過去発話など)
MULTI MODAL EMOTION PREDICTOR
マルチモーダル感情予測AI
テキスト、映像、音声などの複数の情報を基に感情分析をする。
ユーザ発話
音声
画像(顔検出した領域を切り出した画像)
AIが解析した感情情報
MEDIA STREAMING AI音声映像AI
音声映像の認識や合成を実現するためのAIモデル
AUTOMATIC SPEECH RECOGNITION
音声認識AI
音声認識機能。音声から、発話した内容や話者の特徴(感情、年齢、性別など)を識別する。
音声
性別
年齢
感情推定
笑い声スコア
言い澱みスコア
音声(発話区間推定した区間の音声)
発話テキスト
VIDEO UNDERSTANDING
映像認識AI
映像認識。映像から、登場する話者の特徴(感情、年齢、性別など)を識別する。
画像
顔領域
性別推定
顔画像
性別
年齢
感情推定
頷き
視線
まばたき
ランドマーク推定
TEXT-TO-SPEECH
音声合成AI
音声合成。テキストから、読み上げ音声を生成する。感情ラベルに応じてトーンの変更も可能。
テキスト
話者のID
話者の感情
音声