FUNCTIONS機能

AI Suiteが提供するこれらの多様なAPIは、お客さまのAIサービスの開発・改善を支援し
人の感情に寄り添う高度なコミュニケーションを実現します。

CONVERSATIONAL AI対話型・自然言語AI

自然言語処理および対話応答を実現するためのAIモデル

複数回の受け答えで会話の文脈を理解し、
ユーザーの発話意図、文脈、背景を踏まえた応答を自動生成します。

RESPONSE GENERATION

対話応答生成AI

ユーザーと自然な会話を実現するAI。ユーザー発話に対してAIがその応答を単語レベルで自動生成する。学習データにないフレーズも生成が可能。

ユーザ発話
AIが生成した応答
CONVERSATIONAL BERT

対話型BERT

対話にフィットしたBERTモデル。対話の応答を学習データの中から選択する。ユーザーとのこれまでの会話内容や文脈、話題を理解した応答をすることができる。

ユーザ発話
AIが生成した応答
SLOT FILLING

スロット推定

発話テキストの中から、検索やレコメンドのために必要となるパラメタ要素(日時、場所、人数など)を抽出する。

ユーザ発話
AIが抽出したスロット情報 デバッグ情報(過去発話など)
INTENT PREDICTION

ユーザ発話意図推定AI

ユーザの発話から、意図(レストランやデリバリ予約なのか、雑談なのかなど)を推論する。

ユーザ発話
AIが解析した情報(ユーザの意図) デバッグ情報(過去発話など)

MULTI MODAL AIマルチモーダルAI

テキスト、映像、音声などの複数の情報をもとに
感情および対話応答を予測するAI suite独自のAIモデル

MULTI MODAL CONVBERT

マルチモーダル対話応答AI

対話型BERTに、映像、音声などの非言語情報を加え、ユーザー発話に対する応答を予測する。

ユーザ発話 音声 画像(顔検出した領域を切り出した画像)
デバッグ情報(AIが生成した応答過去発話など)
MULTI MODAL EMOTION PREDICTOR

マルチモーダル感情予測AI

テキスト、映像、音声などの複数の情報を基に感情分析をする。

ユーザ発話 音声 画像(顔検出した領域を切り出した画像)
AIが解析した感情情報

MEDIA STREAMING AI音声映像AI

音声映像の認識や合成を実現するためのAIモデル

AUTOMATIC SPEECH RECOGNITION

音声認識AI

音声認識機能。音声から、発話した内容や話者の特徴(感情、年齢、性別など)を識別する。

音声
性別 年齢 感情推定 笑い声スコア 言い澱みスコア
音声(発話区間推定した区間の音声)
発話テキスト
VIDEO UNDERSTANDING

映像認識AI

映像認識。映像から、登場する話者の特徴(感情、年齢、性別など)を識別する。

画像
顔領域 性別推定
顔画像
性別 年齢 感情推定 頷き 視線 まばたき ランドマーク推定
TEXT-TO-SPEECH

音声合成AI

音声合成。テキストから、読み上げ音声を生成する。感情ラベルに応じてトーンの変更も可能。

テキスト 話者のID 話者の感情
音声

PERSONAL-MEMORY UNDERSTANDING人格・記憶理解

AIがAI自身と会話相手の関係に対する記憶を
学習理解し人格を形成するAIモデル

PERSONALIZED CONVERSATIONAL AI

パーソナライズ対話AI

ユーザ情報(ユーザ発話系列、ユーザIDなど)から、ユーザに特化した内容の応答を生成する。

ユーザ発話系列 ユーザID AIのID
ユーザIDおよびAIのIDに対応するパーソナライズされた発話応答

PREDICTION予測技術

ユーザー同士の相性、購買行動、製品製造における
品質等の未来を予測するAIモデル

SIMILARITY MATCH

類似度推定AI

ある要素同士がどれくらい似ているか(類似度)を予測する。

要件定義文章 ユーザのプロフィール
マッチングしたユーザおよびそのユーザとの類似度