知性と
感性の
AIを、
社会実装する。

SCROLL

AI suite

  • CONVERSATIONAL AI
  • PERSONA-MEMORY UNDERSTANDING
  • AUTOMATIC SPEECH RECOGNITION
  • VIDEO UNDERSTANDING
  • TEXT-TO-SPEECH
  • RESPONSE GENERATION
  • CONVERSATIONAL BERT
  • INTENT PREDICTION / SLOT FILLING
  • PREDICTION
  • SIMILARITY MATCH
  • MULTI MODAL

NEWS

ABOUT AI SUITE/

AI suiteとは?

AI suiteは、自然言語AIをベースに、音声、動画AIとのオーケストレーションを実現する様々な機能群をもつAIアルゴリズムAPIサービスです。AI suiteのAPI群は、ヒトの知性・感性を踏まえたコミュニケーションサービスの実現を支えます。クライアント企業様の目的とするAIサービスを、私たちが提供するAPIをベースに迅速に構築することができます。

全体概念図 システム構成概要 Human-AI Society

適用領域ごとのデータセットを用いて学習された推論モデルをAIアルゴリズムAPIサービスとして提供します。3rd Party企業様のAPIサービスとも連携可能です。多様なAIアルゴリズムを連携することで、従来の機械的なAIが持つ高度なシミュレーションに加えて、手触りのある人間的コミュニケーションを実現します。

将来のAIは、ヒトと共生し、ともに成長し、社会活動・経済活動を支えるようになります。AI suiteは音声、映像、言語などのヒトのコミュニケーションを支える複数のモダリティを統合学習し、高度なAIサービスを迅速に社会実装することで、この「Human-AI Society」の世界を実現してまいります。

OUR SOLUTIONS/

AI suiteが提供する多様なAPIを
組みあわせることで、幅広い領域で
AIサービスの提供が可能となります。

SOLUTION ONE

メタバースにおける
マルチモダールコミュニケーション

メタバースが普及してきており、ユーザのアバタとAIの
コミュニケーションが期待されます。マルチモーダルAIは、
言語、音声・映像から得られる発話内容、感情、ヒトとAIの
間合いなども活用し、リッチなコミュニケーション体験を
提供します。エンタテイメントチャット、商品販売、
メンタルウェルネスを測るサービスを支えます。

SOLUTION TWO

より自然な会話を通したサービス代行

弊社では「教えて!goo」の「恋愛相談AIオシエル」や
著名ドラマのキャラクタAIなどを提供してきました。
さらに技術開発を進め、AIコンシェルジュに対し、
ユーモアあふれる会話を通じ、サービス代行を依頼する
システムを構築しています。商品販売、フードデリバリ、
ハウジングなど音声対話でのオーダーを実現できます。

SOLUTION THREE

人格やヒトとAIの間の記憶に基づく
パーソナライズ対話

現在の対話AIは、実際の人間同士の会話のように、
そのヒトの人格や人間同士で共有されている記憶に
基づき会話の内容を変えることはできません。私たちが
研究開発中のパーソナライズ対話技術では、ヒトの
人格やヒトとヒトとの関係の学習に基づくAI対話が
可能となります。高い性能のエンタテイメントチャットや
接客チャットを実現できます。

SOLUTION FOUR

シミュレーションおよび行動予測技術

対話応答予測のみならず、ユーザの購買予測や、センサー
情報に基づく製品製造時の品質予測技術を開発しています。
こうした予測技術は、フィンテックや、位置情報に基づく
訪問先予測などに応用できます。今後、このシミュレーション
AIの技術開発と導入支援を進めてまいります。

OUR TECHNOLOGIES/

国際的にも認められた独自のアルゴリズムを
使用して、人間らしさを反映した
AIサービスを実現します。

Conversational
AI
対話AI

私たちの対話エンジン(ConvBERT技術)は、BERT(Bidirectional Encoder Representations from Transformers)をマルチターン対話における応答予測に応用しています。マルチターン対話では、過去の複数回の発話の文脈を有効に活用することが重要とされております。従来のBERTでは単語の潜在ベクトルを学習しますが、ConvBERTでは発話の潜在ベクトルの学習も付加します。さらに、シェパードは犬であり、シャムが猫であり両者が哺乳動物であるという人間が共通して理解してる常識を概念体系として理解できる仕組みを与えています。それにより、似たような発話系列を包括的に学習でき、応答予測精度の向上を果たしています。

*私たちの技術は、AAAI、IJCAI、ISWCといった世界的に権威のある
国際会議にも採録されております。

Multi
Modal AI
マルチモーダルAI

人間のコミュニケーションにおいては、言語のみではなく、聴覚や視覚といったノンバーバルコミュニケーション(表情や手振りなど)が重要な役割を果たしています。私たちが開発しているMulti Modal AIでは、言語、音声、映像からなる3つのモダリティを用い、モダリティ間で共通に現れる潜在知識を抽出し、感情や発話応答の予測を高精度に実現します。また、こうした音声、映像といったメディアストリームを準リアルタイムにネットワーク上で取り扱い、高速度で推論を行うシステムを整備しています。

Persona-memory
Understanding
人格・記憶理解

私たちは、ヒトの人格、記憶、会話という3つの軸をAIに反映することで、より高度なソリューションを提供することを目指しています。人格は長期的なユーザの行動を決定し、記憶はヒトの対象とする事物に対するコンテクストを示します。私たちは、私たちが持つ大規模な発話応答データを基に、ユーザの長期的な会話履歴を学習する試みを行なっています。具体的には、長期の会話履歴、会話履歴と事物の概念階層との写像、および現在の発話の文脈を学習し、各ユーザの人格・記憶に沿ったパーソナライズされた対話応答の技術開発を進めています。

OUR PRODUCTS/

クライアント企業様のAIサービス実現の
ために、目的に応じた様々なAPIサービスを
ご提供します。 AI suiteの活用法を見る

Conversational AI 対話型/自然言語AI

自然言語処理および対話応答を
実現するためのAIモデル

Response Generation 対話応答生成AI

応答生成。ユーザ発話に対してAIがその応答を
単語レベルで自動生成する。学習データにない
フレーズも生成が可能。

入力:ユーザ発話
出力:AIが生成した応答

Conversational BERT 対話型BERT

対話にフィットしたBERTモデル。対話の応答を選択(学習データにある応答から選択)。マルチターン会話における文脈理解や、会話のトピックや意味の追随に特徴を持つ。

入力:ユーザ発話
出力:AIが生成した応答

Slot filling スロット推定

発話の中で、レストランオーダなどで必要となるパラメタ要素(日時、場所、ジャンル、ムード、人数、価格帯、住所などを推論)を抽出する。

入力:ユーザ発話
出力:AIが抽出したスロット情報、デバッグ情報
(過去発話など)

Intent prediction ユーザ発話意図推定AI

ユーザの発話が、レストランやデリバリ予約なのか、雑談なのか、賃貸物件検索なのか、ユーザ意図を推論する。

入力:ユーザ発話
出力:AIが解析した情報(ユーザの意図)、デバッグ情報(過去発話など)

Multi Modal AI マルチモーダルAI

音声、映像、言語など人間の持つ複数の
コミュニケーションモダリティに応じた感情
および対話応答を予測するAIモデル

Multi Modal ConvBERT マルチモーダル対話応答AI

ConvBERTに、音声、映像といったノンバーバル
情報も加味し、応答予測を実行する。

入力:ユーザの発話、音声、画像(顔検出した領域を切り出した画像)
出力:AIが生成した応答

Multi Modal Emotion Predictor マルチモーダル感情予測AI

音声、映像、言語を基に、感情を予測する。

入力:ユーザの発話、音声、画像(顔検出した領域を切り出した画像)
出力:AIが解析した感情情報

Media Streaming AI 音声映像AI

音声映像の認識や合成を実現するためのAIモデル

Automatic Speech Recognition 音声認識AI

音声認識機能。音声から、話者の特徴(感情、年齢、性別、話者)などを識別する。

話者特徴推定

入力:音声
出力:性別、年齢、感情推定、笑い声スコア、言い澱みスコア

発話テキスト推定

入力:音声(発話区間推定した
区間の音声)
出力:発話テキスト

Video Understanding 映像認識AI

映像認識。映像に登場する話者の特徴、オブジェクトの判別(急須、器など)を行う。

顔認識処理

入力:画像
出力:顔領域・性別推定

人物特徴推定

入力:顔画像
出力:性別、年齢、感情推定。頷き、視線、まばたき、ランドマーク推定

Text-to-speech 音声合成AI

音声合成。テクストを複数のキャラクタ属性に
応じて読み上げる。感情ラベルに応じてトーンの
変更も可能。

入力:テキスト、話者のID、話者の感情
出力:音声

Persona-memory Understanding 人格・記憶理解

AIが自身、相手、自身と相手の関係に対する記憶を
学習理解し人格を形成するAIモデル

Personalized conversational AI パーソナライズ対話AI

ユーザに特化した応答を生成し返却する。

入力:ユーザ発話系列、ユーザID、AIのID
出力:ユーザIDおよびAIのIDに対応するパーソナライズされた発話応答

Prediction 予測技術

ユーザ間の相性、ユーザの購買、製品製造に
おける品質等の未来を予測するAIモデル

Similarity Match 類似度推定AI

オブジェクト間の類似度マッチング。例えば、相性の合う ユーザの候補を予測する。

入力:要件定義文章、ユーザのプロフィール 出力:マッチングしたユーザおよびそのユーザとの類似度

CONTACT US/

将来のAIはヒトと共生し、ともに成長し、
社会活動・経済活動を支える存在になっていきます。弊社のサービス、技術、API、コンサルテーションにご興味がある、またはご質問がある方はお気軽にご相談ください。

勤務先(貴社名)
メールアドレス(会社アドレス)
電話番号
お問い合わせ種別
お問い合わせ内容

個人情報の取り扱いについてに同意の上、送信ください