日本語生成AI コーパス/トレーニングデータ

日本語 生成AI アノテーション代行

概要

アノテーション代行サービスでは、生成系AIで用いる学習用データの収集から事前加工(正規化)までの作業を代行
収集したデータはテキストマイニング技術を用いて高精度に正規化し、RAGの回答精度向上のためのデータ構造化に貢献します


【事前加工】

  • ・収集したデータ(個人情報、固有名詞、URLなど)を高精度に一般名詞に置き換えて正規化
     ※データ収集はrobot.txtに準じたクローリングを実施
  • ・類語、同義語は集約して正規化
  • ・正規化フォーマットは指定が可能
  • ・そのまま本学習データを使い機械学習トレーニングデータとして運用できます


【固有名詞除去加工】

  • (事例) ※サンプルの氏名は仮名。事実とは無関係の参考文です

  • 「事故現場は鈴木容疑者の勤め先、大阪・北区にあるSAMPLE倉庫です。警視庁によると、放火の疑いがあった現場は鈴木容疑者が担当するエリアだということです。」

    「事故現場は容疑者の勤め先、大阪・北区にある倉庫です。警視庁によると、放火の疑いがあった現場は容疑者が担当するエリアだということです。」

  • ・過去4年分の、固有名詞を加工した報道記事を保持。加工の程度はリクエスト可能です
  • (注)機械学習でのトレーニングデータ用途、キーワード抽出用途以外ではご利用になれません


【5W1H分類加工】

  • 収集データを5W1Hで分類。文章構造を把握し、RAGの正確性を向上します
  • 「武道館ライブの支払いでVISAは使える?」「電気代はPayPayで清算できますか?」
  • 分類:WHAT「VISA、PayPay、武道館ライブ、電気代」
  • 分類:HOW「支払い、清算」


【類語・同義語集約加工】

  • 収集データを類語・同義語で集約。微妙な言い回しの違いを正規化します
  • 「車内にパソコンを忘れてきた」「電車内でPCを失くした」
  • 類語・同義語:「PC、パソコン」「車内、電車内」「忘れた、失くした」


【コーパスの指定、バイアス別、SNSデータも販売】

  • 特定の政党や商品に対する論調のデータセット(機械学習用)も以下のとおり販売します
  • ・特定の政党に対する仕分素材
  • ・特定のコーパス(スポーツ・競馬ニュース、天気や災害、観光情報など)はご相談ください
  • ・特定の論調(SNS素材データ)

まずはお気軽にお見積もりの依頼から


ご発注フロー

  • STEP.01
    データボリューム、利用用途などをヒアリング
    必要に応じて、秘密保持(NDA)契約
    最短当日中にお見積り
  • STEP.02
    [依頼]
    サンプル提示
    サンプルデータを当社より提示
  • STEP.03
    [納品]
    ダウンロード用ワンタイムURLを発行
    当社指定のセキュアダウンロードサイトから「納品データ」をダウンロード
  • STEP.04
    [お支払い]
    お支払いはご請求書による後払い
    納品日の翌月末にお支払い


導入実績

  • ドコモ
  • パン・パシフィック・インターナショナルホールディングス
  • ジオテクノロジーズ
  • 京都大学
  • ヤマハ
  • 伊藤忠テクノソリューションズ
  • TBSラジオ
  • TOKYO FM
  • TBS
  • オムロン
  • フロムソフトウェア
  • イオン