大規模言語モデルのインストラクションデータ作成
導入事例

LLMの研究開発サポート

業  種:公的研究機関

課  題:仕様を固めながらの高品質な日本語データ作成
国産の大規模言語モデルを開発するプロジェクトで、日本語での自然で多様な質問回答文の作成が求められました。
品質はもちろんのこと、スピード感も非常に大事なプロジェクトでした。日本語のデータセットは少なく、どのように作成すれば良いのか、そこを模索するところも含めてご依頼をいただきました。
ソリューション 日本語作成を得意とするアノテーターチームの結成と細やかなマネジメント
効果 自然でバリエーションのあるデータセットを作成

日本語作成を得意とするアノテーターチームの結成と細やかなマネジメント

私たちは多くの語学スペシャリストを抱えています。
文章作成を得意とするアノテーターや翻訳者、国語の先生、日本語教師経験者などから作成者を選抜してチームを作りました。
質問回答文には正解がなく、誰もが作成できるようなマニュアルもない状態でプロジェクトがスタート。まずはアノテーターと面談を行って、その特性を掴み、作成したデータにあわせてアドバイスしていくことで、各自が得意な方向へと誘導していきました。厳しいノルマは設けず、アノテーターそれぞれのペースで作業してもらうことにより、自然でバリエーションのあるデータの作成を心がけました。
文章の作成ルールは、作業者からの質疑応答やよくあるフィードバック内容などを反映しながら、適宜バージョンアップしていきました。

自然でバリエーションのあるデータセットを作成

作業を進めながら仕様を固めていく形のプロジェクトはこれまでも何度かあり、それらの経験を活かして、自然で多様な質問回答文のデータセットを短期間に作成することができました。
私たちは、より良いデータの作成に向け、常に柔軟な対応を心がけております。
まだ模索中で仕様書がなくても、お困りのことがあればお気軽にご相談ください。

自然言語処理・音声情報処理サービス導入事例

CONTACT

通訳・翻訳でお悩みの方は
お気軽にご相談ください

お電話でのお問い合わせはこちら
〈受付時間〉平日 9:00〜17:30
ご不明な点はお気軽に
お問い合わせください
品質にこだわり抜いた
通訳・翻訳サービスの詳細はこちら