このたび以下の2種類のデータを公開しましたので,簡単にご紹介いたします.
日本語指示データ
大規模言語モデル(LLM)の開発に必要なものの1つは高品質なデータです.
英語では様々なデータが公開されていますが,日本語ではまだ少ないのが現状です.
そこで,LLM研究の一助となるよう,小規模ではありますが,人力で作成した日本語指示データmegagonlabs/instruction_jaを公開いたします.
このデータは以下の特徴をもちます.
- オープンソースライセンス
- 社会や料理など様々な話題を含む対話
- 自然な日本語表現からなる対話
この1と2を満たすデータとしてAnthropicが英語の指示データを公開しています.そしてそれを元に機械翻訳した日本語の指示データが,有志によって公開されています.今回それをもとに,3を満たすために人手による補足や日本語表現の変更といった改変を行いました. (改変の結果,原文の英語の忠実な日本語訳になっているとは限らないのでご注意ください)
ぜひ皆様の研究や開発にご活用ください.
変更の例
項目 | 内容 |
---|---|
Q | MacBook 13インチを使っています。バッテリーは、通常どのくらいもちますか? |
A | ユーザーマニュアルには、「完全に充電されたバッテリーは、通常の電力レベルで約7時間の使用が可能です。」とあります。ただし実際には、バッテリーの使用時間は使用パターンによって大きく異なります。 |
Q (原文) | I have an M1 macbook 13 inch. How long is my battery typically supposed to last before needing service |
A (原文) | The user manual says that “A fully charged battery should provide approximately seven hours of use at normal power levels. The battery’s charge will decrease over time” (link). In fact, though, battery life varies quite a bit based on your usage patterns. |
Q (機械翻訳) | M1 MacBook 13インチがあります。私のバッテリーは、サービスを必要とする前に通常どのくらい続くことになっていますか |
A (機械翻訳) | ユーザーマニュアルには、「完全に充電されたバッテリーは、通常の電力レベルで約7時間の使用を提供する必要があります。バッテリーの充電は時間とともに減少します」(リンク)。実際、バッテリー寿命は使用パターンに基づいて大きく異なります。 |
項目 | 内容 |
---|---|
Q | ツナサラダはどのように作りますか? |
A | ツナサラダの材料は、ツナ缶1缶、ガーキン(小さいキュウリのピクルス)1瓶、マヨネーズ大さじ1杯、塩ひとつまみ、黒コショウ少々です。これらを全て混ぜ合わせると完成です。 |
Q (原文) | How do you make tuna salad? |
A (原文) | To make tuna salad, you will need: 1 can of tuna, 1 jar of gherkins, 1 cup of mayonnaise, a pinch of salt, and black pepper. You will also need a cutting board and a chef’s knife. |
Q (機械翻訳) | マグロサラダはどのように作りますか? |
A (機械翻訳) | マグロサラダを作るには、1缶のマグロ、ガーキン1瓶、マヨネーズ1杯、塩のピンチ、黒胡pepperが必要です。また、まな板とシェフのナイフも必要です。 |
項目 | 内容 |
---|---|
Q | アメリカの最高裁判所には2023年6月27日現在、4人の女性判事がいます。彼女たちの名前は何ですか? |
A | 最も新しい女性判事は、2022年にバイデン大統領によって任命されたケタンジ・ブラウン・ジャクソンです。他の女性判事は、2020年にトランプ大統領によって任命されたエイミー・コニー・バレット、2009年にオバマ大統領によって任命されたソニア・ソトマイヨール、同じく2010年にオバマ大統領が任命したエレナ・ケイガンです。 |
Q (原文) | There are three female justices at the Supreme Court. What are their names? |
A (原文) | The most recent female justice is Sonia Sotomayor, who was appointed by President Obama in 2009. The other female justices are Elena Kagan, also appointed by President Obama in 2010, and Sandra Day O’Connor, appointed by President Reagan in 1981. |
Q (機械翻訳) | 最高裁判所には3人の女性判事がいます。 彼女たちの名前は何でしょう? |
A (機械翻訳) | 最も新しい女性判事は、2009年にオバマ大統領によって任命されたソニア・ソトマイヨールです。他の女性判事は、同じく2010年にオバマ大統領が任命したエレナ・ケイガン、1981年にレーガン大統領が任命したサンドラ・デイ・オコナーです。 |
日本語擬似レビューデータ
人手で作成した架空の宿泊施設・観光スポットの日本語レビューデータmegagonlabs/quasi_japanese_reviewsも公開いたしました.
みなさまの研究や実験にご活用ください.
架空の宿泊施設のレビューの例
10月下旬に、札幌市内の●●ホテルに1人で泊まりました。
1人部屋で、広すぎず快適な客室でした。
駅から徒歩で行ける距離で、アクセスが良かったです。
周辺に飲食店街があり、お店選びで結構迷いました。
...
架空の観光スポットのレビューの例
3月に●●ミュージアムに行きました。
新しくリニューアルされてから初めてでしたが、素晴らしかったです。
外観も前の文化遺産の形を残しつつ、でも新しさもあるデザインで個人的にはかなり大好きです。
中も階段は今まで通りで、昔のデザインが楽しめます。
...