Skip to content

Latest commit

 

History

History
4275 lines (4258 loc) · 363 KB

huggingface.md

File metadata and controls

4275 lines (4258 loc) · 363 KB

awesome-japanese-nlp-resources

This page lists the models and datasets registered with Haggingface that are specific to Japanese NLP. At present, 1050 models and 356 datasets are listed.

English | 日本語 (Japanese) | 繁體中文 (Chinese) | 简体中文 (Chinese)

Contents

The latest additions 🎉

Models 12 models have been added.

Datasets 11 datasets have been added.

Models

This list is sorted by downloads as of November 19, 2024. 1050 models are listed.

Datasets

This list is sorted by downloads as of November 19, 2024. 356 datasets are listed.

  • KakologArchives/KakologArchives
    • ニコニコ実況 過去ログアーカイブ ニコニコ実況 過去ログアーカイブは、ニコニコ実況 のサービス開始から現在までのすべての過去ログコメントを収集したデータセットです。
    • Downloads: 243,416
  • nlp-waseda/JMMLU
    • JMMLU Japanese Massive Multitask Language Understanding Benchmark JMMLU is a four-choice question set consisting of Japanese-translated questions of a portion of MMLU (Paper, Github) (Translated questions) and questions based on unique Japanese cultural context (Japanese questions).
    • Downloads: 185,910
  • turing-motors/Cauldron-JA
    • The Cauldron is a massive collection of 50 vision-language datasets (training sets only) that were used for the fine-tuning of the vision-language model Idefics2.
    • Downloads: 15,869
  • nyanko7/danbooru2023
    • Danbooru2023:
    • Downloads: 11,452
  • joujiboi/japanese-anime-speech-v2
    • Japanese Anime Speech Dataset V2 日本語はこちら japanese-anime-speech-v2 is an audio-text dataset designed for training automatic speech recognition models.
    • Downloads: 7,872
  • joujiboi/japanese-anime-speech
    • Japanese Anime Speech Dataset 日本語はこちら japanese-anime-speech is an audio-text dataset designed for the training of automatic speech recognition models.
    • Downloads: 5,915
  • Coldog2333/JMedBench
    • Maintainers Junfeng Jiang@Aizawa Lab: jiangjf (at) is.s.u-tokyo.ac.jp Jiahao Huang@Aizawa Lab: jiahao-huang (at) g.ecc.u-tokyo.ac.jp
    • Downloads: 4,686
  • ayousanz/voicevox-voice-corpus
    • VOICEVOXを使った人工音声ボイスデータセット 使用したテキストコーパス ITAコーパス つくよみちゃんコーパス ROHANコーパス データセット量情報 フォルダ内の.
    • Downloads: 3,958
  • elyza/ELYZA-tasks-100
    • ELYZA-tasks-100: 日本語instructionモデル評価データセット Data Description 本データセットはinstruction-tuningを行ったモデルの評価用データセットです。
    • Downloads: 3,096
  • sbintuitions/JMTEB
    • JMTEB:
    • Downloads: 1,901
  • shunk031/JGLUE
    • Please feel free to open an issue or pull request.
    • Downloads: 1,768
  • jpft/danbooru2023
    • Danbooru2023:
    • Downloads: 1,427
  • Helsinki-NLP/tatoeba
    • To load a language pair which isn't part of the config, all you need to do is specify the language code as pairs.
    • Downloads: 1,407
  • kunishou/databricks-dolly-15k-ja
    • This dataset was created by automatically translating "databricks-dolly-15k" into Japanese.
    • Downloads: 1,365
  • defunct-datasets/amazon_reviews_multi
    • We provide an Amazon product reviews dataset for multilingual text classification.
    • Downloads: 1,203
  • neulab/odex
    • ODEX is an Open-Domain EXecution-based NL-to-Code generation data benchmark.
    • Downloads: 1,179
  • ThePioneer/japanese-photos
    • Japan Diverse Images Dataset Overview This dataset is a comprehensive collection of high-quality images capturing the diverse aspects of Japan, including urban landscapes, natural scenery, historical sites, contemporary art, everyday life, and culinary experiences.
    • Downloads: 1,118
  • lmg-anon/vntl-leaderboard
    • VNTL Leaderboard
    • Downloads: 978
  • mkshing/xlsum_ja
  • nyanko7/yandere2023
    • Yandere2023:
    • Downloads: 662
  • range3/cc100-ja
    • range3/cc100-ja This dataset consists of parquet files from the cc100 dataset with only the Japanese language extracted and sharded.
    • Downloads: 661
  • llm-book/wrime-sentiment
    • GitHub リポジトリ ids-cv/wrime で公開されているデータセットを利用しています。
    • Downloads: 649
  • DeL-TaiseiOzaki/magpie-llm-jp-3-13b-20k
    • 合成日本語指示データセット 概要 このデータセットは、大規模言語モデル(LLM)を用いて自動生成された日本語の指示とそれに対する応答のコレクションです。
    • Downloads: 583
  • reazon-research/reazonspeech
    • This dataset contains a diverse set of natural Japanese speech, collected from terrestrial television streams.
    • Downloads: 529
  • hotchpotch/JQaRA
    • JQaRA : Japanese Question Answering with Retrieval Augmentation - 検索拡張(RAG)評価のための日本語 Q&A データセット 高性能な LLM の台頭に伴い、LLM を用いた質疑応答のユースケースが増加しています。
    • Downloads: 475
  • globis-university/aozorabunko-clean
    • Overview This dataset provides a convenient and user-friendly format of data from Aozora Bunko (青空文庫), a website that compiles public-domain books in Japan, ideal for Machine Learning applications.
    • Downloads: 471
  • nu-dialogue/real-persona-chat
    • Dataset Summary RealPersonaChat は,話者本人のペルソナと性格特性を含む,約14,000件の日本語雑談対話からなるコーパスです.
    • Downloads: 456
  • JMMMU/JMMMU
    • JMMMU:
    • Downloads: 452
  • hotchpotch/wikipedia-passages-jawiki-embeddings
    • wikipedia 日本語の文を、各種日本語の embeddings や faiss index へと変換したもの。
    • Downloads: 441
  • jaCappella/jaCappella
    • jaCappella corpus : Japanese a cappella vocal ensemble corpus The jaCappella corpus is a corpus of Japanese a cappella vocal ensembles.
    • Downloads: 440
  • kumapo/JAQKET
    • Please feel free to open an issue or pull request.
    • Downloads: 433
  • p1atdev/danbooru-ja-tag-pair-20241015
    • danbooru-ja-tag-pair-20241015 2024/10/15に作成したdanbooruタグと日本語タグのペアデータセット(約15万件) p1atdev/danbooru-ja-tag-pair-20240715 との違いは、 ベースのwikiデータが増えたのでその分対応タグも増えた fasttextでのフィルタリングを挟むようにした 「明らかに他言語のタグ」が混じる頻度はちょっと減った気がするけど、完全ではない (calm3くんの処理に)ミスがなければ、最低一つ以上の日本語タグ (other_names フィールド) が存在するはず 作成過程 isek-ai/danbooru-wiki-2024 の #202408-at20240906 revision を元に、 other_names (基本的にPixivのタグ)がついているものから、日本語じゃないもの・曖昧・意味の過不足が大きいタグを除去。
    • Downloads: 429
  • matsuxr/JaGovFaqs-22k
    • このデータセットについて このデータは、日本の官公庁のWebサイトに掲載されている「よくある質問」を手作業で抽出し、インストラクション用のデータセットとしたものです。
    • Downloads: 428
  • kunishou/J-ResearchCorpus
    • J-ResearchCorpus Update: 2024/3/16言語処理学会第30回年次大会(NLP2024)を含む、論文 1,343 本のデータを追加 2024/2/25言語処理学会誌「自然言語処理」のうち CC-BY-4.0 で公開されている論文 360 本のデータを追加 概要 CC-BY-* ライセンスで公開されている日本語論文や学会誌等から抜粋した高品質なテキストのデータセットです。
    • Downloads: 423
  • llm-book/ner-wikipedia-dataset
    • Githubリポジトリstockmarkteam/ner-wikipedia-datasetで公開されているデータセットを利用しています。
    • Downloads: 398
  • kunishou/HelpSteer-35k-ja
    • NVIDIA が公開している SteerLM 向けのトライアルデータセット HelpSteerを日本語に自動翻訳したデータセットになります。
    • Downloads: 395
  • kunishou/oasst1-89k-ja
    • This dataset was created by automatically translating "OpenAssistant/oasst1" into Japanese.
    • Downloads: 385
  • bandad/sayoko-tts-corpus
    • サヨ子 音声コーパス ダウンロード方法 データセットを圧縮したzipファイルを、gdriveに置いています。
    • Downloads: 324
  • JapanDegitalMaterial/Places_in_Japan
    • Places in japan.
    • Downloads: 315
  • izumi-lab/llm-japanese-dataset
    • llm-japanese-dataset LLM構築用の日本語インストラクション(チャット)データセット 主に,英語で構築されたLLMモデルなどに対して,チャット(Instruction)応答タスクに関してLoRAなどでチューニングするために使用できます.
    • Downloads: 312
  • alfredplpl/simple-zundamon
    • シンプルずんだもんデータセット はじめに ずんだもんの設定が詰まったシンプルなデータセットです。
    • Downloads: 309
  • TLME/Umamusume-voice-transcription
    • Umamusume-voice-transcription Total charcters: 77 Comes with transcription.
    • Downloads: 296
  • kanhatakeyama/SyntheticText
    • 以下のデータ源からランダムに抽出したテキストをもとに、phi3で再生成した文章です。 Wikibooks Wikipedia Cosmopedia 判例データ データ parquetファイルが数十GB程度あります datasetsライブラリからでは、はじめの数GB程度しか読み込めない可能性があります。git lfsなどでダウンロードする必要がありそうです。 コード こちら 一部の計算には東京工業大学のスーパーコンピュータTSUBAME4.0を利用しました。
    • Downloads: 289
  • kogi-jwu/jhumaneval
    • This is a Japanese translated version of HumanEval, an evaluation harness for the HumanEval problem solving dataset described in the paper "Evaluating Large Language Models Trained on Code".
    • Downloads: 288
  • bclavie/mmarco-japanese-hard-negatives
    • [Under Construction]
    • Downloads: 272
  • Fhrozen/CABankSakuraCHJP
    • CABank Japanese CallHome Corpus Participants: 120 Type of Study: phone call Location: United States Media type: audio DOI: doi:10.21415/T5H59V Web: https://ca.talkbank.org/access/CallHome/jpn.html Citation information Some citation here.
    • Downloads: 268
  • hpprc/jawiki
    • JaWiki WikipediaのHTML形式のダンプファイルから抽出したテキストデータセットです。
    • Downloads: 266
  • hotchpotch/cc100-ja-documents
    • cc100-ja-documents HuggingFace で公開されている cc100 / cc100-ja は line 単位の分割のため、document 単位に結合したものです。
    • Downloads: 260
  • Elite35P-Server/EliteVoiceProject
    • Elite Voice Project これはホロライブ所属Vtuberさくらみこ氏の声をデータセット化し音声認識などで活用できるようにする事を目的とした非公式プロジェクトです。
    • Downloads: 256
  • alfredplpl/anime-with-caption-cc0
    • Anime with caption CC-0 dataset このデータセットはイラストに対する日本語キャプションを 倫理的に学習しやすくするためのデータセットです。
    • Downloads: 249
  • SkelterLabsInc/JaQuAD
    • JaQuAD is developed to provide a SQuAD-like QA dataset in Japanese.
    • Downloads: 246
  • hatakeyama-llm-team/japanese2010
    • 日本語ウェブコーパス2010 こちらのデータをhuggingfaceにアップロードしたものです。 2009 年度における著作権法の改正(平成21年通常国会 著作権法改正等について | 文化庁)に基づき,情報解析研究への利用に限って利用可能です。 形態素解析を用いて、自動で句点をつけました。 変換コード 変換スクリプト 形態素解析など
    • Downloads: 238
  • NilanE/ParallelFiction-Ja_En-100k
    • Dataset details: Each entry in this dataset is a sentence-aligned Japanese web novel chapter and English fan translation.
    • Downloads: 235
  • llm-book/livedoor-news-corpus
    • オリジナルのサイトと同じものを使用しています。
    • Downloads: 230
  • cl-nagoya/auto-wiki-qa
    • AutoWikiQA 東工大が公開しているSwallow-MXを用いて、Wikipedia中のテキストを入力として「質問(query)」と「回答(answer)」を生成し、生成された質問と回答についてフィルタリングを行ったデータセットです。
    • Downloads: 225
  • llm-jp/oasst2-33k-ja
    • oasst2-33k-ja This repository provides an instruction tuning dataset developed by LLM-jp, a collaborative project launched in Japan.
    • Downloads: 224
  • YANS-official/senryu-shashin
    • 読み込み方 from datasets import load_dataset dataset = load_dataset("YANS-official/senryu-shashin", split="train") 概要 株式会社東建コーポレーションが運営するホームメイト・リサーチによる『ホームメイト川柳大賞』のうち、お題が画像形式で提供される『写真川柳』に関するクロールデータです。
    • Downloads: 214
  • team-hatakeyama-phase2/LLMChat
    • LLMChat 概要 GENIAC 松尾研 LLM開発プロジェクトで開発したモデルを人手評価するために構築したLLMChatというシステムで収集された質問とLLMの回答、及び人手評価のデータです。
    • Downloads: 204
  • ryo0634/bsd_ja_en
    • Dataset Summary This is the Business Scene Dialogue (BSD) dataset, a Japanese-English parallel corpus containing written conversations in various business scenarios.
    • Downloads: 202
  • llm-book/llm-jp-eval
    • オリジナルのサイトと同じものを使用しています。
    • Downloads: 202
  • kunishou/amenokaku-code-instruct
    • Amenokaku-Code-Instruct Update: 2023/12/27データセットに JaxTon , プロになるJava のコードデータ 180 レコードを追加しました。
    • Downloads: 188
  • taishi-i/awesome-japanese-nlp-classification-dataset
    • Dataset overview This dataset identifies whether a GitHub repository description pertains to Japanese natural language processing (NLP).
    • Downloads: 187
  • systemk/washi
    • Washi (a kind of traditional Japanese paper)
    • Downloads: 184
  • kanhatakeyama/japanese-corpus-categorized
    • 日本語コーパス mc4-jaなどのwebコーパスをクリーニング後、教師なし学習モデルでテキストを約1万件にクラスタリングしたコーパスです。 著作権法で認められた情報解析目的で使用できます。 一部のファイルしかparquet化されていないので、ご注意ください。ファイルリストはoutフォルダ内にあります git lfsなどでダウンロードください。
    • Downloads: 184
  • hpprc/jsick
    • Dataset.
    • Downloads: 184
  • kunishou/OpenMathInstruct-1-1.8m-ja
    • OpenMathInstruct-1 を日本語に自動翻訳した商用利用可能な180万件の指示チューニングデータセットになります。
    • Downloads: 183
  • Aratako/Synthetic-Japanese-Roleplay-gpt-4o-mini-39.6k-formatted
    • Synthetic-Japanese-Roleplay-gpt-4o-mini-39.6k-formatted 20240907 データ増量(約19800件→約39600件) 概要 gpt-4o-miniを用いて作成した日本語ロールプレイデータセットであるAratako/Synthetic-Japanese-Roleplay-gpt-4o-mini-39.6kにsystem messageを追加して整形したデータセットです。
    • Downloads: 179
  • ltvmoon/opusbook_ja_en
    • language: jp en tags: translation license: cc-by-4.0
    • Downloads: 168
  • Verah/JParaCrawl-Filtered-English-Japanese-Parallel-Corpus
    • Introduction This is a LLM-filtered set of the first 1M rows from ntt's JParaCrawl v3 large English-Japanese parallel corpus.
    • Downloads: 166
  • llm-jp/databricks-dolly-15k-ja
    • databricks-dolly-15k-ja This repository provides an instruction tuning dataset developed by LLM-jp, a collaborative project launched in Japan.
    • Downloads: 163
  • llm-book/jawiki-sentences
    • GitHub リポジトリ singletongue/wikipedia-utils で公開されているデータセットを利用しています。
    • Downloads: 161
  • shunk031/wrime
    • In this study, we introduce a new dataset, WRIME, for emotional intensity estimation.
    • Downloads: 160
  • YANS-official/ogiri-bokete
    • 読み込み方 from datasets import load_dataset dataset = load_dataset("YANS-official/ogiri-bokete", split="train") 概要 大喜利投稿サイトBoketeのクロールデータです。
    • Downloads: 156
  • yuzuai/rakuda-questions
    • Rakuda - Questions for Japanese models Repository:
    • Downloads: 155
  • NilanE/SmallParallelDocs-Ja_En-6k
    • This dataset contains document-length Japanese-English parallel texts from various sources.
    • Downloads: 152
  • izumi-lab/llm-japanese-dataset-vanilla
    • llm-japanese-dataset-vanilla LLM構築用の日本語チャットデータセット izumi-lab/llm-japanese-dataset から,日英翻訳のデータセット等を抜いたものです.
    • Downloads: 151
  • turing-motors/Japanese-Heron-Bench
    • Japanese-Heron-Bench Dataset Description Japanese-Heron-Bench is a benchmark for evaluating Japanese VLMs (Vision-Language Models).
    • Downloads: 149
  • Fhrozen/CABankSakura
  • YANS-official/ogiri-test-with-references
    • 読み込み方 from datasets import load_dataset dataset = load_dataset("YANS-official/bokete-ogiri-test", split="test") 概要 大喜利投稿サイトBoketeのクロールデータです。
    • Downloads: 137
  • YukiTomita-CC/AKU-d_ms-0.5B-v0.1_dataset
    • AKU-d_ms-0.5B-v0.1_dataset Overview このリポジトリは、私の開発しているAKUシリーズの1つ目となる、AKU-d_ms-0.5B-chat-v0.1の事前学習に使用したテキストデータを集めています。
    • Downloads: 134
  • allganize/RAG-Evaluation-Dataset-JA
    • Allganize RAG Leaderboard とは Allganize RAG Leaderboard は、5つの業種ドメイン(金融、情報通信、製造、公共、流通・小売)において、日本語のRAGの性能評価を実施したものです。
    • Downloads: 132
  • sergicalsix/Japanese_NER_Data_Hub
    • 概要 大規模言語モデル(LLM)用の固有表現認識データセット(J-NER)のリポジトリです。
    • Downloads: 132
  • tanganke/kmnist
    • KMNIST Dataset lassify images from the KMNIST dataset into one of the 10 classes, representing different Japanese characters.
    • Downloads: 131
  • kanhatakeyama/SyntheticTextWikiTranslate
    • 以下のデータ源からランダムに抽出した日本語のテキストをPhi-3で再生成し、更に自動英訳したコーパスです。 Wikibooks Wikipedia コード こちら 一部の計算には東京工業大学のスーパーコンピュータTSUBAME4.0を利用しました。 データ parquetファイルが数十GB程度あります datasetsライブラリからでは、はじめの数GB程度しか読み込めない可能性があります。git lfsなどでダウンロードする必要がありそうです。
    • Downloads: 125
  • saldra/sakura_japanese_dataset
    • Sakura_dataset 商用利用可能な超小規模高品質日本語データセット。
    • Downloads: 124
  • tarudesu/gendec-dataset
    • Gendec: Gender Dection from Japanese Names with Machine Learning
    • Downloads: 123
  • turing-motors/LLaVA-Instruct-150K-JA
    • Dataset Details Dataset Type:Japanese LLaVA Instruct 150K is a localized version of the original LLaVA Visual Instruct 150K dataset.
    • Downloads: 122
  • NekoFi/whisper_toku
    • Dataset Description
    • Downloads: 121
  • Verah/tatoeba_dedupe_en-jp_2024-March-01
  • range3/wiki40b-ja
    • range3/wiki40b-ja This dataset consists of three parquet files from the wiki40b dataset with only Japanese data extracted.
    • Downloads: 119
  • Emu-Academic/pjsk-emu-dataset
    • MashiroSA/sovits-emu-dataset A voice dataset collected from Project Sekai charactor Emu Otori Introduction Size: 2735, all WAV format.
    • Downloads: 118
  • llm-book/aio-retriever
    • GitHub リポジトリ cl-tohoku/quiz-datasets で公開されているデータセットを利用しています。
    • Downloads: 115
  • MomoyamaSawa/Voice-KusanagiNene
    • 🥕 如果兔兔的仓库对你有帮助的话点个⭐喵~ If Tutu's repository is helpful to you, please give it a ⭐ meow~ もしうさぎのリポジトリが役に立った場合は、⭐をぽちっとしてくださいにゃん~ 🍉 任何 ❓
    • Downloads: 112
  • sappho192/Tatoeba-Challenge-jpn-kor
    • Dataset Details Dataset Sources Repository: Helsinki-NLP/Tatoeba-Challenge Detail: Japanese - Korean jpn-kor Uses The dataset can be used to train the translation model that translates Japanese sentence to Korean.
    • Downloads: 111
  • aixsatoshi/Chat-with-cosmopedia
    • Reasoning、知識、会話の掛け合いなどの情報密度が高いマルチターンの会話データです。
    • Downloads: 110
  • hotchpotch/JaCWIR
    • JaCWIR: Japanese Casual Web IR - 日本語情報検索評価のための小規模でカジュアルなWebタイトルと概要のデータセット 近年、大規模言語モデル(LLM)の台頭により、一般的な日本語を用いた自然な検索クエリで質問するユースケースが増えています。
    • Downloads: 109
  • hpprc/en-ja-align
    • en-ja-align 日英対訳文対応付けデータ(内山ら, 2003)として公開されている日英対訳文データセットです。
    • Downloads: 108
  • shunk031/jsnli
    • Dataset Preprocessing Supported Tasks and Leaderboards Languages 注釈はすべて日本語を主要言語としています。
    • Downloads: 107
  • Aratako/Synthetic-JP-EN-Coding-Dataset-801k
    • Synthetic-JP-EN-Coding-Dataset-801k Magpieによって作成したコードSFTデータセットであるAratako/Synthetic-JP-EN-Coding-Dataset-Magpie-69kを元に、Evol-Instructのような手法を用いて複数のinstructionとresonseを生成し拡張して作成した、日英混合801262件のコードSFT用合成データセットです。
    • Downloads: 106
  • Aratako/Magpie-Tanuki-8B-97k
    • Magpie-Tanuki-8B-97k Magpieの手法をweblab-GENIAC/Tanuki-8B-dpo-v1.0に対して適用し作成した、97269件の日本語対話データセットです。
    • Downloads: 104
  • hpprc/mqa-ja
    • mqaデータセットのquery--passageのペアについて重複を削除したデータセットです。
    • Downloads: 104
  • Mitsua/wikidata-parallel-descriptions-en-ja
    • Wikidata parallel descriptions en-ja Parallel corpus for machine translation generated from wikidata dump (2024-05-06).
    • Downloads: 103
  • inu-ai/ggml-japanese-gpt2
    • Windowsの方はggml-japanese-gpt2の実行ファイルで動くと思います。
    • Downloads: 103
  • mohamed-khalil/AnimeSongsLyrics
    • Anime Songs Lyrics Dataset ― アニメソングの歌詞データセット Welcome to the Anime Songs Lyrics Dataset Overview This dataset compiles a diverse collection of lyrics from various anime songs, providing a rich resource for enthusiasts and researchers alike.
    • Downloads: 102
  • kanhatakeyama/AutoMultiTurnByCalm3-22B
    • 自動生成のマルチターンデータセット オープンなデータソースから、Calm3-22bを使ってQ&Aを自動生成したものです。 一部の計算には東京工業大学のスーパーコンピュータTSUBAME4.0を利用しました。 データソース はじめの質問(q1)を、種々のデータソースから収集しました。その後のやりとりはすべて、Calmが生成しました。質問文については、元データのライセンスに準拠します。 oasst2-33k-ja apache 2.0 databricks-dolly-15k-ja cc-by-sa-3.0 minnade CC0 cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental cc-by-4.0
    • Downloads: 102
  • hpprc/tanaka-corpus
    • HF Datasets version of Tanaka Corpus.
    • Downloads: 101
  • llm-book/aio-passages-bpr-bert-base-japanese-v3
    • llm-book/aio-passages のデータセットに対して、llm-book/bert-base-japanese-v3-bpr-passage-encoder によるパッセージのバイナリベクトルが embeddings フィールドに追加されています。
    • Downloads: 100
  • ganchengguang/Sentence-Classification-and-NER-Mix-Datasets-SCNM
    • The dataset of SLG framework.
    • Downloads: 98
  • YANS-official/senryu-test-with-references
    • 読み込み方 from datasets import load_dataset dataset = load_dataset("YANS-official/senryu-test", split="test") 概要 川柳投稿サイトの『写真川柳』と『川柳投稿まるせん』のクロールデータです。
    • Downloads: 98
  • zan/lima-ja
    • , 2023) was trained on.
    • Downloads: 98
  • hpprc/alt-parallel-en-ja
    • Asian Language Treebank (ALT) Project ALT Parallel Corpusのうち、日英対訳部分のみを抽出したデータセットです。
    • Downloads: 96
  • recruit-jp/japanese-image-classification-evaluation-dataset
    • recruit-jp/japanese-image-classification-evaluation-dataset Overview Developed by: Recruit Co.
    • Downloads: 95
  • OmniAICreator/Japanese-Roleplay-Dialogues
    • Japanese-Roleplay-Dialogues This is a dialogue corpus collected from Japanese role-playing forum (commonly known as "なりきりチャット(narikiri chat)").
    • Downloads: 94
  • Atsushi/fungi_indexed_mycological_papers_japanese
    • fungi_indexed_mycological_papers_japanese 大菌輪「論文3行まとめ」データセット最終更新日:2024/9/28(R3-12108まで) Languages Japanese This dataset is available in Japanese only.
    • Downloads: 93
  • Hoshikuzu/Japanese-Law-Translation
    • Japanese-Law-Translation Dataset Summary
    • Downloads: 92
  • taishi-i/nagisa_stopwords
    • Japanese stopwords for nagisa
    • Downloads: 92
  • Aratako/Japanese-RP-Bench-testdata-SFW
    • Japanese-RP-Bench-testdata-SFW 本データセットは、LLMの日本語ロールプレイ能力を計測するベンチマークJapanese-RP-Bench用の評価データセットです。
    • Downloads: 91
  • hatakeyama-llm-team/AutoGeneratedJapaneseQA-other
    • 自動生成Q&A データソースから、MaziyarPanahi/Mixtral-8x22B-Instruct-v0.1-GGUFを使ってQ&Aを自動生成したものです。 チームで作成したデータおよび「Common Crawlをもとに生成しています。
    • Downloads: 91
  • ryota39/open_preference-v0.3
    • description public RLHF dataset in Japanese the construction of the reward model was reformatted into a classification task.
    • Downloads: 91
  • ebisuke/liz-nojaloli-ja-ds
    • ebisuke/liz-nojaloli-ja-ds License MIT License Description ebisuke/liz-nojaloli-jaの学習元のデータセットです。
    • Downloads: 90
  • sbintuitions/JEMHopQA
    • 評価スコアの再現性確保と SB Intuitions 修正版の公開用クローン ソース: aiishii/JEMHopQA on GitHub JEMHopQA JEMHopQA (Japanese Explainable Multi-hop Question Answering) is a Japanese multi-hop QA dataset that can evaluate internal reasoning.
    • Downloads: 89
  • Calvin-Xu/Furigana-Aozora
    • Derived from 青空文庫及びサピエの点字データから作成した振り仮名のデータセット(GitHub) https://github.com/ndl-lab/huriganacorpus-aozora Certain mismatches in the original corpus were eliminated during validation (307 instances) Error: 烈しい調子である。
    • Downloads: 88
  • SakanaAI/JA-VG-VQA-500
    • JA-VG-VQA-500 Dataset Description JA-VG-VQA-500 is a 500-sample subset of Japanese Visual Genome VQA dataset.
    • Downloads: 87
  • stockmark/ner-wikipedia-dataset
  • oshizo/japanese-wikipedia-paragraphs
    • A slightly modified version of the parsing and chunking method for singletongue/wikipedia-utils.
    • Downloads: 86
  • oshizo/ASRClustering-ja
    • 埋め込みモデルの学習、評価のためのクラスタリングデータセットです。
    • Downloads: 85
  • sudy-super/dialogsum-ja
    • dialogsum-ja このデータセットはdialogsum、CSDSなどを翻訳した日本語対話要約データセットです。
    • Downloads: 83
  • mohamed-khalil/AnimeQuotes
    • Anime Quotes Dataset ― アニメの名言データセット🎐 Welcome to Anime Quotes Dataset Overview This dataset contains a curated collection of inspiring and memorable quotes from various anime series, sourced from the Anime Motivation website.
    • Downloads: 82
  • llm-jp/mbpp-ja
    • mbpp-ja
    • Downloads: 82
  • baobab-trees/wikipedia-human-retrieval-ja
    • Japanese Wikipedia Human Retrieval dataset This is a Japanese question answereing dataset with retrieval on Wikipedia articles by trained human workers.
    • Downloads: 82
  • p1atdev/ja-stackoverflow
    • ja-stackoverflow 日本語版 Stack Overflow の スタック・オーバーフロー のデータダンプ をもとにデータを加工し、質問文と回答文のペアになるように調整した QA データセット。
    • Downloads: 80
  • zetavg/ShareGPT-Processed
    • ShareGPT-Processed The RyokoAI/ShareGPT52K dataset, converted to Markdown and labeled with the language used.
    • Downloads: 80
  • shi3z/OpenOrcaJapanese
  • fujiki/japanese_hh-rlhf-49k
    • This is a little bit different version of kunishou/hh-rlhf-49k-ja without ng_translation == 1 examples.
    • Downloads: 79
  • toshi456/llava-bench-in-the-wild-ja
    • This dataset is the data that corrected the translation errors and untranslated data of the Japanese data in MBZUAI/multilingual-llava-bench-in-the-wild.
    • Downloads: 79
  • HachiML/alpaca_jp_python
    • alpaca_jp_python alpaca_jp_pythonは、 Stanford Alpacaの手法 mistralai/Mixtral-8x22B-Instruct-v0.1 で作った合成データ(Synthetic data)です。
    • Downloads: 78
  • Aruno/guanaco_jp
    • Japanese Prompt of GuanacoDataset extracted using langdetect.
    • Downloads: 78
  • Aratako/Synthetic-Japanese-Roleplay-gpt-4o-mini-39.6k
    • Synthetic-Japanese-Roleplay-gpt-4o-mini-39.6k 20240907 データ増量(約19800件→約39600件) 概要 gpt-4o-miniを用いて作成した、約39600件の日本語ロールプレイの対話を収録した合成データセットです。
    • Downloads: 78
  • llm-book/ner-wikinews-dataset
    • 固有表現ラベルはllm-book/ner-wikipedia-datasetと同様のものを採用しており、全部で8種類 (人名、法人名、地名、製品名、政治的組織名、施設名、その他の組織名、イベント名)あります。
    • Downloads: 78
  • kunishou/databricks-dolly-69k-ja-en-translation
    • This dataset was created by automatically translating "databricks-dolly-15k" into Japanese.
    • Downloads: 78
  • SNOW-NLP/snow_simplified_japanese_corpus
    • Dataset Summary SNOW T15:The simplified corpus for the Japanese language.
    • Downloads: 78
  • aixsatoshi/Swallow-MX-chatbot-DPO
    • Chatbot Arena Conversationsの質問文から、aixsatoshi/Swallow-MX-8x7b-NVE-chatvector-Mixtral-instruct-v2を使用して応答文を作成しました 質問文は、以下のモデルのPrompt部分を使用しました Chatbot Arena Conversations JA (calm2) 以下引用です。
    • Downloads: 77
  • fujiki/japanese_alpaca_data
    • [github].
    • Downloads: 76
  • deepghs/fgo_voices_jp
    • JP Voice-Text Dataset for
    • Downloads: 75
  • llm-jp/hh-rlhf-12k-ja
    • hh-rlhf-12k-ja This repository provides a human preference dataset developed by LLM-jp, a collaborative project launched in Japan.
    • Downloads: 75
  • sudy-super/CoTangent
    • CoTangentは人手で作成された高品質でクリーンな100セットの日本語CoT用データセットです。
    • Downloads: 75
  • hpprc/janli
    • The JaNLI (Japanese Adversarial NLI) dataset, inspired by the English HANS dataset, is designed to necessitate an understanding of Japanese linguistic phenomena and to illuminate the vulnerabilities of models.
    • Downloads: 75
  • Kendamarron/jimba-instuction-1k-beta
    • cyberagent/calm2-7b-chatの出力を人手でチェック・修正することで作成した日本語Instructionデータセットです。
    • Downloads: 74
  • Nan-Do/OpenSubtitlesJapanese
    • The dataset contains (almost) the entire OpenSubtittles database for Japanese: Over 7000 tv shows and/or movies.
    • Downloads: 73
  • tet550/jawiki_sentences
    • Jawiki Sentences Dataset このデータセットは、日本語版Wikipediaの記事を元に作成されました。
    • Downloads: 73
  • aixsatoshi/cosmopedia-japanese-100k
    • cosmopedia-japanese-20kのデータに、kunishou様から20k-100kをご提供いただけることになり100kまで拡大しました。
    • Downloads: 72
  • turing-motors/LLaVA-Pretrain-JA
    • Dataset Details Dataset Type:Japanese LLaVA Pretrain is a localized version of the original LLaVA Pretrain dataset.
    • Downloads: 71
  • Atsushi/fungi_diagnostic_chars_comparison_japanese
    • fungi_diagnostic_chars_comparison_japanese大菌輪「識別形質まとめ」データセット最終更新日 /
    • Downloads: 70
  • Calvin-Xu/Furigana-Aozora-Speech
    • Derived from 青空文庫及びサピエの音声デイジーデータから作成した振り仮名注釈付き音声コーパスのデータセット https://github.com/ndl-lab/hurigana-speech-corpus-aozora All text files in the original data were processed for 3361443 entries; duplicates and entries with no kanji were dropped post cleanup
    • Downloads: 70
  • Calvin-Xu/Furigana-NDLBIB
    • Derived from 全国書誌データから作成した振り仮名のデータセット(GitHub)
    • Downloads: 69
  • ryota39/open_preference_v0.2
    • description public RLHF dataset in Japanese the construction of the reward model was reformatted into a classification task Quality of Japanese text is somewhat low arise from the combination of synthetic generated text and machine translation API details reformatted dataset of open_preference_v0.1 label 1 stands for chosen sentence label 0 stands for rejected sentence
    • Downloads: 69
  • fujiki/guanaco_ja
    • This is a Japanese portion of the Guanaco dataset.
    • Downloads: 69
  • BigleBomb/japanese-vet-terms
    • Veterinary Medicine Japanese Dataset This dataset contains audio files of veterinary medicine terms in Japanese, categorized into drugs, diseases, and symptoms.
    • Downloads: 68
  • p1atdev/japanese-stackexchange
    • japanese-stackexchange 英語による日本語に関する質問ができる Japanese Stack Exchange のデータダンプ をもとにデータを加工し、質問文と回答文のペアになるように調整した QA データセット。
    • Downloads: 67
  • llm-book/jawiki-paragraphs
    • GitHub リポジトリ singletongue/wikipedia-utils で公開されているデータセットを利用しています。
    • Downloads: 67
  • R1b3y/NE4Mitsua
    • Negative Embedding / Textual Inversion NE4Mitsua is a Negative Embedding for Mitsua Diffusion One.
    • Downloads: 66
  • GENIAC-Team-Ozaki/WikiHowNFQA-ja_cleaned
    • Lurunchik/WikiHowNFQAを日本語に翻訳し、人手でクリーニングしたデータセットです。
    • Downloads: 66
  • Hoshikuzu/JParaCrawl
    • For more information, see website below!
    • Downloads: 66
  • llm-book/jsnli
    • JSNLI Version 1.1 のデータセットのうち、フィルタリング後の訓練セット (train_w_filtering)
    • Downloads: 65
  • kunishou/cosmopedia-100k-ja-preview
    • cosmopedia-100k のindex 20k ~ 100k を日本語に自動翻訳したデータになります(テキストが長すぎて翻訳エラーになったレコードは除外しています)。
    • Downloads: 65
  • aixsatoshi/Longcontext-aozora-summary
    • 長文からの要約データセットです。
    • Downloads: 65
  • nu-dialogue/jmultiwoz
    • Dataset Summary JMultiWOZ is a large-scale Japanese multi-domain task-oriented dialogue dataset.
    • Downloads: 64
  • polm-stability/jblimp
    • JBLiMP This is the data from "JBLiMP: Japanese Benchmark of Linguistic Minimal Pairs" (Someya and Oseki, 2023).
    • Downloads: 64
  • JapanDegitalMaterial/Scenery_of_japan
    • Scenery of japan.
    • Downloads: 63
  • hpprc/quiz-no-mori
    • クイズの杜様に掲載のクイズのうち、2024年8月5日時点において取得可能だったクイズのうち「二次利用許諾レベル」が「フリー」であったものを収載したデータセットです。
    • Downloads: 63
  • waddledee/three_line_summarization_for_japanese_news_articles
    • ライブドアニュースコーパスの3行要約データセットです。
    • Downloads: 63
  • hotchpotch/ms_marco_japanese
    • ms_marco_japanese ms_marco の日本語翻訳データです。
    • Downloads: 63
  • kanhatakeyama/CreativeCommons-RAG-QA-Mixtral8x22b
    • 以下のデータ源からランダムに抽出した日本語のテキストをもとに、RAG形式のQ&Aを自動生成したものです。 Wikibooks Wikipedia 判例データ instruction datasetとしてではなく、事前学習での利用を想定しています(質疑応答をするための訓練)。 一部の計算には東京工業大学のスーパーコンピュータTSUBAME4.0を利用しました。
    • Downloads: 62
  • llm-book/ja-vicuna-qa-benchmark
    • オリジナルのサイトと同じものを使用しています。
    • Downloads: 62
  • sakusakumura/databricks-dolly-15k-ja-scored
    • For the English version, please click here.
    • Downloads: 61
  • AhmedSSabir/Japanese-wiki-dump-sentence-dataset
    • Dataset 5M (5121625) clean Japanese full sentence with the context.
    • Downloads: 60
  • tokyotech-llm/lmsys-chat-1m-synth
    • LMSYS-Chat-1M-Synth-Llama3.1-Ja-and-En: Japanese/English Synthetic Conversation Dataset Derived from LMSYS-Chat-1M LMSYS-Chat-1M-Synth-Llama3.1-Ja-and-En is a Japanese and English conversation dataset.
    • Downloads: 60
  • creative-graphic-design/CAMERA
    • Dataset Summary From the official README.md: CAMERA (CyberAgent Multimodal Evaluation for Ad Text GeneRAtion) is the Japanese ad text generation dataset.
    • Downloads: 60
  • DataPilot/databricks-dolly-15k-Nyan-ja
    • このデータセットはkunishou氏が公開している"databricks-dolly-15k"を日本語訳したkunishou/databricks-dolly-15k-jaデータセットの語尾をArrowPro-7B-KUJIRAを用いて「にゃん!
    • Downloads: 60
  • llm-book/aio-passages
    • GitHub リポジトリ cl-tohoku/quiz-datasets で公開されているデータセットを利用しています。
    • Downloads: 59
  • dichmau/ja_vi_translation
    • Japanese-Vietnamese Translated Sentence Pairs.
    • Downloads: 59
  • Kendamarron/jimba-wiki-instruction-calm3
    • Kendamarron/jimba-wiki-instruction-calm3 grapevine-AI/CALM3-22B-Chat-GGUFのQ4_K_Mを使った合成instructionデータセットです。
    • Downloads: 59
  • mohamed-khalil/KaidanNihonbunka
    • Kaidan Nihonbunka: A Journey Through Hyakumonogatari's Ghostly Tales Welcome to the Kaidan Nihonbunka Dataset About Name kaidan Nihonbunka translates to 怪談日本文化 in Japanese: 怪談 (Kwaidan): Ghost story or supernatural tale.
    • Downloads: 59
  • watashihakobashi/ogiri
    • 東京大学松尾・岩澤研究室主催のLLM講座2024の第5回「SFT」演習で使用するデータセットです。
    • Downloads: 59
  • if001/aozorabunko-clean-sin
    • this is forkhttps://huggingface.co/datasets/globis-university/aozorabunko-clean filtered row["meta"]["文字遣い種別"] == "新字新仮名"
    • Downloads: 58
  • ThePioneer/Artificial-super-girlfriend-for-fine-tuning
    • リアル系モデルに特有の肖像権の問題について比較的クリアなモデルを作ることが可能なように、私が私自身から作り出した人工超彼女(ver 2.1系、ver 2.6系)のデータセット(約2800枚)を作成しました。
    • Downloads: 58
  • kanhatakeyama/AutoWikiQA
    • Wikipedia日本語版からのQ&Aの自動生成 Mixtral 8x22bのGGUF(5bit)をベースに、Wikipedia日本語版の記事から、 自動生成コード1 自動生成コード2 を使ってQ&Aを作成しました。 計算には東京工業大学のスーパーコンピュータTSUBAME4.0を利用しました。 注意 回答にハルシネーション等が含まれている可能性があるので、フィルタリングをかける必要があるかもしれません。
    • Downloads: 58
  • Aratako/Bluemoon_Top50MB_Sorted_Fixed_ja
    • Bluemoon_Top50MB_Sorted_Fixed_ja SicariusSicariiStuff/Bluemoon_Top50MB_Sorted_Fixedを、GENIAC-Team-Ozaki/karakuri-lm-8x7b-chat-v0.1-awqを用いて日本語に翻訳したロールプレイ学習用データセットです。
    • Downloads: 57
  • mpasila/ParallelFiction-Ja_En-100k-json
    • This is my conversion of NilanE/ParallelFiction-Ja_En-100k into json which can be read by text-generation-webui when training a model.
    • Downloads: 56
  • Aratako/Synthetic-JP-10-Turns-Roleplay-Dialogues-Nemotron-4-1k
    • Synthetic-JP-10-Turns-Roleplay-Dialogues-Nemotron-4-1k nvidia/Nemotron-4-340B-Instructを用いて作成した、約1000件・各10ターンの日本語ロールプレイの対話を収録した合成対話データセットです。
    • Downloads: 56
  • takosama/databricks-dolly-15k-ja-google-trans
    • Dolly 日本語翻訳版 このリポジトリは、Databricksが開発したdollyプロジェクトの日本語翻訳版です。
    • Downloads: 56
  • Aratako/Synthetic-JP-Conversations-Magpie-Nemotron-4-10k
    • Synthetic-JP-Conversations-Magpie-Nemotron-4-10k Magpieの手法をnvidia/Nemotron-4-340B-Instructに対して適用し作成した、約10000件の日本語instruction tuning用データセットです。
    • Downloads: 55
  • shi3z/ja_conv_wikipedia_orion14B_100K
    • Abstruct This is a multi-turn conversation dataset generated from the Japanese Wikipedia dataset using Orion14B-Chat.
    • Downloads: 55
  • hatakeyama-llm-team/CommonCrawlPDFJa
    • Data extracted from CommonCrawlPDF Japanese domain Code is here
    • Downloads: 55
  • kunishou/HelpSteer2-20k-ja
    • NVIDIA が公開している SteerLM 向けのトライアルデータセット HelpSteer2を日本語に自動翻訳したデータセットになります。
    • Downloads: 55
  • YANS-official/senryu-test
    • 読み込み方 from datasets import load_dataset dataset = load_dataset("YANS-official/senryu-test", split="test") 概要 川柳投稿サイトの『写真川柳』と『川柳投稿まるせん』のクロールデータ、および YANS 委員が作成したデータを含みます。
    • Downloads: 55
  • globis-university/aozorabunko-chats
    • Overview This dataset is of conversations extracted from Aozora Bunko (青空文庫), which collects public-domain books in Japan, using a simple heuristic approach.
    • Downloads: 55
  • kunishou/oasst1-chat-44k-ja
    • oasst1-89k-jaをチャット形式に変換したデータセットになります。
    • Downloads: 54
  • kunishou/oasst2-chat-68k-ja
    • oasst2-135k-jaをチャット形式に変換したデータセットになります。
    • Downloads: 54
  • Aratako/Synthetic-JP-EN-Coding-Dataset-Magpie-69k
    • Synthetic-JP-EN-Coding-Dataset-Magpie-69k Magpieの手法を様々なモデルに対して適用し作成した、約69000件の日本語・英語のコーディング対話データセットです。
    • Downloads: 53
  • Sakalti/Multilingal-sakalt-data
    • マルチリンガルデータセットです。
    • Downloads: 53
  • augmxnt/shisa-pretrain-en-ja-v1
    • This pre-training dataset was created for shisa-base-7b-v1.
    • Downloads: 53
  • larryvrh/WikiMatrix-v1-Ja_Zh-filtered
    • Filtered and modified version of Japanese/Chinese language pair data from WikiMatrix v1.
    • Downloads: 53
  • community-datasets/covid_tweets_japanese
    • Dataset Summary 53,640 Japanese tweets with annotation if a tweet is related to COVID-19 or not.
    • Downloads: 52
  • HachiML/Evol-Alpaca-gen3-500
    • Evol-Alpaca-gen3-500 Evol-Alpaca-gen3-500は、
    • Downloads: 52
  • DeL-TaiseiOzaki/reasoning-finetuning-ja
    • 日本語指示・推論・回答データセット 概要 このリポジトリは、SkunkworksAI/reasoning-0.01 に含まれるインストラクションデータを基に、Qwen/Qwen2.5-32B-Instruct モデルを用いて作成した日本語版の指示・推論・回答データセットです。
    • Downloads: 52
  • iam-ajaymeena/Self-Instruct-Japanese-Qwen1.5-14B
    • A Japanese dataset generated with Qwen/Qwen1.5-14B model.
    • Downloads: 52
  • tohoku-nlp/abc-multiple-choice
    • abc-multiple-choice Dataset abc-multiple-choice は、競技クイズの大会「abc」で使用された4択問題を元に作成された、多肢選択式の質問応答データセットです。
    • Downloads: 51
  • oshizo/LawClustering-ja
    • 埋め込みモデルの学習、評価のためのクラスタリングデータセットです。
    • Downloads: 51
  • ryota39/Aya_ja
    • Aya_ja このデータセットはCohereForAI/aya_datasetの日本語インストラクションデータのみを抽出したデータセットです。
    • Downloads: 51
  • shi3z/ja_conv_wikipedia_llama2pro8b_10k
    • This dataset is based on the Japanese version of Wikipedia dataset and converted into a multi-turn conversation format using llama2Pro8B.
    • Downloads: 51
  • izumi-lab/sciq-ja-mbartm2m
    • Dataset Description This is the Japanese Translation version of sciq.
    • Downloads: 51
  • turing-motors/LLaVA-v1.5-Instruct-620K-JA
    • Dataset Details Dataset Type:Japanese LLaVA v1.5
    • Downloads: 51
  • y2lan/japan-law
    • Japanese Laws This dataset comprises 8.75K law records retrieved from the official Japanese government website e-Gov.
    • Downloads: 50
  • shi3z/ja_conv_wikipedia_llama2pro8b_3k
    • This dataset is based on the Japanese version of Wikipedia dataset and converted into a multi-turn conversation format using llama2Pro8B.
    • Downloads: 50
  • oshizo/HSClustering-ja
    • 埋め込みモデルの学習、評価のためのクラスタリングデータセットです。
    • Downloads: 50
  • joujiboi/bluemoon-fandom-1-1-rp-jp-translated
    • bluemoon-fandom-1-1-rp-jp-translated A subset of Squish42/bluemoon-fandom-1-1-rp-cleaned translated to Japanese using command-r-08-2024.
    • Downloads: 50
  • Kendamarron/pret-a-porter-instruction-v0.1
    • データセットについて オープンソースLLMの出力を人手でチェック・修正したinstructionにSwallow-MXでoutputを生成したデータセットです。
    • Downloads: 50
  • kanhatakeyama/AutoMultiTurnByMixtral8x22b
    • 自動生成のマルチターンデータセット オープンなデータソースから、MaziyarPanahi/Mixtral-8x22B-Instruct-v0.1-GGUFを使ってQ&Aを自動生成したものです。 関連コード 一部の計算には東京工業大学のスーパーコンピュータTSUBAME4.0を利用しました。 データソース はじめの質問(q1)を、種々のデータソースから収集しました。その後のやりとりはすべて、Mixtralが生成しました。質問文については、元データのライセンスに準拠します。 oasst2-33k-ja apache 2.0 databricks-dolly-15k-ja cc-by-sa-3.0 minnade CC0 cyberagent/chatbot-arena-ja-calm2-7b-chat-experimental cc-by-4.0
    • Downloads: 49
  • RJZ/ConceptNetSyntheticPhi3Text_ja
    • 必ずすべての情報を網羅し、日本語で出力すること。
    • Downloads: 49
  • YANS-official/ogiri-debug
    • 読み込み方 from datasets import load_dataset dataset = load_dataset("YANS-official/ogiri-debug", split="test") 概要 大喜利生成の動作確認用データセットです。
    • Downloads: 49
  • kunishou/ApolloCorpus-ja
    • ApolloCorpus-ja 概要 多言語医療データセットの ApolloCorpus を日本語に自動翻訳した 525k の指示チューニングデータセットになります。
    • Downloads: 49
  • shi3z/Japanese_Wikipedia_Conversation
    • Wikipedia日本語版データセット(izumi-lab/wikipedia-ja-20230720)
    • Downloads: 49
  • svjack/pokemon-blip-captions-en-ja
    • Dataset used to train Pokémon text to image model, add a Japanese Column of Pokémon BLIP captions BLIP generated captions for Pokémon images from Few Shot Pokémon dataset introduced by Towards Faster and Stabilized GAN Training for High-fidelity Few-shot Image Synthesis (FastGAN).
    • Downloads: 48
  • range3/wikipedia-ja-20230101
    • range3/wikipedia-ja-20230101
    • Downloads: 48
  • RyokoExtra/JapaneseGoblin
    • Dataset Summary JapaneseGoblin is a dump of en.touhouwiki.net wiki.
    • Downloads: 48
  • MakiAi/Tokama_Club_QA
    • 東方トカマクラブ データセット 概要 このデータセットは、東方Projectのトカマクラブに関する情報を収集したものです。
    • Downloads: 48
  • Silviase/Japanese-Heron-Bench
    • This dataset is a clarified version of the image, context, and question set included in the Japanese-Heron-Bench for the construction of the Japanese evaluation benchmark suite.
    • Downloads: 47
  • tellarin-ai/llm-japanese-dataset-vanilla-aya-format
    • It contains Japanese instruction-like data intended for LLM construction/tuning.
    • Downloads: 47
  • hatakeyama-llm-team/AutoGeneratedJapaneseQA
    • 自動生成Q&A 種々のデータソースから、MaziyarPanahi/Mixtral-8x22B-Instruct-v0.1-GGUFを使ってQ&Aを自動生成したものです。 CC-BY系またはApatch-2.0のデータソースを改変して生成しています。
    • Downloads: 47
  • YukiTomita-CC/ELYZA-tasks-100_Human_solved
    • 概要 このデータセットは日本語LLMの評価用としてよく用いられるelyza/ELYZA-tasks-100について人間が回答を行った結果です。
    • Downloads: 47
  • sbintuitions/JSQuAD
    • 評価スコアの再現性確保と SB Intuitions 修正版の公開用クローン ソース: yahoojapan/JGLUE on GitHub JSQuAD JSQuAD is a Japanese version of SQuAD (Rajpurkar+, 2016), one of the datasets of reading comprehension.
    • Downloads: 47
  • YANS-official/ogiri-keitai
    • 概要 NHKで定期的に放送されていた『着信御礼!
    • Downloads: 47
  • ayousanz/common-voice-speechMOS-analyze
    • 概要 Common Voice Corpus 17.0をspeechMOSにて音声品質の分析を行った結果です。
    • Downloads: 47
  • den2nova/den2niji
    • LoRAデータセット開示用データ。
    • Downloads: 47
  • toshi456/LLaVA-JP-Instruct-108K
    • Dataset details Dataset type:
    • Downloads: 46
  • hatakeyama-llm-team/AutoGeneratedJapaneseQA-CC
    • 自動生成Q&A データソースから、MaziyarPanahi/Mixtral-8x22B-Instruct-v0.1-GGUFを使ってQ&Aを自動生成したものです。 Common Crawlをもとに生成しています。
    • Downloads: 46
  • Aratako/Synthetic-JP-Roleplay-Instruction-Nemotron-4-1k
    • Synthetic-JP-Roleplay-Instruction-Nemotron-4 Magpieの手法をnvidia/Nemotron-4-340B-Instructに対して適用し作成した、約1000件の日本語ロールプレイ用のinstructionデータセットです。
    • Downloads: 46
  • ganchengguang/Text-Classification-and-Relation-Event-Extraction-Mix-datasets
    • The paper of GIELLM dataset.
    • Downloads: 46
  • kanhatakeyama/SyntheticTextOpenMathInstruct
    • 以下のデータ源からランダムに抽出した日本語のテキストをもとに、Phi-3で作文したコーパスです。 OpenMathInstruct-1-1.8m-ja コード こちら 一部の計算には東京工業大学のスーパーコンピュータTSUBAME4.0を利用しました。
    • Downloads: 46
  • GENIAC-Team-Ozaki/chatbot-arena-ja-calm2-7b-chat-experimental_deduped
    • chatbot-arena-ja-calm2-7b-chatからpromptが一致するデータを削除したデータセットです。
    • Downloads: 46
  • mpasila/ParallelFiction-Ja_En-100k-alpaca-4k-context
    • This is a modified version of NilanE/ParallelFiction-Ja_En-100k which has been turned into Alpaca format.
    • Downloads: 46
  • ayousanz/reazon-speech-v2-all-speechMOS-analyze
    • 概要 reazon-research/reazonspeech-v2[all]をspeechMOSにて音声品質の分析を行った結果です。
    • Downloads: 46
  • Nexdata/Chinese-Japanese_Parallel_Corpus_Data
    • It covers multiple fields including general, IT, news, patent, and international engine.
    • Downloads: 46
  • nakayama/hh-rlhf-helpful-base-ja
  • p1atdev/LLM-jp-Toxicity-Dataset
  • Nexdata/English-Japanese_Parallel_Corpus_Data
    • It covers multiple fields such as tourism, medical treatment, daily life, news, etc.
    • Downloads: 45
  • toshi456/Rakuten-Alpaca-Data-32K
    • データ生成を行う際のSEEDデータには有志の方々が作成したseed_tasks_japanese.jsonlを利用させていただきました。
    • Downloads: 45
  • kanhatakeyama/multiturn-conv-from-aozora-bunko
    • 自動生成の対話データ 青空文庫からランダムに抜粋したテキストをもとに、Calm3-22B-chatで自動生成のマルチンターンデータを生成しました。 生成コード 吾輩は猫である 限定ver 軽いクリーニング
    • Downloads: 44
  • oshizo/JMDNClustering-ja
    • 埋め込みモデルの学習、評価のためのクラスタリングデータセットです。
    • Downloads: 44
  • sbintuitions/aio-extended-answers
    • AIO with extended answers AIO (AI王) is a Japanese quiz dataset.
    • Downloads: 44
  • hpprc/quiz-works
    • Quiz Works様に掲載のクイズのうち、2024年8月4日~8月5日時点において取得可能だったクイズを収載したデータセットです。
    • Downloads: 44
  • longisland3/NMLE
    • 医師国家試験データセット(NMLE datasets) はじめに 検索してもなかったので(調べ不足の可能性あり)、医師国家試験データセットを公開します 医師として、AIのエンジニアとして、医師国家試験のデータセットはあるべきもの、あって当然のものと思っていましたが今現在(2024/6/13時点)存在が確認できず、自分で使うのに必要だったため作成 医療用タスクに特化したLLMなどの開発も活発になっていますが、そのデータ元としてUSMLE(アメリカの医師国家試験)が使われており、およそ国内の実情と違うデータセットを使うことの弊害が生じていると思っています なので何かの役にたてばと思いこのデータセットを公開します 用途 用途として モデルの評価 進化的モデルマージのタスクにつかう(「New Task Guide」参照) RAGなどに用いる情報源 医師国家試験の俯瞰 を想定しています 構造 data = { "id": question_id, "question": question_text, "choices": choices, "answer": answers, "explanation": explan
    • Downloads: 44
  • GENIAC-Team-Ozaki/WikiHowNFQA-ja
    • Lurunchik/WikiHowNFQAを日本語に翻訳したデータセットです。
    • Downloads: 44
  • shi3z/ja_conv_wikipedia_orion14B_10K
    • Abstruct This is a multi-turn conversation dataset generated from the Japanese Wikipedia dataset using Orion14B-Chat.
    • Downloads: 43
  • werty1248/OpenOrca-EnKoZhJa-18k
    • This dataset is a collection of Korean, Chinese, and Japanese OpenOrca translation datasets.
    • Downloads: 43
  • ayousanz/reazon-speech-v2-all-WAND-SNR-analyze
    • 概要 reazon-research/reazonspeech-v2[all]をWADA SNRにて音声品質の分析を行った結果です。
    • Downloads: 43
  • yulanfmy/databricks-qa-ja
    • データセット概要 手動で作成したDatabricksに関する質問と回答ペアの日本語データセットです。
    • Downloads: 42
  • tzmtwtr/tw-posts-japanese
    • データ制作者(t_w)
    • Downloads: 42
  • kunishou/jp-effective-instructions
    • oasst1-89k-ja , databricks-dolly-15k-ja , hh-rlhf-49k-ja の中から JGLUE( JcommonsenseQA , MARC-ja , JSQuAD )の観点で高品質なデータセットに絞り込んだデータセットです。
    • Downloads: 42
  • ikeno-ada/Japanese-English_translation_of_contents_HScodes
    • 日本郵便が提供する「国際郵便 内容品の日英・中英訳、HSコード類」(2024/05/09)のデータに基づいています。
    • Downloads: 42
  • izumi-lab/piqa-ja-mbartm2m
    • Dataset Description This is the Japanese Translation version of piqa.
    • Downloads: 42
  • toshi456/NLVR-JA
    • This dataset was created by machine translating "nlvr" into Japanese.
    • Downloads: 41
  • DataPilot/Generated-dataset-by-deepseek-v2.5
    • 概要 このデータセットはnull-instruct-jaとDeepSeek-v2.5のq4を用いて合成されました。
    • Downloads: 41
  • Atom007/mc4-japanese-data
  • llm-book/jawiki-20220404-c400
    • This dataset contains passages, each of which consists of consecutive sentences no longer than 400 characters from Japanese Wikipedia as of 2022-04-04.
    • Downloads: 40
  • fufufukakaka/pokemon_battle_team_dataset_regulation_f
    • ポケモン(VGC)のレギュレーションF ルールにおける選出データを記録したデータセットです。
    • Downloads: 40
  • if001/elementray_small
  • DeL-TaiseiOzaki/magpie-reasonig-ja-qwen2.5-72b-16k
    • 合成日本語指示データセット 概要 このデータセットは、大規模言語モデル(LLM)を用いて自動生成された日本語の指示とそれに対する推論・初期応答・改善応答のコレクションです。
    • Downloads: 40
  • U23-lab/wiki40b_qa_ja
    • wiki40b-ja から生成した質問応答データセット
    • Downloads: 40
  • WarriorMama777/databricks-dolly-15k-ja_cool
    • Overview This dataset is edited from kunishou/databricks-dolly-15k-en.
    • Downloads: 40
  • yutakobayashi/diet-members-voice-embeddings
    • diet-members-voice-embeddings 日本の国会議員の声を speechbrain/spkrec-ecapa-voxcelebで embedding したデータセットです。
    • Downloads: 39
  • oshizo/japanese-wikipedia-paragraphs-embeddings
    • The following data set was vectorized with the intfloat/multilingual-e5-base model and an index file created by faiss.
    • Downloads: 39
  • aipracticecafe/wataoshi-dialogues-rp
    • このデータセットは「私の推しは悪役令嬢。
    • Downloads: 39
  • Aratako/Synthetic-JP-Coding-Dataset-Magpie-Nemotron-4-10k
    • Synthetic-JP-Coding-Dataset-Magpie-Nemotron-4-10k Magpieの手法をnvidia/Nemotron-4-340B-Instructに対して適用し作成した、約10000件の日本語のコーディング用対話データセットです。
    • Downloads: 39
  • YANS-official/ogiri-test
    • 読み込み方 from datasets import load_dataset dataset = load_dataset("YANS-official/ogiri-test", split="test") 概要 大喜利投稿サイトBoketeのクロールデータです。
    • Downloads: 39
  • shi3z/ja_conv_wikipedia_llama2pro8b_30k
    • This dataset is based on the Japanese version of Wikipedia dataset and converted into a multi-turn conversation format using llama2Pro8B.
    • Downloads: 39
  • shi3z/rachel
    • This is a handmade dataset for making a Japanese chatbot.
    • Downloads: 39
  • kubota/defamation-japanese-twitter
    • defamation_japanese_twitter Twitter日本語誹謗中傷検出データセット Dataset Summary SNSにおける誹謗中傷検出のためのデータセットです.
    • Downloads: 39
  • hpprc/llmjp-warp-html
    • llm-jp-corpus-v3のwarp_htmlのうちlevel2フィルタリングされたデータをHFフォーマットに変換し、各データに付与されたURLから元記事のタイトルを取得可能なものについては取得して付与したデータセットです。
    • Downloads: 38
  • yubo0306/fed_ja
    • FEDデータセットをGoogle Cloud Translate API v2で日本語化したデータセットです.
    • Downloads: 38
  • Aratako/Synthetic-JP-EN-Translation-Dataset-Magpie-Nemotron-4-20k
    • Synthetic-JP-EN-Translation-Dataset-Magpie-Nemotron-4-20k Magpieの手法をnvidia/Nemotron-4-340B-Instructに対して適用し作成した、20000件の日⇔英翻訳データセットです。
    • Downloads: 38
  • DataPilot/in-foxhound-ja
    • 概要 このデータセットはglaive-aiが公開しているin-foxhoundをKUJIRAを用いて日本語に翻訳したものになります。
    • Downloads: 38
  • YANS-official/senryu-marusen
    • 読み込み方 from datasets import load_dataset dataset = load_dataset("YANS-official/senryu-marusen", split="train") 概要 月に1万句以上の投稿がある国内最大級の川柳投稿サイト『川柳投稿まるせん』のクロールデータです。
    • Downloads: 38
  • Aratako/LLMChat-Judge-Results
    • LLMChat-Judge-Results team-hatakeyama-phase2/LLMChatの2つのモデルの応答に対して、様々なモデルを用いてPairwise評価を行った結果のデータです。
    • Downloads: 38
  • kai271/TinyStories-Japanese
    • Dataset containing ~7000 synthetically generated (by GPT-4o-mini) children's stories in Japanese that only use simple words.
    • Downloads: 37
  • Atsushi/fungi_trait_circus_database
    • fungi_trait_circus_database大菌輪「Trait Circus」データセット(統制形質)最終更新日:2023/12/29 Languages Japanese and English Please do not use this dataset for academic purposes for the time being.
    • Downloads: 37
  • Nexdata/Japanese_Conversational_Speech_by_Mobile_Phone
    • They had free discussion on a number of given topics, with a wide range of fields; the voice was natural and fluent, in line with the actual dialogue scene.
    • Downloads: 37
  • FreedomIntelligence/MMLU_Japanese
    • Japanese version of MMLU dataset tranlasted by gpt-3.5-turbo.
    • Downloads: 37
  • shi3z/Qarasu_Wikipedia_multiturn_human_gpt_10K
    • Japanese multi-turn conversation data was generated using Qarasu14B based on Wikipedia data.
    • Downloads: 37
  • toshi456/ViQuAE-JA
    • This dataset was created by machine translating "ViQuAE" into Japanese.
    • Downloads: 37
  • Hoshikuzu/Tanaka-corpus
    • For more information, see website below!
    • Downloads: 37
  • FrancophonIA/XFUND
  • MilosNaniwa/WarChestDojo
    • データセットの各キーとその説明: state_id: ゲームの状態を一意に識別するためのID。
    • Downloads: 37
  • hotchpotch/jaqket_cc
    • JAQKET から CC-BY-SA のデータのみを含めたデータセット AI王 公式配布データセット(JAQKET) で配布されているクイズデータのうち、ライセンスが CC-BY-SA-4.0のデータのみを含めたデータセットです。
    • Downloads: 37
  • shi3z/ja_conv_wikipedia_llama2pro8b_20k
    • This dataset is based on the Japanese version of Wikipedia dataset and converted into a multi-turn conversation format using llama2Pro8B.
    • Downloads: 37
  • tzmtwtr/tw-posts-japanese-v2
    • データ制作者(t_w)
    • Downloads: 37
  • SakanaAI/ChouBun
    • ChouBun Dataset Description ChouBun is a benchmark for assessing LLMs' performance in long-context tasks in the Japanese language.
    • Downloads: 36
  • speed/english_quotes_ja
  • Coaso/test-dolly-15ja-for-stftrainer
    • It is just a dataset of dolly-15k-jp(*1)
    • Downloads: 36
  • AlienKevin/ndlbib-furigana
    • 国立国会図書館の書誌データから作成した振り仮名のデータセット A dataset of furigana characters created from bibliographic data from the National Diet Library.
    • Downloads: 36
  • karakuri-ai/corrected-mt-bench-ja
    • Corrected MT-Bench-ja Inflection AIによるCorrected MT-Benchの日本語訳です。
    • Downloads: 36
  • ibm/AttaQ-JA
    • AttaQ-JA Dataset Card AttaQ red teaming dataset was designed to evaluate Large Language Models (LLMs) by assessing their tendency to generate harmful or undesirable responses, which consists of 1402 carefully crafted adversarial questions.
    • Downloads: 36
  • if001/elementray_l
    • calm3-22bを使って簡単な日本語の例文を作成したデータセットです。
    • Downloads: 36
  • p1atdev/fake-news-jp
    • 日本語フェイクニュースデータセット 日本語フェイクニュースデータセット を HuggingFace datasets 用に変換。
    • Downloads: 35
  • seungwon929/Ja-miracl
    • Ja-miracl This dataset represents a conversion of the Japanese (Ja) section from the miracl dataset into the BeIR format, making it compatible for use with mteb.
    • Downloads: 35
  • saillab/alpaca_japanese_taco
    • This repository contains the dataset used for the TaCo paper.
    • Downloads: 35
  • iam-ajaymeena/Self-Instruct-Japanese-Elzya-13B
    • A Japanese dataset generated with an opensource elyza/ELYZA-japanese-Llama-2-13b-instruct model.
    • Downloads: 35
  • tellarin-ai/ntx_llm_inst_japanese
  • aixsatoshi/Longcontext-aozora-instruction
    • 長文用のinstructionデータセットです。
    • Downloads: 35
  • p1atdev/novecomi-novel-metadata
  • Gustav114514/work
    • Fine-tuned XLSR-53 large model for speech recognition in Japanese Fine-tuned facebook/wav2vec2-large-xlsr-53 on Japanese using the train and validation splits of Common Voice 6.1, CSS10 and JSUT.
    • Downloads: 34
  • wolf4032/token-classification-japanese-search-local-cuisine
    • 料理を検索するための質問文と、質問文に含まれる検索検索用キーワードの情報を持ったデータセットです 固有表現の種類は以下の4つです。
    • Downloads: 34
  • Calvin-Xu/FLFL-Aozora-Speech-Train
    • A more aggressively cleaned up version of Calvin-Xu/Furigana-Aozora-Speech, which consists of 2,536,041 out of the 3,361,443 entries generated from the raw data 青空文庫及びサピエの音声デイジーデータから作成した振り仮名注釈付き音声コーパスのデータセット https://github.com/ndl-lab/hurigana-speech-corpus-aozora.
    • Downloads: 34
  • sbintuitions/JCommonsenseQA
    • 評価スコアの再現性確保と SB Intuitions 修正版の公開用クローン ソース: yahoojapan/JGLUE on GitHub JCommonsenseQA JCommonsenseQA is a Japanese version of CommonsenseQA (Talmor+, 2019), which is a multiple-choice question answering dataset that requires commonsense reasoning ability.
    • Downloads: 34
  • Kendamarron/jimba-instruction-simplify-200
    • データセットについて Kendamarron/jimba-instuction-1k-betaのinstructionのうち200個をより単純なタスクに書き換えたデータセットです。
    • Downloads: 34
  • Aratako/Magpie-Tanuki-8B-annotated-96k
    • Magpie-Tanuki-8B-annotated-96k Magpieの手法をweblab-GENIAC/Tanuki-8B-dpo-v1.0に対して適用し作成したデータセットであるAratako/Magpie-Tanuki-8B-97kに対して、cyberagent/calm3-22b-chatを用いてinstructionに対して難易度、クオリティ、カテゴリをアノテーションしたデータセットです。
    • Downloads: 33
  • tombailey/oasst1-ja
    • oasst1-ja Description Based on OpenAssistant Conversations Dataset (OASST1)
    • Downloads: 33
  • p1atdev/oiocha
    • お~いお茶新俳句大賞受賞作品データセット 221の俳句が含まれ、うち200前後は作者と審査員のコメントが付属。
    • Downloads: 33
  • CausalLM/GPT-4-Self-Instruct-Japanese
    • Sorry, it's no longer available on Hugging Face.
    • Downloads: 33
  • lissette/Nanami-Chiaki-audio
    • 弹丸论破的七海千秋语音数据
    • Downloads: 33
  • kenkensz9/nareba1691
    • このデータセットは、OpenAI社のGPT-3.5を https://huggingface.co/datasets/kenkensz9/kenkensz9_1242tw2 のデータでファインチューニングした後に、更に独自に収集した人格のあるツイート330でファインチューニングしたモデルでツイートを生成し、 それに対してスコアを付与したモデルです。
    • Downloads: 33
  • Nexdata/Japanese-English_Parallel_Corpus_Data
  • masajek/openassistant-guanaco-ja
    • This dataset is a subset of the Open Assistant dataset, which contains Japanese conversations only.
    • Downloads: 33
  • Sakalti/hachiwari
    • #Origin The name comes from "hachiwari/はちわれ" (chiikawa/ちいかわ).
    • Downloads: 33
  • Nexdata/Japanese_Pronunciation_Dictionary
    • All words and pronunciations are produced by Japanese linguists.
    • Downloads: 32
  • DeL-TaiseiOzaki/magpie-qwen2.5-32B-10K-ja
    • 合成日本語指示データセット 概要 このデータセットは、大規模言語モデル(Qwen2.5-32B-instruct)
    • Downloads: 32
  • kenkensz9/kenkensz9_1242tw2
    • このデータセットは、著作者である自分がしたツイートから特に優れたもの(後述)を集めたものです。
    • Downloads: 32
  • Ego/jpflan
    • Description This is a templated version of data from ~40 Japanese open source downstream task datasets.
    • Downloads: 32
  • Ego/jpflan-raw
    • Description This is a collection of raw data from ~40 Japanese open source downstream task datasets.
    • Downloads: 32
  • if001/elementray_m
    • calm3-22bを使って簡単な日本語の例文を作成したデータセットです。
    • Downloads: 32
  • alfredplpl/genai-terminology-en-ja
    • 生成AIの日英専門用語集です。
    • Downloads: 31
  • saillab/alpaca-japanese-cleaned
    • This repository contains the dataset used for the TaCo paper.
    • Downloads: 31
  • Kendamarron/multiturn-qwen2.5-32b
    • Qwen/Qwen2.5-32B-Instruct-AWQで生成した3ターンのマルチターンinstructionデータセットです。
    • Downloads: 24
  • Rio-Rf/oscar_2023_filtered_and_ai_text_filtered
    • 人間が作成したテキスト(OSCAR)とLLM生成テキスト(GPT-3.5 Turbo)から成るデータセット LLMで生成された日本語テキストの検出性能の検証のために作成した 詳細はコードを参照 https://github.com/Rio-Rf/Lab-CreateDataset
    • Downloads: 22
  • DeL-TaiseiOzaki/magpie-qwen2.5-32b-reasoning-100k
    • 合成日本語指示データセット 概要 このデータセットは、大規模言語モデル(Qwen2.5-32B-instruct)
    • Downloads: 20
  • FrancophonIA/Jibiki_fr_ja
    • Dataset origin: https://jibiki.fr/data/ Description Les buts du projet Jibiki.fr sont de construire de manière collaborative un dictionnaire français-japonais de qualité et à large couverture ainsi qu'un corpus bilingue aligné.
    • Downloads: 18
  • weblab-GENIAC/aya-ja-nemotron-dpo-masked
    • 以下の条件に同意したうえで、公開されたモデル及びデータセット等(以下「本コンテンツ」)といいます)をダウンロードします。
    • Downloads: 17
  • hpprc/mmarco-ja
    • mmarcoデータセットのquery--passageのペアについて、queryをkeyとして重複を削除したデータセットです。
    • Downloads: 17
  • weblab-GENIAC/OpenBookQA-Japanese-masked
    • 以下の条件に同意したうえで、公開されたモデル及びデータセット等(以下「本コンテンツ」)といいます)をダウンロードします。
    • Downloads: 16
  • weblab-GENIAC/Open-Platypus-Japanese-masked
    • 以下の条件に同意したうえで、公開されたモデル及びデータセット等(以下「本コンテンツ」)といいます)をダウンロードします。
    • Downloads: 15
  • weblab-GENIAC/aya-ja-evol-instruct-calm3-dpo-masked
    • 以下の条件に同意したうえで、公開されたモデル及びデータセット等(以下「本コンテンツ」)といいます)をダウンロードします。
    • Downloads: 15
  • weblab-GENIAC/jwinogrande
    • 以下の条件に同意したうえで、公開されたモデル及びデータセット等(以下「本コンテンツ」)といいます)をダウンロードします。
    • Downloads: 12
  • weblab-GENIAC/jbbh
    • 以下の条件に同意したうえで、公開されたモデル及びデータセット等(以下「本コンテンツ」)といいます)をダウンロードします。
    • Downloads: 12
  • weblab-GENIAC/jarc
    • 以下の条件に同意したうえで、公開されたモデル及びデータセット等(以下「本コンテンツ」)といいます)をダウンロードします。
    • Downloads: 12
  • weblab-GENIAC/jhellaswag
    • 以下の条件に同意したうえで、公開されたモデル及びデータセット等(以下「本コンテンツ」)といいます)をダウンロードします。
    • Downloads: 12
  • p1atdev/ichikara-instruction
    • ichikara-instruction (Non Commercial) LLMのための日本語インストラクションデータ 公開ページ 公開ページより、 本データに関して、言語処理学会第30回年次大会において発表を行います。
    • Downloads: 117
  • YANS-official/senryu-debug
    • 読み込み方 from datasets import load_dataset dataset = load_dataset("YANS-official/senryu-debug", split="test") 概要 大喜利生成の動作確認用データセットです。
    • Downloads: 47
  • hotchpotch/jaqket_v1_qa_wikija_context
    • Downloads: 13
  • kunishou/oasst2-135k-ja
    • Update: 2023/12/25oasst2-135k-jaをチャット形式に変換したoasst2-chat-68k-jaを公開しました。
    • Downloads: 116
  • litagin/ehehe-corpus
    • You agree to the terms of the LICENSE when using this dataset.
    • Downloads: 32
  • Aratako/Synthetic-Japanese-Roleplay-gpt-4o-mini-19.8k
    • Synthetic-Japanese-Roleplay-gpt-4o-mini-19.8k 概要 gpt-4o-miniを用いて作成した、約19800件の日本語ロールプレイの対話を収録した合成データセットです。
    • Downloads: 63
  • Aratako/Synthetic-Japanese-Roleplay-gpt-4o-mini-19.8k-formatted
    • Synthetic-Japanese-Roleplay-gpt-4o-mini-19.8k-formatted 概要 gpt-4o-miniを用いて作成した日本語ロールプレイデータセットであるAratako/Synthetic-Japanese-Roleplay-gpt-4o-mini-19.8kにsystem messageを追加して整形したデータセットです。
    • Downloads: 12
  • sin2piusc/jgca_v2_50k_2
    • common voice, google fleurs, JSUTv1.1, JAS_v2 (joujiboi/japanese-anime-speech-v2)
    • Downloads: 11
  • Aratako/Synthetic-JP-EN-Coding-Dataset-567k
    • Synthetic-JP-EN-Coding-Dataset-567k Magpieによって作成したコードSFTデータセットであるAratako/Synthetic-JP-EN-Coding-Dataset-Magpie-69kを元に、Evol-Instructのような手法を用いて複数のinstructionとresonseを生成し拡張して作成した、日英混合567077件のコードSFT用合成データセットです。
    • Downloads: 153
  • misdelivery/OpenMathInstruct-ja-phi-3-medium-test
    • kunishou/OpenMathInstruct-1-1.8m-ja のquestion_jaをもとにphi-3-mediumによりプログラミング言語を用いない形式で生成したデータセットです。
    • Downloads: 12