Up 学習データセット ── GPT-3 の場合 作成: 2025-05-07
更新: 2025-05-07


  • ボリューム:570GB

  • 内訳
Think IT から引用:
WebText2 は,Common Crawlコーパス以外のWebページのデータ。
Book1 と Book2 は書籍データ (どのような情報が使われたかについては明確にされていない。

  • Common Crawl コーパス
    • 世界最大のオープンなコーパス
    • インターネットのWebサイトをクロール (巡航)し,そこに掲載されているテキストデータをスクレイピング (データ取得)して,コーパスに。
    • https://commoncrawl.org/

  • コーパス corpus
    • 文章や会話などを大量に集めて,コンピュータで処理しやすいように構造化した,言語データベース。