1 milliard de pages web

ClueWeb 09, un dataset d’un milliard de pages web. 5 Téraoctets compressés. Ouch.

  • http://www.taggle.org/ sid

    Bonne cuvée 2009 ! Ca tient sur une dédibox ? :)
    890$ le set complet pour deux mois de crawl, par contre, c’est récent.

  • http://www.taggle.org sid

    Bonne cuvée 2009 ! Ca tient sur une dédibox ? :)
    890$ le set complet pour deux mois de crawl, par contre, c’est récent.