ClueWeb 09, un dataset d’un milliard de pages web. 5 Téraoctets compressés. Ouch.…
Warrick est un outil gratuit qui permet de reconstruire entièrement un site effacé du Net en allant fouiller les caches de Google et/ou d’archive.org (WayBack Machine), en crawlant donc .. les crawlers !
VIA…
Une bien jolie technique pour suivre l’activité des crawlers sur votre compte Google Analytics, et dans le détail : comment faire par Remi Aubert et le résultat chez Alan Boydell…
50% des sites qui arborent un sticker du W3C ne passent pas la validation. Ah.…