Hathi Trust, die Alternative zu Google Books, getragen von US-amerikanischen Universitäten:
It provides a no-worry, pain-free solution to archiving vast amounts of digital content. You can rely on the expertise of other librarians and information technologists who understand your needs and who will address the issues of servers, storage, migration, and long-term preservation.
Leider gibt es noch keine anständige Suchfunktion, um das gesamte Archiv (es soll bereits über 70 Terrabyte an Daten umfassen) zu durchsuchen. Bereits voll funktionsfähig ist die Suchmaske von University of Michigan. Bei einem Testlauf – die gesuchte Zeichenkette lautete harvest 1917 fand ich tatsächlich eine interessante Publikation aus der Feder Herbert Hoovers (Hoover wurde wenige Jahre später Präsident der Vereinigten Staaten):
Gespannt habe ich mir davon die PDF-Version heruntergeladen (leider erlaubt die PDF-Export-Funktion nur 10 Seiten am Stück). Wenn das PDF in Apples Preview geladen wird, genügt ein Druck auf Apfel+I, um Meta-Informationen über die PDF-Datei auszugeben. So erfuhr ich …
File name 00000010.tif.10pg.100.0.pdf Document Type PDF Document File size 797026 bytes Page size 24.0 x 37.1 cm PDF version 1.3 Page count 10 Encryption None Title /sdr1/web/cache/mdp/pairtree_root/39/01/50/32/45/08/53/39015032450853/00000010.tif.10pg.100.0.pdf Modification Date 10/13/08 PDF Producer ImageMagick 6.4.0 05/02/08 Q16 http://www.imagemagick.org Creation Date 10/13/08
ImageMagick! Gratulation, mit dem Einsatz von Open-Source-Software haben die Archivare garantiert die richtige Technologie gewählt.
Auch ganz interessant ist die Angabe des Title, aus dem der Pfad der PDF-Datei ersichtlich ist. Schön, dass die Ausgabe gecached wird. Interessant auch, wie die Ordnerstruktur aus der ID des digitalisierten Dokuments aufgebaut ist, um kein Verzeichnis fahrlässig mit abertausenden von Dateien füllen zu müssen.
Via: Universities launch elephantine 78 terabyte digital library