Dienstag, 14. Oktober 2008

Wie Hathi Trust PDF-Dateien ausgibt

Hathi Trust, die Alternative zu Google Books, getragen von US-amerikanischen Universitäten:

It provides a no-worry, pain-free solution to archiving vast amounts of digital content. You can rely on the expertise of other librarians and information technologists who understand your needs and who will address the issues of servers, storage, migration, and long-term preservation.

Leider gibt es noch keine anständige Suchfunktion, um das gesamte Archiv (es soll bereits über 70 Terrabyte an Daten umfassen) zu durchsuchen. Bereits voll funktionsfähig ist die Suchmaske von University of Michigan. Bei einem Testlauf – die gesuchte Zeichenkette lautete harvest 1917 fand ich tatsächlich eine interessante Publikation aus der Feder Herbert Hoovers (Hoover wurde wenige Jahre später Präsident der Vereinigten Staaten):

America’s grain trade. The problem of the 1917 harvest : protection of U.S.A. domestic situation : effective aid to America’s allies

Gespannt habe ich mir davon die PDF-Version heruntergeladen (leider erlaubt die PDF-Export-Funktion nur 10 Seiten am Stück). Wenn das PDF in Apples Preview geladen wird, genügt ein Druck auf Apfel+I, um Meta-Informationen über die PDF-Datei auszugeben. So erfuhr ich …

 File name 00000010.tif.10pg.100.0.pdf
 Document Type PDF Document
 File size 797026 bytes
 Page size 24.0 x 37.1 cm
 PDF version 1.3
 Page count 10
 Encryption None
 Title /sdr1/web/cache/mdp/pairtree_root/39/01/50/32/45/08/53/39015032450853/00000010.tif.10pg.100.0.pdf
 Modification Date 10/13/08
 PDF Producer ImageMagick 6.4.0 05/02/08 Q16 http://www.imagemagick.org
 Creation Date 10/13/08

ImageMagick! Gratulation, mit dem Einsatz von Open-Source-Software haben die Archivare garantiert die richtige Technologie gewählt.

Auch ganz interessant ist die Angabe des Title, aus dem der Pfad der PDF-Datei ersichtlich ist. Schön, dass die Ausgabe gecached wird. Interessant auch, wie die Ordnerstruktur aus der ID des digitalisierten Dokuments aufgebaut ist, um kein Verzeichnis fahrlässig mit abertausenden von Dateien füllen zu müssen.

Via: Universities launch elephantine 78 terabyte digital library

Liked this post? Follow this blog to get more. 

Tags: , , ,
Labels: USA

Kommentar erfassen