Der Bundestag hat einen Auftrag ausgeschrieben, bei welchem die Drucksachen und Plenarprotokolle von der ersten (1949) bis zur 13. Wahlperiode (1998) digitalisiert werden sollen. Die ca. 1,3 Millionen Seiten müssen via Texterkennung (OCR) erfasst und mit Metadaten versehen werden.

Die Seiten sollen in “höchster Qualität” erfasst werden, so dass sie anschließend digital durchsucht werden können. Bisher sind im Dokumentations- und Informationssystem für Parlamentarische Vorgänge (DIP) Unterlagen von der achten bis zur 16. Wahlperiode zu finden. Viele der Dokumente liegen jedoch als Bild vor und sind somit nur sehr schwer zu durchsuchen. Zudem müssen bei etlichen Dokumenten Meta-Daten ergänzt werden. Sobald die Digitalisierung abgeschlossen ist, sollen die bisher in verschiedenen Datenbanken verstreuten Dokumente in einer großen Datenbank zusammengetragen werden.
<via heise.de>
[Bild: de.wikipedia.org]

