Text and Data Mining (TDM)

FEB

2025

Text and Data Mining (TDM) bezeichnet verschiedene Verfahren, um grosse Mengen von Texten oder Daten zu durchsuchen und auszuwerten. Mithilfe computergestützter Analyseverfahren werden meist unstrukturierte Daten zunächst systematisch und maschinenlesbar aufbereitet und schliesslich automatisiert auf Muster, Trends und andere forschungsrelevante Zusammenhänge hin untersucht.

Bei der Nutzung von urheberrechtlich geschützten Materialien wie z.B. Texte, Bilder oder audiovisuelle Medien als Datenquelle für TDM müssen rechtliche als auch technischen Nutzungsbedingungen beachtet werden. Weboberflächen der jeweiligen Anbieter sind in der Regel nicht geeignet, grosse Datenmengen direkt herunterzuladen.

Viele Verlage verfügen über allgemeine Regelungen zum Einsatz von Text- und Datamining bei ihren Publikationen. Dort finden sich häufig auch Informationen zu Schnittstellen und deren Nutzung (Registrierung, Vorgabe für Lade- und Download-Raten etc.). (Liste nicht abschliessend).

Elsevier
Oxford University Press
Royal Society of Chemistry
Sage
Springer / Nature
Wiley

Wenn Sie die von uns lizenzierten Zeitschriften und Datenbanken für TDM verwenden möchten, kontaktieren Sie uns bitte. Wir informieren Sie über die Rechtslage bzw. die konkrete Lizenzbestimmung für das von Ihnen ausgewählte Material. Bitte beachten Sie außerdem:

Viele Lizenzgeber verbieten das automatisierte, massenhafte Herunterladen von Pdf-Dateien von ihren Portalen per Crawler, Script, Bot etc. Bevor Sie einen derartigen Download im größeren Umfang durchführen, nehmen Sie bitte mit uns Kontakt auf. Dieses gilt insbesondere für die Datenbankangebote von Factiva (Unsere bestehende Lizenz erlaubt kein Data Mining (siehe Terms of Use, Abs. 2.2c). Es ist nur erlaubt, Texte im Rahmen des "normalen" Leseumfangs herunterzuladen) und Wiso-Net.

Text und Data Mining aus NFDI4Culture Handreichung - ein Rechtsgutachten (Neuauflage der Fassung von 2015) als Erläuterung, wie audiovisuelle Materialien in Forschung und Lehre genutzt werden dürfen.

Neben lizenzierten Inhalten gibt es auch frei zugängliche Datenbanken, welche den Einsatz von TDM erlauben (Liste nicht abschliessend):

Arxiv
Freier Zugang auf Preprints aus den Bereichen Physik, Mathematik, Informatik, Statistik, Finanzmathematik und Biologie | Volltext
BioMedCentral
Open-Access-Zeitschriften von BioMed Central, Chemistry Central und SpringerOpen aus den Bereichen Biologie und Medizin | Volltex
Chronicling America: Historic American Newspapers
Sammlung digitalisierter historischer Zeitungen aus den USA aus den Jahren 1789 bis 1924 | Volltext
CrossREF
Kostenloser, verlagsübergreifender Dienst der Firma CrossRef (u. a. AIP, APA, APS, Elsevier, HighWire Press, Springer, Taylor&Francis, Walter de Gruyter, Wiley) zur Metadatenabfrage. Neben dem Zugriff auf OA-Inhalte können teilweise auch lizenzierte Inhalte über dieses Tool bezogen werden. | Metadaten
Europeana
Digitale Bibliothek mit Digitalisaten zum wissenschaftlichen und kulturellen Erbe aus über 2000 europäischen Institutionen | Volltext
JSTOR
Data-for-Research: Umfangreiche Korpora können aus den JSTOR Archive Collections sowie den frei verfügbaren Inhalten der Dienste JSTOR und Portico zusammengestellt werden.
Mit Constellate steht eine Textanalyse-Plattform zur Verfügung, über welche Metadaten, Volltexte und N-Gramme heruntergeladen und Daten visualisiert werden können. Daneben bietet Constellate eine Reihe von Tutorials zum Umgang mit Python und Natural Language Processing (NLP) für die Digital Humanities an. Persönlicher Account erforderlich sowie Zugriff via Campusnetz für den Einbezug nicht-freier Dokumente. | Volltext (Lizenz beachten)
New York Times
Metadaten und einige Volltexte der New York Times von 1851 bis in die Gegenwart | Metadaten
Public Library of Science
Zugriff auf die Inhalte der Zeitschriften der Public Library of Science, einem wissenschaftlichen Open-Access-Verlag | Volltext

Es gibt eine grosse Anzahl frei verfügbarer Korpora und Tools, und die Liste ist keinesfalls vollständig, so ist hier auch die Sammlung frei verfügbarer APIs für die computergestützte Forschung der MIT Libraries zu nennen.

Vorheriger Artikel | Nächster Artikel