Text and Data Mining (TDM)

15
MAI
2024

Text and Data Mining (TDM) bezeichnet verschiedene Verfahren, um grosse Mengen von Texten oder Daten zu durchsuchen und auszuwerten. Mithilfe computergestützter Analyseverfahren werden meist unstrukturierte Daten zunächst systematisch und maschinenlesbar aufbereitet und schliesslich automatisiert auf Muster, Trends und andere forschungsrelevante Zusammenhänge hin untersucht.

Bei der Nutzung von urheberrechtlich geschützten Materialien wie z.B. Texte, Bilder oder audiovisuelle Medien als Datenquelle für TDM müssen rechtliche als auch technischen Nutzungsbedingungen beachtet werden.  Weboberflächen der jeweiligen Anbieter sind in der Regel nicht geeignet, grosse Datenmengen direkt herunterzuladen.

Viele Verlage verfügen über allgemeine Regelungen zum Einsatz von Text- und Datamining bei ihren Publikationen. Dort finden sich häufig auch Informationen zu Schnittstellen und deren Nutzung (Registrierung, Vorgabe für Lade- und Download-Raten etc.). (Liste nicht abschliessend). 

Elsevier

Oxford University Press

Royal Society of Chemistry

Sage

Springer / Nature

Wiley

Wenn Sie die von uns lizenzierten Zeitschriften und Datenbanken für TDM verwenden möchten, kontaktieren Sie uns bitte. Wir informieren Sie über die Rechtslage bzw. die konkrete Lizenzbestimmung für das von Ihnen ausgewählte Material. Bitte beachten Sie außerdem:

Viele Lizenzgeber verbieten das automatisierte, massenhafte Herunterladen von Pdf-Dateien von ihren Portalen per Crawler, Script, Bot etc. Bevor Sie einen derartigen Massendownload durchführen, nehmen Sie bitte mit uns Kontakt auf. Dieses gilt insbesondere für die Datenbankangebote von Factiva und Wiso-Net.

Neben lizenzierten Inhalten gibt es auch frei zugängliche Datenbanken, welche den Einsatz von TDM erlauben (Liste nicht abschliessend):

Arxiv

Freier Zugang auf Preprints aus den Bereichen Physik, Mathematik, Informatik, Statistik, Finanzmathematik und Biologie | Volltext

BioMedCentral

Open-Access-Zeitschriften von BioMed Central, Chemistry Central und SpringerOpen aus den Bereichen Biologie und Medizin | Volltex

Chronicling America: Historic American Newspapers

Sammlung digitalisierter historischer Zeitungen aus den USA aus den Jahren 1789 bis 1924 | Volltext

CrossREF

Kostenloser, verlagsübergreifender Dienst der Firma CrossRef (u. a. AIP, APA, APS, Elsevier, HighWire Press, Springer, Taylor&Francis, Walter de Gruyter, Wiley) zur Metadatenabfrage. Neben dem Zugriff auf OA-Inhalte können teilweise auch lizenzierte Inhalte über dieses Tool bezogen werden. | Metadaten

Europeana

Digitale Bibliothek mit Digitalisaten zum wissenschaftlichen und kulturellen Erbe aus über 2000 europäischen Institutionen | Volltext

JSTOR

Data-for-Research: Umfangreiche Korpora können aus den JSTOR Archive Collections sowie den frei verfügbaren Inhalten der Dienste JSTOR und Portico zusammengestellt werden.
Mit Constellate steht eine Textanalyse-Plattform zur Verfügung, über welche Metadaten, Volltexte und N-Gramme heruntergeladen und Daten visualisiert werden können. Daneben bietet Constellate eine Reihe von Tutorials zum Umgang mit Python und Natural Language Processing (NLP) für die Digital Humanities an. Persönlicher Account erforderlich sowie Zugriff via Campusnetz für den Einbezug nicht-freier Dokumente. | Volltext (Lizenz beachten)

New York Times

Metadaten und einige Volltexte der New York Times von 1851 bis in die Gegenwart | Metadaten

Public Library of Science

Zugriff auf die Inhalte der Zeitschriften der Public Library of Science, einem wissenschaftlichen Open-Access-Verlag | Volltext

Es gibt eine grosse Anzahl frei verfügbarer Korpora und Tools, und die Liste ist keinesfalls vollständig, so ist hier auch die Sammlung frei verfügbarer APIs für die computergestützte Forschung der MIT Libraries zu nennen.

 

Kommentare

Noch kein Kommentar vorhanden.
Kommentar schreiben

Die Datenschutzerklärung habe ich zur Kenntnis genommen und bin damit einverstanden, dass die von mir angegebenen Daten elektronisch erhoben und gespeichert werden. Meine Daten werden dabei nur streng zweckgebunden zur Bearbeitung und Beantwortung meiner Anfrage benutzt. Mit dem Absenden des Kontaktformulars erkläre ich mich mit der Verarbeitung einverstanden.
Kontakt

Zentrale

Zentrale
Tel: (0421) 218 59500
suub@suub.uni-bremen.de
Öffnungszeiten
Zentrale
Bibliothekstraße 9
28359 Bremen
Mo - Fr 8 - 22 Uhr
Sa 10 - 20 Uhr
So 10 - 18 Uhr (als Lernraum, keine Services)
Folgen Sie der SuUB im sozialen Netz!
Download Flyer: Open Access Publizieren in Bremen