Stage-oe-small.jpg

UnarXive

Aus Aifbportal
Wechseln zu:Navigation, Suche



UnarXive structure thumb.png

unarXive

Datensatz mit allen Publikationen auf arXiv.org


Kontaktperson: Tarek SaierMichael Färber

https://zenodo.org/record/3385851

Forschungsgruppe: Web Science

Veröffentlichungsdatum: 2019/09/30


Beschreibung

In den letzten Jahren wurden wissenschaftliche Datensätze für verschiedene Zwecke verwendet, beispielsweise für Papierempfehlungen, Zitierempfehlungen, Zitierkontextanalysen und zitierkontextbasierte Dokumentenzusammenfassungen. Die Bewertung von Ansätzen für solche Aufgaben und ihre Anwendbarkeit in realen Szenarien hängen stark vom verwendeten Datensatz ab. Bestehende wissenschaftliche Datensätze sind jedoch in mehrfacher Hinsicht begrenzt. Wir schlagen einen neuen Datensatz vor, der auf allen Veröffentlichungen von arXiv.org (mit allen verfügbaren wissenschaftlichen Disziplinen) basiert. Neben der Bereitstellung der reinen Volltexte wurden Zitationsmarker im Text mit globalen Bezeichnern annotiert. Darüber hinaus wurden die zitierenden und zitierten Veröffentlichungen mit dem Microsoft Academic Graph verknüpft, um den Zugriff auf umfangreiche Metadaten zu ermöglichen. Unser Datensatz besteht aus über einer Million Dokumenten und 29,2 Millionen Zitierkontexten. Der Datensatz, der für Forschungszwecke frei zur Verfügung gestellt wird, kann nicht nur zur Evaluation von Ansätzen, die auf Veröffentlichungen und/oder Zitaten basieren, verwendet werden, sondern auch als Grundlage für neue Möglichkeiten, Zitate in Texten zu analysieren. Unter https://github.com/IllDepence/unarXive finden Sie den Quellcode, mit dem der Datensatz erstellt wurde. Zum Referenzieren des Datensatzes können Sie die Publikation "unarXive: A Large Scholarly Data Set with Publications’ Full-Text, Annotated In-Text Citations, and Links to Metadata" verwenden. Diese enthält weitere Informationen über den Datensatz und seine Erstellung.


Involvierte Personen
Tarek SaierMichael Färber


Publikationen

article
Tarek Saier, Michael Färber, Tornike Tsereteli
Cross-Lingual Citations in English Papers: A Large-Scale Analysis of Prevalence, Usage, and Impact
International Journal on Digital Libraries, 23, (2), Seiten 179–195, Dezember, 2021
(Details)


Tarek Saier, Michael Färber
unarXive: A Large Scholarly Data Set with Publications’ Full-Text, Annotated In-Text Citations, and Links to Metadata
Scientometrics, März, 2020
(Details)


↑ top

inproceedings
Tarek Saier, Michael Färber
Bibliometric-Enhanced arXiv: A Data Set for Paper-Based and Citation-Based Tasks
Proceedings of the 8th International Workshop on Bibliometric-enhanced Information Retrieval (BIR) co-located with the 41st European Conference on Information Retrieval (ECIR 2019), Seiten: 14–26, CEUR-WS, April, 2019
(Details)


↑ top


Projekte