Wednesday, 18 April 2012

Nachtrag zum Einführungsworkshop

Ihr könnt nun unter Materialien die Folien vom Einführungsworkshop und vom Kick-Off Termin herunterladen.

Außerdem hab ich unter Related Work noch ein paar Seiten zu sed und awk hinterlegt.

Da der Bibsonomy Dump anscheinend nur unter Einsatz einer mysql DB vernünftigt verarbeitbar ist, habe ich für Euch eine Datei mit den Content_Ids, Titel, Autoren und Tags zusammengestellt (siehe bibsonomy-Daten unter Materialien). In der Datei ist jeder einzelne Tag in einer Zeile. Das heisst, wenn eine Publikation mit mehreren Tags versehen wurde, gibt es für diese Publikation mehrere Zeilen.
Ihr könnt nun mal versuchen, die Tags pro Publikation zu konkatenieren:

gawk 'BEGIN{FS="\t"}{a[$1]=$2;b[$1]=$3;c[$1]=c[$1]","$4}END{for(i in a) print(i"\t"a[i]"\t"b[i]"\t"gensub(/^,/,"","g",c[i]))}' input > output

Möglicherweise müsstet ihr gawk nachinstallieren, oder ihr benutzt diesen Befehl:

awk 'BEGIN{FS="\t"}{a[$1]=$2;b[$1]=$3;c[$1]=c[$1]","$4}END{for(i in a) print(i"\t"a[i]"\t"b[i]"\t"c[i])}' local_select2.txt | sed 's/ ,/      /g' > output

Beim letzten Befehl übernimmt sed die Ersetzung der vorangesetzten Kommas in der Spalte mit den tag Konkatenierung.

Bitte schaut Euch für den nächsten Termin die Tags des Bibsonomy Dumps an und schaut mal unter http://www.w3.org/wiki/DataSetRDFDumps,  ob ihr passende Datensätze findet, die die Publikation der Bibsonomy repräsentieren könnte.
Bitte lest Euch auch die unter Related Work hinterlegten Arbeiten der Gewinner der Challenge von 2009 durch, damit ihr einen ersten Eindruck bekommt, wie deren Algorithmen aussahen und womit sie die Challenge gewonnen haben.

No comments:

Post a Comment