Monday, 23 April 2012

We speak English

Since we have some non-german speaking participants in this seminar, we will switch the language of the blog to English.

Wednesday, 18 April 2012

Group Appointments

Next week we are going to continue with individual group meetings:

Group 1: Matthias, Michael, Sebastian - Tuesday, 11.00 AM in Room H-1.38
Group 2: Rakesh, Robert, Walter - Monday, 11.00 AM in Room H-1.38

Nachtrag zum Einführungsworkshop

Ihr könnt nun unter Materialien die Folien vom Einführungsworkshop und vom Kick-Off Termin herunterladen.

Außerdem hab ich unter Related Work noch ein paar Seiten zu sed und awk hinterlegt.

Da der Bibsonomy Dump anscheinend nur unter Einsatz einer mysql DB vernünftigt verarbeitbar ist, habe ich für Euch eine Datei mit den Content_Ids, Titel, Autoren und Tags zusammengestellt (siehe bibsonomy-Daten unter Materialien). In der Datei ist jeder einzelne Tag in einer Zeile. Das heisst, wenn eine Publikation mit mehreren Tags versehen wurde, gibt es für diese Publikation mehrere Zeilen.
Ihr könnt nun mal versuchen, die Tags pro Publikation zu konkatenieren:

gawk 'BEGIN{FS="\t"}{a[$1]=$2;b[$1]=$3;c[$1]=c[$1]","$4}END{for(i in a) print(i"\t"a[i]"\t"b[i]"\t"gensub(/^,/,"","g",c[i]))}' input > output

Möglicherweise müsstet ihr gawk nachinstallieren, oder ihr benutzt diesen Befehl:

awk 'BEGIN{FS="\t"}{a[$1]=$2;b[$1]=$3;c[$1]=c[$1]","$4}END{for(i in a) print(i"\t"a[i]"\t"b[i]"\t"c[i])}' local_select2.txt | sed 's/ ,/      /g' > output

Beim letzten Befehl übernimmt sed die Ersetzung der vorangesetzten Kommas in der Spalte mit den tag Konkatenierung.

Bitte schaut Euch für den nächsten Termin die Tags des Bibsonomy Dumps an und schaut mal unter http://www.w3.org/wiki/DataSetRDFDumps,  ob ihr passende Datensätze findet, die die Publikation der Bibsonomy repräsentieren könnte.
Bitte lest Euch auch die unter Related Work hinterlegten Arbeiten der Gewinner der Challenge von 2009 durch, damit ihr einen ersten Eindruck bekommt, wie deren Algorithmen aussahen und womit sie die Challenge gewonnen haben.

Tuesday, 17 April 2012

Heute: Hands-On Übung zum Text Processing

Liebe Studenten,

heute machen wir, wie gestern besprochen, ein paar Übungen zum Text Processing im Umgang mit den Linked Data Dumps.
Hilfreich wäre, wenn Euch ein Unix-basiertes Terminal zur Verfügung stehen würde.

Bis gleich!

Saturday, 14 April 2012

Einführungsworkshop am 16.04.

Liebe Studenten,

am Montag, 16.04.2012, 11 Uhr machen wir einen Einführungsworkshop (Raum A-2.2), in dem wir Euch die wichtigsten Wissensbasen, Tools etc. für das Seminar vorstellen. Zunächst kommt also ein wenig Theorie, aber wir können auch gern direkt ein paar Hands-On Übungen machen. Das stimmen wir aber am Montag ab, je nach dem wie Eure Kenntnisse sind...

Bis Montag!

Tuesday, 10 April 2012

Team Formation

Liebe Studenten,
bitte findet euch per Doodle zu Gruppen zusammen. Die Gruppen sollten zwei (notfalls auch drei) Studenten umfassen. Die endgültige Gruppeneinteilung erfolgt dann zum übernächsten Seminartermin (17.04.).

Friday, 6 April 2012

Los geht's...

Gleich am Dienstag nach Ostern startet unser diesjähriges "Semantic Multimedia" Seminar am 10.04.2012 um 11.15 Uhr in A.2.2. 

Diesmal wird sich das Seminar thematisch um die automatische Verschlagwortung von wissenschaftlichen Publikationen drehen. Ja, auch PDF-Dokumente sind Multimedia-Dokumente. Um vernünftige Schlagworte für ein Dokument vergeben zu können, muss man zunächst einmal verstehen, was darin steht, was wichtig ist, was nicht. Dabei werden wir Schlagwörter nicht als "bloßen Text", sondern als semantische Entität betrachten, d.h. hier werden wir auf den reichen Schatz an Ontologien und Entitäten aus dem Linked Data Bereich zurückgreifen.

Es geht also um die folgenden Themengebiete:

  • Analyse von Text-Dokumenten und deren Metadaten
  • Named Entity Mapping (eindeutiges Mapping von Textteilen auf semantische Entitäten)
  • Semantic Relevance Ranking ("was ist wichtig, was unwichtig...?")
  • Recommender Systems (Vorschlag von den am besten passenden Schlagwörtern)
Je nachdem, wie weit Sie mit Ihrer Arbeit kommen, können wir dann noch betrachten:
  • Social Graph Analysis (wenn es darum geht, das Beziehungsnetzwerk des Benutzers mit in die Generierung von personalisierten Vorschlägen mit einzubeziehen)
  • Machine Learning (wenn es darum geht, das Generieren von Vorschlägen aus Beispielen zu "lernen")

Um das Ganze auch noch spannender zu machen, werden wir am Dienstag eine "Challenge" präsentieren, in der die einzelnen Seminar-Projektteams gegeneinander antreten werden.

Am Dienstag erwartet Sie also folgendes:

  • Vorstellung des Seminarthemas und der Betreuer
  • Administratives 
  • Informationen zum Ablauf des Seminars
  • Informationen zur Leistungserfassung im Seminar
In der zweiten Seminarwoche werden wir die Projektteams festlegen und Ihnen eine allgemeine/technische Einweisung in das Themengebiet und den dabei einzusetzenden Technologien geben. Ab der dritten Seminarwoche werden wir uns mit den Projektteams immer in Einzel-Konsultationen (je ca. 20-30 Minuten) zusammensetzen. Hier sind wir terminlich dann auch etwas flexibler, falls es kollidierende zeitliche Rahmenbedingungen geben sollte.

Also....bis Dienstag...Wir freuen uns auf Sie! 

Thursday, 5 April 2012

Semantic Multimedia

Semantic Web Technologien wie RDF, OWL und SPARQL ermöglichen die einfache Entwicklung verteilter Dienste, ohne eigene Programmierschnittstellen einzuführen. Mit 'Linked Open Data' sind heute strukturierte Vokabulare öffentlich verfügbar. Sie können mit Hilfe der Semantic Web Sprachstandards vernetzt werden und bilden damit das sogenannten 'Web of Data', das eine einfache Erstellung intelligenter Mashup-Applikationen ermöglicht.

Mihilfe dieser semantischen Daten können Dokumente inhaltlich erschlossen und untereinander in Beziehung gesetzt werden. In Bezug auf wissenschaftliche Dokumenten, wie Konferenzbeiträge, ist es wünschenswert diese nach Themengebieten clustern zu können und so Empfehlungen zu ermöglichen. Dazu müssen zunächst die Dokumente analysiert und semantischen Entitäten und Kategorien zugeordnet werden.

Ziel des Seminars 'Semantic Multimedia' ist die semantische Erschließung von textuellen Dokumenten und deren inhaltliche Zuordnung zu Entitäten und Kategorien.


Seminarthemen
  • Recommender Systeme
  • Named Entity Mapping
  • Conceptional Modelling
  • Linked Data Engineering
  • Statistische Analyse

Allgemeine Informationen

Montag, 11:00 – 12:30, A-2.2
Dienstag, 11:00 – 12:30, A-2.2
SWS / Belegungspunkte: 4 / 6.0 (benotet)

Leistungserfassung
  • Schriftliche Ausarbeitung zum Vortragsthema
  • Umsetzung einer vorgegebenen Implementierungsaufgabe
  • Präsentation der Ergebnisse