FAS-VidGen: Prädiktion von Bildfolgen aus FAS-Videosequenzen durch implizite Modellierung von Aktivitätsmustern

Im Zuge dieses Projekts soll eine Methode entwickelt werden, die mit Hilfe von Deep Learning (DL) Ansätzen eine videobasierte Verkehrsprädiktion für die Anwendung in Fahrassistenzsystemen oder autonomen Fahrsystemen ermöglicht. Konkretes Ziel des Projekts ist es, aus den Pixelwerten einer beobachteten Videosequenz, zukünftige Bildfolgen zu generieren. Für Videos von Verkehrsszenen beinhalten die generierten Bildfolgen dann unter anderem Vorhersagen zu den Postionen von verkehrsrelevanten Objekten und anderen Verkehrsteilnehmern. Unsere Methode kann also dazu genutzt werden, das Fahrzeugumfeld zu erfassen und zu analysieren und Präditkionen zum Verkehrsgeschehen zu treffen. Die Entwicklung eines solchen Systems zielt in gewissser Weise darauf ab, das menschliche Verhalten, zukünftige Ereignisse auf Basis von Beobachtungen zu antizipieren, nachzubilden. Durch die Implementierung eines Convolutional Neural Network (CNN) Ansatzes, gehen wir davon aus, dass unser Modell Objektinteraktionen und Aktivitätsmuster implizit lernt. Informationen die aus unserem Modell abgeleitet werden können, tragen im Gesamtsystem eines Fahrzeugs dazu bei, die Fahrweise hinsichtlich einer vorausschauenden Planung zu optimieren.

Für das Anlernen und die Evaluierung unserer Methode werden wir frei verfügbare und auch eigene Datensätze verwenden. Um eine ausreichende Menge und Diversität der Daten zu erhalten, setzen wir auf eine Kombination aus realen und synthetischen Datensätzen. Als Quelle für synthetische Daten verwenden wir dabei existierende Datensätze und werden zudem Daten aus fotorealistischen Videospielen abgreifen.

Themen-/Stellenausschreibungen

Abschlussarbeiten

Masterarbeit: Conditional Synthesizing of Photo-Realistic Images from Label Images

Description:
Description: State of the art machine learning models for image generation have shown, that synthesizing images given their corresponding label image yields to good results, even for complex natural scenes, such as images of traffic scenes. Since the training data of these models consist of pairs of label images and corresponding real world images, the learned features for each label class represent only an average over all examples. Hence, those models will fail to display details of individual scenes, e.g., color information, correctly.

Your Master's Thesis will focus on extending one of these models. The main goal of your work will be to implement an online fine-tuning mechanism that allows the model to synthesize details of a given scene correctly. In the end, the synthesized image will be based on the label information and also be conditioned on information from the original scene. The results of your final model have to be evaluated both quantitatively and qualitatively, and have to be compared to results of related approaches.

For the purpose of this topic, it is of advantage to have practical experience with deep learning frameworks and a good understanding of machine learning principles. Also, good programming skills in Python are essential. All further details will be settled in person.

Requirements:

  • Completed course(s) in machine learning or equivalent
  • Advanced programming skills (Python)
  • Practical experience with deep learning frameworks (e.g. TensorFlow, Torch, Caffe, etc.)

Contact:

Masterarbeit: Video Prediction in Label Space

Description:
State of the art machine learning models for video generation have shown, that predicting future frames of low dimensional synthetic videos works quite good. However, predicting natural videos in high quality still leaves room for improvement due to the high complexity of natural scenes.

Your Master's Thesis will focus on extending one of the existing models for video generation and prediction. The resulting method should be able to predict a sequence of probable future label images given the label images of an input video sequence. For this task, you are free to choose which of the existing methods you want to use. One difficulty of adapting an existing model will be to prevent the model from generating blurry versions of the input images. The results of your final model have to be evaluated both quantitatively and qualitatively, and have to be compared to results of related approaches.

For the purpose of this topic, it is of advantage to have practical experience with deep learning frameworks and a good understanding of machine learning principles. Also, good programming skills in Python are essential. All further details will be settled in person.

Requirements:

  • Completed course(s) in machine learning or equivalent
  • Advanced programming skills (Python)
  • Practical experience with deep learning frameworks (e.g. TensorFlow, Torch, Caffe, etc.)

Contact:

Publikationen

  • Aigner, Sandra; Körner, Marco: FutureGAN: Anticipating the Future Frames of Video Sequences using Spatio-Temporal 3d Convolutions in Progressively Growing GANs. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences (ISPRS) (tbp), 2019 mehr…
  • König, Peter; Aigner, Sandra; Körner, Marco: Enhancing Traffic Scene Predictions with Generative Adversarial Networks. Proceedings of the IEEE Intelligent Transportation Systems Conference (ITSC), 2019 mehr…