An initial study on text summarisation in film stories Un estudio inicial sobre el resumen de argumentos de películas

Yan Xu , Michael Oakes

Resumen


El objetivo de nuestra investigación es el de generar resúmenes de películas a partir de textos colaterales, capturando el contenido semántico, estructura narrativa y líneas clave de los diálogos de la película. Nuestra hipótesis es que se pueden generar de forma eficiente resúmenes en texto de películas mediante el empleo de técnicas de resumen automático sobre textos colaterales: subtítulos, descripciones del audio y guiones de postproducción. En caso de disponer de códigos de tiempo, entonces podemos generar también resúmenes en vídeo a partir de dichos resúmenes en texto. En este estudio inicial construimos los resúmenes seleccionando las diez tomas de la película original que contienen la mayor proporción de palabras clave. Definimos las palabras clave de dos formas: como palabras de frecuencia media, ya que son las palabras de frecuencia media en un texto las que contienen la mayor parte de la información acerca del contenido de dicho texto; y como entidades nombradas derivadas del reparto de la película. Ye et al. (2007) sostienen que la calidad de un resumen puede evaluarse en base a cuántos de los conceptos principales del texto original se conservar en el resumen. Hemos comprobado que esta aproximación a la evaluación de resúmenes obtiene resultados más favorables que la aproximación ROUGE (Lin and Franz, 2004) basada en comparar el número de correspondencias de secuencias de caracteres entre los resúmenes generados automática y manualmente.
The objective of our research is to produce summaries of films from collateral text which capture the semantic content and narrative structure and key lines of dialogue in film. Our hypothesis is that text summaries of movies can efficiently be produced by the use of text summarisation techniques on collateral texts: subtitles, audio descriptions and post-production screenplays. If time codings are available, then video summaries can be constructed from these text summaries. In this initial study, we form summaries by selecting the ten shots from the original film which contain the highest proportion of keywords. We define keywords in two ways: as mid-frequency words, since it is the mid-frequency words in a text which contain most information about the content of that text, and as named entities derived from the cast list of the film. Ye et al. (2007) argued that the quality of a summary can be evaluated based on the how many concepts in the original text are preserved after summarisation. We found that this approach to summary evaluation gave more favourable results than the ROUGE approach (Lin and Franz, 2004) of comparing the number of matching character sequences in an automatic and a human-generated summary.

Texto completo:

PDF