Obtención automática de significados con Google, por Cilibrasi y Vitanyi (2005)

Cilibrasi y Vitanyi (2005) presentan su experimento de manera contundente:

Tenemos un método que automáticamente extrae significados de palabras y oraciones de la Web por medio de cómputos de páginas aportados por Google. Es un enfoque nuevo por la amplitud del dominio del problema, por la sencillez de la implementación y por sus fundamentos manifiestamente ontológicos. La Web es la mayor base de datos sobre la tierra y la información de contexto con semántica latente que introducen millones de usuarios independientes permite obtener significado automático de calidad aprovechable. Demostramos correlaciones positivas que evidencian una estructura semántica subyacente, tanto mediante notaciones de símbolos numéricos como con nombres de números en varios idiomas y contextos. Conseguimos además distinguir entre colores y números, entre pintores holandeses del siglo XVII, podemos comprender términos eléctricos, religiosos o avisos de emergencias. Realizamos experimentos masivos para distinguir categorías de WordNet e incluso llegamos a realizar traducciones simples de inglés a español.Vitanyi

Esta es la traducción del resumen del artículo de Cilibrasi y Vitanyi (2005) que ensayo para fijar mejor su significado. La introducción del artículo me gustaría comentarla con calma. Paul Vitanyi es un reputado experto en métodos estocásticos. Rudi Cilibrasi es su discípulo y me ha llamado la atención su portal de sudokus.Cilibrasi

Cilibrasi y Vintanyi plantean un método automático para la extracción de información semántica de la Web. Lo justifican así:

Existen proyectos a largo plazo y extremadamente laboriosos como Cyc y WordNet que tratan de establecer relaciones semánticas entre objetos comunes, o, para ser más precisos, aportan nombres para esos objetos. La idea es crear una web semántica de tal envergadura que haga que de manera espontánea llegue a emerger inteligencia rudimentaria y conocimiento sobre el mundo real. Esto se plantea a expensas del impresionante coste que supone diseñar estructuras capaces de manipular conocimiento y de que expertos humanos introduzcan contenidos de calidad en esas estructuras. Pese a que los esfuerzos son a largo plazo y de gran calado, la información total introducida es minúscula comparada con todo lo que está disponible en la Web.

Pese a que los resultados que ofrecen los autores no acaban de convencerme del todo, por su disparidad, las razones de fondo, así como la metodología que presentan (Minimum Description Length y Support Vector Machines) son dignas de ser tenidas en consideración, aunque cedo el empeño a mis colegas expertos en esta materia (Nando, Pablo, lo apunto para comentárselo).

El aspecto más destacado del artículo es desde luego el desafío que plantean al trabajo manual que subyace a la mayoría de los proyectos del ámbito de la Web semántica. Efectivamente interesa sobremanera plantear métodos que lleguen a automatizar muchas de esas tareas manuales que además requieren la aportación de expertos.

About these ads
Publicado en littera, nlp, translation
4 comments on “Obtención automática de significados con Google, por Cilibrasi y Vitanyi (2005)
  1. Los del desván dice:

    No le va a sorprender nada que aquella parte del hipertexto que nos ocupa que más nos ha interesado haya sido, no los hipotextos en sí, sino una sóla de las palabras que lo componen. Una palabra y la posibilidad de extraer su significado.

    Esa palabra es estocástico. Hace años hubieramos ido al diccionario, a la biblioteca, a la tienda o librería, hubiéramos llamado a aquel amigo que todo el mundo tenía y que sabía de todo (método manual). Ahora apenas nos movemos, atrapados como estamos en una pegajosa tela de araña.

    Y en la hipertela (el otro método), la R.A.E. nos ha dicho que estocástico viene de stocasticos, palabra griega que se usaba para llamar al que era hábil en conjeturar, y que en español sirve para referirse a lo que pertenece al azar.

    No es que el resto del hipertexto no sea interesante, no, es otra cosa.

    Un saludo

  2. ana dice:

    es el significado no quien lo invento bobos

  3. ana dice:

    espero que la mejoren

Deja un comentario

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s

Páginas
Temas
Blog Stats
  • 144,931 hits
Seguir

Recibe cada nueva publicación en tu buzón de correo electrónico.

A %d blogueros les gusta esto: