Temat doktoratu
Ekstrakcja informacji o zdarzeniach z raportów dziedzinowych
Status: w przygotowaniu
Streszczenie:
Tekst jest naturalną dla ludzi formą opisu świata rzeczywistego, w szczególności opisu istniejących relacji między bytami oraz zmian tych relacji w czasie (fakt wystąpienia zmian relacji między bytami będzie określany jako zdarzenie). Na przykład w zdaniu „Marek Nowak, który jest prezesem spółki Nowak SA, został wybrany biznesmenem roku.” występują dwa byty (OSOBA:Marek Nowak i FIRMA:Nowak SA) połączone relacją prezes(OSOBA, FIRMA). Ekstrakcja informacji jest procesem automatycznego rozpoznawania bytów nazwanych, relacji między tymi bytami oraz zdarzeń opisanych w tekście. Celem ekstrakcji informacji jest rozpoznanie relewantnych informacji w kolekcji dziedzinowych dokumentów tekstowych (np. raporty spółek giełdowych) opisujących określony typ zdarzeń (np. zmiany w zarządzie spółki) i przetworzenie tych informacji do pewnego formatu umożliwiającego dalsze przetwarzanie na poziomie bytów nazwanych i relacji. Do ekstrakcji informacji wykorzystywane są tzw. wzorce ekstrakcji informacji. Są to wyrażenia w pewnym języku formalnym, które identyfikują pewne fragmenty tekstu, wydzielają pewne wyrażenia składniowe i przypisują im pewną interpretację w odniesieniu do zadania ekstrakcji informacji. W ramach referatu zostaną przedstawione problemy związane z pozyskiwaniem wzorców na potrzeby ekstrakcji informacji dla języka polskiego w odniesieniu do istniejących prac w tej dziedzinie dla języka angielskiego oraz zwrócenie uwagi na potrzebę automatyzacji procesu pozyskiwania wzorców. Celem wystąpienia jest przedstawienie problematyki, jaką będę się zajmował w ramach przewodu doktorskiego.
Słowa kluczowe:
ekstrakcja informacji, wzorce, automatyczne pozyskiwanie wzorców, przetwarzanie języka naturalnego, j. polski
Prezentacja:


