reforef.ru 1 2


ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ

Государственное образовательное учреждение

высшего профессионального образования

«ХАКАССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

им. Н.Ф.КАТАНОВА»

_______________________________________________________________________
Кафедра Программного обеспечения, вычислительной техники, и автоматизированных систем (ПОВТиАС)
ДВМ.02

Автоматизированные информационно-поисковые системы
Рабочая программа

дисциплины по специальности магистратуры 230100 «Информатика и вычислительная техника»


Курс 2

Учебный план набора 2010 года

Форма обучения: очная

Общая трудоемкость дисциплины по ГОС СПО: 150 часов

20011 г.
1. Рабочая программа составлена в соответствии с ГОС ВПО по направлению подготовки специальности магистратуры 230100 «Информатика и вычислительная техника»

(код и наименование)

утвержденного ______________________________________________________________________.

(дата)

2. Разработчик рабочей программы

профессор____ ПОВТиАС_ ____________ Яцко Вячеслав Александрович

(должность) (кафедра) (подпись) (ФИО)

3. УТВЕРЖДЕНА на заседании кафедры

ПОВТиАС

(наименование кафедры)

_______________________ протокол № ___________

(дата)

Зав. кафедрой_______________________ Швец Срегей Викторович

(подпись) (ФИО)

ПЕРЕУТВЕРЖДЕНА на заседании кафедры __________________________________________________________________________________

(наименование кафедры)

_______________________ протокол № ___________

(дата)

Зав. кафедрой_______________________ _______________________________________________

подпись) (ФИО)


4. Рабочая программа СОГЛАСОВАНА с выпускающими кафедрами; СООТВЕТСТВУЕТ действующему учебному плану.

Зав. выпускающей кафедрой __________________ ________________________________

(подпись) (ФИО)

_________________________________________

(дата)

5. В рабочую программу внесены изменения и дополнения на заседании кафедры ______________________

_____________________________________________ протокол № ____ дата __________________________

Зав. кафедрой_______________________________ ________________________________________________

(подпись) (ФИО)
Пояснительная записка


  1. Цели учебной дисциплины.

Данная программа предназначена для магистрантов 2 курса Института информатики и телематики Хакасского государственного университета им. Н.Ф.Катанова, обучающихся по специальности 552800 - Информатика и вычислительная техника. Программа может быть использована магистрантами в процессе подготовки к лекциям, лабораторным занятиям, а также для самостоятельной работы по курсу.

Цель курса – ознакомить магистрантов с предметной областью теории информационного поиска и лингвистической информатики. Лекционный курс охватывает её основные разделы: теорию индексирования, теорию реферирования, теорию кластеризации социтирования, теорию логико-смыслового моделирования.

2. «Требования к уровню освоения содержания дисциплины»

  После прохождения обучения магистрант должен:

  а) иметь представление о:

  – подходах к интерпретации понятия "информация" в различных областях знания;

  – принципах системного подхода как общенаучного метода исследования;

  – основных этапах исторического развития теории и практики информационного поиска;

  – особенностях анализа иерархической и тематической структуры текста;

  б) знать:

  – законы Бредфорда и Ципфа;


  – признаки понятия "информационно-лингвистическая модель";

  – структуру лингвистической информатики;

  – основные понятия теории индексирования и теории реферирования;

  – архитектуру и алгоритмы функционирования автоматизированных информационно-поисковых систем (АИПС);

  – архитектуру и алгоритмы функционирования автоматизированных информационно-поисковых систем Интернета (ИАИПС);

  – архитектуру и алгоритмы функционирования систем автоматического реферирования различных уровней.

  – основные критерии оценки эффективности функционирования АИПС, ИАИПС и систем автоматического реферирования;

– алгоритмы лексического анализа, аннотирования и декомпозиции текста.

  в) уметь применять:

  – методы разработки информационно-поисковых систем;

  – методы составления словарей тематической и нетематической лексики;

  – методы и алгоритмы взвешивания терминов;

  – методы оценки эффективности функционирования АИПС и систем автоматического реферирования.

  

«Место дисциплины в профессиональной подготовке выпускника»

Особенностью курса является акцент на теорию и методы информационного поиска, изучение которых позволит магистрантам приобрести как теоретические знания, так и практические навыки, позволяющие уверенно ориентироваться в современной информационной среде.

Курс "Автоматизированные информационно-поисковые системы" изучается в 3 семестре и включает 16 лекционных часов, и 16 часов лабораторных занятий. В процессе лекционных занятий студенты знакомятся с основными понятиями и принципами изучаемых разделов лингвистической информатики, критериями их дифференциации, закономерностями и методами соответствующих областей деятельности. Лабораторные занятия направлены на закрепление теоретического материала; в процессе лабораторных занятий применяются на практике принципы и методы информационного поиска.


  Курс " Автоматизированные информационно-поисковые системы" предполагает связь с такими дисциплинами, как: "История информатики и вычислительной техники", "Информационные технологии в науке и образовании", "Современные направления развития информатики".

  Изучение курса завершается зачётом, в процессе которого студенты должны проявить знание основных понятий, указанных в плане лекций, ответить на контрольные вопросы и выполнить тест.

"Автоматизированные информационно-поисковые системы"

Организационно-методический план

Таблица №1


Вид учебной работы

Количество часов

I. Аудиторная:




1.1 Лекции

16

1.2. Лабораторные работы

16

ИТОГО:

32

II. Внеаудиторная:




2.1. Рефераты

10

2.2. Самостоятельное изучение тем разделов

40

2.3. Домашние контрольные работы

40

2.4. Проработка и повторение лекционного материала и учебных пособий

10

2.5. Подготовка к зачету

18


ИТОГО:

118

III. Промежуточный и итоговый контроль по дисциплине (экзамен, зачет):




Зачет




ИТОГО:




Общая трудоемкость дисциплины

150


Тематический план учебной дисциплины

Наименование разделов и тем курса

Количество часов

Всего

Аудиторные занятия

Самос-

тоятель-ная работа

лекции

лабора-торные

практичес

кие

1

2

3

4

5

6

Семестр 3















1. Алгоритмы и программы автоматического анализа текста. Морфологический анализ и аннотирование





2

4



20

2. Алгоритмы и программы автоматического анализа текста. Аннотирование и взвешивание терминов




2







20

3. Алгоритмы и программы автоматического анализа текста. Декомпозиция и синтаксический парсинг




2







8

4. Индексирование как вид информационно-лингвистического моделирования. ИПС и ИПЯ




3

4




10

6. Особенности информационно-поисковых систем Интернета




2







14

7 Лексикографические ресурсы и закономерности




2

4




12

8. Системы автоматического реферирования.




3

4


14


ИТОГО:

150

16

16

0

118

Содержание лекционного курса

"Автоматизированные информационно-поисковые системы"
Лекция 1

  

NLP. Алгоритмы и программы автоматического анализа текста и уровни языковой системы. Морфологический анализ. Стемминг и стеммеры. Алгоритмические и словарные стеммеры. Недостаточное и избыточное стеммирование. Y- стеммер. Отличие стемминга от лемматизации.

Понятие лексической декомпозиции и токена. Особенности токенизации. Необходимость распознавания единиц больше и меньше чем слово.

Аннотирование. Понятие POS-тегов. Теггеры,основание на правилах и стохастические теггеры. Алгоритм двунаправленной инференции. Семантические и когнитивные теги. Использование семантических тегов в фактографических ИПС. Использование когнитивных тегов в системах интеллектуального анализа текста.

Лекция 2.
Аннотирование. Понятие POS-тегов. Теггеры,основание на правилах и стохастические теггеры. Алгоритм двунаправленной инференции. Обобщённая архитектура POS-теггера.

Семантические и когнитивные теги. Использование семантических тегов в фактографических ИПС. Использование когнитивных тегов в системах интеллектуального анализа текста.

Алгоритмы взвешивания терминов и фильтры. Интертекстуальные и интратекстуальные методы взвешивания. Определение вероятностных величин. Проблема сопоставления с эталонным корпусом. Алгоритм TF*IDF и возможности его применения для фильтрации стоп слов и классификации и категоризации текстов.
Лекция 3.

Понятие n-gram: биграмм, триграмм, тетраграм. Алгоритм распознавания n-gram в тексте. Возможности использования n-gram для автоматической классификации текстов.


Понятие синтаксического парсинга. Распознавание иерархической структуры предложения на основе выделения словосочетаний. Lexparser (Стэнфордский университет). Значение парсинга для моделирования структуры текста.

Программы-чанкеры. Значение распознавания словосочетаний различных типов. Noun-phrase chankers.

Понятие клаузы. Алгоритмы распознавания клауз. Значение разбивки текста на клаузы для моделирования его логико-семантической структуры.
Лекция 4.
Дискурсивный анализ текста. Понятие дискурса в системах автоматической обработки текста. Значение разрешение анафоры для систем реферирования и ИПС. Алгоритмы и правила разрешения анафоры. Семантическая структура текста и концепция У. Манна. Программа RST-Tool.

Лексикографические ресурсы для систем NLP. Онтологии, словари и тезаурусы. Структура тезауруса WordNet. Значение использования тезаурусов в ИПС и системах реферирования.

Закономерности предметной области. Закон Ципфа, его предсказательная сила. Закон Брэдфорда. Трактовка информации в кибернетике и информатике; различия между объёмным и вероятностными подходами к определению количества информации. Методика расчёта количества информации для текстов.

 

      Лекция 5

  

  Историческое развитие предметной области. Т.Кун и закономерности исторического развития научных дисциплин. Историческое развитие лингвистической информатики.

  Александрийская библиотека и первые рефераты; появление реферативных журналов в XIX веке. М. Дюи и универсальная десятичная классификация (1873). Г.Тейлор и механизация информационного поиска с помощью перфокарт. Появление первых систем автоматического индексирования. Г.Лун и системы автоматического реферирования. А.И.Михайлов, А.И.Черный, Р.С.Гиляревский и термин "информатика" в 60-е гг. ХХ века. Кластеризация социтирования и логико-смысловое моделирование в 70-х гг. ХХ века.

  Информационный взрыв конца ХХ века, его особенности. Интеграционные тенденции в современной лингвистической информатике.


  

   Лекция 6
  Предметная область лингвистической информатики.

  Признаки информационно-лингвистических моделей (ИЛМ). Отличие информационно-лингвистических моделей от лингвистических и информационных моделей. Виды ИЛМ: лексико-семантические, логико-грамматические, дискретные, непрерывные. Виды информационно-лингвистического моделирования.

  Гносеологический и онтологический планы лингвистической информатики. Единство онтологического плана лингвистической информатики,

  Соотношение лингвистической информатики со смежными дисциплинами. Значение терминов "компьютерная лингвистика", "прикладная лингвистика", "корпусная лингвистика", "информатика", "прикладная информатика".

  

   Лекция 7

  

  Индексирование как вид информационно-лингвистического моделирования. Понятие информационно-поискового языка (ИПЯ). Дескрипторные и классификационные ИПЯ. УДК как пример классификационного языка. Ключевые слова и дескрипторы; информационно-поисковые тезаурусы. Понятие нормализации и примеры нормализации.

  Основные процедуры, выполняемые в процессе индексирования. Структура базы данных АИПС; первичные и вторичные документы. Поисковый образ; поисковое предписание как поисковый образ запроса (ПОЗ). Критерий смыслового соответствия и формула его вычисления. Интерпретация индексирования в терминах теории множеств.

Алгоритмы взвешивания терминов в процессе индексирования: tf/idf, хи-квадрат.

  Архитектура классической АИПС.

  Документальные, фактографические, информационно-логические АИПС.

  

   Лекция 8

  

  Оценка эффективности функционирования АИПС. Понятия пертинентности, релевантности, полноты и точности поиска, информационного шума, потери информации.

  Количественные методы определения информационного шума и потерь информации; коэффициенты полноты и точности поиска. Информационно-поисковые системы Интернета (ИАИПС).


  Особенности электронных баз данных и поведения пользователей Интернета. Виды ИАИПС: предметные каталоги и индексные ИАИПС, их особенности; распределённые ИАИПС типа Copernic; мета- ИАИПС.

  Архитектура индексных ИАИПС и её отличие от архитектуры традиционных АИПС; особенности функционирования поисковой машины и робота-индексировщика. Полнотекстовые базы данных; понятия инвертированного файла и пост-листов.

  Способы повышения эффективности функционирования АИПС: двухступенчатость выдачи, эшелонирование выдачи, приписывание весовых коэффициентов дескрипторам.

  Кластеризация социтирования; понятия кластера и социтирования, примеры кластеров социтирования. Значение кластеризации социтирования для отслеживания развития научных идей и научной дисциплины. Г.Смолл, Ю.Гарфилд, И.В.Маршакова.

  Гипертекстовые системы. Примеры гипертекстов. М.М.Субботин и логико-смысловое моделирование.

  

Темы лабораторных работ


  1. Интерпретация понятия информации в кибернетике и информатике. Подсчёт количества информации с точки зрения двух подходов.

  2. Методы взвешивания терминов, статистические и позиционные параметры. Взвешивание по алгоритму tf/idf. Взвешивание терминов и распределения закона Ципфа.

  3. Общая характеристика и алгоритмы функционирования современных систем автоматического реферирования текста. Метод симметричного реферирования.

  4. Методы оценки качества современных систем автоматического реферирования текста. Метод сопоставления с эталонным словарём. Метод сопоставления с эталонным рефератом.

Программа самостоятельной познавательной деятельности студента

Текущий и итоговый контроль

Текущий контроль осуществляется на лабораторных занятиях в виде опроса, письменных тестов по основным темам, а также в ходе выполнения работ над ошибками и написания рефератов.

На завершающем этапе формой контроля является семестровый компьютерный тест соответственно. Компьютерный тест состоит из заданий.


Темы рефератов

 1. Соотношение между законами Бредфорда и Ципфа

  –ЧУРСИН Н Законы царства документов http://www.n-t.org/ri/ch/pi05.htm

  –И.В. Успенский ИНТЕРНЕТ-МАРКЕТИНГ Учебник.- СПб.: Изд-во СПГУЭиФ, 2003 http://aup.ru/books/m80/4.htm

  –Попов А. Поиск в Интернете -- внутри и снаружи. Эффективная методика поиска информации в сети Интернет http://www.citforum.ru/pp/search_03.shtml

  

  2. Структура и функционирование АИПС

  –Информатика и программирование. Часть 2. http://www.iiss.krgtu.ru/do/3e/infnprog/infnprog/part2.htm#12

  –Медведева Г.А. Из опыта РГАНТД по вопросам влияния использования на структуру ––НСА http://rgantd.ru/n_tr/med2.htm

  –Розина И.Н., Соколова О.И Поиск информации в интернет на основе автоматизированных информационно-поисковых систем. http://rspu.edu.ru/resource/sok_roz.html

  –Ягджан В.Г., Джавадян А.Ю. Методика построения интеллектуальной информационно-поисковой системы , основанной на модульно- распределённой архитектуре // НТИ. Сер.2. 2002. № 2 С. 20-24

  

  3. Системный подход в информатике

  –Нестеров А.В. Философия систем // НТИ Сер.1. 2002. № 4. С.1-8.

  –Исупова З.Г. Системный подход как метод познания мира. Екатеринбург, 1997 http://doklad.ru/monika/doklad/view/zip-1271-1.html

  –Введение в системный подход http://www.big.spb.ru/publications/other/metodology/introduction_in_system_approach.shtml

  –Системный подход при изучении физической картины мира. http://www.bolshe.ru/book/id=4018

  

  4. Индекс цитирования и ранжирование страниц Интернета

  –Индекс цитирования Яндекса http://www.yandex.ru/info/cy.html

  –Индекс цитирования. Роль индекса цитирования в раскрутке сайта. http://www.homebusiness.ru/bizinet/st31.htm

  –Как поднять Индекс цитирования сайта в поисковых системах http://www.webmasterpro.com.ua/pro/3/31_1.html


  –Менделеев Д. Эволюция релевантности сайтов. От индекса цитирования до "Subject-Specific PopularitySM" http://promo.by/searchengines/link_popularity.html

  –Индекс цитирования и PageRank http://www.ageofweb.ru/blogs/posts/798.html?sid=

  –Плющ М.А. О некоторых предпосылках создания указателя цитирования научной литературы // НТИ. Сер1. 2003. № 7. С. 18-22.

  

  5. Различные подходы к интерпретации информации

  –Горшков В.В. и др. Информация в живой и неживой природе // НТИ. Сер. 1. 2001. № 5. С. 1-6

  –Курбаков К.И. Компьютика, информатика, информациология: проблемы различия и соотношения // НТИ. Сер1. 2003. № 2. С.1-5.

  –Бриллюэн Л. Наука и теория информации. — М.: Физматгиз, 1960.

  –Быховский А. Информация и живые организмы// Наука и жизнь. — 1976. — N8.

  –Суханов А.П. Мир информации. — М.: Мысль, 1986.

  –Урсул А.Д. Проблема информации в современной науке. Философские очерки. М.: Наука, 1975.

  

  6. Проблемы категоризации текстов в процессе информационного поиска

  –Харламов А. Автоматический структурный анализ текстов http://www.osp.ru/os/2002/10/062.htm

  –Реализация и области применения системы ВААЛ-2000 http://www.vaal.ru/proekt/vaal2000.php

  -Волкова И.А. Программный комплекс для лингвистической обработки текстов на русском языке http://www.dialog-21.ru/archive_article.asp?param=7530&y=2002&vol=6078

  –Компьютерный корпус текстов русских газет конца XX-ого века http://www.philol.msu.ru/