реклама на сайте
подробности

 
 
 
Reply to this topicStart new topic
sifadin
сообщение Jun 28 2014, 20:51
Сообщение #1


Местный
***

Группа: Свой
Сообщений: 443
Регистрация: 11-02-09
Пользователь №: 44 698



Здравствуйте!
Задам два связных вопроса

1. Есть поток сообщений, который трудно описать числами, функциями. Вульгарный пример
Допустим мы наблюдаем за островами на которых живут разные туземцы
Мы можем наблюдать события. На одном острове зажгли факел, с другого на третий отправились туземцы
Туземцы тоже различаются на группы
есть еще какие-то события
Нужно сделать вывод, построить гипотезы - эти острова разделяют три государства, два в состоянии войны, третье тоже что-то там...
На это способен человек, такое предлагают в виде тестов

Но если событий тысячи, они принадлежат разным процессам
Ну например анализ криминала или маркетинговые исследования
И их трудно формализовать
нужен машинный анализ, чтобы строить гипотезы
Какие есть подходы для таких задач. Может есть готовое ПО

2.
При рассылке спам сообщений на форумы
роботами учитывается контекст в котором применено слово
смысл насколько я понял, что они учитывают вероятность появления связки слов для заданного контекста

Существуют ли готовые базы данных такого рода цепочек пусть для ограниченно набора тем

Просто тогда это способ создать метрику для событий, и тогда их уже можно пытаться математически обсчитать
Спасибо
Go to the top of the page
 
+Quote Post
Виктория
сообщение Jun 29 2014, 12:28
Сообщение #2


инженер
****

Группа: Свой
Сообщений: 520
Регистрация: 19-09-05
Из: Самара
Пользователь №: 8 701



Цитата(sifadin @ Jun 28 2014, 23:51) *
Здравствуйте!
Задам два связных вопроса

1. Есть поток сообщений, который трудно описать числами, функциями. Вульгарный пример
Допустим мы наблюдаем за островами на которых живут разные туземцы
Мы можем наблюдать события. На одном острове зажгли факел, с другого на третий отправились туземцы
Туземцы тоже различаются на группы
есть еще какие-то события
Нужно сделать вывод, построить гипотезы - эти острова разделяют три государства, два в состоянии войны, третье тоже что-то там...
На это способен человек, такое предлагают в виде тестов

Но если событий тысячи, они принадлежат разным процессам
Ну например анализ криминала или маркетинговые исследования
И их трудно формализовать
нужен машинный анализ, чтобы строить гипотезы
Какие есть подходы для таких задач. Может есть готовое ПО

Анализ формальных понятий, концептуальное моделирование...
Должны, наверно, быть какие-то готовые средства автоматического построения онтологий.

Например Concept Explorer

Прикрепленные файлы
Прикрепленный файл  ConExp_2000.pdf ( 309.75 килобайт ) Кол-во скачиваний: 31
 
Go to the top of the page
 
+Quote Post
AndreyVN
сообщение Jun 30 2014, 09:40
Сообщение #3


Знающий
****

Группа: Свой
Сообщений: 754
Регистрация: 29-06-06
Из: Volgograd
Пользователь №: 18 458



Цитата(sifadin @ Jun 29 2014, 00:51) *
Здравствуйте!

1. Есть поток сообщений, который трудно описать числами, функциями.
... skip...
Просто тогда это способ создать метрику для событий, и тогда их уже можно пытаться математически обсчитать
Спасибо


Математика оперирует с числами. Первая часть задачи - выбрать пространство описания, то есть, перевести события, сообщения и т.п. в формальные классы, имеющие численное выражение. Дальше, применимы методы многомерной статистики и стандартные программные продукты. Таков мой взгляд на вашу задачу.
Go to the top of the page
 
+Quote Post
Guest_TSerg_*
сообщение Jun 30 2014, 10:38
Сообщение #4





Guests






Научно-технический базис - дисциплина "Исследование операций" (operations research/management science)
Go to the top of the page
 
+Quote Post
sifadin
сообщение Jun 30 2014, 22:37
Сообщение #5


Местный
***

Группа: Свой
Сообщений: 443
Регистрация: 11-02-09
Пользователь №: 44 698



Цитата(Виктория @ Jun 29 2014, 16:28) *
Анализ формальных понятий, концептуальное моделирование...
Должны, наверно, быть какие-то готовые средства автоматического построения онтологий.

Например Concept Explorer

Спасибо посмотрю

Цитата(TSerg @ Jun 30 2014, 14:38) *
Научно-технический базис - дисциплина "Исследование операций" (operations research/management science)

Каким образом - там же оптимизация, линейное программирование

Цитата(AndreyVN @ Jun 30 2014, 13:40) *
Математика оперирует с числами. Первая часть задачи - выбрать пространство описания, то есть, перевести события, сообщения и т.п. в формальные классы, имеющие численное выражение. Дальше, применимы методы многомерной статистики и стандартные программные продукты. Таков мой взгляд на вашу задачу.

Да все это так, но язык ближе к естественному
Анализ историй болезни напр

Я слышал про то что там и используют цепи маркова (в поисковиках)
Ну напр нас интересуют лыжи. Мы вбиваем их в яндекс
Получаем тысячи ссылок, в каждом текст про лыжи. Какие-то из них годные
для каждого такого текста мы вычисляем цепочки маркова из характерных слов

Здесь задача в том, чтобы определить в каком контексте упоминается что-либо, может даже и не упомянутое в описании
ну например есть газетная статья по тексту нужно определить в одобрительном тоне она описывает политику монголии или нет
Go to the top of the page
 
+Quote Post
iiv
сообщение Jul 1 2014, 00:05
Сообщение #6


вопрошающий
*****

Группа: Свой
Сообщений: 1 726
Регистрация: 24-01-11
Пользователь №: 62 436



Гугл в свое время поднялся на том, что первым применил сингулярное разложение к обработке текстовых массивов. Берем кучу документов, каждый соответствует своей строке. Берем все слова в этих документах - слова помещаем в столбцы. Дальше получается такая страшно большая разреженная матрица, которая характеризует какое слово сколько раз встречается в каком документе. Дальше - делаем сингулярное разложение этой матрице, она, как оказалось, довольно малоранговая, и, более того, сингулярные вектора можно представить в виде линейной комбинации разреженных векторов. Их запоминаем, вот Вам и корреляция. Как построить такое сингулярное разложение, гуглите на Джина Голуба (Gene Golub), к сожалению, уже ныне покойного.

Потом были и опорные вектора, и цепи Маркова, но, в основе, все-таки, лежит сингулярное разложение разреженных матриц, и его восприятие, ИМХО, проще и понятнее.
Go to the top of the page
 
+Quote Post
Guest_TSerg_*
сообщение Jul 1 2014, 08:14
Сообщение #7





Guests






Цитата(sifadin @ Jul 1 2014, 02:37) *
Каким образом - там же оптимизация, линейное программирование


Это узкий взгляд.
ИО - методология на основе математических методов, приводящая к обоснованию решения в любой области целенаправленной деятельности.
Так, что одним из сегментов вполне является дисциплина "Построение гипотез", что для Вас и актуально.
Начните с изучения ДСМ-метода автоматического порождения гипотез.
Родоначальник: Финн Виктор Константинович

Еще:
http://aot.ru/docs/Nozhov/
http://www.isa.ru/jitcs/images/stories/2008/03/30_44.pdf
Go to the top of the page
 
+Quote Post
Виктория
сообщение Jul 1 2014, 08:35
Сообщение #8


инженер
****

Группа: Свой
Сообщений: 520
Регистрация: 19-09-05
Из: Самара
Пользователь №: 8 701



Посмотрите ещё "Статистика объектов нечисловой природы" на сайте Орлова А.И. Для первого знакомства, например - тут

Ссылок много... Пора бы вернуться к Вашим примерам. Чем Вас традиционные метрики не устраивают?
Go to the top of the page
 
+Quote Post

Reply to this topicStart new topic
1 чел. читают эту тему (гостей: 1, скрытых пользователей: 0)
Пользователей: 0

 


RSS Текстовая версия Сейчас: 29th June 2025 - 05:24
Рейтинг@Mail.ru


Страница сгенерированна за 0.0142 секунд с 7
ELECTRONIX ©2004-2016