Краткое введение

Ім'я файлу: Интеллектуальный анализ данных с WEKA.docx
Розширення: docx
Розмір: 44кб.
Дата: 04.12.2023
скачати

Интеллектуальный анализ данных с WEKA (1) Введение и регрессия

Теги: Интеллектуальный анализ данных с WEKA (1) Введение и регрессия WEKA Интеллектуальный анализ данных (1) Введение и регрессия WEKA для интеллектуального анализа данных возвращение weka возвращение

Краткое введение

ЧтоИнтеллектуальный анализ данных? Время от времени вы будете задавать себе этот вопрос, потому что эта тема привлекает все больше внимания технического сообщества. Возможно, вы слышали, что такие компании, как Google и Yahoo !, генерируют миллиарды точек данных обо всех своих пользователях, и вы не можете не задаться вопросом: «Зачем им вся эта информация?» Одна из самых продвинутых компаний, которые проводят анализ данных и применяют результаты в своем бизнесе. Сейчас почти все компании в мире используют интеллектуальный анализ данных, и компании, которые еще не использовали интеллектуальный анализ данных, окажутся в невыгодном положении в ближайшем будущем.

Итак, как вы можете держать себя и свою компанию в курсе событий, связанных с волной интеллектуального анализа данных?

Мы надеемся ответить на все ваши элементарные вопросы о интеллектуальном анализе данных. Мы также надеемся представить вам бесплатное программное обеспечение с открытым исходным кодом Waikato Environment for Knowledge Knowledge Analysis (WEKA), которое вы можете использовать для добычи данных и преобразования ваших знаний о пользователях, клиентах и бизнесе в полезную информацию для улучшения доход. Вы обнаружите, что это не так сложно, как вы думаете, блестяще выполнить задачу добычи данных.

Кроме того, в этой статье будет представлена первая техника интеллектуального анализа данных:возвращение, Значение для прогнозирования стоимости будущих данных на основе существующих данных. Это может быть самый простой способ добычи данных. Вы даже использовали это популярное программное обеспечение для работы с электронными таблицами, чтобы раньше выполнять этот элементарный анализ данных (хотя WEKA может выполнять более сложные вычисления). В следующих статьях этой серии будут рассмотрены другие методы добычи данных, в том числе кластеризация, ближайшие соседи и деревья классификации. (Если вы не совсем знаете, что означают эти термины, это не имеет значения. Мы представим их в этой серии.)

Что такое интеллектуальный анализ данных?

Интеллектуальный анализ данных по своей сути относится к превращению больших объемов данных в осмысленные шаблоны и правила. И его можно разделить на два типа: прямой и косвенный. впрямойПри извлечении данных вы будете пытаться предсказать конкретную точку данных - например, предсказать цену продажи других домов в соседнем районе с ценой продажи данного дома.

внепрямойВ интеллектуальном анализе данных вы будете пытаться создавать наборы данных или находить шаблоны в существующих данных, например, для создания группы «женщин среднего класса». Фактически, каждый раз, когда демографические данные США занимаются добычей данных, правительство хочет собирать данные от каждого гражданина и превращать их в полезную информацию.

Современный интеллектуальный анализ данных начался в 1990-х годах. В то время мощность вычислений, а также стоимость вычислений и хранения достигли очень высокого уровня. Компании начали самостоятельно рассчитывать и хранить данные, не прибегая к помощи внешних компьютеров. ,

Кроме того, термин «интеллектуальный анализ данных» является всеобъемлющим и может относиться ко многим методам и процессам для просмотра и преобразования данных. Потому что в этой серии рассматриваются только некоторые функции, которые могут быть реализованы с помощью интеллектуального анализа данных. Эксперты по интеллектуальному анализу данных часто являются докторами наук в области статистики данных и имеют 10-30-летний опыт исследований в этой области. Это создаст впечатление, что только крупные компании могут позволить себе добычу данных.

Мы хотим устранить эти недоразумения, связанные с интеллектуальным анализом данных, и хотим прояснить его: интеллектуальный анализ данных не так прост, как запуск функции электронных таблиц для ряда данных, и не так сложен, как некоторые люди считают, что этого невозможно достичь самостоятельно. Это хороший пример парадигмы 80/20 - еще более, парадигмы 90/10. Используя 10% опыта так называемых экспертов по интеллектуальному анализу данных, вы можете создать эффективную модель интеллектуального анализа данных на 90%. Чтобы покрыть оставшиеся 10% эффективности модели и создать идеальную модель, потребуется 90% дополнительного времени, даже до 20 лет. Поэтому, если вы не решитесь принять интеллектуальный анализ данных как направление своей карьеры, подойдет «достаточно хорошо». С другой стороны, использование интеллектуального анализа данных для достижения «достаточно хорошего» всегда лучше, чем другие технологии, которые вы используете.

Конечной целью интеллектуального анализа данных является создание модели, которая может улучшить способ интерпретации существующих и будущих данных. Теперь, когда существует много методов извлечения данных, самый важный шаг в создании хорошей модели - это решить, какую технику использовать. И это во многом зависит от практики, опыта и эффективного руководства. После этого модель должна быть оптимизирована, чтобы сделать ее более удовлетворительной. После прочтения статей этой серии вы сможете правильно определить используемую технологию на основе собственного набора данных, а затем предпринять необходимые шаги для ее оптимизации. Вы сможете создать достаточно хорошую модель для ваших собственных данных.

WEKA

Интеллектуальный анализ данных ни в коем случае не является эксклюзивным для крупных компаний и не является дорогим программным обеспечением. Фактически, существует программное обеспечение, которое может выполнять все функции, которые может выполнять это дорогое программное обеспечение - это программное обеспечение WEKA. WEKA родился в Университете Вайкато (Новая Зеландия) и был впервые реализован в его современном формате в 1997 году. Он использует GNU General Public License (GPL). Программное обеспечение написано на языке Java и включает графический интерфейс для взаимодействия с файлами данных и генерации визуальных результатов (таких как таблицы и кривые). Он также имеет общий API, поэтому вы можете встраивать WEKA в свои собственные приложения, такие как другие библиотеки, для выполнения таких задач, как автоматический анализ данных на стороне сервера.

Продолжаем и устанавливаем WEKA. Поскольку он основан на Java, если на вашем компьютере не установлена JRE, загрузите версию WEKA, включающую JRE.

Рисунок 1. Стартовый экран WEKA

При запуске WEKA появится окно выбора GUI, позволяющее выбрать четыре способа использования WEKA и данных. Для примеров из этой серии статей мы выбрали толькоExplorerПараметры. Для функций, которые мы хотим реализовать в этой серии статей, этого достаточно.

Рисунок 2. WEKA Explorer

После знакомства с тем, как установить и запустить WEKA, давайте взглянем на нашу первую технику интеллектуального анализа данных: регрессия.

возвращение

Регрессия - это самая простая и простая в использовании технология, но она, вероятно, наименее мощная (они всегда объединяются, это весело). Эта модель может быть такой простой, как одна входная переменная и одна выходная переменная (в Excel она называется графом разброса илиOpenOffice.org В пределах XYDiagram). Конечно, это может быть намного сложнее, чем это, и может включать много входных переменных. Фактически все регрессионные модели соответствуют одной общей модели. Несколько независимых переменных могут быть объединены для получения результата - зависимой переменной. Затем используйте регрессионную модель, чтобы предсказать результат неизвестной зависимой переменной на основе значений этих независимых переменных.

Каждый, возможно, использовал или видел модель регрессии, и даже создал модель регрессии в своем уме. Один пример, о котором люди могут сразу подумать, это оценить дом. Цена дома (зависимая переменная) является результатом многих независимых переменных - размера дома, размера пола, того, есть ли на кухне гранит, и была ли только что переоборудована ванная комната. Таким образом, независимо от того, купили ли вы дом или продали дом, вы можете создать регрессионную модель для определения цены дома. Эта модель основана на отпускных ценах других сопоставимых домов в соседнем районе (модель), а затем в эту модель включается стоимость вашего собственного дома, чтобы получить ожидаемую цену.

Давайте продолжим использовать эту регрессионную модель цен на жилье в качестве примера для создания реальных данных. В моем районе продаются некоторые дома, и я пытаюсь найти разумную цену для своего дома. Мне также нужно взять выходные данные этой модели, чтобы объявить налог на имущество.

Таблица 1. Домашние значения регрессионных моделей

Площадь дома (квадратных футов)	Размер следа	спальня	гранит	Ванная комната переоборудована?	Цена продажи
3529	9191	6	0	0	$205,000
3247	10061	5	1	1	$224,900
4032	10150	5	0	1	$197,900
2397	14156	4	1	0	$189,900
2200	9600	4	0	1`	$195,000
3536	19994	6	1	1	$325,000
2983	9365	5	0	1	$230,000

3198	9669	5	1	1	???

Хорошей новостью является (и может быть плохой новостью, в зависимости от ваших собственных взглядов), что вышеприведенное краткое введение в регрессионную модель коснулось всего лишь меха, и такого рода прикосновения даже не будут замечены. Есть университетские курсы, которые вы можете выбрать по моделям регрессии, которые научат вас больше информации о моделях регрессии, даже больше, чем вы хотите знать. Но наше введение познакомит вас с этой концепцией, которой достаточно для ознакомления с WEKA в этой статье. Если у вас есть более глубокий интерес к деталям регрессионных моделей и статистики данных, вы можете использовать свою любимую поисковую систему для поиска следующих терминов: наименьших квадратов, гомоскедастичности, нормального распределения, тестов Белого, тестов Лиллифорса, R-квадратов и p-значений ,

Создание набора данных для WEKA

Чтобы загрузить данные в WEKA, мы должны поместить данные в понятный нам формат. WEKA рекомендует, чтобы формат загружаемых данных был формат файла атрибута-отношения (ARFF), где вы можете определить тип загружаемых данных, а затем предоставить сами данные. В этом файле мы определяем каждый столбец и что он содержит. Для моделей регрессии может быть толькоNUMERICилиDATEКолонна. Наконец, предоставьте каждую строку данных в формате через запятую. Файлы ARFF, которые мы используем для WEKA, показаны ниже. Обратите внимание, что мой дом не включен в строку данных. Поскольку мы создаем модель, цена моего дома еще не известна, поэтому мы пока не можем войти в мой дом.

Листинг 1. Формат файла WEKA

@RELATION house

@ATTRIBUTE houseSize NUMERIC

@ATTRIBUTE lotSize NUMERIC

@ATTRIBUTE bedrooms NUMERIC

@ATTRIBUTE granite NUMERIC

@ATTRIBUTE bathroom NUMERIC

@ATTRIBUTE sellingPrice NUMERIC

@DATA

3529,9191,6,0,0,205000

3247,10061,5,1,1,224900

4032,10150,5,0,1,197900

2397,14156,4,1,0,189900

2200,9600,4,0,1,195000

3536,19994,6,1,1,325000

2983,9365,5,0,1,230000

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

Загрузить данные в WEKA

После того, как данные созданы, мы можем начать создавать нашу регрессионную модель. Запустите WEKA и выберитеExplorer, Появится экран проводника, гдеPreprocessВкладка выбрана. выбратьOpen FileНажмите кнопку и выберите файл ARFF, созданный в предыдущем разделе. После выбора файла WEKA Explorer должен выглядеть примерно так, как показано на рисунке 3.

Рисунок 3. WEKA после загрузки данных дома

С этой точки зрения WEKA позволяет вам обращаться к обрабатываемым данным. В левой части окна проводника указаны все столбцы ваших данных (атрибуты) и количество предоставленных строк данных (экземпляры). Если вы выберете столбец, в правой части окна проводника будет отображаться информация об этом столбце данных в наборе данных. Например, выбрав слеваhouseSizeСтолбец (его следует выбрать по умолчанию), правая часть экрана изменится для отображения статистической информации о столбце. Это показывает, что максимальное значение этого столбца в наборе данных составляет 4032 квадратных фута, а минимальное значение - 2200 квадратных футов. Средний размер составляет 3131 квадратный фут, а стандартное отклонение составляет 655 квадратных футов (стандартное отклонение является статистическим показателем, который описывает разницу). Кроме того, есть визуальные средства для просмотра данных, нажмитеVisualize AllКнопка. Из-за ограниченного числа строк в этом наборе данных функция визуализации не так эффективна, как при наличии большего количества точек данных (например, сотен).

Ну, есть достаточно введений в данные. Давайте немедленно создадим модель, чтобы узнать цену моего дома.

Создать регрессионную модель с WEKA

Чтобы создать эту модель, нажмитеClassifyTab. Первым шагом является выбор модели, которую мы хотим создать, чтобы WEKA знала, как обрабатывать данные и как создать подходящую модель:

щелчокChooseКнопка, затем развернитеfunctionsОтделение.
выбратьLinearRegressionЛистья.

Это говорит WEKA, что мы хотим построить регрессионную модель. Кроме того, есть много других опций, которые показывают, что существует множество моделей, которые можно создавать. Очень сильно! Это также показывает из другого аспекта, что эта статья только представляет мех этой темы. Стоит отметить одну вещь. В той же ветке есть еще один вариант, который называетсяSimpleLinearRegression, Пожалуйста, не выбирайте эту опцию, потому что простая регрессия может иметь только одну переменную, а у нас шесть переменных. После выбора правильной модели WEKA Explorer должен выглядеть примерно так, как показано на рисунке 4.

Рисунок 4. Модель линейной регрессии в WEKA

Могу ли я использовать электронные данные для выражения той же цели?

Короче говоря: нет. Вдумчивый ответ: да. Большинство популярных программ для работы с электронными таблицами не могут легко завершить функцию, которую мы реализовали с помощью WEKA, а именно определить линейную модель с несколькими независимыми переменными. Тем не менее, выможетОчень просто реализовать модель простой линейной регрессии (с независимой переменной). Если у вас достаточно смелости, вы можете даже выполнить многомерную регрессию, но это будет очень сложно и определенно не так просто, как WEKA. В разделе [Ссылка] этой статьи приведен пример видео Microsoft Excel.

Теперь, после выбора нужной модели, мы должны сообщить WEKA, где ей следует использовать данные для создания этой модели. Хотя очевидно, что мы хотим использовать данные, представленные в файле ARFF, на самом деле есть разные варианты выбора, а некоторые даже более продвинуты, чем те, которые мы будем использовать. Другие три варианта:Supplied test setПозволяет предоставить другой набор данных для построения модели;Cross-validationПозвольте WEKA построить модель на основе подмножества предоставленных данных, а затем усреднить их, чтобы создать окончательную модель;Percentage splitWEKA использует один процент данных, предоставленных для построения окончательной модели. Эти разные опции очень полезны для разных моделей, и мы увидим это в последующих статьях этой серии. Для регрессии мы можем просто выбратьUse training set, Это говорит WEKA использовать данные, которые мы предоставили в файле ARFF, для построения желаемой модели.

Последний шаг в создании модели - это выбор зависимой переменной (т. Е. Столбца, который мы хотим предсказать). В данном случае это относится к цене продажи дома, потому что это то, что мы хотим. Чуть ниже этих параметров теста есть поле со списком, которое вы можете использовать для выбора этой зависимой переменной. рядsellingPriceЭто должно быть выбрано по умолчанию. Если нет, пожалуйста, выберите его.

Когда мы будем готовы создать модель, нажмитеStart, На рисунке 5 показан результат.

Рисунок 5. Модель регрессии цен на жилье в WEKA

Разобрать эту регрессионную модель

ВЕКА не небрежный. Эта модель регрессии будет помещена непосредственно в вывод, как показано в листинге 2.

Листинг 2. Результат регрессии

(7.0551 * lotSize) +

(43166.0767 * bedrooms) +

(42292.0901 * bathroom)

- 21661.1208

1
2
3
4

В листинге 3 показаны результаты, где была указана цена моего дома.

Листинг 3. Цены на жилье с использованием регрессионных моделей

sellingPrice = (-26.6882 * 3198) +

(7.0551 * 9669) +

(43166.0767 * 5) +

(42292.0901 * 1)

- 21661.1208

sellingPrice = 219,328

1
2
3
4
5
6
7

Однако, оглядываясь назад на начало этой статьи, мы знаем, что интеллектуальный анализ данных - это вовсе не просто вывод числового значения: речь идет об идентификации шаблонов и правил. Он не используется строго для генерации абсолютного значения, но для создания модели, которая позволяет выявлять закономерности, прогнозировать результаты и делать выводы на основе этих данных. Давайте сделаем еще один шаг и интерпретируем закономерности и выводы, которые наша модель сообщает нам в дополнение к ценам на жилье:

Гранит не имеет значения- WEKA будет использовать только те столбцы, которые статистически влияют на правильность модели (измеряется в R-квадрате, но это выходит за рамки данной статьи). Он будет отбрасывать и игнорировать те столбцы, которые не помогают созданной модели. Так что эта модель регрессии
Скажите нам, что гранит на кухне не влияет на стоимость дома.
Ванная комната связана- Поскольку мы используем простое значение 0 или 1 для ванной комнаты, мы можем использовать этот коэффициент из регрессионной модели, чтобы определить влияние этой стоимости ванной комнаты на стоимость дома. Эта модель говорит нам, что она увеличила стоимость дома на 42 292 доллара.
Большие дома имеют более низкие цены- WEKA говорит нам, что чем больше дом, тем ниже цена продажи? Это можно сделать изhouseSizeОтрицательные коэффициенты перед переменными можно увидеть. Эта модель говорит нам, что каждый дополнительный квадратный фут дома будет снижать цены на жилье на $ 26? Это не имеет никакого смысла. Это в Америке! Конечно, чем больше дом, тем лучше, особенно в Техасе. Итак, как мы можем это объяснить? Это хороший пример бесполезного ввода данных и бесполезного вывода данных. Размер дома не является независимой переменной, он также связан с переменной спальни, потому что дом обычно большой и в нем много спален. Так что наша модель не идеальна. Но мы можем решить эту проблему. Помните: вPreprocessВкладки, вы можете удалить столбцы из набора данных. Для этого примера мы удаляемhouseSizeПеречислите и создайте другую модель.
Так как это влияет на цену дома? Как эта новая модель более практична? (Пересмотренная цена моего дома: 217 894 $).

Совет для статистиков

Эта модель нарушает некоторые требования обычной модели линейной регрессии, поскольку каждый столбец не является полностью независимым, и не хватает строк данных для создания эффективной модели. Поскольку основная цель этой статьи - представить WEKA в качестве инструмента интеллектуального анализа данных, мы значительно упростили пример данных.

Чтобы перевести этот простой пример на новый уровень, давайте взглянем на файл данных, предоставленный нам в качестве примера регрессии на веб-сайте WEKA. Теоретически, это гораздо сложнее, чем простой пример наших семи домов. Цель этого образца файла данных состоит в том, чтобы создать регрессионную модель, которая может оценивать расход топлива (миль на галлон, MPG) на основе нескольких характеристик автомобиля (обязательно помните, что данные были взяты с 1970 по 1982 годы). Эта модель включает в себя следующие атрибуты автомобиля: цилиндр, рабочий объем, мощность, вес, ускорение, год, место происхождения и производитель. Кроме того, этот набор данных содержит 398 строк данных, которых достаточно для удовлетворения наших различных статистических потребностей, чего нельзя достичь в нашей модели цен на жилье. Теоретически, это чрезвычайно сложная модель регрессии, и WEKA может потребоваться много времени для создания модели с таким большим количеством данных (но я предполагаю, что вы предвидели, что WEKA может хорошо обрабатывать эти данные).

Чтобы использовать этот набор данных для генерации регрессионной модели, нам нужно обрабатывать данные строго в соответствии с шагами по обработке собственных данных, поэтому я не буду повторять их здесь. Идите вперед и создайте эту модель регрессии. Он выдаст результат, показанный в листинге 4.

Листинг 4. Модель регрессии данных MPG

class (aka MPG) =

-2.2744 * cylinders=6,3,5,4 +

-4.4421 * cylinders=3,5,4 +

6.74 * cylinders=5,4 +

0.012 * displacement +

-0.0359 * horsepower +

-0.0056 * weight +

1.6184 * model=75,71,76,74,77,78,79,81,82,80 +

1.8307 * model=77,78,79,81,82,80 +

1.8958 * model=79,81,82,80 +

1.7754 * model=81,82,80 +

1.167 * model=82,80 +

1.2522 * model=80 +

2.1363 * origin=2,3 +

37.9165

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

Когда вы создадите эту модель самостоятельно, вы увидите, что WEKA обработала модель менее чем за секунду. Поэтому, даже если вы имеете дело с мощной регрессионной моделью с большим объемом данных, это не проблема с точки зрения расчета. Эта модель должна выглядеть намного сложнее, чем данные дома, но это не так. Например, первая строка этой модели регрессии,-2.2744 * cylinders=6,3,5,4Сказал, что если у машины 6 цилиндров, в этой колонке будет указано 1, если у машины 8 цилиндров, будет 0. Давайте возьмем пример строки (строка 10) из этого набора данных и поместим эти значения в регрессионную модель, чтобы увидеть, похожи ли выходные данные нашей модели на выходные данные, предоставленные нам в наборе данных.

Листинг 5. Пример данных MPG

data = 8,390,190,3850,8.5,70,1,15

class (aka MPG) =

-2.2744 * 0 +

-4.4421 * 0 +

6.74 * 0 +

0.012 * 390 +

-0.0359 * 190 +

-0.0056 * 3850 +

1.6184 * 0 +

1.8307 * 0 +

1.8958 * 0 +

1.7754 * 0 +

1.167 * 0 +

1.2522 * 0 +

2.1363 * 0 +

37.9165

Expected Value = 15 mpg

Regression Model Output = 14.2 mpg

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

Поэтому, когда мы тестируем эту модель со случайно выбранными тестовыми данными, эта модель работает очень хорошо: для автомобиля с фактическим значением 15 миль на галлон наше прогнозируемое значение составляет 14,2 миль на галлон.

вывод

В этой статье мы попытаемся ответить на вопрос «что такое интеллектуальный анализ данных», познакомив вас с общей информацией о теме интеллектуального анализа данных и целях этой области. Интеллектуальный анализ данных предназначен для создания большого количества непригодной информации (обычно в виде разбросанных данных) в полезную информацию путем создания моделей и правил. Ваша цель - использовать модели и правила для прогнозирования будущего поведения, чтобы улучшить свой бизнес, или объяснить вещи, которые вы не можете объяснить другими способами. Эти модели могут помочь вам подтвердить определенные идеи, которые у вас уже есть, и даже могут позволить вам обнаружить новые вещи в данных, которые вы не реализовали раньше. Вот интересный пример интеллектуального анализа данных (я не знаю, сколько подобных случаев существует). В Соединенных Штатах Walmart переместит пиво к концу полки с подгузниками в выходные дни. Это связано с тем, что результаты интеллектуального анализа данных Walmart показывают, что мужчины обычно Покупайте подгузники на выходных, а также они любят пить пиво на выходных.

Эта статья также знакомит вас с бесплатной программой с открытым исходным кодом WEKA. Конечно, на рынке есть много более сложных коммерческих программных продуктов для интеллектуального анализа данных, но для тех, кто только начинает интеллектуальный анализ данных, это решение с открытым исходным кодом очень полезно. Помните, что вы никогда не сможете стать экспертом в области интеллектуального анализа данных, если не планируете изучать его в течение 20 лет. WEKA может позволить вам войти в возможности интеллектуального анализа данных и в то же время может предложить идеальные решения для основных проблем, с которыми вы сталкиваетесь. Если у вас раньше не было возможности извлечения данных, это очень хорошее решение удовлетворит все ваши потребности.

Наконец, в этой статье исследуется первая модель интеллектуального анализа данных: модели регрессии (особенно многомерные модели линейной регрессии), а также показано, как использовать ее в WEKA. Эта регрессионная модель проста в использовании и может использоваться во многих наборах данных. Вы найдете эту модель наиболее полезной из всех моделей, которые я обсуждал в этой серии статей. Однако интеллектуальный анализ данных не ограничивается простой регрессией: в случае разных наборов данных и разных требований к выходным данным вы обнаружите, что другие модели могут быть лучшим решением.

Наконец, позвольте мне повторить, что эта статья и последующие статьи этой серии являются лишь самым простым введением в области статистики данных и интеллектуального анализа данных. Людей, которые проводят целый семестр, изучая статистику данных и анализ данных, можно назвать только «начинающими». Наша цель - дать новичкам возможность полностью оценить всю прелесть этого доступного инструмента с открытым исходным кодом и улучшить понимание и внимание к ценности, которую может обеспечить интеллектуальный анализ данных.
скачати

© Усі права захищені
написати до нас