Проекты машинного обучения требуют учебных данных, которые размечены и аннотированы, чтобы научить алгоритмы сопоставлять входные данные с выходными функциями. Учебные данные для машинного обучения включают в себя текстовые данные для NLP, аудио для обучения разговору ИИ, изображения и видео для проектов компьютерного зрения (CV) и различную статистику для всех задач классификации и регрессии.
Наборы данных также используются в машинном обучении без учителя, часто для анализа исследовательских данных; иерархической кластеризации, кластеризации K-средних, моделей смесей гауссовых распределений, анализа основных компонентов и т. д.
В любой из этих ситуаций вам может понадобиться наборы данных. Даже если вы создаете модель, используя свои собственные данные, часто полезно протестировать ее с помощью общедоступных или открытых наборов данных.
Эта статья по поиску датасетов.
При поиске наборов данных важно провести различие между данными, которые подходят для исследования и анализа (с применением машинного обучения или без него), и данными, подходящими для учебных моделей.
Учебные данные для контролируемого машинного обучения должны быть обработанными и структурированными. Эти наборы данных должны быть размечены или аннотированы, чтобы можно было бы провести обучение.
Разметка данных - это процесс применения аннотаций или указателей к данным в виде ограничительной рамок, полигонов, сегментации пикселей, маскировки и других типов меток. Кроме того, наборы данных для учебных моделей могут содержать как учебный набор, так и тестовый набор.
Для проектов NLP, например, распознавания именованных сущностей или анализа настроений, есть много способов подготовить текст для алгоритмов, помечая слова, фразы, грамматику, синтаксис и другие лингвистические компоненты отдельно или сокращая текст до «мешка слов». Вы также можете комбинировать обучение без учителя для сортировки и очистки текстовых данных для автоматического извлечения элементов без маркировки. Аналогичные концепции применимы к числовым или звуковым данным.
По сути, у всех данных есть что-то общее. Но если вы обучаете модели, вам понадобятся чистые данные, которые хорошо структурированы и помечены. Также, если вы анализируете только данные (например, импортируете их в панель управления для визуализации), то вам понадобятся всего лишь чистые данные и не нужно будет ничего маркировать.
Не все наборы данных построены одинаково. Поскольку наборы данных по своей сути конечны и ограничены количеством выборок, важно понимать, что на самом деле делает набор данных подходящим для конкретного проекта.
Хотя в целом верно, что больше данных значит лучше, в машинном обучении вам также необходимо учитывать компромисс между предвзятостью и дисперсией, который помогает получить точные модели. Для анализа важно получить достаточное количество данных, чтобы достичь надежного вывода с высокой степенью достоверности.
В обоих случаях вы можете генерировать новые данные из старых данных и даже «смешивать» некоторые шумные или аномальные данные, если ваш набор слишком прост или разряжен. Кроме того, сами данные должны быть качественными и чистыми. Хотя многие из наборов данных, включенных в эту статью, предназначены для науки о данных, все же разумно проверять их качество. Когда дело доходит до использования самодельных или добытых данных, вам нужно будет очистить и нормализовать свои данные.
Предвзятость преследует проекты машинного обучения. Например, ИИ по набору персонала Amazon был перенастроен после того, как это привело к предрассудкам при найме в отношении женщин. Почему? Потому что используемые данные при обучении были предвзятыми и нерепрезентативными, в основном потому, что они были основаны на периоде, когда поведение мужчин изменилось в следствии новых технических правил. В 2021 году Google уволил двух исследователей ИИ, Тимнита Гебру и Маргарет Митчелл, отчасти потому, что они высказались против участия в исследованиях ИИ. Беспилотные транспортные средства также столкнулись с многочисленными проблемами с распознаванием темнокожих пешеходов, опять же потому, что данные о тренировках были нерепрезентативными.
Если вы ищете наборы данных для исследований, анализа или машинного обучения, то предвзятость - это постоянная проблема, которую должен учитывать исследователь. Это верно независимо от того, приступаете ли вы к коммерческим проектам или проводите академические или экспериментальные исследования.
В следующем разделе будут представлены наборы данных и рекомендации по интеллектуальному анализу. Наборы данных разбиты по категориям на:
Ниже приведены общие или смешанные наборы данных и репозитории. Большая часть этих данных подходит для анализа и исследований, но некоторые из них могут быть использованы для машинного обучения или многих других проектов.
Многие страны предоставляют доступ к определенным данным государственного сектора и правительства:
Большая часть этих данных доступна в различных форматах, таких как JSON, XML, CSV, HTML и т. д. Например, Великобритания предоставляет данные обо всем, от окружающей среды, здравоохранения и преступности до государственных расходов, транспорта, обороны и образования. Большая часть этих данных отлично подходит для академических исследований и для анализа данных. Существует также возможность использования некоторых из этих данных в машинном обучении. Некоторые, такие как сингапурская база данных, включают в себя отличные визуализации.
Kaggle является наиболее известным и хорошо используемым источником данных. На сайте насчитывается более 20 000 общедоступных наборов данных, охватывающих все: от цифр и статистики до текста, аудио и компьютерного зрения. Каждый набор данных хорошо классифицирован, а интерфейс проекта дружелюбен к пользователям. Не все наборы данных Kaggle являются открытыми или общедоступными.
Хорошая библиотека наборов данных размещается на GitHub. Это отличный источник датасетов для научных проектов различного рода, но там вы можете найти широкий спектр данных, охватывающих все: от экономики до энергетики, финансов, поисковых систем, спорта и языка. Существуют наборы данных, разработанные специально для машинного обучения.
Academic Torrents - это платформа для обмена данными, которая использует протокол BitTorrent. Она является открытым хранилищем всевозможных датасетов, охватывающее практически все, что вы можете придумать. На сайте около 83 ТБ данных!
Сервис Google Dataset Search позволяет пользователям искать датасеты из огромного количества наборов данных, загруженных в тысячи репозиториев в Интернете. Это отличная отправная точка для многих проектов в области науки о данных или академических исследований.
Это коллекция бесплатных наборов данных Microsoft, которая охватывает области NLP, компьютерного зрения и т.п. Там не так много наборов данных, но они в основном высококачественные и готовы к использованию для различных целей машинного обучения или анализа.
Набор данных ВОЗ по глобальному здравоохранению. Охватывает все, от COVID-19 до фертильности, загрязнения воздуха, питания, материнского здоровья, здоровья ребенка, рака и т. д. Больше об искусственном интеллекте в здравоохранении здесь.
Медиа-платформа и платформа данных FiveThirtyEight для анализа опросов общественного мнения, политики, экономики и спорта. Содержит широкий спектр данных, ориентированных на США.
Наборы данных BigQuery для публичного использования. Работает с Google Cloud.
Ниже приведены наборы данных для проектов компьютерного зрения. Некоторые из них данных предварительно маркированы.
Ниже приведены наборы данных для задач NLP. Некоторые из этих данных могут быть использованы для обучения чат-ботов или разговорных ИИ. Некоторые НЛП и связанные с ним задачи включают классификацию текста, ответы на вопросы, аудио-обобщение, перевод или субтитры к изображениям.
Наборы аудиоданных необходимы для создания ИИ распознавания речи, разговорных ИИ и других ИИ. Некоторые наборы данных содержат звуки, классифицированные по эмоциям. Другие включают окружающий или фоновый шум.
Найти датасеты для Data Science-проектов достаточно просто, но необходимо немного поискать и отсортировать данные и убедиться, что они чисты и пригодны для использования для вашего проекта. Важно обращать внимание на условия использования данных, если вы планируете публиковать свою модель, защитить ее авторским правом или иным образом назвать ее своей интеллектуальной собственностью.
Хотя самой целью открытых и общедоступных наборов данных является свобода от механизмов контроля, важно соблюдать правила, когда вы используете более общие наборы данных из общедоступных репозиториев.
Если вы являетесь ученым, студентом или исследователем, проведите должную осмотрительность на основе вашего конкретного проекта. Однако если вы являетесьы являетесь бизнесом, организацией или другой коммерческой структурой - возможно, было бы разумно обратиться за юридической помощью, если вы не уверены, как используемые вами данные лицензируются или контролируются.