Источники данных для Data Science проектов

Источники датасетов, классифицированные по способу использования

Проекты машинного обучения требуют учебных данных, которые размечены и аннотированы, чтобы научить алгоритмы сопоставлять входные данные с выходными функциями. Учебные данные для машинного обучения включают в себя текстовые данные для NLP, аудио для обучения разговору ИИ, изображения и видео для проектов компьютерного зрения (CV) и различную статистику для всех задач классификации и регрессии.


Наборы данных также используются в машинном обучении без учителя, часто для анализа исследовательских данных; иерархической кластеризации, кластеризации K-средних, моделей смесей гауссовых распределений, анализа основных компонентов и т. д.


В любой из этих ситуаций вам может понадобиться наборы данных. Даже если вы создаете модель, используя свои собственные данные, часто полезно протестировать ее с помощью общедоступных или открытых наборов данных.


Эта статья по поиску датасетов.

Данные для анализа и машинного обучения

При поиске наборов данных важно провести различие между данными, которые подходят для исследования и анализа (с применением машинного обучения или без него), и данными, подходящими для учебных моделей.


Учебные данные для контролируемого машинного обучения должны быть обработанными и структурированными. Эти наборы данных должны быть размечены или аннотированы, чтобы можно было бы провести обучение.

Размеченные или аннотированные данные

Разметка данных - это процесс применения аннотаций или указателей к данным в виде ограничительной рамок, полигонов, сегментации пикселей, маскировки и других типов меток. Кроме того, наборы данных для учебных моделей могут содержать как учебный набор, так и тестовый набор.


Для проектов NLP, например, распознавания именованных сущностей или анализа настроений, есть много способов подготовить текст для алгоритмов, помечая слова, фразы, грамматику, синтаксис и другие лингвистические компоненты отдельно или сокращая текст до «мешка слов». Вы также можете комбинировать обучение без учителя для сортировки и очистки текстовых данных для автоматического извлечения элементов без маркировки. Аналогичные концепции применимы к числовым или звуковым данным.


По сути, у всех данных есть что-то общее. Но если вы обучаете модели, вам понадобятся чистые данные, которые хорошо структурированы и помечены. Также, если вы анализируете только данные (например, импортируете их в панель управления для визуализации), то вам понадобятся всего лишь чистые данные и не нужно будет ничего маркировать.

Определение качества датасетов

Не все наборы данных построены одинаково. Поскольку наборы данных по своей сути конечны и ограничены количеством выборок, важно понимать, что на самом деле делает набор данных подходящим для конкретного проекта.

1 Убедитесь, что у вас дстаточно высококачественных данных

Хотя в целом верно, что больше данных значит лучше, в машинном обучении вам также необходимо учитывать компромисс между предвзятостью и дисперсией, который помогает получить точные модели. Для анализа важно получить достаточное количество данных, чтобы достичь надежного вывода с высокой степенью достоверности.


В обоих случаях вы можете генерировать новые данные из старых данных и даже «смешивать» некоторые шумные или аномальные данные, если ваш набор слишком прост или разряжен. Кроме того, сами данные должны быть качественными и чистыми. Хотя многие из наборов данных, включенных в эту статью, предназначены для науки о данных, все же разумно проверять их качество. Когда дело доходит до использования самодельных или добытых данных, вам нужно будет очистить и нормализовать свои данные.

2 Убедитесь, что ваши данные беспристрастны

Предвзятость преследует проекты машинного обучения. Например, ИИ по набору персонала Amazon был перенастроен после того, как это привело к предрассудкам при найме в отношении женщин. Почему? Потому что используемые данные при обучении были предвзятыми и нерепрезентативными, в основном потому, что они были основаны на периоде, когда поведение мужчин изменилось в следствии новых технических правил. В 2021 году Google уволил двух исследователей ИИ, Тимнита Гебру и Маргарет Митчелл, отчасти потому, что они высказались против участия в исследованиях ИИ. Беспилотные транспортные средства также столкнулись с многочисленными проблемами с распознаванием темнокожих пешеходов, опять же потому, что данные о тренировках были нерепрезентативными.


Если вы ищете наборы данных для исследований, анализа или машинного обучения, то предвзятость - это постоянная проблема, которую должен учитывать исследователь. Это верно независимо от того, приступаете ли вы к коммерческим проектам или проводите академические или экспериментальные исследования.

Лучшие наборы данных для Data Science и Machine Learning

В следующем разделе будут представлены наборы данных и рекомендации по интеллектуальному анализу. Наборы данных разбиты по категориям на:


  • Изображения и видео для различных проектов компьютерного зрения.
  • Текст для NLP.
  • Аудио, для разговорного ИИ и распознавания голоса.
  • Общие наборы данных для различных проектов и задач.

1 Общие наборы данных

Ниже приведены общие или смешанные наборы данных и репозитории. Большая часть этих данных подходит для анализа и исследований, но некоторые из них могут быть использованы для машинного обучения или многих других проектов.

Правительственные наборы данных

Многие страны предоставляют доступ к определенным данным государственного сектора и правительства:


Большая часть этих данных доступна в различных форматах, таких как JSON, XML, CSV, HTML и т. д. Например, Великобритания предоставляет данные обо всем, от окружающей среды, здравоохранения и преступности до государственных расходов, транспорта, обороны и образования. Большая часть этих данных отлично подходит для академических исследований и для анализа данных. Существует также возможность использования некоторых из этих данных в машинном обучении. Некоторые, такие как сингапурская база данных, включают в себя отличные визуализации.

Kaggle

Kaggle является наиболее известным и хорошо используемым источником данных. На сайте насчитывается более 20 000 общедоступных наборов данных, охватывающих все: от цифр и статистики до текста, аудио и компьютерного зрения. Каждый набор данных хорошо классифицирован, а интерфейс проекта дружелюбен к пользователям. Не все наборы данных Kaggle являются открытыми или общедоступными.

GitHub

Хорошая библиотека наборов данных размещается на GitHub. Это отличный источник датасетов для научных проектов различного рода, но там вы можете найти широкий спектр данных, охватывающих все: от экономики до энергетики, финансов, поисковых систем, спорта и языка. Существуют наборы данных, разработанные специально для машинного обучения.

Academic Torrents

Academic Torrents - это платформа для обмена данными, которая использует протокол BitTorrent. Она является открытым хранилищем всевозможных датасетов, охватывающее практически все, что вы можете придумать. На сайте около 83 ТБ данных!

Google Dataset Search

Сервис Google Dataset Search позволяет пользователям искать датасеты из огромного количества наборов данных, загруженных в тысячи репозиториев в Интернете. Это отличная отправная точка для многих проектов в области науки о данных или академических исследований.

Microsoft Research Open Data

Это коллекция бесплатных наборов данных Microsoft, которая охватывает области NLP, компьютерного зрения и т.п. Там не так много наборов данных, но они в основном высококачественные и готовы к использованию для различных целей машинного обучения или анализа.

Global Health Observatory

Набор данных ВОЗ по глобальному здравоохранению. Охватывает все, от COVID-19 до фертильности, загрязнения воздуха, питания, материнского здоровья, здоровья ребенка, рака и т. д. Больше об искусственном интеллекте в здравоохранении здесь.

FiveThirtyEight

Медиа-платформа и платформа данных FiveThirtyEight для анализа опросов общественного мнения, политики, экономики и спорта. Содержит широкий спектр данных, ориентированных на США.

Google BigQuery Public Data

Наборы данных BigQuery для публичного использования. Работает с Google Cloud.

2 Наборы данных компьютерного зрения (CV)

Ниже приведены наборы данных для проектов компьютерного зрения. Некоторые из них данных предварительно маркированы.

Общедоступные наборы данных и датасеты с открытым исходным кодом

  1. Реестр открытых данных AWS - это база данных Amazon Web Services для открытых данных, которая в основном содержит данные изображений и статистику. Идеально подходит для проектов CV, построенных в AWS.
  2. CityScapes Dataset - Пиксельная сегментация изображений проектов CV уличных сцен.
  3. Набор данных COCO - набор данных Common Objects in Context, который в первую очередь ориентирован на распознавание объектов.
  4. EarthData - EarthData - это центр открытых наборов данных НАСА. Он содержит широкий спектр данных по наукам о Земле, охватывающих все, от науки о климате до космоса, строительства и сельского хозяйства.
  5. Fashion MNIST - Набор данных об одежде и моде с изображениями в оттенках серого.
  6. FloodNet - классификация изображений и набор данных о семантической сегментации для стихийных бедствий. Содержит изображения, сделанные беспилотными летательными аппаратами (БПЛА)
  7. ImageNet - большой набор данных изображений, предназначенных для распознавания объектов CV. ImageNet построен из базы данных WordNet.
  8. IMDB-Wiki - Содержит 500 тысяч лиц с возрастными и гендерными ярлыками.
  9. Кинетика - Набор данных Google Kinetics содержит массивные 650 000 видеоклипов о человеческих объектах и человеко-человеческих действиях.
  10. Labeled Faces in the Wild - набор данных о распознавании лиц, содержащий 13 000 лиц.
  11. Mapillary Vistas Dataset - высококачественный набор геопространственных и уличных данных для городской семантической сегментации. Содержит данные с большинства континентов.
  12. Набор данных MPII Human Pose - содержит 25 000 изображений, содержащих более 40 000 человек с аннотированными суставами тела.
  13. NYU Depth V2 - набор данных о объектах внутри помещений для семантической сегрегации.
  14. Места и места Массачусетского технологического института2 - Около 1,8 миллиона изображений, сгруппированных в 365 категорий сцен для распознавания объектов и других проектов резюме.
  15. Открытые изображения - огромная коллекция изображений с 16 миллионами ограничительной рамок для 600 классов объектов.
  16. StanfordCars - 16 185 изображений 196 классов автомобилей. Относительно устаревший и, возможно, лучше всего подходит для экспериментальных или исследовательских целей.
  17. Набор данных CIFAR-10 - большой набор данных, насчитывающих около 60 000 небольших изображений 32×32.
  18. VisualGenome - Подобно ImageNet, Visual Genome содержит изображения и связанные с ними слова.

3 Датасеты для обработки естественного языка

Ниже приведены наборы данных для задач NLP. Некоторые из этих данных могут быть использованы для обучения чат-ботов или разговорных ИИ. Некоторые НЛП и связанные с ним задачи включают классификацию текста, ответы на вопросы, аудио-обобщение, перевод или субтитры к изображениям.


  1. 20 групп новостей - содержит 20 000 документов, собранных из более чем 20 различных групп новостей. Охватывает широкий спектр тем с метаданными или без них.
  2. Cornell Movie-Dialogs Corpus - Включает в себя широкий спектр диалогов, извлеченных из фильмов.
  3. Словари для фильмов и финансов - Доменные словари для анализа настроений. Записи расположены с положительными или отрицательными коннотациями.
  4. Набор данных Enron -: Около 500 000 анонимных электронных писем от более чем 100 пользователей.
  5. Процедуры Европейского парламента параллельного корпуса: пары предложений из парламента ЕС. Это многоязычный ресурс примерно из 21 европейского языка.
  6. Индекс GitHub NLP - содержит ссылки на многие текстовые наборы данных.
  7. Google Blogger Corpus - около 700 000 сообщений в блоге от blogger.com.
  8. HotpotQA - набор данных для ответов на вопросы.
  9. Опасности - более 200 000 вопросов из американского телешоу.
  10. Набор данных отчетов о судебных делах - Резюме около 4000 различных судебных дел.
  11. Набор данных многодоменного анализа настроений - содержит обзоры Amazon для анализа настроений. Некоторые категории продуктов имеют тысячи записей.
  12. Набор данных OpinRank - содержит 300 000 отзывов для анализа настроений.
  13. Проект Гутенберг - Сборник литературных текстов. Много исторических работ на разных языках.
  14. Наборы данных Recommender Systems - Огромный спектр наборов данных, охватывающих все, от здоровья и фитнеса, видеоигр и данных песен до социальных сетей и обзоров. Содержит много меток и метаданных.
  15. Настроения 140 - 160 000 твитов для анализа настроений, организованных по полярности, дате, пользователю, тексту, запросу и идентификатору.
  16. SMS Spam Collection - для фильтрации спама. Содержит около 6000 сообщений, помеченных как законные или спам.
  17. Корпус WikiQA - большой набор пар вопросов и предложений с открытым исходным кодом. Взято из журналов запросов Bing и Википедии. Содержит около 3000 вопросов и более 29 000 ответов
  18. Поддержка Twitter - содержит около 3 миллионов твитов и ответов, в основном ориентированных на поддержку клиентов.
  19. Ubuntu Dialogue Corpus - около 1 миллиона разговоров о технической поддержке.
  20. WordNet - лексическая база данных на английском языке. Содержит огромный спектр существительных, глаголов, прилагательных и наречий, сгруппированных в наборы когнитивных синонимов.
  21. Данные языка Yahoo - наборы данных вопросов и ответов от Yahoo Answers.
  22. Yelp Reviews - Рейтинги и обзоры ресторанов.

4 Наборы аудиоданных

Наборы аудиоданных необходимы для создания ИИ распознавания речи, разговорных ИИ и других ИИ. Некоторые наборы данных содержат звуки, классифицированные по эмоциям. Другие включают окружающий или фоновый шум.


  1. AudioSet - база данных Google Research, насчитывающей около 2,1 миллиона аннотированных видео, 5,8 тысячи часов аудио в 527 классах.
  2. Экологический звук ESC - Аудиоданные 2000 экологических записей. Охватывает все, от животных до атмосферы и погодного шума.
  3. Наборы аудиоданных GitHub - Огромный выбор хорошо поддерживаемых наборов аудиоданных GitHub.
  4. LibriSpeech - Содержит около 1000 часов английской речи из аудиокниг.
  5. Набор данных LJ Speech - 13 100 клипов коротких отрывков из аудиокниг. Большинство из них включают одного оратора с транскрипцией.
  6. Набор данных о речи M-AI Labs - содержит около 1000 часов аудио с транскрипцией. Имеет несколько языков, а также как мужчин, так и женщин.
  7. База данных шумной речи - содержит как шумную, так и чистую параллельную речь. Используется для обучения и тестирования моделей распознавания речи для производительности с фоновым шумом и т. д.
  8. Spoken Wikipedia Corpora - Речь из статей Википедии на английском, немецком и голландском языках.
  9. TowardsDataScience имеет обширный список других наборов аудиоданных.

Выводы

Найти датасеты для Data Science-проектов достаточно просто, но необходимо немного поискать и отсортировать данные и убедиться, что они чисты и пригодны для использования для вашего проекта. Важно обращать внимание на условия использования данных, если вы планируете публиковать свою модель, защитить ее авторским правом или иным образом назвать ее своей интеллектуальной собственностью.


Хотя самой целью открытых и общедоступных наборов данных является свобода от механизмов контроля, важно соблюдать правила, когда вы используете более общие наборы данных из общедоступных репозиториев.

Если вы являетесь ученым, студентом или исследователем, проведите должную осмотрительность на основе вашего конкретного проекта. Однако если вы являетесьы являетесь бизнесом, организацией или другой коммерческой структурой - возможно, было бы разумно обратиться за юридической помощью, если вы не уверены, как используемые вами данные лицензируются или контролируются.

Нужен парсинг сайтов?