Qual é a diferença entre um conjunto de dados e um recurso?

Normalmente, o conjunto de dados se refere aos dados que você possui, ele é combinado de variáveis ​​dependentes e independentes. No jargão ML, conjunto de dados é o par (X, y) onde X se refere ao conjunto de variáveis ​​independentes e y é o destino. X também é chamado de conjunto de recursos. Além disso, usando variáveis ​​/ recursos do X, você pode gerar outros recursos também.

Por exemplo:

Suponha que tenhamos um problema de varejo em que você precise prever as vendas diárias de uma loja. Você tem dados diários da loja, como vendas diárias, se esse dia era feriado ou não, festival ou não, se ofertas / descontos estavam em exibição naquele dia.

Então X seria (data, feriado_ou_not, festival_ou_not, offer_running_or_not) e é um conjunto de recursos.

y seria vendas diárias.

Juntos (X, y) é o conjunto de dados.

Também usando recursos no X, você pode gerar outros recursos, como sales_on_same_day_last_week, average_monthly_sales etc. Estes, juntamente com o X, também serão chamados de conjunto de recursos.

Conjunto de dados = o conjunto de dados é inteiro

Os recursos compõem o conjunto de dados. O recurso explica o conjunto de dados

Se o conjunto de dados for uma matriz, um recurso será uma coluna nele.

Cada linha será um exemplo. Cada coluna será um recurso.