web-dev-qa-db-ja.com

センチメント分析に適したデータセットですか?

私は感情分析に取り組んでおり、次のリンクにあるデータセットを使用しています:http://www.cs.jhu.edu/~mdredze/datasets/sentiment/index2.htmlとデータセットを50:50の比率に分割しました。 50%はテストサンプルとして使用され、50%は列車サンプルおよび列車サンプルから抽出された特徴として使用され、Weka分類器を使用して分類を実行しますが、予測精度は約70-75%です。

誰かが私が結果を増やすのに役立つ他のデータセットを提案できますか?私はユニグラム、バイグラム、POSタグを機能として使用しました。

16
user3512562

センチメント分析データセットを取得するには、多くのソースがあります。

とにかく、コーパスがデータセットとは非常に異なる可能性があるため、現在のデータセットの精度を向上させるのに役立つとは限りません。テストの割合とトレーニングを減らすこととは別に、他の分類器をテストするか、CVParameterSelectionやGridSearchのような半自動化されたラッパーを使用してすべてのハイパーパラメーターを微調整します。

50/50を使用することは非常にまれであり、80/20は非常に一般的な比率です。より良い方法は、トレーニングに60%、相互検証に20%、テストに20%を使用することです。

26
doxav

私は感情分析ツール/データセット/レキシコンを1か所に集め始めました。あなたにとっても役立つかもしれません: https://github.com/laugustyniak/awesome-sentiment-analysis

あなたが何かを追加したい場合、または私に書き込みたい場合はPRを開始してください。私はAmazonデータ[何百万件ものレビュー]で多くの仕事をしました。

3
l.augustyniak

以下は、個々の単語の感情を示すデータセットのリストです。 http://positivewordsresearch.com/sentiment-analysis-resources/

0
Default picture