小澤昌樹氏のデータ分析コラム
-
第16回「scikit-learnの使い方(2)カテゴリ変数のエンコーディングと特徴量の正規化」
こんにちは、小澤です。今回も引き続き、「scikit-learn」における前処理について解説していきます。今回は、機械学習モデルの性能に大きな影響を与える2つの前処理として、「カテゴリ変数のエンコーディング」と「特徴量の正規化」を取り上げ、それぞれの実装方法と活用方法について説明します。…
-
第15回「scikit-learnの使い方(1)欠損値への対応」
こんにちは、小澤です。今回から、Pythonで機械学習を行うためのライブラリ「scikit-learn」について解説します。scikit-learnは、データの前処理、モデルの構築、評価といった機械学習の一連のプロセスを効率的に実行できるライブラリです。線形回帰やサポートベクターマシン、決…
-
第14回「Matplotlibの使い方」
こんにちは、小澤です。今回は、Matplotlibについて紹介します。Matplotlibは、Pythonのデータ可視化ライブラリとして広く使用されており、データを視覚的に表現・分析するための非常に強力なツールです。このライブラリを活用することで、多様なグラフを簡単に作成できます。また、N…
-
第13回「pandasの使い方(3)時系列データ、欠損値処理、データ連結、統計データ」
こんにちは、小澤です。データ分析は現代のビジネスや科学研究において不可欠なスキルとなっており、膨大なデータを効率よく操作・分析するためのツールとして、pandasは非常に強力です。pandasを活用することで、データの整理、加工、集計といった基本的な作業が簡便かつ迅速に行えるようになります…
-
第12回「pandasの使い方(2)データの読み込み、書き込み、整形」
こんにちは、小澤です。前回から、データ分析を行うためのライブラリであるpandasを取り上げています。pandasは、データの入手や加工など多くのデータ処理に使われています。今回説明するのは、pandasでのデータの読み込み、書き込み、整形です。教科書『Pythonによる新しいデー…
-
第11回「pandasの使い方(1)」
こんにちは、小澤です。前回まで、数値計算に特化したサードパーティ製のライブラリであるNumPyについて説明してきました。NumPyは、その強力な機能と柔軟性から、Pythonでの科学計算やデータ分析における必須のツールとなっています。使い方をぜひマスターしてください。さて、今回から…
-
第10回「NumPyによるデータ分析(6)振り返り」
こんにちは、小澤です。今回は、これまで説明したNumPyについて、基本的な使い方から応用的な機能の復習をしましょう。教科書『Pythonによる新しいデータ分析の教科書(第2版)』の4.1章「NumPy」(92ページ〜134ページ)の部分です。NumPyの基本NumPyは、P…
-
第9回「NumPyによるデータ分析(5)」
こんにちは、小澤です。前回は、NumPyの有力な機能であるブロードキャストについてと、配列の掛け算について説明しました。今回は、NumPyにおける真偽値と比較、また、NumPy配列の関数とPythonリストのメソッドの違いについて説明していきましょう。教科書『Pythonによる新しいデータ…
-
第8回「NumPyによるデータ分析(4)」
こんにちは、小澤です。前回は、NumPyの応用機能として、サンプル配列を用いた関数について学びました。今回も引き続き、NumPyの応用機能について学んでいきましょう。教科書『Pythonによる新しいデータ分析の教科書(第2版)』の4.1.3章「NumPyの各機能」ではブロードキャストと配列…