https://qiita.com/ukyo/items/287169de85576dfed608

最近、Webページからざっくりメインコンテンツっぽいものを探し出すプログラムを作成しましたので得られた知見についてまとめてみます。本文などの情報を利用せずに汎用的にメインコンテンツを探したかったので、Elementの位置、幅、高さ(以下rect)等の視覚的な情報を使用して抽出してみました。具体的には puppeteer でページをスクレイピングして各Elementの情報をまとめたツリー構造を作る ...