改行記号を残しながら、スクレイピングしたかったんや。

A8バナー広告

以前、てっとり早いスクレイピングについて書いた記事の続き。

この記事で書くこと

  • 場面で改行記号を残さなければいけない場面の紹介
  • 改行記号残しながらスクレイピングする方法

結論だけ書くと

こうする

スクレイピングで改行って残さないといけないの?

テキスト獲得後の用途に依存することが大きいですけど、でも「ある」が回答。

では、「段落」が大きな意味を持ってることが多いです(もちろんそうでないことある)

例えば談話解析では、段落がひとつのトピックを形成してると考えるので、段落を1単位として考えることも多いです(深層学習より前の時代はそうだった。いまは知らない)

じゃあ、HTMLで段落ってどうやって表現されるかというと、よく見るパターンは以下の3パターンかな、と。


  • で表現

これはぼくが無知だったこと。BeautifulsoupでHTML解析すると、<br>って「削除」になってしまうんですよね。

そして、これが標準仕様。

つまり、気が付かないうちに<br>が削除されてしまう。

じゃあ、どうすればいいか?という、こうする!

Beautifulsoupに解析かける前に<br/>をすべて \n に置換してしまう。これなら削除されることもない。

雑だけど、「てっとり早いスクレイピング」にはこれで十分。

おしまい。