HTML 태그와 개행문자를 포함한 내용 찾기 정규표현식


요약 서비스를 만들고 있다.

아무래도 개발자 블로그를 많이 보다보니까 테스트를 했는데, 요약 내용에 죄다 코드가 나오더라.

요약 서비스의 알고리즘에 연관성이 있는 녀석을 찾는게 있는데 사실 코드만큼 서로 연관 있는 것도 없을거다.

그래서 수정에 들어갔다.

코드는 대부분 pre 또는 code 태그안에 들어있어서 그 안에 있는 내용을 모두 찾는 정규표현식을 사용했다.

<pre.*?</pre>

이렇게 해놓고 잘했다고 좋아하고 있었는데… 일반적인 태그는 다 체크가 된다. 근데 pre에는, 그니까 코드에는 대부분 개행문자가 들어있다.

근데 이러면 개행문자는 확인을 못한다.

한참을 고생해서 만든게 아래와 같은 식이다.

너무 간단해보여서 식은 안세웠는데 생각보다 오래걸렸다.

<pre([^])*?.*?<\/pre>

이거 만드느라 고생했다. 정규식은 아직도 어렵다.

정규식은 따로 정리를 한번 해보려한다.




© 2017. by isme2n

Powered by aiden