从HTML页面中解析URL
我有一个包含通过WinHttpReadData
下载的HTML页面的字符串。 字符串是一个简单的char*
。
我一直试图找到一种方法来只提取该页面上的URL。 举个例子,想象一下你正在谷歌搜索WinHTTP这个词,你会看到一个充满链接的HTML页面。 我现在需要检查每个链接,提取它并将其保存到文件中。
我尝试搜索HREF
, http://
和其他关键字然后尝试将字符串一直提取到但它并没有真正起作用。 获得该URL的描述(例如
some text
获得some text
)也会很好但是它并不像url本身。
这里棘手的是我不能使用第三方库,因为我不想处理许可证等。
关于如何做到这一点的任何想法? WinHTTP是否提供了这样做的方法? 在C( 不是 C ++)?
谢谢您的帮助
也许你应该选择PCRE C API(可在PCRE网站上找到 )
你需要的正则表达式如下:
这应该在组结构中映射组
和
。