从HTML页面中解析URL

我有一个包含通过WinHttpReadData下载的HTML页面的字符串。 字符串是一个简单的char*
我一直试图找到一种方法来只提取该页面上的URL。 举个例子,想象一下你正在谷歌搜索WinHTTP这个词,你会看到一个充满链接的HTML页面。 我现在需要检查每个链接,提取它并将其保存到文件中。

我尝试搜索HREFhttp://和其他关键字然后尝试将字符串一直提取到但它并没有真正起作用。 获得该URL的描述(例如some text获得some text )也会很好但是它并不像url本身。

这里棘手的是我不能使用第三方库,因为我不想处理许可证等。

关于如何做到这一点的任何想法? WinHTTP是否提供了这样做的方法? 在C( 不是 C ++)?

谢谢您的帮助

也许你应该选择PCRE C API(可在PCRE网站上找到 )

你需要的正则表达式如下:

.*?)[""'].*?>(?.*?)

这应该在组结构中映射组