|
|
Регистрация Восстановить пароль |
Повторная активизация e-mail |
Регистрация | Задать вопрос |
Заплачу за решение |
Новые сообщения |
Сообщения за день |
Расширенный поиск |
Правила |
Всё прочитано |
|
|
Опции темы | Поиск в этой теме |
17.05.2016, 13:29 | #1 |
Пользователь
Регистрация: 30.09.2015
Сообщений: 74
|
Как программой выдернуть все ссылки с текстовика
Нужно вытащить ссылки с моего text.txt файла весом 100 мб
нужна программа способная выдернуть из текстовика все содержащиеся в нем ссылки по такой маске начало поиска http:// конец поиска /"> прога находит ссылку в файле http://www.domen.com/"> и на выходе в текстовик сохраняет в виде www.domen.com в текстовике куча текста и другой лабуды вот пример Код HTML:
<ExternalPage about="http://www.domen.com/"> <topic>тут текст тут текст тут текст тут текст тут текст </topic> </ExternalPage> <ExternalPage about="http://www.domen.com/"> <d:Description>тут текст тут текст тут текст тут текст тут текст .</d:Description> <topic>тут текст тут текст тут текст тут текст тут текст </topic> </ExternalPage> <ExternalPage about="http://www.domen.co.uk/"> <d:Description>тут текст тут текст тут текст тут текст тут текст </d:Description> <topic>тут текст тут текст тут текст тут текст тут текст </topic> </ExternalPage> <ExternalPage about="http://domen.com/"> <link r:resource="http://domen.com/"></link> <link r:resource="http://www.domen.com/"></link> <link r:resource="http://www.domen.co.nz/"></link> <link r:resource="http://www.domen.com/"></link> <link r:resource="http://www.domen.com/"></link> Спасибо, надеюсь что может кто поделится такой прогой! |
17.05.2016, 14:37 | #2 |
Старожил
Регистрация: 20.04.2008
Сообщений: 5,526
|
Код:
программа — запись алгоритма на языке понятном транслятору
Последний раз редактировалось evg_m; 17.05.2016 в 14:45. |
17.05.2016, 15:15 | #3 |
Пользователь
Регистрация: 06.11.2012
Сообщений: 67
|
Код:
Первая - находит в строке содержимое между двумя тегами и возвращает. Вторая возвращает список со всеми совпадениями Код:
|
17.05.2016, 15:54 | #4 | |
Пользователь
Регистрация: 30.09.2015
Сообщений: 74
|
Цитата:
Спасибо! если не трудно можете скомпилировать в .exe? |
|
17.05.2016, 16:12 | #5 | |
Старожил
Регистрация: 17.11.2010
Сообщений: 18,922
|
Цитата:
Если бы архитекторы строили здания так, как программисты пишут программы, то первый залетевший дятел разрушил бы цивилизацию
|
|
17.05.2016, 17:16 | #6 |
Старожил
Регистрация: 09.01.2008
Сообщений: 26,229
|
Аватар прав. Дьявол, как обычно, в деталях..
Ну, в качестве попытки помочь. Вот скомпилированный по коду evg_m exe-шник: ExtractDomens_exe.rar |
17.05.2016, 17:20 | #7 |
Старожил
Регистрация: 28.01.2009
Сообщений: 21,000
|
мне почему то кажется что ТС нужна именно программа, а на чем она ему пофиг.
Хорошо поставленный вопрос это уже половина ответа. | Каков вопрос, таков ответ.
Программа делает то что написал программист, а не то что он хотел. Функции/утилиты ждут в параметрах то что им надо, а не то что вы хотите. |
17.05.2016, 17:28 | #8 |
Старожил
Регистрация: 09.01.2008
Сообщений: 26,229
|
Пепел Феникса, да это понятно, что ему только программа и нужна.
но речь о другом. 1) интерфейс. Кто и как будет задавать входной и выходной файлы, настройки селекта, игнорировать дубликаты или нет, прогресс-бар о результатах выполнения и т.п. 2) более важно отслеживание разнообразнейших ошибок, которые могут возникать при выполнении программы. А вот если всё это неважно, то можно "программа" для TС уже выложена. |
17.05.2016, 18:13 | #9 | |
Пользователь
Регистрация: 30.09.2015
Сообщений: 74
|
Цитата:
Спасибо! да мне нужна была такая программа, может кому-то тут требовалось выдрать все ссылки с текстовика! в данном примере .exe скомпилированная программа вырвала из моего .txt файла только 1600 линков на самом деле в этом текстовике 98000 линков проверял я это в notepad банальной проверкой типа что заменить http:// и на что заменить http:// замен 98000 так что это прога вырвала 2% ссылок у меня в текстовике ссылки могут находится где угодно в тексте но у всех их одно общее http://www.domen.co.uk/"> регулярка начала поиска http:// без www. иначе может не все ссылки увидеть именно http:// и конец поиска /"> я глянул на код strartpos='http://'; stoppos='/">'; вот и попросил скомпилировать, но увы не работает почему-то! может кто подскажет как выдрать ссылки другим способом? |
|
17.05.2016, 18:16 | #10 |
Пользователь
Регистрация: 30.09.2015
Сообщений: 74
|
чистить от дублей мне не нужно, нужно просто выдрать все что между
регулярка начала поиска http:// и конец поиска /"> |
|
Похожие темы | ||||
Тема | Автор | Раздел | Ответов | Последнее сообщение |
Как удалить все ссылки сразу из всех документов? | Karyuudo | Microsoft Office Word | 0 | 19.11.2012 14:53 |
Как автоматически активировать все ссылки в тексте документа? | imeverest | Microsoft Office Word | 2 | 08.09.2012 14:44 |
Как составить регулярные выражения которые будет искать все ссылки на странице? | melihovgv | PHP | 4 | 10.12.2011 16:56 |
Как найти все ссылки на странице, начинающееся с... | codermoder | Работа с сетью в Delphi | 6 | 11.02.2011 10:24 |
Как можно отбразить все ссылки сайт в проге | eldar | Работа с сетью в Delphi | 2 | 28.09.2008 12:19 |